Modes sur demande et dédiés pour les modèles d'IA générative pour OCI

OCI Generative AI offre deux modes de service de modèle : sur demande et dédié. Consultez ces rubriques pour sélectionner le mode qui convient le mieux à votre cas d'utilisation.

Après avoir consulté cette page, pour les modes disponibles pour chaque modèle, voir Modèles d'IA générative par région et pour les prix, voir la page de tarification.

Mode sur demande

Le mode sur demande vous permet d'utiliser des modèles de base préentraînés pris en charge sans créer de grappe dédiée à l'IA.

Principales fonctions :

Pay as you go pour chaque appel d'inférence, que vous utilisiez le terrain de jeu ou l'API.
Commencez à utiliser l'IA générative sans provisionner de capacité dédiée.
Convient pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
Disponible pour les modèles préentraînés dans les régions où le modèle n'est pas répertorié en tant que grappe dédiée à l'IA uniquement.

Modification de la limite de limitation dynamique pour le mode sur demande

OCI Generative AI ajuste dynamiquement la limite de limitation de demande pour chaque location active en fonction de la demande du modèle et de la capacité du système afin d'optimiser l'affectation des ressources et d'assurer un accès équitable.

Cette modification dépend des facteurs suivants :

Débit maximal courant pris en charge par le modèle cible.
Toute capacité de système inutilisée au moment de la modification.
L'historique d'utilisation du débit de chaque location et les limites de remplacement spécifiées sont définies pour cette location.

Remarque : En raison de la limitation dynamique, les limites de débit ne sont pas documentées et peuvent changer pour répondre à la demande à l'échelle du système.

Conseil

En raison de la modification dynamique de la limite de limitation, nous recommandons de mettre en œuvre une stratégie d'annulation, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie d'attente, telle qu'une stratégie d'attente exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des tentatives, en suivant les meilleures pratiques du secteur et en améliorant la stabilité et la performance globales de l'intégration au service.

Obsolète pour le mode sur demande

Lorsqu'un modèle est mis hors service en mode sur demande, il n'est plus disponible pour utilisation dans le terrain de jeu du service d'IA générative ou au moyen de l'API d'inférence d'IA générative.

Lorsqu'un modèle est obsolète en mode sur demande, il reste disponible dans le service d'intelligence artificielle générative, mais dispose d'une durée définie pendant laquelle il peut être utilisé avant sa mise hors service. Cette durée est plus longue pour le mode dédié.

Pour les modèles d'IA générative pour OCI, voir les dates de mise hors service du modèle (mode sur demande).

Mode dédié

En mode dédié, vous obtenez une capacité de processeur graphique dédiée pour l'hébergement et le réglage de précision de modèles dans OCI Generative AI. Les grappes dédiées à l'IA offrent des performances prévisibles et sont adaptées aux charges de travail de production.

Vous pouvez utiliser des grappes dédiées à l'IA pour :

Ajuster avec précision les modèles préentraînés du service d'intelligence artificielle générative pour OCI pris en charge.
Héberger des modèles préentraînés du service d'intelligence artificielle générative pour OCI.
Hébergez les modèles personnalisés créés par le réglage fin des modèles préentraînés pris en charge.
Héberger des modèles importés compatibles avec le service d'intelligence artificielle générative pour OCI.

Pour accéder à un modèle en mode dédié, créez un point d'extrémité pour le modèle dans une grappe dédiée à l'IA.

Le mode dédié est disponible pour les modèles pris en charge dans les régions répertoriées pour chaque modèle.

Engagement pour les grappes d'intelligence artificielle dédiées

Pour les modèles préentraînés et ajustés par l'IA générative d'OCI, les grappes d'IA dédiées nécessitent un engagement d'utilisation.

Hébergement de grappes : Engagement minimum de 744 unités-heures par grappe d'hébergement.
Grappes de réglage de précision : Engagement minimum de 1 unité d'heure par tâche de réglage de précision. Selon le modèle, le réglage fin peut nécessiter au moins 2 unités.

Note

Les modèles importés ne nécessitent pas d'engagement d'hébergement de 744 heures d'unité. Si vous créez une grappe dédiée à l'IA pour héberger un modèle importé, vous pouvez héberger le modèle sans vous engager à respecter l'engagement d'hébergement minimal qui s'applique aux modèles préentraînés et affinés d'OCI Generative AI.

Mise hors service en mode dédié

Lorsqu'un modèle est mis hors service en mode dédié, vous ne pouvez plus créer de grappe dédiée à l'IA pour le modèle mis hors service, mais une grappe dédiée à l'IA active qui exécute un modèle mis hors service continue de s'exécuter. Un modèle personnalisé, qui exécute un modèle mis hors service, continue également d'être disponible pour les grappes d'IA dédiées actives et vous pouvez continuer à créer de nouvelles grappes d'IA dédiées avec un modèle personnalisé créé sur un modèle mis hors service. Toutefois, Oracle offre un soutien limité pour ces scénarios, et l'ingénierie Oracle peut vous demander de passer à un modèle pris en charge pour résoudre les problèmes liés à votre modèle.

Pour demander qu'un modèle reste actif plus longtemps que la date de mise hors service dans un mode dédié, créez un ticket de soutien.

Pour les modèles d'IA générative pour OCI, voir les dates de mise hors service du modèle (mode dédié).

Obsolète pour le mode dédié

Lorsqu'un modèle est obsolète en mode dédié, il reste disponible dans le service d'intelligence artificielle générative, mais dispose d'une durée définie pendant laquelle il peut être utilisé avant sa mise hors service. Le temps d'abandon du mode dédié est plus long que le temps d'abandon sur demande du même modèle.

Documentation sur Oracle Cloud Infrastructure