Modes à la demande et dédiés pour les modèles OCI Generative AI

OCI Generative AI propose deux modes de service de modèle : à la demande et dédié. Consultez ces rubriques pour sélectionner le mode qui convient le mieux à votre cas d'utilisation.

Après avoir consulté cette page, pour connaître les modes disponibles pour chaque modèle, reportez-vous à Modèles d'IA générative par région et pour connaître les prix, reportez-vous à la page Tarification.

Mode à la demande

Le mode à la demande vous permet d'utiliser des modèles de base préentraînés pris en charge sans créer de cluster d'IA dédié.

Fonctionnalités clés:

Pay as you go pour chaque appel d'inférence, que vous utilisiez le playground de test ou l'API.
Commencez à utiliser l'IA générative sans provisionner de capacité dédiée.
Convient pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
Disponible pour les modèles préentraînés dans les régions où le modèle n'est pas répertorié en tant que cluster d'IA dédié uniquement.

Modification de la limite d'accélération dynamique pour le mode à la demande

OCI Generative AI ajuste dynamiquement la limite d'ajustement des demandes pour chaque location active en fonction de la demande de modèle et de la capacité du système afin d'optimiser l'allocation des ressources et de garantir un accès équitable.

Cette modification dépend des facteurs suivants :

Débit maximal actuel pris en charge par le modèle cible.
Toute capacité système inutilisée au moment de la modification.
Utilisation du débit historique de chaque location et limites de remplacement indiquées définies pour cette location.

Remarque : En raison de l'ajustement dynamique, les limites de taux ne sont pas documentées et peuvent changer pour répondre à la demande à l'échelle du système.

Conseil

En raison de la modification de la limite de ralentissement dynamique, nous vous recommandons d'implémenter une stratégie de back-off, qui consiste à retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en suivant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de l'intégration au service.

Abandon pour le mode à la demande

Lorsqu'un modèle est retiré en mode à la demande, il n'est plus disponible pour utilisation dans le terrain de jeu du service d'IA générative ou via l'API d'inférence d'IA générative.

Lorsqu'un modèle est en phase d'abandon en mode à la demande, il reste disponible dans le service d'IA générative, mais sa durée d'utilisation est définie avant son retrait. Cette durée est plus longue pour le mode dédié.

Pour les modèles OCI Generative AI, reportez-vous aux dates de sortie du modèle (mode à la demande).

Mode dédié

En mode dédié, vous bénéficiez d'une capacité de GPU dédiée pour l'hébergement et le réglage fin des modèles dans OCI Generative AI. Les clusters d'IA dédiés fournissent des performances prévisibles et conviennent aux charges de travail de production.

Vous pouvez utiliser des clusters d'IA dédiés pour :

Affinez les modèles préentraînés d'OCI Generative AI pris en charge.
Hébergez des modèles préentraînés OCI Generative AI.
Héberger les modèles personnalisés créés en affinant les modèles préentraînés pris en charge.
Hôtez les modèles importés compatibles avec OCI Generative AI.

Pour accéder à un modèle en mode dédié, créez une adresse pour le modèle sur un cluster d'IA dédié.

Le mode dédié est disponible pour les modèles pris en charge dans les régions répertoriées pour chaque modèle.

Engagement pour les clusters d'IA dédiés

Pour les modèles préentraînés et affinés d'OCI Generative AI, les clusters d'IA dédiés nécessitent un engagement d'utilisation.

Clusters d'hébergement : engagement minimal de 744 heures par unité par cluster d'hébergement.
Clusters à réglage fin : engagement minimal de 1 unité-heure par travail de réglage fin. Selon le modèle, le réglage fin peut nécessiter au moins 2 unités.

Remarque

Les modèles importés ne nécessitent pas l'engagement d'hébergement de 744 unités/heure. Si vous créez un cluster d'IA dédié pour héberger un modèle importé, vous pouvez héberger le modèle sans vous engager à respecter l'engagement d'hébergement minimal qui s'applique aux modèles préentraînés et affinés OCI Generative AI.

Retraite pour le mode dédié

Lorsqu'un modèle est retiré en mode dédié, vous ne pouvez plus créer de cluster d'IA dédié pour le modèle retiré, mais un cluster d'IA dédié actif exécutant un modèle retiré continue de s'exécuter. Un modèle personnalisé, qui s'exécute à partir d'un modèle retiré, continue également d'être disponible pour les clusters d'IA dédiés actifs et vous pouvez continuer à créer des clusters d'IA dédiés avec un modèle personnalisé créé sur un modèle retiré. Cependant, Oracle offre un support limité pour ces scénarios, et l'ingénierie Oracle peut vous demander de mettre à niveau vers un modèle pris en charge pour résoudre les problèmes liés à votre modèle.

Pour demander qu'un modèle reste actif plus longtemps que la date de sortie en mode dédié, créez un ticket d'assistance.

Pour les modèles OCI Generative AI, reportez-vous aux dates de sortie du modèle (mode dédié).

Abandon pour le mode dédié

Lorsqu'un modèle est en phase d'abandon en mode dédié, il reste disponible dans le service d'IA générative, mais sa durée d'utilisation est définie avant son retrait. Le temps d'abandon du mode dédié est plus long que le temps d'abandon à la demande du même modèle.

Documentation Oracle Cloud Infrastructure