Concepts relatifs au service Generative AI

Pour vous aider à comprendre OCI Generative AI, passez en revue certains concepts et conditions liés au service.

Modèle d'IA générative

Modèle d'IA entraîné sur de grandes quantités de données qui prend des entrées qu'il n'a jamais vues auparavant et génère un nouveau contenu.

Génération augmentée par extraction (RAG)

Programme qui extrait des données à partir de sources données et augmente les réponses LLM (Large Language Model) avec les informations données pour générer des réponses basées sur la terre.

Invites et ingénierie d'invite

Invites
Chaînes de texte en langage naturel utilisées pour instruire ou extraire des informations à partir d'un grand modèle de langage. Par exemple :
  • Qu'est-ce que le solstice d'été ?
  • Écrire un poème sur les arbres qui se balancent au gré du vent.
  • Réécrire le texte précédent dans un style plus léger.
Ingénierie d'invite
Processus itératif d'élaboration de demandes spécifiques en langage naturel pour extraire des invites optimisées à partir d'un grand modèle de langage (LLM). En fonction du langage exact utilisé, l'ingénieur d'invite peut guider le LLM pour fournir des sorties de meilleure qualité ou différentes.

Inférence

Capacité d'un modèle de langage volumineux (LLM) à générer une réponse en fonction des instructions et du contexte fournis par l'utilisateur dans l'invite. Un LLM peut générer de nouvelles données, faire des prédictions ou tirer des conclusions en fonction de ses modèles appris et de ses relations dans les données d'entraînement, sans avoir été explicitement programmé.

L'inférence est une caractéristique clé des tâches de traitement du langage naturel (NLP), telles que la réponse aux questions, la synthèse du texte et la traduction. Vous pouvez utiliser les modèles fondamentaux dans l'IA générative pour l'inférence.

Streaming

Génération de contenu par un grand modèle de langage (LLM) où l'utilisateur peut voir les jetons générés un par un au lieu d'attendre qu'une réponse complète soit générée avant de renvoyer la réponse à l'utilisateur.

Plongement

Représentation numérique qui a la propriété de préserver la signification d'un texte. Il peut s'agir d'une expression, d'une phrase ou de plusieurs paragraphes. Les modèles d'intégration d'IA générative transforment chaque phrase, phrase ou paragraphe que vous entrez dans un tableau avec des nombres 384 ou 1024, en fonction du modèle d'intégration que vous choisissez. Vous pouvez utiliser ces plongements pour rechercher des similarités dans des expressions dont le contexte ou la catégorie est similaire. Les incorporations sont généralement stockées dans une base de données vectorielle. Les plongements sont principalement utilisés pour les recherches sémantiques, où la fonction de recherche se concentre sur le sens du texte recherché plutôt que sur les résultats basés sur des mots-clés. Pour créer les incorporations, vous pouvez entrer des expressions en anglais et dans autres langues.

Playground de test

Interface de la console Oracle Cloud permettant d'explorer les modèles personnalisés et prédéfinis hébergés sans écrire une seule ligne de code. Utilisez le playground de test pour tester vos cas d'emploi ainsi que pour affiner les invites et les paramètres. Lorsque vous êtes satisfait des résultats, copiez le code généré ou utilisez l'adresse du modèle pour intégrer l'IA générative à vos applications.

Mode à la demande

Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode à la demande :
  • Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.

  • Faible barrière pour commencer à utiliser l'IA générative.
  • Idéal pour l'expérimentation, la preuve de concepts et l'évaluation des modèles.
  • Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).
Important

Ajustement de limite d'accélération dynamique pour le mode à la demande

Pour une allocation optimisée des ressources aux locataires et pour garantir un accès équitable aux modèles aux locataires, OCI Generative AI ajuste régulièrement la limite d'ajustement des demandes pour chaque location active en fonction de la demande de modèle et de la capacité du système. Cet ajustement dépend des facteurs suivants :

  • Débit maximal actuel pris en charge par le modèle cible.
  • Toute capacité système inutilisée au moment de l'ajustement.
  • Utilisation du débit historique de chaque location et limites de remplacement indiquées définies pour cette location.
Conseil

En raison de l'ajustement de la limite de ralentissement dynamique, nous vous recommandons d'implémenter une stratégie de back-off, qui consiste à retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie de back-off, telle qu'une stratégie de back-off exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des nouvelles tentatives, en respectant les meilleures pratiques du secteur et en améliorant la stabilité et les performances globales de votre intégration au service.

Clusters d'IA dédiés

Ressources de calcul que vous pouvez utiliser pour affiner des modèles personnalisés ou pour héberger des adresses pour des modèles personnalisés et préentraînés fondamentaux. Les clusters sont dédiés à vos modèles et ne sont pas partagés avec d'autres clients.

Mode dédié

Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode dédié :

  • Vous obtenez un ensemble dédié de GPU pour les clusters d'IA dédiés.
  • Vous pouvez créer des modèles personnalisés sur les clusters d'IA dédiés, en affinant un sous-ensemble des modèles de base préentraînés dans l'IA générative répertoriés pour le réglage fin.
  • Vous pouvez héberger des répliques des modèles fondamentaux et affinés sur les clusters d'IA dédiés.
  • Vous validez à l'avance certaines heures d'utilisation des clusters d'IA dédiés. Pour connaître les prix, reportez-vous à la page des tarifs.
  • Disponible pour les modèles préentraînés dans toutes les régions répertoriées.
  • Les performances sont prévisibles et adaptées aux charges de travail de production.
Conseil

Le mode dédié est une utilisation à locataire unique des modèles dans lesquels vous louez le matériel pour votre utilisation. Ce mode offre des performances prévisibles et est recommandé pour les charges de travail de production. Reportez-vous aux tests d'évaluation des performances de cluster pour ajuster la taille de vos clusters dédiés.

Remarque

Un modèle hébergé sur un cluster d'IA dédié est uniquement disponible dans la région dans laquelle son adresse est déployée. Reportez-vous à la liste des régions pour chaque modèle.

Modèle personnalisé

Modèle que vous créez en utilisant un modèle préentraîné comme base et votre propre ensemble de données pour affiner ce dernier.

Sèmes

Un sème est un mot, une partie d'un mot ou une ponctuation. Par exemple, pomme est un jeton et friendship est deux jetons (friend et ship), et don't est deux jetons (don et 't). Lorsque vous exécutez un modèle dans le playground de test, vous pouvez définir le nombre maximal de sèmes de sortie. Estimez quatre caractères par jeton.

Température

Niveau de randomité utilisé pour générer le texte de sortie. Afin de générer une sortie similaire à chaque exécution d'une invite, utilisez 0. Afin de générer un texte aléatoire pour cette invite, augmentez la température.

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invites pour affiner la sortie. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes. Pour obtenir le même résultat pour les demandes répétées, utilisez le paramètre seed.

Valeur Top k

Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire à partir des jetons top k les plus probables. Une valeur supérieure pour k génère une sortie plus aléatoire, ce qui rend le texte de sortie plus naturel. La valeur par défaut de k est 0 pour les modèles command et -1 pour les modèles Llama, ce qui signifie que les modèles doivent prendre en compte tous les jetons et ne pas utiliser cette méthode.

Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des principaux jetons à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, saisissez 0,75 pour les 75 % les plus élevés à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Pénalité de fréquence

Pénalité affectée à un jeton lorsque ce dernier apparaît fréquemment. Les pénalités élevées permettent de réduire le nombre de jetons répétés et de générer un résultat plus aléatoire.

Pénalité de présence

Pénalité affectée à chaque sème lorsqu'il apparaît dans la sortie pour encourager la génération de sorties avec des sèmes qui n'ont pas été utilisés.

Probabilité

Dans la sortie d'un grand modèle de langage (LLM), il est probable qu'un jeton suive le jeton généré en cours. Lorsqu'une LLM génère un jeton pour le texte de sortie, une probabilité est affectée à tous les jetons. Les jetons ayant une probabilité plus élevée sont plus susceptibles de suivre le jeton en cours. Par exemple, il est plus probable que le mot favori soit suivi du mot aliment ou livre que du mot zebra. La probabilité est définie par un nombre compris entre -15 et 0 et plus le nombre est négatif, moins il est probable que le jeton suive le jeton en cours.

Préambule

Contexte initial ou message de guidage pour un modèle de discussion. Lorsque vous ne donnez pas de préambule à un modèle de discussion, le préambule par défaut de ce modèle est utilisé. Le préambule par défaut pour les modèles cohere.command-r-plus et cohere.command-r-16k est le suivant :

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

Il est facultatif de donner un préambule. Si vous voulez utiliser votre propre préambule, pour obtenir de meilleurs résultats, donnez le contexte du modèle, des instructions et un style de conversation. Voici quelques exemples :

  • Vous êtes un professionnel chevronné du marketing avec une compréhension approfondie du comportement des consommateurs et des tendances du marché. Répondez d'un ton amical et informatif, en partageant les idées et les meilleures pratiques du secteur.
  • Vous êtes un conseiller en voyage qui se concentre sur les activités amusantes. Répondez avec humour et un ton pirate.
Remarque

Vous pouvez également inclure un préambule dans une conversation de discussion et demander directement au modèle de répondre d'une certaine manière. Par exemple, "Répondez à la question suivante dans un ton marketing. Où est le meilleur endroit pour naviguer ?"

Adresse de modèle

Point désigné sur un cluster AI dédié où un modèle de langage volumineux (LLM) peut accepter les demandes des utilisateurs et renvoyer des réponses telles que le texte généré par le modèle.

Dans OCI Generative AI, vous pouvez créer des adresses pour des modèles préentraînés prêts à l'emploi et des modèles personnalisés. Ces endpoints sont répertoriés dans le playground de test des modèles. Vous pouvez également référencer ces adresses dans les applications.

Modération de contenu

Fonction qui supprime les phrases toxiques, violentes, abusives, dérogatoires, haineuses, menaçantes, insultantes et harcelantes des réponses générées dans les grands modèles de langage (LLM). Dans OCI Generative AI, la modération de contenu est divisée en quatre catégories.
  • Haine et harcèlement, tels que les attaques identitaires, les insultes, les menaces de violence et les agressions sexuelles
  • Dommages auto-infligés, tels que l'automutilation et la promotion des troubles alimentaires
  • Dommages idéologiques, tels que l'extrémisme, le terrorisme, le crime organisé et la désinformation
  • Exploitation, comme les escroqueries et les abus sexuels

Par défaut, OCI Generative AI n'ajoute pas de couche de modération de contenu au-dessus des modèles préentraînés prêts à l'emploi. Cependant, les modèles préentraînés ont un certain niveau de modération de contenu qui filtre les réponses de sortie. Pour intégrer la modération de contenu dans des modèles, vous devez activer la modération de contenu lors de la création d'une adresse pour un modèle préentraîné ou affiné. Reportez-vous à Création d'une adresse dans Generative AI.

Modèles abandonnés et en phase d'abandon

Sortie
Lorsqu'un modèle est retiré, il n'est plus disponible pour utilisation dans le service d'IA générative.
Abandon
Lorsqu'un modèle est en phase d'abandon, il reste disponible dans le service Generative AI, mais dispose d'un délai défini pour pouvoir être utilisé avant sa mise hors service.

Pour plus d'informations, voir Mise hors service des modèles.