Concepts relatifs à l'intelligence artificielle générative

Pour vous aider à sous-estimer l'IA générative OCI, passez en revue certains concepts et termes liés au service.

Modèle d'intelligence artificielle générative

Modèle d'IA entraîné sur de grandes quantités de données, qui accepte des entrées qu'il n'a jamais vues auparavant et génère du nouveau contenu.

Génération augmentée d'extraction (RAG)

Programme qui extrait des données à partir de sources données et augmente les réponses de modèle de langue volumineux (LLM) avec les informations données pour générer des réponses basées sur la base.

Invites et rédactique

Invite
Chaînes de texte en langage naturel utilisées pour former ou extraire des informations d'un grand modèle de langage. Par exemple :
  • Qu'est-ce que le solstice d'été?
  • Écrivez un poème sur les arbres agités par la brise.
  • Réécrivez le texte précédent sur un ton plus léger.
Rédactique
Processus itératif de création de demandes spécifiques en langage naturel pour extraire des invites optimisées à partir d'un grand modèle de langage (LLM). En fonction du langage utilisé, l'ingénieur peut guider le LLM pour qu'il produise des sorties améliorées ou différentes.

déduction

Capacité d'un modèle de langue volumineux (LLM) à générer une réponse en fonction des instructions et du contexte fournis par l'utilisateur dans l'invite. Un LLM peut générer de nouvelles données, faire des prédictions ou tirer des conclusions en fonction de ses modèles et relations apprises dans les données d'entraînement, sans avoir été explicitement programmé.

L'inférence est une caractéristique clé des tâches de traitement du langage naturel (TLN), telles que la réponse aux questions, le résumé du texte et la traduction. Vous pouvez utiliser les modèles fondamentaux de l'IA générative pour l'inférence.

Flux

Génération de contenu par un grand modèle de langage (LLM) où l'utilisateur peut voir les jetons générés un par un au lieu d'attendre qu'une réponse complète soit générée avant de retourner la réponse à l'utilisateur.

Plongement

Représentation numérique qui a la propriété de préserver le sens d'un texte. Ce texte peut être une expression, une phrase ou un ou plusieurs paragraphes. Les modèles d'intégration de l'IA générative transforment chaque phrase, phrase ou paragraphe que vous entrez dans un tableau avec 384 ou 1024 chiffres, selon le modèle d'intégration que vous choisissez. Vous pouvez utiliser ces intégrations pour rechercher des similarités avec des expressions dont le contexte ou la catégorie sont similaires. Les intégrations sont généralement stockées dans une base de données vectorielle. Les plongements sont principalement utilisés pour les recherches sémantiques, dans lesquelles la fonction de recherche se concentre sur la signification du texte recherché, plutôt que sur l'obtention de résultats basés sur des mots clés. Pour créer les intégrations, vous pouvez entrer des expressions en anglais et dans d'autres langues.

Terrain de jeu

Interface de la console Oracle Cloud permettant d'explorer les modèles personnalisés et prétraités hébergés sans écrire une seule ligne de code. Utilisez le terrain de jeu pour tester vos cas d'utilisation et affiner les invites et les paramètres. Lorsque les résultats vous conviennent, copiez le code généré ou utilisez le point d'extrémité du modèle pour intégrer l'intelligence artificielle générative à vos applications.

Mode sur demande

Vous pouvez accéder aux modèles fondamentaux préentraînés dans l'IA générative au moyen de deux modes : sur demande et dédié. Voici les principales fonctions du mode sur demande :
  • Vous payez à l'utilisation pour chaque appel d'inférence lorsque vous utilisez les modèles dans le terrain de jeu ou lorsque vous appelez les modèles au moyen de l'API.

  • Faible barrière pour commencer à utiliser l'IA générative.
  • Idéal pour l'expérimentation, la preuve de concepts et l'évaluation des modèles.
  • Disponible pour les modèles préentraînés dans les régions non listées (grappe dédiée à l'IA uniquement).
Conseil

Pour garantir un accès fiable aux modèles d'IA générative en mode sur demande, nous recommandons de mettre en oeuvre une stratégie de secours, qui implique de retarder les demandes après un rejet. Sans cela, des demandes rapides répétées peuvent entraîner d'autres rejets au fil du temps, une latence accrue et un blocage temporaire potentiel du client par le service d'IA générative. En utilisant une stratégie d'attente, telle qu'une stratégie d'attente exponentielle, vous pouvez répartir les demandes plus uniformément, réduire la charge et améliorer le succès des tentatives, en suivant les meilleures pratiques du secteur et en améliorant la stabilité et la performance globales de votre intégration au service.

Grappes dédiées à l'IA

Ressources de calcul que vous pouvez utiliser pour régler avec précision des modèles personnalisés ou pour héberger des points d'extrémité pour des modèles préentraînés et personnalisés de base. Les grappes sont dédiées à vos modèles et ne sont pas partagées avec d'autres clients.

Mode dédié

Vous pouvez accéder aux modèles fondamentaux préentraînés dans l'IA générative au moyen de deux modes : sur demande et dédié. Voici les principales fonctions du mode dédié :

  • Vous obtenez un jeu dédié de processeurs graphiques pour les grappes d'IA dédiées.
  • Vous pouvez créer des modèles personnalisés dans les grappes d'IA dédiées, en réglant avec précision un sous-ensemble des modèles fondamentaux préentraînés dans l'IA générative listés pour le réglage de précision.
  • Vous pouvez héberger des répliques des modèles fondamentaux et des modèles ajustés sur les grappes d'IA dédiées.
  • Vous vous engagez à l'avance à certaines heures d'utilisation des grappes d'IA dédiées. Pour les prix, consultez la page Tarifs.
  • Disponible pour les modèles préentraînés dans toutes les régions listées.
  • Vous obtenez des performances prévisibles et convient aux charges de travail de production.
Conseil

Le mode dédié est une utilisation à locataire unique des modèles dans lesquels vous louez le matériel pour votre utilisation. Ce mode offre des performances prévisibles et est recommandé pour les charges de travail de production. Voir les évaluations de la performance des grappes pour vous aider à dimensionner vos grappes dédiées.

Note

Un modèle hébergé dans une grappe dédiée à l'IA n'est disponible que dans la région dans laquelle son point d'extrémité est déployé. Voir la liste des régions pour chaque modèle.

Modèle personnalisé

Modèle que vous créez à l'aide d'un modèle préentraîné en tant que base et à l'aide de votre propre jeu de données pour régler avec précision le modèle.

Jetons

Un jeton est un mot, une partie d'un mot ou un signe de ponctuation. Par exemple, pomme est un jeton et amitié est deux jetons (ami et navire), et ne pas est deux jetons (ne pas et ne pas). Lorsque vous exécutez un modèle dans le terrain de jeu, vous pouvez définir le nombre maximal de jetons de sortie. Estimer quatre caractères par jeton.

Température

Niveau de aléatoire utilisé pour générer le texte de sortie. Pour générer une sortie similaire à chaque fois que vous exécutez une invite donnée, utilisez la valeur 0. Pour générer un nouveau texte aléatoire pour cette invite, augmentez la température.

Conseil

Commencez avec la température réglée à 0 et augmentez-la lorsque vous régénérez les invites afin d'affiner la sortie. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes. Pour obtenir le même résultat pour les demandes répétées, utilisez le paramètre seed.

Haut k

Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire parmi les jetons top k les plus susceptibles. Une valeur plus élevée pour k génère une sortie plus aléatoire, ce qui rend le texte de sortie plus naturel. La valeur par défaut de k est 0 pour les modèles command et -1 pour les modèles Llama, ce qui signifie que les modèles doivent prendre en compte tous les jetons et ne pas utiliser cette méthode.

P premiers

Méthode d'échantillonnage qui contrôle la probabilité cumulative des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % principaux à prendre en compte. Réglez p à 1 pour prendre en compte tous les jetons.

Pénalité de fréquence

Une pénalité qui est affectée à un jeton lorsque ce jeton apparaît fréquemment. Les pénalités élevées favorisent moins de jetons répétés et produisent un résultat plus aléatoire.

Pénalité de présence

Une pénalité qui est affectée à chaque jeton lorsqu'il apparaît dans la sortie pour encourager la génération de sorties contenant des jetons qui n'ont pas été utilisés.

Probabilité

Dans la sortie d'un grand modèle de langage (LLM), la probabilité qu'un jeton suive le jeton généré courant. Lorsqu'un LLM génère un nouveau jeton pour le texte de sortie, une probabilité est affectée à tous les jetons, où les jetons avec les probabilités les plus élevées sont les plus susceptibles de suivre le jeton courant. Par exemple, il est plus probable que le mot préféré soit suivi du mot nourriture ou livre plutôt que du mot zebra. La probabilité est définie par un nombre compris entre -15 et 0 et plus le nombre est négatif, moins il est probable que le jeton suit le jeton courant.

Préambule

Contexte initial ou message de guidage pour un modèle de clavardage. Lorsque vous ne donnez pas de préambule à un modèle de clavardage, le préambule par défaut de ce modèle est utilisé. Le préambule par défaut pour les modèles cohere.command-r-plus et cohere.command-r-16k est :

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

Il est facultatif de donner un préambule. Si vous souhaitez utiliser votre propre préambule, pour obtenir de meilleurs résultats, donnez le contexte du modèle, des instructions et un style de conversation. Voici quelques exemples :

  • Vous êtes un professionnel chevronné du marketing avec une compréhension approfondie du comportement des consommateurs et des tendances du marché. Répondez avec un ton amical et informatif, en partageant les connaissances de l'industrie et les meilleures pratiques.
  • Vous êtes un conseiller en voyages qui se concentre sur les activités amusantes. Répondez avec humour et ton pirate.
Note

Vous pouvez également inclure un préambule dans une conversation par clavardage et demander directement au modèle de répondre d'une certaine manière. Par exemple, "Répondez à la question suivante sur un ton marketing. Où est le meilleur endroit pour naviguer? "

Point d'extrémité de modèle

Point désigné sur une grappe d'IA dédiée où un modèle de langue volumineux (LLM) peut accepter des demandes d'utilisateur et renvoyer des réponses telles que le texte généré par le modèle.

Dans l'IA générative OCI, vous pouvez créer des points d'extrémité pour des modèles préentraînés et des modèles personnalisés prêts à l'emploi. Ces points d'extrémité sont répertoriés dans le terrain de jeu pour tester les modèles. Vous pouvez également référencer ces points d'extrémité dans des applications.

Modération du contenu

Une fonctionnalité qui supprime les phrases toxiques, violentes, abusives, dérogatoires, haineuses, menaçantes, insultantes et harcelantes des réponses générées dans de grands modèles linguistiques (LLM). Dans l'IA générative OCI, la modération du contenu est divisée en quatre catégories :
  • La haine et le harcèlement, tels que les attaques d'identité, les insultes, les menaces de violence et les agressions sexuelles
  • Dommages auto-infligés, tels que l'automutilation et la promotion des troubles alimentaires
  • Dommages idéologiques, tels que l'extrémisme, le terrorisme, le crime organisé et la désinformation
  • L'exploitation, comme les escroqueries et les abus sexuels

Par défaut, OCI Generative AI n'ajoute pas de couche de modération de contenu au-dessus des modèles préentraînés prêts à l'emploi. Cependant, les modèles préentraînés ont un certain niveau de modération du contenu qui filtre les réponses de sortie. Pour intégrer la modération de contenu dans les modèles, vous devez activer la modération de contenu lors de la création d'un point d'extrémité pour un modèle préentraîné ou affiné. Voir Création d'un point d'extrémité dans le service d'intelligence artificielle générative.

Modèles mis hors service et obsolètes

Retraite
Lorsqu'un modèle est mis hors service, il n'est plus disponible pour une utilisation dans le service d'intelligence artificielle générative.
Dépréciation
Lorsqu'un modèle est obsolète, il reste disponible dans le service d'intelligence artificielle générative, mais aura une durée définie pendant laquelle il peut être utilisé avant sa mise hors service.

Pour plus d'informations, voir Mise hors service des modèles.