Concepts relatifs au service Generative AI

Pour vous aider à sous-estimer l'IA générative OCI, passez en revue certains concepts et termes liés au service.

Modèle d'IA générative

Modèle d'IA entraîné sur de grandes quantités de données qui prend des entrées qu'il n'a jamais vues auparavant et génère un nouveau contenu.

Génération augmentée par extraction (RAG)

Programme qui extrait des données à partir de sources données et augmente les réponses LLM (Large Language Model) avec les informations données pour générer des réponses basées sur la terre.

Invites et ingénierie d'invite

Invites
Chaînes de texte en langage naturel utilisées pour instruire ou extraire des informations à partir d'un grand modèle de langage. Par exemple :
  • Qu'est-ce que le solstice d'été ?
  • Écrire un poème sur les arbres qui se balancent au gré du vent.
  • Réécrire le texte précédent dans un style plus léger.
Ingénierie d'invite
Processus itératif d'élaboration de demandes spécifiques en langage naturel pour extraire des invites optimisées à partir d'un grand modèle de langage (LLM). En fonction du langage exact utilisé, l'ingénieur d'invite peut guider le LLM pour fournir des sorties de meilleure qualité ou différentes.

Inférence

Capacité d'un modèle de langage volumineux (LLM) à générer une réponse en fonction des instructions et du contexte fournis par l'utilisateur dans l'invite. Un LLM peut générer de nouvelles données, faire des prédictions ou tirer des conclusions en fonction de ses modèles appris et de ses relations dans les données d'entraînement, sans avoir été explicitement programmé.

L'inférence est une caractéristique clé des tâches de traitement du langage naturel (NLP), telles que la réponse aux questions, la synthèse du texte et la traduction. Vous pouvez utiliser les modèles de base dans Generative AI pour l'inférence.

Streaming

Génération de contenu par un grand modèle de langage (LLM) où l'utilisateur peut voir les jetons générés un par un au lieu d'attendre qu'une réponse complète soit générée avant de renvoyer la réponse à l'utilisateur.

Plongement

Représentation numérique qui a la propriété de préserver le sens d'un morceau de texte. Il peut s'agir d'une expression, d'une phrase ou de plusieurs paragraphes. Les modèles d'incorporation d'IA générative transforment chaque phrase, phrase ou paragraphe que vous saisissez en un tableau avec 384 ou 1024 chiffres, selon le modèle d'incorporation que vous choisissez. Vous pouvez utiliser ces plongements pour rechercher des similarités dans des expressions dont le contexte ou la catégorie est similaire. Les incorporations sont généralement stockées dans une base de données vectorielle. Les plongements sont principalement utilisés pour les recherches sémantiques, où la fonction de recherche se concentre sur le sens du texte recherché plutôt que sur les résultats basés sur des mots-clés. Pour créer les incorporations, vous pouvez saisir des expressions en anglais et dans autres langues.

Playground de test

Interface de la console Oracle Cloud permettant d'explorer les modèles personnalisés et préentraînés hébergés sans écrire une seule ligne de code. Utilisez le playground de test pour tester vos cas d'emploi ainsi que pour affiner les invites et les paramètres. Lorsque vous êtes satisfait des résultats, copiez le code généré ou utilisez l'adresse du modèle pour intégrer l'IA générique à vos applications.

Modèle personnalisé

Modèle que vous créez en utilisant un modèle préentraîné comme base et votre propre ensemble de données pour affiner ce dernier.

Sèmes

Un sème est un mot, une partie d'un mot ou une ponctuation. Par exemple, pomme est un jeton et friendship est deux jetons (friend et ship), et don't est deux jetons (don et 't). Lorsque vous exécutez un modèle dans le playground de test, vous pouvez définir le nombre maximal de sèmes de sortie. Estimez quatre caractères par jeton.

Température

Niveau de randomité utilisé pour générer le texte de sortie. Afin de générer une sortie similaire à chaque exécution d'une invite, utilisez 0. Afin de générer un texte aléatoire pour cette invite, augmentez la température.

Conseil

Commencez en définissant la température sur 0 et augmentez-la à mesure que vous régénérez les invites pour affiner la sortie. Les températures élevées ne peuvent pas introduire des hallucinations et des informations factuellement incorrectes.

Valeur Top k

Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire à partir des jetons top k les plus probables. Une valeur supérieure pour k génère une sortie plus aléatoire, ce qui rend le texte de sortie plus naturel. La valeur par défaut de k est 0 pour les modèles command et -1 pour les modèles Llama, ce qui signifie que les modèles doivent prendre en compte tous les jetons et ne pas utiliser cette méthode.

Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des principaux jetons à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, saisissez 0,75 pour les 75 % les plus élevés à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Pénalité de fréquence

Pénalité affectée à un jeton lorsque ce dernier apparaît fréquemment. Les pénalités élevées permettent de réduire le nombre de jetons répétés et de générer un résultat plus aléatoire.

Pénalité de présence

Pénalité affectée à chaque sème lorsqu'il apparaît dans la sortie pour encourager la génération de sorties avec des sèmes qui n'ont pas été utilisés.

Probabilité

Dans la sortie d'un grand modèle de langage (LLM), il est probable qu'un jeton suive le jeton généré en cours. Lorsqu'une LLM génère un jeton pour le texte de sortie, une probabilité est affectée à tous les jetons. Les jetons ayant une probabilité plus élevée sont plus susceptibles de suivre le jeton en cours. Par exemple, il est plus probable que le mot favori soit suivi du mot aliment ou livre que du mot zebra. La probabilité est définie par un nombre compris entre -15 et 0 et plus le nombre est négatif, moins il est probable que le jeton suive le jeton en cours.

Préambule

Contexte initial ou message de guidage pour un modèle de discussion. Lorsque vous ne donnez pas de préambule à un modèle de discussion, le préambule par défaut de ce modèle est utilisé. Le préambule par défaut pour les modèles cohere.command-r-plus et cohere.command-r-16k est le suivant :

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

Il est facultatif de donner un préambule. Si vous voulez utiliser votre propre préambule, pour obtenir de meilleurs résultats, donnez le contexte du modèle, des instructions et un style de conversation. Voici quelques exemples :

  • Vous êtes un professionnel chevronné du marketing avec une compréhension approfondie du comportement des consommateurs et des tendances du marché. Répondez d'un ton amical et informatif, en partageant les idées et les meilleures pratiques du secteur.
  • Vous êtes un conseiller en voyage qui se concentre sur les activités amusantes. Répondez avec humour et un ton pirate.
Remarque

Vous pouvez également inclure un préambule dans une conversation de discussion et demander directement au modèle de répondre d'une certaine manière. Par exemple, "Répondez à la question suivante dans un ton marketing. Où est le meilleur endroit pour naviguer ?"

Adresse de modèle

Point désigné sur un cluster AI dédié où un modèle de langage volumineux (LLM) peut accepter les demandes des utilisateurs et renvoyer des réponses telles que le texte généré par le modèle.

Dans OCI Intelligence artificielle générative, vous pouvez créer des adresses pour les modèles préentraînés et personnalisés prêts à l'emploi. Ces points de terminaison sont répertoriés dans le terrain de jeu pour tester les modèles. Vous pouvez également référencer ces endpoints dans les applications.

Modération de contenu

Fonctionnalité qui supprime les phrases biaisées, toxiques, violentes, abusives, péjoratives, haineuses, menaçantes, insultantes et harcelantes des réponses générées dans les grands modèles de langage (LLM). Dans OCI IA générative, la modération de contenu est divisée en quatre catégories.
  • Haine et harcèlement, tels que les attaques identitaires, les insultes, les menaces de violence et les agressions sexuelles
  • Dommages auto-infligés, tels que l'automutilation et la promotion des troubles alimentaires
  • Dommages idéologiques, tels que l'extrémisme, le terrorisme, le crime organisé et la désinformation
  • Exploitation, comme les escroqueries et les abus sexuels

Par défaut, OCI Generative AI n'ajoute pas de couche de modération de contenu au-dessus des modèles préentraînés prêts à l'emploi. Cependant, les modèles préentraînés ont un certain niveau de modération de contenu qui filtre les réponses de sortie. Pour intégrer la modération de contenu dans des modèles, vous devez activer la modération de contenu lors de la création d'un point de terminaison pour un modèle préentraîné ou affiné. En savoir plus sur Création d'une adresse dans Generative AI.

Par défaut, les modèles prêts à l'emploi préentraînés d'OCI Generative AI n'incluent pas cette fonctionnalité. Cependant, les modèles préentraînés peuvent avoir un certain niveau de modération de contenu qui filtre les réponses de sortie. Pour intégrer la modération de contenu dans des modèles, vous devez activer la modération de contenu lors de la création d'un point de terminaison pour un modèle préentraîné ou affiné. En savoir plus sur Création d'une adresse dans Generative AI.

Clusters d'IA dédiés

Ressources de calcul que vous pouvez utiliser pour affiner des modèles personnalisés ou pour héberger des adresses pour des modèles préentraînés et personnalisés. Les clusters sont dédiés à vos modèles et ne sont pas partagés avec d'autres clients.