Concepts relatifs aux modèles dans OCI Generative AI

Pour vous aider à comprendre OCI Generative AI, passez en revue certains concepts et termes liés au service.

Modèle d'IA générative

Modèle d'IA entraîné sur de grandes quantités de données qui prend des entrées qu'il n'a jamais vues auparavant et génère un nouveau contenu.

Génération augmentée de récupération (RAG).

Programme qui extrait des données de sources spécifiques et augmente les réponses du grand modèle de langage (LLM) avec les informations spécifiques pour générer des réponses fondées.

Invites et ingénierie d'invite

Invites
Chaîne de texte en langage naturel utilisée pour instruire ou extraire des informations d'un grand modèle. Par exemple :
  • Qu'est-ce que le solstice d'été ?
  • Écrire un poème sur les arbres qui se balancent au gré du vent.
  • Réécrire le texte précédent dans un style plus léger.
Ingénierie d'invite
Processus itératif de création de demandes spécifiques en langage naturel pour l'extraction d'invites optimisées à partir d'un grand modèle de langage (LLM). En fonction du langage exact utilisé, l'ingénieur d'invite peut guider le LLM pour fournir des sorties d'une meilleure qualité ou différentes.

Inférence

Capacité d'un grand modèle de langage (LLM) à générer une réponse en fonction des instructions et du contexte fournis par l'utilisateur dans l'invite. Un LLM peut générer de nouvelles données, faire des prédictions ou tirer des conclusions en fonction de ses modèles et relations appris dans les données d'entraînement, sans avoir été explicitement programmé.

L'inférence est une caractéristique clé des tâches de traitement du langage naturel telles que la réponse aux questions, la synthèse du texte et la traduction. Vous pouvez utiliser les modèles de base de l'IA générative pour l'inférence.

Transmission en continu

Génération de contenu par un grand modèle de langage (LLM) où l'utilisateur peut voir les jetons générés un par un au lieu d'attendre qu'une réponse complète soit générée avant de renvoyer la réponse à l'utilisateur.

Plongement

Représentation numérique qui a la propriété de préserver la signification d'un texte. Il peut s'agir d'une expression, d'une phrase ou de plusieurs paragraphes. Les modèles d'intégration d'IA générative transforment chaque phrase, phrase ou paragraphe que vous saisissez en un tableau avec 384 ou 1024 chiffres, selon le modèle d'intégration que vous sélectionnez. Vous pouvez utiliser ces plongements pour rechercher les similitudes dans les expressions dont le contexte ou les catégories sont similaires. Les incorporations sont généralement stockées dans une base de données vectorielle. Les plongements sont principalement utilisés pour les recherches sémantiques, où la fonction de recherche se concentre sur le sens du texte recherché plutôt que sur les résultats basés sur des mots-clés. Pour créer les incorporations, vous pouvez saisir des expressions en anglais et dans d'autres langues.

Playground de test

Interface de la console Oracle Cloud permettant d'explorer les modèles personnalisés et préentraînés hébergés sans écrire une seule ligne de code. Utilisez le playground de test pour tester vos cas d'emploi ainsi que pour affiner les invites et les paramètres. Lorsque vous êtes satisfait des résultats, copiez le code généré ou utilisez l'adresse du modèle pour intégrer l'IA générative dans vos applications.

Mode à la demande

Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode à la demande :
  • Vous payez au fur et à mesure pour chaque appel d'inférence lorsque vous utilisez les modèles dans le playground de test ou lorsque vous appelez les modèles via l'API.

  • Faible barrière pour commencer à utiliser l'IA générative.
  • Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
  • Disponible pour les modèles préentraînés dans les régions non répertoriées en tant que (cluster d'IA dédié uniquement).

Clusters d'IA dédiés

Ressources de calcul que vous pouvez utiliser pour affiner des modèles personnalisés ou pour héberger des adresses pour des modèles personnalisés et préentraînés fondamentaux. Les clusters sont dédiés à vos modèles et ne sont pas partagés avec d'autres clients.

Mode dédié

Vous pouvez atteindre les modèles de base préentraînés dans l'IA générative via deux modes : à la demande et dédié. Voici les principales fonctionnalités du mode dédié :

  • Vous obtenez un ensemble dédié de GPU pour les clusters d'IA dédiés.
  • Vous pouvez créer des modèles personnalisés sur les clusters d'IA dédiés, en affinant un sous-ensemble des modèles de base préentraînés proposés dans l'IA générative répertoriés pour le réglage fin.
  • Vous pouvez héberger des répliques des modèles fondamentaux et affinés sur les clusters d'IA dédiés.
  • Vous validez à l'avance certaines heures d'utilisation des clusters d'IA dédiés. Pour connaître les prix, reportez-vous à la page des tarifs.
  • Disponible pour les modèles préentraînés dans toutes les régions répertoriées.
  • Les performances sont prévisibles et adaptées aux charges de travail de production.
Conseil

Le mode dedicated est une utilisation à locataire unique des modèles dans lesquels vous louez le matériel pour l'utilisation. Ce mode offre des performances prévisibles et est recommandé pour les charges de travail de production. Reportez-vous aux tests d'évaluation des performances de cluster pour obtenir une taille supérieure à droite des clusters dédiés.

Remarque

Un modèle hébergé sur un cluster d'IA dédié est uniquement disponible dans la région dans laquelle son adresse est déployée. Reportez-vous aux régions disponibles pour chaque modèle.

Modèle personnalisé

Modèle que vous créez en utilisant un modèle préentraîné comme base et votre propre ensemble de données pour affiner ce dernier.

Sèmes

Un sème est un mot, une partie d'un mot ou une ponctuation. Par exemple, apple est un jeton et friendship est deux jetons (friend et ship) et don't est deux jetons (don et 't). Lorsque vous exécutez un modèle dans le playground de test, vous pouvez définir le nombre maximal de sèmes de sortie. Estimez quatre caractères par jeton.

Température

Niveau de randomité utilisé pour générer le texte de sortie. Pour générer une sortie similaire pour une invite chaque fois que vous exécutez cette invite, utilisez 0. Afin de générer un texte aléatoire pour cette invite, augmentez la température.

Conseil

Commencez par définir la température sur 0 et augmentez-la à mesure que vous régénérez les invites pour affiner la sortie. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes. Pour obtenir le même résultat pour les demandes répétées, utilisez le paramètre seed.

Valeur Top k

Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire parmi les jetons top k les plus probables. Une valeur supérieure pour k génère une sortie plus aléatoire, ce qui rend le texte de sortie plus naturel. La valeur par défaut de k est 0 pour les modèles command et -1 pour les modèles Llama, ce qui signifie que les modèles doivent prendre en compte tous les jetons et ne pas utiliser cette méthode.

Valeur Top p

Méthode d'échantillonnage qui contrôle la probabilité cumulée des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % les plus importants à prendre en compte. Définissez p sur 1 pour prendre en compte tous les jetons.

Pénalité de fréquence

Pénalité affectée à un jeton lorsque ce dernier apparaît fréquemment. Les pénalités élevées encouragent moins de jetons répétés et produisent un résultat plus aléatoire.

Pénalité de présence

Pénalité affectée à chaque sèmes lorsqu'elle apparaît dans la sortie pour encourager les sorties avec des sème qui n'ont pas été utilisés.

Probabilité

Dans la sortie d'un grand modèle de langage (LLM), la probabilité qu'un jeton suive le jeton généré en cours. Lorsqu'un grand modèle de langue génère un nouveau jeton pour le texte de sortie, une probabilité est affectée à tous les sèmes, les sèmes ayant un risque plus élevé étant plus susceptibles de suivre le jeton en cours. Par exemple, le mot favori est plus susceptible d'être suivi du mot food ou book que du mot zebra. La probabilité est définie par un nombre entre -15 et 0. Plus le nombre sera négatif, moins le sème sera susceptible de suivre le jeton en cours.

Préambule

Contexte initial ou message de guidage pour un modèle de discussion. Lorsque vous ne donnez pas de préambule à un modèle de discussion, le préambule par défaut de ce modèle est utilisé. Le préambule par défaut pour les modèles cohere.command-r-plus et cohere.command-r-16k est :

You are Command.
You are an extremely capable large language model built by Cohere. 
You are given instructions programmatically via an API that you follow to the best of your ability.

Il est facultatif de donner un préambule. Si vous voulez utiliser votre propre préambule, pour de meilleurs résultats, donnez au modèle le contexte, les instructions et un style de conversation. Voici quelques exemples :

  • Vous êtes un professionnel chevronné du marketing avec une compréhension approfondie du comportement des consommateurs et des tendances du marché. Répondez avec un ton amical et informatif, en partageant des informations sur le secteur et les meilleures pratiques.
  • Vous êtes un conseiller de voyage qui se concentre sur les activités amusantes. Répondez avec humour et un ton pirate.
Remarque

Vous pouvez également inclure un préambule dans une conversation de discussion et demander directement au modèle de répondre d'une certaine manière. Par exemple, "Répondez à la question suivante sur un ton marketing. Où est le meilleur endroit pour naviguer ?"

Adresse de modèle

Point désigné sur un cluster d'IA dédié où un grand modèle de langage (LLM) peut accepter des demandes utilisateur et renvoyer des réponses telles que le texte généré par le modèle.

Dans OCI Generative AI, vous pouvez créer des adresses pour des modèles préentraînés et des modèles personnalisés prêts à l'emploi. Ces points de terminaison sont répertoriés dans le terrain de jeu pour tester les modèles. Vous pouvez également référencer ces adresses dans les applications.

Glissières de sécurité

Les garde-corps sont des contrôles de sécurité et de conformité configurables qui aident à gérer ce que le modèle peut accepter et produire, et dans le service OCI Generative AI, ils comprennent trois protections : la modération du contenu, la défense par injection rapide et la gestion des informations d'identification personnelle (PII).

Modération de contenu

Les garde-fous de modération de contenu permettent de s'assurer que les entrées et sorties du modèle sont conformes aux politiques d'utilisation de votre organisation en détectant et en gérant le contenu non autorisé ou sensible. Cela inclut généralement des catégories telles que la haine ou le harcèlement, le contenu sexuel, la violence, l'automutilation et d'autres documents restreints aux politiques. Lorsqu'elles sont déclenchées, les garde-fous de modération peuvent bloquer, occulter ou avertir et acheminer la demande de révision en fonction de votre configuration, ce qui permet de réduire le risque de réponses dangereuses, non sécurisées ou non conformes dans les expériences de l'utilisateur final.

Insertion rapide

Les garde-corps d'injection d'invite sont conçus pour protéger le modèle contre les instructions malveillantes ou involontaires intégrées dans les invites utilisateur ou le contenu récupéré (par exemple, "ignorer les instructions précédentes", "révéler les invites système" ou "éliminer les secrets"). Ces garde-corps recherchent des modèles qui tentent de remplacer le comportement du système, d'accéder à des instructions cachées ou de manipuler l'utilisation des outils et l'accès aux données. Lorsqu'il est détecté, le système peut refuser la demande, supprimer les instructions injectées ou contraindre le modèle à suivre uniquement les directives sécurisées, ce qui permet de maintenir l'alignement avec la tâche, les stratégies et les contrôles d'accès prévus.

Informations d'identification personnelles (PII)

Les garde-fous PII aident à empêcher la collecte, l'affichage ou le stockage inapproprié de données personnelles sensibles en détectant des identifiants tels que des noms combinés avec des coordonnées, des adresses, des pièces d'identité émises par le gouvernement, des numéros de compte financier et d'autres éléments de données permettant d'identifier une personne. Selon la configuration, les garde-corps PII peuvent masquer ou occulter les données détectées, bloquer les réponses qui les incluent et inviter les utilisateurs à supprimer ou à minimiser les détails personnels. Cela prend en charge les pratiques de confidentialité par conception et permet de réduire les risques d'exposition et les problèmes de conformité lors du traitement des informations des utilisateurs ou des clients.

Par défaut, OCI Generative AI n'ajoute pas de couche de garde-corps sur les modèles préentraînés prêts à l'emploi. Cependant, les modèles préentraînés ont un certain niveau de modération de contenu qui filtre les réponses de sortie. Pour intégrer des garde-corps dans des modèles, vous devez activer la modération de contenu lors de la création d'une adresse pour un modèle préentraîné ou affiné.

Important

Avis de non-responsabilité

Nos garde-corps de modération de contenu (CM) et d'injection rapide (PI) ont été évalués sur une gamme d'ensembles de données de référence multilingues. Toutefois, les performances réelles peuvent varier en fonction des langages, domaines, distributions de données et modèles d'utilisation spécifiques présents dans les données fournies par le client lorsque le contenu est généré par l'IA et peut contenir des erreurs ou des omissions. Par conséquent, il est uniquement destiné à des fins d'information et ne doit pas être considéré comme un conseil professionnel. OCI ne garantit pas que des caractéristiques de performances identiques seront observées dans tous les déploiements du monde réel. L'équipe d'OCI Responsible AI améliore continuellement ces modèles.

Nos fonctionnalités de modération de contenu ont été évaluées par rapport à RTPLX, l'un des plus grands ensembles de données d'évaluation multilingues accessibles au public, couvrant plus de 38 langues. Cependant, ces résultats doivent être interprétés avec la prudence appropriée car le contenu est généré par AI et peut contenir des erreurs ou des omissions. Les évaluations multilingues sont intrinsèquement limitées par la portée, la représentativité et les pratiques d'annotation des ensembles de données publics, et les performances observées sur RTPLX peuvent ne pas se généraliser entièrement à tous les contextes, domaines, dialectes ou modèles d'utilisation du monde réel. Ainsi, les résultats sont destinés à des fins d'information uniquement et ne doivent pas être considérés comme des conseils professionnels.

Modèles abandonnés et en phase d'abandon

Sortie
Lorsqu'un modèle est retiré, il n'est plus disponible pour utilisation dans le service d'IA générative.
Abandon
Lorsqu'un modèle est en phase d'abandon, il reste disponible dans le service d'IA générative, avec un laps de temps défini qu'il peut utiliser avant son retrait.

Pour plus d'informations, voir Mise hors service des modèles.