Concepts relatifs à l'intelligence artificielle générative
Pour vous aider à comprendre l'IA générative pour OCI, consultez certains concepts et termes liés au service.
Modèle d'IA générative
Modèle d'IA entraîné sur de grandes quantités de données, qui accepte des entrées qu'il n'a jamais vues auparavant et génère du nouveau contenu.
Génération augmentée par extraction (RAG, retrieval-augmented generation)
Programme qui extrait des données de sources spécifiques et augmente les réponses de grand modèle de langage (LLM) avec les informations spécifiques pour générer des réponses basées sur la base.
Invites et rédactique
- Invite
- Chaînes de texte en langage naturel utilisées pour instruire ou extraire des informations d'un grand modèle de langage. Par exemple :
- Qu'est-ce que le solstice d'été?
- Écrivez un poème sur les arbres agités par la brise.
- Réécrivez le texte précédent sur un ton plus léger.
- Rédactique
- Processus itératif de création de demandes spécifiques en langage naturel pour extraire des invites optimisées à partir d'un grand modèle de langage (LLM). En fonction du langage utilisé, l'ingénieur peut guider le LLM pour qu'il fournisse des sorties améliorées ou différentes.
d'inférence
Capacité d'un grand modèle de langage (LLM) à générer une réponse en fonction des instructions et du contexte fournis par l'utilisateur dans l'invite. Un LLM peut générer de nouvelles données, faire des prédictions ou tirer des conclusions en fonction de ses modèles et relations apprises dans les données d'entraînement, sans avoir été explicitement programmé.
L'inférence est une caractéristique clé des tâches de traitement du langage naturel (TLN), telles que la réponse aux questions, la synthèse du texte et la traduction. Vous pouvez utiliser les modèles fondamentaux de l'IA générative pour l'inférence.
Flux
Génération de contenu par un grand modèle de langage (LLM) où l'utilisateur peut voir les jetons générés un à la fois au lieu d'attendre qu'une réponse complète soit générée avant de retourner la réponse à l'utilisateur.
Plongement
Représentation numérique qui a la propriété de préserver la signification d'un texte. Ce texte peut être une expression, une phrase ou un ou plusieurs paragraphes. Les modèles d'intégration de l'IA générative transforment chaque phrase, phrase ou paragraphe que vous entrez en un tableau avec 384 ou 1024 chiffres, selon le modèle d'intégration que vous sélectionnez. Vous pouvez utiliser ces plongements pour rechercher des similarités avec des expressions dont le contexte ou la catégorie sont similaires. Les intégrations sont généralement stockées dans une base de données vectorielle. Les plongements sont principalement utilisés pour les recherches sémantiques, dans lesquelles la fonction de recherche se concentre sur la signification du texte recherché, plutôt que sur l'obtention de résultats basés sur des mots clés. Pour créer les plongements, vous pouvez entrer des expressions en anglais et dans d'autres langues.
Terrain de jeu
Interface de la console Oracle Cloud permettant d'explorer les modèles préentraînés et personnalisés hébergés sans écrire une seule ligne de code. Utilisez le terrain de jeu pour tester vos cas d'utilisation et affiner les invites et les paramètres. Lorsque les résultats vous conviennent, copiez le code généré ou utilisez le point d'extrémité du modèle pour intégrer l'intelligence artificielle générative à vos applications.
Mode sur demande
-
Vous payez à l'utilisation pour chaque appel d'inférence lorsque vous utilisez les modèles dans le terrain de jeu ou lorsque vous appelez les modèles au moyen de l'API.
- Faible barrière pour commencer à utiliser l'IA générative.
- Idéal pour l'expérimentation, la preuve de concept et l'évaluation de modèle.
- Disponible pour les modèles préentraînés dans les régions non listées (grappe dédiée à l'IA uniquement).
Grappes dédiées à l'IA
Ressources de calcul que vous pouvez utiliser pour régler avec précision des modèles personnalisés ou pour héberger des points d'extrémité pour des modèles préentraînés et personnalisés de base. Les grappes sont dédiées à vos modèles et ne sont pas partagées avec d'autres clients.
Mode dédié
Vous pouvez accéder aux modèles fondamentaux préentraînés dans l'IA générative au moyen de deux modes : sur demande et dédié. Voici les principales fonctions du mode dédié :
- Vous obtenez un jeu dédié de processeurs graphiques pour les grappes d'IA dédiées.
- Vous pouvez créer des modèles personnalisés dans les grappes d'IA dédiées, en réglant avec précision un sous-ensemble des modèles fondamentaux préentraînés offerts dans l'IA générative listés pour le réglage de précision.
- Vous pouvez héberger des répliques des modèles fondamentaux et des modèles ajustés sur les grappes d'IA dédiées.
- Vous vous engagez à l'avance à certaines heures d'utilisation des grappes d'IA dédiées. Pour les prix, consultez la page Tarifs.
- Disponible pour les modèles préentraînés dans toutes les régions listées.
- Vous obtenez des performances prévisibles et convient aux charges de travail de production.
Le mode dédié est une utilisation à locataire unique des modèles dans lesquels vous louez le matériel pour l'utilisation. Ce mode offre des performances prévisibles et est recommandé pour les charges de travail de production. Voir les évaluations de la performance des grappes pour vous aider à dimensionner à droite les grappes dédiées.
Un modèle hébergé dans une grappe dédiée à l'IA n'est disponible que dans la région dans laquelle son point d'extrémité est déployé. Voir Régions disponibles pour chaque modèle.
Modèle personnalisé
Modèle que vous créez à l'aide d'un modèle préentraîné en tant que base et à l'aide de votre propre jeu de données pour régler avec précision le modèle.
Jetons
Un jeton est un mot, une partie d'un mot ou un signe de ponctuation. Par exemple, apple est un jeton et amitié est deux jetons (ami et expédition) et ne pas est deux jetons (don et 't). Lorsque vous exécutez un modèle dans le terrain de jeu, vous pouvez définir le nombre maximal de jetons de sortie. Estimer quatre caractères par jeton.
Température
Niveau de caractère aléatoire utilisé pour générer le texte de sortie. Pour générer une sortie similaire pour une invite à chaque fois que vous l'exécutez, utilisez la valeur 0. Pour générer un nouveau texte aléatoire pour cette invite, augmentez la température.
Commencez avec la température réglée à 0 et augmentez-la lorsque vous régénérez les invites afin d'affiner la sortie. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes. Pour obtenir le même résultat pour les demandes répétées, utilisez le paramètre
seed.Échantillonnage k premier
Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire à partir des jetons top k les plus probables. Une valeur supérieure pour k génère une sortie plus aléatoire, ce qui rend le texte de sortie plus naturel. La valeur par défaut pour k est 0 pour les modèles command et -1 pour les modèles Llama, ce qui signifie que les modèles doivent prendre en compte tous les jetons et ne pas utiliser cette méthode.
Haut p
Méthode d'échantillonnage qui contrôle la probabilité cumulative des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % principaux à prendre en compte. Réglez p à 1 pour prendre en compte tous les jetons.
Pénalité de fréquence
Pénalité affectée à un jeton lorsque ce jeton apparaît fréquemment. Les pénalités élevées encouragent moins de jetons répétés et produisent un résultat plus aléatoire.
Pénalité de présence
Pénalité affectée à chaque jeton lorsqu'il apparaît dans la sortie pour favoriser la génération de sorties contenant des jetons qui n'ont pas été utilisés.
Probabilité
Dans la sortie d'un grand modèle de langage (LLM), la probabilité qu'un jeton suive le jeton généré courant. Lorsqu'un LLM génère un nouveau jeton pour le texte de sortie, une probabilité est affectée à tous les jetons, où les jetons avec les probabilités les plus élevées sont les plus susceptibles de suivre le jeton courant. Par exemple, il est plus probable que le mot favori soit suivi du mot aliment ou livre plutôt que du mot zebra. La probabilité est définie par un nombre compris entre -15 et 0. Plus le nombre est négatif, moins il est probable que le jeton suive le jeton courant.
Introduction
Contexte initial ou message de guidage pour un modèle de clavardage. Lorsque vous ne donnez pas de préambule à un modèle de clavardage, le préambule par défaut de ce modèle est utilisé. Le préambule par défaut pour les modèles cohere.command-r-plus et cohere.command-r-16k est :
You are Command.
You are an extremely capable large language model built by Cohere.
You are given instructions programmatically via an API that you follow to the best of your ability.
Il est facultatif de donner un préambule. Si vous souhaitez utiliser votre propre préambule, pour obtenir de meilleurs résultats, indiquez le contexte du modèle, des instructions et un style de conversation. Voici quelques exemples :
- Vous êtes un professionnel du marketing chevronné avec une compréhension approfondie du comportement des consommateurs et des tendances du marché. Répondez avec un ton amical et informatif, en partageant les connaissances de l'industrie et les meilleures pratiques.
- Vous êtes un conseiller en voyages qui se concentre sur des activités amusantes. Réponse avec un sens de l'humour et un ton pirate.
Vous pouvez également inclure un préambule dans une conversation par clavardage et demander directement au modèle de répondre d'une certaine manière. Par exemple, " Répondez à la question suivante sur un ton marketing. Où est le meilleur endroit pour faire de la voile? "
Point d'extrémité de modèle
Point désigné dans une grappe dédiée à l'IA où un grand modèle de langage (LLM) peut accepter des demandes d'utilisateur et renvoyer des réponses telles que le texte généré par le modèle.
Dans OCI Generative AI, vous pouvez créer des points d'extrémité pour des modèles préentraînés et des modèles personnalisés prêts à l'emploi. Ces points d'extrémité sont répertoriés dans le terrain de jeu pour tester les modèles. Vous pouvez également référencer ces points d'extrémité dans des applications.
Conditions de protection
Les garde-corps sont des contrôles de sécurité et de conformité configurables qui aident à gérer ce que le modèle peut accepter et produire. Dans le service d'intelligence artificielle générative d'OCI, ils comprennent trois protections : modération de contenu, défense par injection rapide et traitement des informations d'identification personnelle.
Modération du contenu
Les garde-corps de modération du contenu garantissent que les entrées et les sorties du modèle sont conformes aux politiques d'utilisation de votre organisation en détectant et en gérant le contenu non autorisé ou sensible. Cela comprend généralement des catégories telles que la haine ou le harcèlement, le contenu sexuel, la violence, l'automutilation et d'autres documents à politique restreinte. Lorsqu'elles sont déclenchées, les garde-corps de modération peuvent bloquer, expurger ou avertir et acheminer la demande de révision en fonction de votre configuration, ce qui permet de réduire le risque de réponses nocives, dangereuses ou non conformes dans les expériences des utilisateurs finaux.
Injection d'invite
Les garde-corps d'injection d'invite sont conçus pour protéger le modèle contre les instructions malveillantes ou involontaires intégrées dans les invites d'utilisateur ou le contenu extrait (par exemple, "ignorer les instructions précédentes", "révéler les invites du système" ou "Exfiltrer les secrets"). Ces garde-corps recherchent des modèles qui tentent de remplacer le comportement du système, d'accéder à des instructions cachées ou de manipuler l'utilisation de l'outil et l'accès aux données. Lorsqu'il est détecté, le système peut refuser la demande, supprimer les instructions injectées ou contraindre le modèle à ne suivre que les directives approuvées, ce qui permet de maintenir l'alignement avec la tâche, les politiques et les contrôles d'accès prévus.
Informations d'identification personnelle (IIP)
Les garde-corps d'informations d'identification personnelle aident à empêcher la collecte, l'affichage ou le stockage inappropriés de données personnelles sensibles en détectant des identifiants tels que des noms combinés avec des coordonnées, des adresses, des pièces d'identité émises par le gouvernement, des numéros de compte financier et d'autres éléments de données permettant d'identifier une personne. Selon la configuration, les garde-corps d'informations d'identification personnelle peuvent masquer ou expurger les données détectées, bloquer les réponses qui les incluent et inviter les utilisateurs à supprimer ou à minimiser les détails personnels. Cela prend en charge les pratiques de confidentialité par conception et aide à réduire les risques d'exposition et les problèmes de conformité lors du traitement des informations des utilisateurs ou des clients.
Par défaut, OCI Generative AI n'ajoute pas de couche de garde au-dessus des modèles préentraînés prêts à l'emploi. Cependant, les modèles préentraînés ont un certain niveau de modération du contenu qui filtre les réponses de sortie. Pour intégrer des garde-corps dans des modèles, vous devez activer la modération de contenu lors de la création d'un point d'extrémité pour un modèle préentraîné ou ajusté.
Avis de non-responsabilité
Nos garde-corps de modération de contenu (CM) et d'injection rapide (PI) ont été évalués sur une gamme de jeux de données de référence multilingues. Toutefois, la performance réelle peut varier en fonction des langues, domaines, répartitions des données et modèles d'utilisation spécifiques présents dans les données fournies par le client lorsque le contenu est généré par l'intelligence artificielle et peut contenir des erreurs ou des omissions. Ainsi, il est destiné à des fins d'information uniquement, ne doit pas être considéré comme un conseil professionnel et OCI ne garantit pas que des caractéristiques de performance identiques seront observées dans tous les déploiements du monde réel. L'équipe OCI Responsible AI améliore continuellement ces modèles.
Nos capacités de modération de contenu ont été évaluées par rapport à RTPLX, l'un des plus grands jeux de données d'analyse comparative multilingue accessibles au public, couvrant plus de 38 langues. Cependant, ces résultats doivent être interprétés avec une prudence appropriée car le contenu est généré par l'IA et peut contenir des erreurs ou des omissions. Les évaluations multilingues sont intrinsèquement limitées par la portée, la représentativité et les pratiques d'annotation des ensembles de données publics, et les performances observées sur RTPLX pourraient ne pas se généraliser complètement à tous les contextes, domaines, dialectes ou modèles d'utilisation du monde réel. Ainsi, les conclusions sont destinées à des fins d'information seulement et ne doivent pas être considérées comme des conseils professionnels.
Modèles abandonnés et obsolètes
- Mise hors service
- Lorsqu'un modèle est mis hors service, il n'est plus disponible pour utilisation dans le service d'intelligence artificielle générative.
- Dépréciation
- Lorsqu'un modèle est obsolète, il reste disponible dans le service d'intelligence artificielle générative, avec un temps défini pendant lequel il peut être utilisé avant sa mise hors service.
Pour plus d'informations, voir Mise hors service des modèles.