Meta Llama 3 (70B)

Le modèle meta.llama-3-70b-instruct est mis hors service.

Important

Le modèle meta.llama-3-70b-instruct est maintenant mis hors service. Voir Mise hors service des modèles pour obtenir les modèles de remplacement suggérés.

À propos des modèles abandonnés

Mise hors service en mode sur demande: Lorsqu'un modèle est mis hors service en mode sur demande, il n'est plus disponible pour utilisation dans le terrain de jeu du service d'IA générative ou au moyen de l'API d'inférence d'IA générative.

Mise hors service en mode dédié

Lorsqu'un modèle est mis hors service en mode dédié, vous ne pouvez plus créer de grappe dédiée à l'IA pour le modèle mis hors service, mais une grappe dédiée à l'IA active qui exécute un modèle mis hors service continue de s'exécuter. Un modèle personnalisé, qui exécute un modèle mis hors service, continue également d'être disponible pour les grappes d'IA dédiées actives et vous pouvez continuer à créer de nouvelles grappes d'IA dédiées avec un modèle personnalisé créé sur un modèle mis hors service. Toutefois, Oracle offre un soutien limité pour ces scénarios, et l'ingénierie Oracle peut vous demander de passer à un modèle pris en charge pour résoudre les problèmes liés à votre modèle.

Pour demander qu'un modèle reste actif plus longtemps que la date de mise hors service dans un mode dédié, créez un ticket de soutien.

Disponible dans ces régions

Si vous exécutez ce modèle sur une grappe dédiée à l'IA, il se trouve dans l'une des régions suivantes :

Brésil - Est (Sao Paulo)
Allemagne - Centre (Francfort)
Royaume-Uni - Sud (Londres)
États-Unis - Midwest (Chicago)

Accéder à ce modèle

Accédez à ce modèle au moyen de la console, de l'API et de l'interface de ligne de commande :

Principales fonctions

Taille du modèle : 70 milliards de paramètres
Longueur de contexte : 8 000 jetons (invite maximale + longueur de réponse : 8 000 jetons pour chaque exécution.)
Connaissance : A une vaste connaissance générale, de la génération d'idées à l'amélioration de l'analyse de texte et de la rédaction de contenu écrit, tels que des courriels, des billets de blogue et des descriptions.

Mode sur demande

Le modèle cohere.embed-english-light-image-v3.0 est mis hors service et n'est donc pas disponible en mode sur demande.

Grappe d'IA dédiée pour le modèle

Pour atteindre un modèle au moyen d'une grappe dédiée à l'IA dans n'importe quelle région répertoriée, vous devez créer un point d'extrémité pour ce modèle sur une grappe dédiée à l'IA. Si vous avez créé une grappe dédiée à l'IA pour ce modèle, voici les informations sur la grappe :


Modèle de base	Cluster de réglage fin	Grappe d'hébergement	Informations sur la page de tarification	Demander une augmentation de limite de grappe
Nom du modèle : Meta Llama 3 Nom du modèle OCI : `meta.llama-3-70b-instruct` (abandonné)	Taille de l'unité : Large Generic Unités requises : 2	Taille de l'unité : Large Generic Unités requises : 1	Nom du produit de la page Tarification : Large Meta - Dedicated Pour l'hébergement, Multiplier le prix unitaire : x2 Pour le réglage de précision, multipliez le prix unitaire : x4	Nom de la limite : `dedicated-unit-llama2-70-count` Pour l'hébergement, demandez une augmentation de limite de : 2 Pour le réglage fin, demandez une augmentation de limite de : 4

Note

L'hébergement du modèle Meta Llama 3 sur une grappe dédiée à l'IA utilise 2 nombres d'unités de la limite de service, dedicated-unit-llama2-70-count.
Le réglage fin du modèle Meta Llama 3 sur une grappe dédiée à l'IA utilise 4 nombres d'unités de la limite de service, dedicated-unit-llama2-70-count.

Règles de point d'extrémité pour les grappes

Une grappe dédiée à l'IA peut contenir jusqu'à 50 points d'extrémité.
Utilisez ces points d'extrémité pour créer des alias qui pointent tous vers le même modèle de base ou vers la même version d'un modèle personnalisé, mais pas vers les deux types.
Plusieurs points d'extrémité pour le même modèle permettent de les affecter facilement à différents utilisateurs ou objectifs.


Taille d'unité de la grappe d'hébergement	Règles de point d'extrémité
Large Generic	Modèle de base : Pour exécuter le modèle `meta.llama-3-70b-instruct`  sur plusieurs points d'extrémité, créez autant de points d'extrémité que nécessaire sur une grappe Large Generic (taille de l'unité). Modèle personnalisé : Il en va de même pour un modèle personnalisé créé en plus de  `meta.llama-3-70b-instruct` : Créez le nombre requis de points d'extrémité sur une grappe Large Generic (taille de l'unité).

Conseil

Pour augmenter le volume d'appels pris en charge par une grappe d'hébergement, augmentez le nombre d'instances en modifiant la grappe dédiée à l'IA. Voir Mise à jour d'une grappe d'intelligence artificielle dédiée.
Pour plus de 50 points d'extrémité par grappe, demandez une augmentation de la limite, endpoint-per-dedicated-unit-count. Voir Demande d'une augmentation de limite de service et Limites de service pour l'IA générative.

Tests de performance des grappes

Consultez les tests de performance de grappe Meta Llama 3 (70B) pour différents cas d'utilisation.

Dates de lancement et de mise hors service


Modèle	Date de version	Date de mise hors service sur demande	Date de mise hors service en mode dédié
`meta.llama-3-70b-instruct`	2,024-6-4	`2,024-11-12`	`2,025-8-7`

Important

Pour obtenir la liste de toutes les lignes de temps du modèle et les détails de mise hors service, voir Mise hors service des modèles.

Paramètres du modèle

Pour modifier les réponses du modèle, vous pouvez modifier les valeurs des paramètres suivants dans le terrain de jeu ou l'API.

Nombre maximal de jetons de sortie

Nombre maximal de marqueurs que le modèle doit générer pour chaque réponse. Estimer quatre caractères par jeton. Comme vous demandez un modèle de clavardage, la réponse dépend de l'invite et chaque réponse n'utilise pas nécessairement le nombre maximal de jetons alloués.

Température

Niveau de caractère aléatoire utilisé pour générer le texte de sortie.

Conseil

Commencez avec la température réglée à 0 ou moins d'un, puis augmentez la température au fur et à mesure que vous régénérez les invites pour une sortie plus créative. Les températures élevées peuvent introduire des hallucinations et des informations factuellement incorrectes.

p premiers

Méthode d'échantillonnage qui contrôle la probabilité cumulative des jetons supérieurs à prendre en compte pour le jeton suivant. Affectez à p un nombre décimal compris entre 0 et 1 pour la probabilité. Par exemple, entrez 0,75 pour les 75 % principaux à prendre en compte. Réglez p à 1 pour prendre en compte tous les jetons.

k premiers

Méthode d'échantillonnage dans laquelle le modèle choisit le jeton suivant de manière aléatoire à partir des jetons top k les plus probables. Une valeur élevée pour k génère une sortie plus aléatoire, ce qui rend le texte de sortie plus naturel. La valeur par défaut pour k est 0 pour les modèles Cohere Command et -1 pour les modèles Meta Llama, ce qui signifie que le modèle doit prendre en compte tous les jetons et ne pas utiliser cette méthode.

Pénalité de fréquence

Pénalité affectée à un jeton lorsque ce jeton apparaît fréquemment. Les pénalités élevées encouragent moins de jetons répétés et produisent un résultat plus aléatoire.

Pour les modèles de la famille Meta Llama, cette pénalité peut être positive ou négative. Les nombres positifs encouragent le modèle à utiliser de nouveaux jetons et les nombres négatifs encouragent le modèle à répéter les jetons. Réglez à 0 pour désactiver.

Pénalité de présence

Pénalité affectée à chaque jeton lorsqu'il apparaît dans la sortie pour favoriser la génération de sorties contenant des jetons qui n'ont pas été utilisés.

Prédéfinir

Paramètre qui fait le meilleur effort pour échantillonner les jetons de manière déterministe. Lorsqu'une valeur est affectée à ce paramètre, le grand modèle de langage vise à renvoyer le même résultat pour les demandes répétées lorsque vous affectez les mêmes valeurs de départ et les mêmes paramètres pour les demandes.

Les valeurs autorisées sont des nombres entiers et l'affectation d'une valeur de départ grande ou petite n'a aucune incidence sur le résultat. L'affectation d'un nombre au paramètre de départ est similaire au marquage de la demande par un nombre. Le grand modèle de langage vise à générer le même ensemble de jetons pour le même entier dans des demandes consécutives. Cette fonction est particulièrement utile pour le débogage et les tests. Le paramètre de départ n'a pas de valeur maximale pour l'API. Dans la console, sa valeur maximale est 9999. Le fait de laisser la valeur de départ vide dans la console ou nulle dans l'API désactive cette fonction.

Avertissement

Il est possible que le paramètre de départ ne produise pas le même résultat à long terme, car les mises à jour du modèle dans le service d'intelligence artificielle générative pour OCI risquent d'invalider la valeur de départ.

Documentation sur Oracle Cloud Infrastructure