Meta Llama 3 (70B)

Das Modell meta.llama-3-70b-instruct wird eingestellt.

Wichtig

Das Modell meta.llama-3-70b-instruct wird jetzt eingestellt. Vorgeschlagene Ersatzmodelle finden Sie unter Modelle einstellen.

Eingestellte Modelle

Abgang im Bedarfsmodus: Wenn ein Modell im On-Demand-Modus eingestellt wird, kann es nicht mehr im Playground des generativen KI-Service oder über die Inferenz-API für generative KI verwendet werden.

Abgang für dedizierten Modus

Wenn ein Modell im dedizierten Modus deaktiviert wird, können Sie kein dediziertes KI-Cluster für das eingestellte Modell mehr erstellen. Ein aktives dediziertes KI-Cluster, auf dem ein eingestelltes Modell ausgeführt wird, wird jedoch weiterhin ausgeführt. Ein benutzerdefiniertes Modell, auf dem ein veraltetes Modell ausgeführt wird, ist auch weiterhin für aktive dedizierte KI-Cluster verfügbar. Außerdem können Sie weiterhin neue dedizierte KI-Cluster mit einem benutzerdefinierten Modell erstellen, das auf einem stillgelegten Modell erstellt wurde. Oracle bietet jedoch nur begrenzten Support für diese Szenarien, und das Oracle Engineering fordert Sie möglicherweise auf, ein Upgrade auf ein unterstütztes Modell durchzuführen, um Probleme im Zusammenhang mit Ihrem Modell zu beheben.

Um in einem dedizierten Modus anzufordern, dass ein Modell länger als das Abgangsdatum am Leben bleibt, erstellen Sie ein Supportticket.

Regionen für dieses Modell

Wichtig

Für unterstützte Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.

Zugriff auf dieses Modell

Sie können über Folgendes auf dieses Modell zugreifen:

Hinweis

Die API-Tinten listen die Endpunkte für alle unterstützten kommerziellen, souveränen und staatlichen Regionen auf.

Wichtige Features

Modellgröße: 70 Milliarden Parameter
Kontextlänge: 8.000 Token (Maximale Prompt- und Antwortlänge: 8.000 Token für jede Ausführung.)
Wissen: Verfügt über ein breites Allgemeinwissen, von der Ideengenerierung bis zur Verfeinerung von Textanalysen und der Erstellung schriftlicher Inhalte, wie E-Mails, Blogbeiträge und Beschreibungen.

Bedarfsgesteuerter Modus

Das Modell cohere.embed-english-light-image-v3.0 wird eingestellt und ist daher im On-Demand-Modus nicht verfügbar.

Dediziertes KI-Cluster für das Modell

Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Wenn Sie ein dediziertes KI-Cluster für dieses Modell erstellt haben, finden Sie hier die Informationen zum Cluster:


Basismodell	Optimierungscluster	Hostingcluster	Preisfindungsseiteninformationen	Erhöhung des Clusterlimits anfordern
Modellname: Meta Llama 3 OCI-Modellname: `meta.llama-3-70b-instruct` (abgelaufen)	Einheit: Large Generic Erforderliche Einheiten: 2	Einheit: Large Generic Erforderliche Maßeinheiten: 1	Produktname der Preisseite: Large Meta - Dedicated Für Hosting Multiply the Unit Price: x2 Zur Feinabstimmung den Stückpreis multiplizieren: x4	Limitname: `dedicated-unit-llama2-70-count` Für Hosting erhöhen Sie das Limit um: 2 Bei der Feinabstimmung erhöhen Sie das Anforderungslimit um: 4

Hinweis

Hosten des Modells Meta Llama 3 in einem dedizierten KI-Cluster, verwendet 2 Einheiten des Servicelimits, dedicated-unit-llama2-70-count.
Bei der Feinabstimmung des Modells Meta Llama 3 in einem dedizierten KI-Cluster werden 4 Einheiten des Servicelimits, dedicated-unit-llama2-70-count, verwendet.

Endpunktregeln für Cluster

Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.


Hostingclustereinheitsgröße	Endpunktregeln
Large Generic	Basismodell: Um das Modell ⁇ `meta.llama-3-70b-instruct` ⁇ auf mehreren Endpunkten auszuführen, erstellen Sie so viele Endpunkte, wie Sie für ein Large Generic-Cluster benötigen (Größe der Einheit). Benutzerdefiniertes Modell: Gleiches gilt für ein benutzerdefiniertes Modell, das auf `meta.llama-3-70b-instruct` basiert: Erstellen Sie die erforderliche Anzahl von Endpunkten in einem Large Generic-(Unit-size-)Cluster.

Tipp

Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, erhöhen Sie die Anzahl der Instanzen, indem Sie das dedizierte KI-Cluster bearbeiten. Siehe Dediziertes KI-Cluster aktualisieren.
Fordern Sie für mehr als 50 Endpunkte pro Cluster eine Erhöhung für das Limit an: endpoint-per-dedicated-unit-count. Siehe Limiterhöhungsanforderung erstellen und Servicelimits für generative KI.

Clusterperformancebenchmarks

Prüfen Sie die Performancebenchmarks für Meta Llama 3 (70B)-Cluster für verschiedene Anwendungsfälle.

OCI-Release- und -Abgangsdaten

Informationen zu Freigabe- und Abgangsdaten sowie zu Ersatzmodelloptionen finden Sie auf den folgenden Seiten je nach Modus (auf Anforderung oder dediziert):

Modellparameter

Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.

Maximale Ausgabetoken

Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token.

Temperatur

Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird.

Tipp

Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen.

Top p

Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.

Top k

Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den top k-Token wählt. Ein hoher Wert für k generiert eine zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 für Cohere Command-Modelle und -1 für Meta Llama-Modelle. Das bedeutet, dass das Modell alle Token berücksichtigen und diese Methode nicht verwenden sollte.

Frequency Penalty

Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.

Für die Meta Llama-Familienmodelle kann diese Strafe positiv oder negativ sein. Positive Zahlen ermutigen das Modell, neue Token zu verwenden, und negative Zahlen ermutigen das Modell, die Token zu wiederholen. Auf 0 setzen, um zu deaktivieren.

Presence Penalty

Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern.

Vordefinieren

Ein Parameter, der den bestmöglichen Versuch unternimmt, Token deterministisch zu erfassen. Wenn diesem Parameter ein Wert zugewiesen wird, zielt das Large Language Model darauf ab, dasselbe Ergebnis für wiederholte Anforderungen zurückzugeben, wenn Sie denselben Seed und dieselben Parameter für die Anforderungen zuweisen.

Zulässige Werte sind Ganzzahlen, und die Zuweisung eines großen oder kleinen Seed-Wertes wirkt sich nicht auf das Ergebnis aus. Die Zuweisung einer Nummer für den Seed-Parameter ähnelt dem Tagging der Anforderung mit einer Nummer. Das große Sprachmodell zielt darauf ab, dieselbe Gruppe von Token für dieselbe Ganzzahl in aufeinanderfolgenden Anforderungen zu generieren. Diese Funktion ist besonders für Debugging und Tests nützlich. Der Seed-Parameter hat keinen Höchstwert für die API, und in der Konsole ist der Höchstwert 9999. Wenn Sie den Seed-Wert in der Konsole leer lassen oder in der API Null angeben, wird dieses Feature deaktiviert.

Warnung

Der Seed-Parameter erzeugt möglicherweise nicht dasselbe Ergebnis auf lange Sicht, da die Modellupdates im OCI Generative AI-Service den Seed möglicherweise ungültig machen.

Oracle Cloud Infrastructure-Dokumentation