Meta Llama 3.3 (70B)

Das meta.llama-3.3-70b-instruct-Modell ist für On-Demand-Inferenzierung, dediziertes Hosting und Feinabstimmung verfügbar und bietet eine bessere Performance als Llama 3.1 70B und Llama 3.2 90B für Textaufgaben.

Regionen für dieses Modell

Wichtig

Informationen zu unterstützten Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.

Wichtige Features

  • Das Modell hat 70 Milliarden Parameter.
  • Akzeptiert Nur-Text-Eingaben und erzeugt Nur-Text-Ausgaben.
  • Verwendet dasselbe Prompt-Format wie Llama 3.1 70B.
  • Unterstützt denselben Code-Interpreter wie Llama 3.1 70B und behält die Kontextlänge von 128.000 Token bei. (Maximale Prompt- und Antwortlänge: 128.000 Token für jede Ausführung.)
  • Im Vergleich zu seinem Vorgänger Llama 3.1 70B reagiert er mit verbesserter Argumentation, Codierung, Mathematik und Instruktionsfolgen. Siehe Modellkarte Llama 3.3.
  • Verfügbar für On-Demand-Inferenzierung, dediziertes Hosting und Feinabstimmung.
  • Für On-Demand-Inferenzierungen wird die Antwortlänge für jede Ausführung auf 4.000 Token begrenzt.
  • Für den dedizierten Modus wird die Antwortlänge nicht begrenzt, und die Kontextlänge beträgt 128.000 Token.

Meta Llama 3.3 Varianten

Das Modell Meta Llama 3.3 (70B) wird in zwei Varianten angeboten: dem Standard meta.llama-3.3-70b-instruct und dem optimierten meta.llama-3.3-70b-instruct-fp8-dynamic (dynamische Version FP8). Bis auf wenige Regionen werden beide Varianten in den gleichen Regionen angeboten. Die Verfügbarkeit variiert je nach Region und Modus (On-Demand- oder dedizierte KI-Cluster). Eine vollständige Liste und vollständige Details finden Sie unter Modelle nach Region.

Standardvariante: meta.llama-3.3-70b-instruct
  • Performance: Bietet eine Performance in voller Genauigkeit.
  • Optimierung: Sie können dieses Modell mit Ihrem Dataset in kommerziellen Regionen (OC1) optimieren. Feinabstimmung wird für die Modelle in OC4 und OC19-Regionen nicht unterstützt.
  • Anwendungszeitpunkt: Am besten für allgemeine Aufgaben, die eine hohe Genauigkeit erfordern, wie komplexe Argumentation, Inhaltsgenerierung und alle Anwendungsfälle, bei denen eine Feinabstimmung erforderlich ist.
Dynamische FP8-Variante: meta.llama-3.3-70b-instruct-fp8-dynamic
  • Performance: Verwendet FP8 (8-Bit-Gleitkomma), ein numerisches Format mit reduzierter Genauigkeit, das Gleitkommazahlen mit 8 Bit darstellt, um die Inferenz zu beschleunigen. Im Vergleich zu 16-Bit-Formaten wie FP16 halbiert FP8 die Anforderungen an die Speicherbandbreite, was den Rechendurchsatz erhöhen und den GPU-Leistungsverbrauch reduzieren kann.
  • Effizienz: Diese Variante ist für die Effizienz optimiert und bietet eine schnellere Inferenz bei minimalem Genauigkeitsverlust für viele Aufgaben.
  • Feinabstimmung: Nicht verfügbar.
  • Anwendungszeitpunkt: Wählen Sie diese Variante für großvolumige, latenzempfindliche Szenarien wie Echtzeitanwendungen, umfangreiche Bereitstellung oder kostenoptimierte Inferenz aus, bei denen Geschwindigkeit und Effizienz wichtiger sind als Feinabstimmung oder maximale Präzision. Diese Variante eignet sich am besten für Produktionsumgebungen, die sich auf den Durchsatz statt auf die Anpassung konzentrieren.
Hinweis

Geben Sie für API-Anforderungen immer die genaue Modell-ID an.

Bedarfsgesteuerter Modus

In der folgenden Tabelle finden Sie den On-Demand-Produktnamen dieses Modells auf der Seite "Preisfindung".

Modellname OCI-Modellname Preisfindungsseite - Produktname
Meta Llama 3.3 (70B) (Standard) meta.llama-3.3-70b-instruct Large Meta
Meta Llama 3.3 (70B) (Dynamisch FP8) meta.llama-3.3-70b-instruct-fp8-dynamic Large Meta

Weitere Informationen zum On-Demand-Modus.

Dediziertes KI-Cluster für das Modell

Für Modelle im On-Demand-Modus sind keine Cluster erforderlich. Greifen Sie über den Console Playground und die API darauf zu. Verwenden Sie für Modelle, die im dedizierten Modus verfügbar sind, Endpunkte, die in dedizierten KI-Clustern erstellt wurden. Weitere Informationen zum dedizierten Modus.

In der folgenden Tabelle werden die Hardwareeinheitengrößen und Servicelimits für dedizierte KI-Cluster aufgeführt.

Basismodell Optimierungscluster Hostingcluster Preisfindungsseiteninformationen Erhöhung des Clusterlimits anfordern
  • Modellname: Meta Llama 3.3 (70B) (Standard)
  • OCI-Modellname: meta.llama-3.3-70b-instruct
  • Einheit: Large Generic
  • Erforderliche Einheiten: 2

    Feinabstimmung nicht verfügbar für EU Sovereign Central (Frankfurt) (OC19) und UK Gov South (London) (OC4))

  • Einheit: Large Generic
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Large Meta - Dedicated
  • Für Hosting Multiply the Unit Price: x2
  • Zur Feinabstimmung den Stückpreis multiplizieren: x4
  • Limitname: dedicated-unit-llama2-70-count
  • Für Hosting erhöhen Sie das Limit um: 2
  • Bei der Feinabstimmung erhöhen Sie das Anforderungslimit um: 4
  • Modellname: Meta Llama 3.3 (70B) (Dynamisch FP8)
  • OCI-Modellname: meta.llama-3.3-70b-instruct-fp8-dynamic
Nicht für Feinabstimmung verfügbar

Für UAE East (Dubai):

  • Einheit: LARGE_GENERIC_V1
  • Erforderliche Maßeinheiten: 1

Für andere verfügbare Regionen:

  • Einheit: Large Generic
  • Erforderliche Maßeinheiten: 1
  • Produktname der Preisseite: Large Meta - Dedicated
  • Für Hosting Multiply the Unit Price: x2
  • Limitname: dedicated-unit-llama2-70-count
  • Für Hosting erhöhen Sie das Limit um: 2
Tipp

  • Wenn im Mandanten nicht genügend Clusterlimits für das Hosting des Modells Meta Llama 3.3 (70B) (Standard oder dynamisches fp8) in einem dedizierten KI-Cluster vorhanden sind, fordern Sie den Grenzwert dedicated-unit-llama2-70-count an, um den Wert 2 zu erhöhen.
  • Für die Feinabstimmung fordern Sie das Limit dedicated-unit-llama2-70-count an, um es um 4 zu erhöhen.

Endpunktregeln für Cluster

  • Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
  • Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
  • Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
Hostingclustereinheitsgröße Endpunktregeln
Large Generic für meta.llama-3.3-70b-instruct
  • Basismodell: Um das Modell ⁇ meta.llama-3.3-70b-instruct ⁇ auf mehreren Endpunkten auszuführen, erstellen Sie so viele Endpunkte, wie Sie für ein Large Generic-Cluster benötigen (Größe der Einheit).
  • Benutzerdefiniertes Modell: Gleiches gilt für ein benutzerdefiniertes Modell, das auf meta.llama-3.3-70b-instruct basiert: Erstellen Sie die erforderliche Anzahl von Endpunkten in einem Large Generic-(Unit-size-)Cluster.
Large Generic für meta.llama-3.3-70b-instruct-fp8-dynamic
  • Basismodell: Um das Modell ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ auf mehreren Endpunkten auszuführen, erstellen Sie so viele Endpunkte, wie Sie für ein Large Generic-Cluster benötigen (Größe der Einheit).
  • Benutzerdefiniertes Modell: Sie können meta.llama-3.3-70b-instruct-fp8-dynamic nicht optimieren, sodass Sie keine benutzerdefinierten Modelle erstellen und hosten können, die auf dieser Basis erstellt wurden.
LARGE_GENERIC_V1 für meta.llama-3.3-70b-instruct-fp8-dynamic (nur UAE East (Dubai))
  • Basismodell: Um das Modell ⁇ meta.llama-3.3-70b-instruct-fp8-dynamic ⁇ auf mehreren Endpunkten in UAE East (Dubai) auszuführen, erstellen Sie so viele Endpunkte wie erforderlich in einem LARGE_GENERIC_V1-Cluster (Größe der Einheit).
  • Benutzerdefiniertes Modell: Sie können meta.llama-3.3-70b-instruct-fp8-dynamic nicht optimieren, sodass Sie keine benutzerdefinierten Modelle erstellen und hosten können, die aus dieser Basis in UAE East (Dubai) erstellt wurden.
Tipp

Clusterperformancebenchmarks

Prüfen Sie die Performancebenchmarks für das Cluster Meta Llama 3.3 (70B) für verschiedene Anwendungsfälle.

Modellparameter

Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.

Maximale Ausgabetoken

Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token.

Temperatur

Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird.

Tipp

Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen.
Top p

Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie p eine Dezimalzahl zwischen 0 und 1 für die Wahrscheinlichkeit zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Sie p auf 1, um alle Token zu berücksichtigen.

Top k

Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den top k-Token wählt. Ein hoher Wert für k generiert eine zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 für Cohere Command-Modelle und -1 für Meta Llama-Modelle. Das bedeutet, dass das Modell alle Token berücksichtigen und diese Methode nicht verwenden sollte.

Frequency Penalty

Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.

Für die Meta Llama-Familienmodelle kann diese Strafe positiv oder negativ sein. Positive Zahlen ermutigen das Modell, neue Token zu verwenden, und negative Zahlen ermutigen das Modell, die Token zu wiederholen. Auf 0 setzen, um zu deaktivieren.

Presence Penalty

Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern.

Vordefinieren

Ein Parameter, der den bestmöglichen Versuch unternimmt, Token deterministisch zu erfassen. Wenn diesem Parameter ein Wert zugewiesen wird, zielt das Large Language Model darauf ab, dasselbe Ergebnis für wiederholte Anforderungen zurückzugeben, wenn Sie denselben Seed und dieselben Parameter für die Anforderungen zuweisen.

Zulässige Werte sind Ganzzahlen, und die Zuweisung eines großen oder kleinen Seed-Wertes wirkt sich nicht auf das Ergebnis aus. Die Zuweisung einer Nummer für den Seed-Parameter ähnelt dem Tagging der Anforderung mit einer Nummer. Das große Sprachmodell zielt darauf ab, dieselbe Gruppe von Token für dieselbe Ganzzahl in aufeinanderfolgenden Anforderungen zu generieren. Diese Funktion ist besonders für Debugging und Tests nützlich. Der Seed-Parameter hat keinen Höchstwert für die API, und in der Konsole ist der Höchstwert 9999. Wenn Sie den Seed-Wert in der Konsole leer lassen oder in der API Null angeben, wird dieses Feature deaktiviert.

Warnung

Der Seed-Parameter erzeugt möglicherweise nicht dasselbe Ergebnis auf lange Sicht, da die Modellupdates im OCI Generative AI-Service den Seed möglicherweise ungültig machen.