Meta Llama 4 Maverick
Die Llama 4-Modelle nutzen eine Mixture of Experts-(MoE-)Architektur, die effiziente und leistungsstarke Verarbeitungsfunktionen ermöglicht. Diese Modelle sind für multimodales Verständnis, mehrsprachige Aufgaben, Codierung, Tool-Calling und Powering Agentic-Systeme optimiert. Weitere Informationen zum Modell meta.llama-4-maverick-17b-128e-instruct-fp8 finden Sie in den folgenden Abschnitten.
Regionen für dieses Modell
Informationen zu unterstützten Regionen, Endpunkttypen (On-Demand- oder dedizierte KI-Cluster) und Hosting (OCI Generative AI oder externe Aufrufe) für dieses Modell finden Sie auf der Seite Modelle nach Region. Details zu den Regionen finden Sie auf der Seite Regionen für generative KI.
Zugriff auf dieses Modell
Die API-Endpunkte für alle unterstützten kommerziellen, souveränen und staatlichen Regionen sind in den Links "Management-API" und "Inferenz-API" aufgeführt. Sie können nur über die unterstützten Regionen auf jedes Modell zugreifen.
Wichtige Features
- Meta-Lama-4-Serie
-
- Multimodale Funktionen: Llama 4-Modelle sind nativ multimodal und können verschiedene Datentypen, einschließlich Text und Bildern, verarbeiten und integrieren. Geben Sie Text und Bilder ein und erhalten Sie eine Textausgabe.
- Mehrsprachige Unterstützung: Schulung zu Daten in 200 Sprachen mit Unterstützung für die Feinabstimmung für 12 Sprachen, darunter Arabisch, Englisch, Französisch, Deutsch, Hindi, Indonesisch, Italienisch, Portugiesisch, Spanisch, Tagalog, Thai und Vietnamesisch. Das Bildverständnis ist auf Englisch beschränkt.
- Effiziente Bereitstellung: Kleiner GPU-Footprint.
- Knowledge Cutoff: August 2024
- Nutzungsbeschränkungen: Die Llama 4 Acceptable Use Policy beschränkt ihre Verwendung in der Europäischen Union (EU).
- Meta Llama 4 Maverick
-
- Architektur: Ähnlich wie Meta Llama Scout verfügt dieses Modell über 17 Milliarden aktive Parameter, jedoch innerhalb eines größeren Rahmens von etwa 400 Milliarden Parametern, wobei 128 Experten verwendet werden.
- Kontextfenster: Unterstützt eine Kontextlänge von 512.000 Token. (Maximale Prompt + Antwortlänge beträgt 512.000 Token für jede Ausführung.)
- Performance: Gleicht erweiterte Modelle in Codierungs- und Argumentationsaufgaben ab.
- Weitere Features
-
- On-Demand-Inferenzierung in Chicago verfügbar.
- Für On-Demand-Inferenzierungen wird die Antwortlänge für jede Ausführung auf 4.000 Token begrenzt.
- Für den dedizierten Modus ist die Antwortlänge nicht begrenzt, und die Kontextlänge beträgt 512.000 Token.
- Geben Sie in der Konsole ein
.png- oder.jpg-Image mit maximal 5 MB ein. - Geben Sie für die API in jeder Ausführung ein
base64-codiertes Image ein. Ein 512 x 512 Bild wird in etwa 1.610 Token konvertiert.
Bedarfsgesteuerter Modus
In der folgenden Tabelle finden Sie den On-Demand-Produktnamen dieses Modells auf der Seite "Preisfindung".
| Modellname | OCI-Modellname | Preisfindungsseite - Produktname |
|---|---|---|
| Meta Llama 4 Maverick | meta.llama-4-maverick-17b-128e-instruct-fp8 |
Meta Llama 4 Maverick |
Dediziertes KI-Cluster für das Modell
Für Modelle im On-Demand-Modus sind keine Cluster erforderlich. Greifen Sie über den Console Playground und die API darauf zu. Verwenden Sie für Modelle, die im dedizierten Modus verfügbar sind, Endpunkte, die in dedizierten KI-Clustern erstellt wurden. Weitere Informationen zum dedizierten Modus.
Um ein Modell über ein dediziertes KI-Cluster in einer beliebigen aufgelisteten Region zu erreichen, müssen Sie einen Endpunkt für dieses Modell in einem dedizierten KI-Cluster erstellen. Die Größe der Clustereinheit, die mit diesem Modell übereinstimmt, finden Sie in der folgenden Tabelle.
| Basismodell | Optimierungscluster | Hostingcluster | Preisfindungsseiteninformationen | Erhöhung des Clusterlimits anfordern |
|---|---|---|---|---|
|
Nicht für Feinabstimmung verfügbar |
|
|
|
Wenn in Ihrem Mandanten nicht genügend Clusterlimits für das Hosting des Modells Meta Llama 4 Maverick in einem dedizierten KI-Cluster vorhanden sind, fordern Sie die Erhöhung des Limits dedicated-unit-llama2-70-count um 4 an.
Endpunktregeln für Cluster
- Ein dediziertes KI-Cluster kann bis zu 50 Endpunkte enthalten.
- Verwenden Sie diese Endpunkte, um Aliasnamen zu erstellen, die alle entweder auf das gleiche Basismodell oder auf die gleiche Version eines benutzerdefinierten Modells verweisen, nicht jedoch auf beide Typen.
- Mehrere Endpunkte für dasselbe Modell erleichtern die Zuweisung zu verschiedenen Benutzern oder Zwecken.
| Hostingclustereinheitsgröße | Endpunktregeln |
|---|---|
| Large Generic 2 |
|
-
Um das von einem Hostingcluster unterstützte Anrufvolumen zu erhöhen, erhöhen Sie die Anzahl der Instanzen, indem Sie das dedizierte KI-Cluster bearbeiten. Siehe Dediziertes KI-Cluster aktualisieren.
-
Fordern Sie für mehr als 50 Endpunkte pro Cluster eine Erhöhung für das Limit an:
endpoint-per-dedicated-unit-count. Siehe Limiterhöhungsanforderung erstellen und Servicelimits für generative KI.
Clusterperformancebenchmarks
Prüfen Sie die Performancebenchmarks für das Meta Llama 4 Maverick-Cluster für verschiedene Anwendungsfälle.
OCI-Release- und -Abgangsdaten
Informationen zu Freigabe- und Abgangsdaten sowie zu Ersatzmodelloptionen finden Sie auf den folgenden Seiten je nach Modus (auf Anforderung oder dediziert):
Modellparameter
Um die Modellantworten zu ändern, können Sie die Werte der folgenden Parameter im Playground oder in der API ändern.
- Maximale Ausgabetoken
-
Die maximale Anzahl an Token, die das Modell für jede Antwort generieren soll. Schätzen Sie vier Zeichen pro Token. Da Sie ein Chatmodell anfordern, hängt die Antwort von der Eingabeaufforderung ab, und jede Antwort verwendet nicht unbedingt die maximal zugewiesenen Token.
- Temperatur
-
Der Grad der Zufälligkeit, mit dem der Ausgabetext generiert wird.
Tipp
Stellen Sie die Temperatur auf 0 oder weniger als eins ein, und erhöhen Sie die Temperatur, wenn Sie die Prompts für eine kreativere Ausgabe neu generieren. Hohe Temperaturen können Halluzinationen und sachlich falsche Informationen verursachen. - Top p
-
Eine Samplingmethode, mit der die kumulative Wahrscheinlichkeit der Top-Token gesteuert wird, die für das nächste Token zu berücksichtigen sind. Weisen Sie
pfür die Wahrscheinlichkeit eine positive Dezimalzahl zwischen 0 und 1 zu. Beispiel: Geben Sie 0,75 für die Top 75 Prozent ein, die berücksichtigt werden sollen. Setzen Siepauf 1, um alle Token zu berücksichtigen. - Top k
-
Eine Samplingmethode, bei der das Modell das nächste Token zufällig aus den
top k-Token wählt. Ein hoher Wert fürkgeneriert eine zufällige Ausgabe, wodurch der Ausgabetext natürlicher klingt. Der Standardwert für k ist 0 fürCohere Command-Modelle und -1 fürMeta Llama-Modelle. Das bedeutet, dass das Modell alle Token berücksichtigen und diese Methode nicht verwenden sollte. - Frequency Penalty
-
Eine Strafe, die einem Token zugewiesen wird, wenn dieses Token häufig angezeigt wird. Hohe Strafen fördern weniger wiederholte Token und erzeugen eine zufälligere Ausgabe.
Für die Meta Llama-Familienmodelle kann diese Strafe positiv oder negativ sein. Positive Zahlen ermutigen das Modell, neue Token zu verwenden, und negative Zahlen ermutigen das Modell, die Token zu wiederholen. Auf 0 setzen, um zu deaktivieren.
- Presence Penalty
-
Eine Strafe, die jedem Token zugewiesen wird, wenn es in der Ausgabe angezeigt wird, um die Generierung von Ausgaben mit noch nicht verwendeten Token zu fördern. Für die Meta Llama-Familienmodelle kann diese Strafe positiv oder negativ sein. Auf 0 setzen, um zu deaktivieren.
- Vordefinieren
-
Ein Parameter, der den bestmöglichen Versuch unternimmt, Token deterministisch zu erfassen. Wenn diesem Parameter ein Wert zugewiesen wird, zielt das Large Language Model darauf ab, dasselbe Ergebnis für wiederholte Anforderungen zurückzugeben, wenn Sie denselben Seed und dieselben Parameter für die Anforderungen zuweisen.
Zulässige Werte sind Ganzzahlen, und die Zuweisung eines großen oder kleinen Seed-Wertes wirkt sich nicht auf das Ergebnis aus. Die Zuweisung einer Nummer für den Seed-Parameter ähnelt dem Tagging der Anforderung mit einer Nummer. Das große Sprachmodell zielt darauf ab, dieselbe Gruppe von Token für dieselbe Ganzzahl in aufeinanderfolgenden Anforderungen zu generieren. Diese Funktion ist besonders für Debugging und Tests nützlich. Der Seed-Parameter hat keinen Höchstwert für die API, und in der Konsole ist der Höchstwert 9999. Wenn Sie den Seed-Wert in der Konsole leer lassen oder in der API Null angeben, wird dieses Feature deaktiviert.
Warnung
Der Seed-Parameter erzeugt möglicherweise nicht dasselbe Ergebnis auf lange Sicht, da die Modellupdates im OCI Generative AI-Service den Seed möglicherweise ungültig machen.