Meta Llama 4 Maverick

Llama 4モデルはMixture of Experts (MoE)アーキテクチャを活用し、効率的で強力な処理機能を実現します。これらのモデルは、マルチモーダル理解、多言語タスク、コーディング、ツール・コール、およびエージェント・システムの強化のために最適化されています。meta.llama-4-maverick-17b-128e-instruct-fp8モデルの詳細は、次の項を参照してください。

これらのリージョンで使用可能

  • ブラジル東部(サンパウロ)(専用AIクラスタのみ)
  • インド南部(ハイデラバード)(専用AIクラスタのみ)
  • 日本中部(大阪)(専用AIクラスタのみ)
  • サウジアラビア中央部(リヤド)(専用AIクラスタのみ)
  • 英国南部(ロンドン)(専用AIクラスタのみ)
  • 米国中西部(シカゴ)

主な機能

Meta Llama 4シリーズ
  • マルチモーダル機能: Llama 4モデルはネイティブのマルチモーダルであり、テキストやイメージなどの様々なデータ型を処理および統合できます。テキストと画像を入力し、テキスト出力を取得します。
  • 多言語サポート: アラビア語、英語、フランス語、ドイツ語、ヒンディー語、インドネシア語、イタリア語、ポルトガル語、スペイン語、タガログ語、タイ語、ベトナム語など、12の言語に対するファインチューニング・サポートにより、200の言語を網羅したデータに基づいてトレーニングされます。画像の理解は英語に限ります。
  • 効率的なデプロイメント: GPUフットプリントが小さくなります。
  • ナレッジ・カットオフ: 2024年8月
  • 使用上の制限: Llama 4 Acceptable Use Policyは、欧州連合(EU)での使用を制限します。
Meta Llama 4 Maverick
  • アーキテクチャ: Meta Llama Scoutと同様に、このモデルは170億個のアクティブなパラメータを備えていますが、128人のエキスパートを使用して、約4,000億個のパラメータのより大きなフレームワーク内にあります。
  • コンテキスト・ウィンドウ: 512,000トークンのコンテキスト長をサポートします。(最大プロンプト+応答長は、実行ごとに512,000個のトークンです。)
  • パフォーマンス: コーディングおよび推論タスクの拡張モデルに一致します。
その他の機能
  • シカゴでのオンデマンド推論が可能です。
  • オンデマンド推論の場合、レスポンスの長さは実行ごとに4,000トークンに制限されます。
  • 専用モードの場合、レスポンスの長さは制限されず、コンテキストの長さは512,000トークンです。
  • コンソールで、5MB以下の.pngまたは.jpgイメージを入力します。
  • APIの場合は、各実行でbase64エンコード・イメージを入力します。512 x 512イメージは約1,610トークンに変換されます。

オンデマンドモード

価格設定ページのこのモデルのオンデマンド製品名については、次の表を参照してください。

モデル名 OCIモデル名 価格設定ページ製品名
Meta Llama 4 Maverick meta.llama-4-maverick-17b-128e-instruct-fp8 Meta Llama 4 Maverick

モデルの専用AIクラスタ

オンデマンド・オプションのモデルの場合、クラスタは不要で、コンソール・プレイグラウンドまたはAPIを介してモデルに到達できます。専用モードでのみ使用可能なモデルの場合、専用AIクラスタで作成したトラフ・エンドポイントに到達できます。専用モードについて学習します。

リストされているリージョン内の専用AIクラスタを介してモデルに到達するには、専用AIクラスタ上でそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。

ベース・モデル クラスタのファインチューニング ホスト・クラスタ 価格設定ページ情報 クラスタ制限の引上げのリクエスト
  • モデル名: Meta Llama 4 Maverick
  • OCIモデル名: meta.llama-4-maverick-17b-128e-instruct-fp8
ファインチューニングに使用できません
  • 単位サイズ: Large Generic 2
  • 必須単位: 1
  • 価格設定ページ製品名: Large Meta - Dedicated
  • ホスティングの場合は、単価を乗算します: x4
  • 制限名: dedicated-unit-llama2-70-count
  • ホスティングの場合、リクエスト制限の引上げ単位: 4
ヒント

専用AIクラスタでMeta Llama 4 Maverickモデルをホストするための十分なクラスタ制限がテナンシにない場合は、制限dedicated-unit-llama2-70-countを4ずつ増加するようリクエストします。

クラスタのエンドポイント・ルール

  • 専用AIクラスタには、最大50のエンドポイントを保持できます。
  • これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示すが、両方の型を指さない別名を作成します。
  • 同じモデルの複数のエンドポイントにより、それらを異なるユーザーまたは目的に簡単に割り当てることができます。
ホスト・クラスタ・ユニット・サイズ エンドポイント・ルール
Large Generic 2
  • ベース・モデル: 複数のエンドポイントで ⁇ meta.llama-4-maverick-17b-128e-instruct-fp8⁇modelを実行するには、必要な数のエンドポイントをLarge Generic 2クラスタ(単位サイズ)に作成します。
  • カスタム・モデル: meta.llama-4-maverick-17b-128e-instruct-fp8を微調整できないため、そのベースから構築されたカスタム・モデルを作成およびホストできません。
ヒント

クラスタ・パフォーマンス・ベンチマーク

様々なユース・ケースについて、Meta Llama 4 Maverickクラスタのパフォーマンス・ベンチマークを確認します。

リリースおよび除・売却日

モデル リリース日 オンデマンド除・売却日 専用モード除・売却日
meta.llama-4-maverick-17b-128e-instruct-fp8 2025-05-14 最初の交換モデルのリリースから少なくとも1か月後。 最初の交換モデルのリリースから少なくとも6か月後。
重要

すべてのモデル時間明細および除・売却詳細のリストは、モデルの除・売却を参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。

温度

出力テキストの生成に使用されるランダム性のレベル。

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの正の10進数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

モデルがtop kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、よりランダムな出力が生成されるため、出力テキストのサウンドがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

頻度ペナルティ

トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスにできます。正の数はモデルに新しいトークンを使用することを促し、負の数はモデルがトークンを繰り返すことを促します。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスにできます。無効にするには、0に設定します。

シード

トークンを確定的にサンプリングするために最善を尽くすパラメータ。このパラメータに値が割り当てられている場合、大規模言語モデルでは、リクエストに同じシードおよびパラメータを割り当てるときに、繰返しリクエストに対して同じ結果を返すことを目的としています。

指定できる値は整数であり、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストに番号を付けてタグ付けすることと似ています。大規模言語モデルは、連続したリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がありません。コンソールでは、最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能が無効になります。

警告

OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータによって長時間実行で同じ結果が生成されない可能性があります。