Meta Llama 3.1 (70B)

meta.llama-3.1-70b-instructモデルは、オンデマンド推論、専用ホスティングおよびファインチューニングに使用でき、コンテンツ作成、会話型AIおよびエンタープライズ・アプリケーションに最適です。その主な強みは次のとおりです。

  • 高精度なテキストの要約、改行、分類
  • センチメント分析と言語モデリング機能
  • 効果的な対話システム
  • コードの生成

これらのリージョンで使用可能

  • ブラジル東部(サンパウロ)
  • ドイツ中央部(フランクフルト)
  • 日本中央部(大阪)
  • 英国南部(ロンドン)
  • 米国中西部(シカゴ)

主な機能

  • モデル・サイズ: 700億のパラメータ
  • コンテキスト長: 128,000個のトークン(Meta Llama 3モデルから16倍増加)。(最大プロンプト+レスポンス長: 実行ごとに128,000トークン。)
  • 多言語サポート:英語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、タイ語
  • オンデマンド推論の場合、レスポンスの長さは、実行ごとに4,000トークンに制限されます。
  • 専用モードの場合、レスポンスの長さは制限されず、コンテキストの長さは128,000トークンです。
  • データセットを使用してこのモデルを微調整できます。

オンデマンドモード

このモデルは、リストされていないリージョン(専用AIクラスタのみ)でオンデマンドで使用できます。価格設定ページのこのモデルのオンデマンド製品名については、次の表を参照してください。

モデル名 OCIモデル名 価格設定ページ製品名
Meta Llama 3.1 (70B) meta.llama-3.1-70b-instruct Large Meta
生成AIの事前トレーニング済基本モデルには、オンデマンド専用の2つのモードを介してアクセスできます。オンデマンド・モードの主な機能は次のとおりです。
  • プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。

  • 生成AIの使用を開始するための障壁が低くなります。
  • 実験、概念実証、モデル評価に最適です。
  • としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
重要

オンデマンド・モードの動的スロットル制限調整

OCI生成AIは、モデル需要とシステム容量に基づいてアクティブなテナンシごとにリクエスト・スロットル制限を動的に調整し、リソース割当てを最適化して公平なアクセスを確保します。

この調整は、次の要因によって異なります。

  • ターゲット・モデルでサポートされている現在の最大スループット。
  • 調整時の未使用のシステム容量。
  • 各テナンシの履歴スループットの使用状況と、そのテナンシに設定された指定されたオーバーライド制限。

ノート: 動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。

ヒント

動的スロットル制限調整のため、拒否後のリクエストの遅延を伴うバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。

モデルの専用AIクラスタ

リストされた任意のリージョンの専用AIクラスタを介してモデルに到達するには、専用AIクラスタにそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。

ベース・モデル ファインチューニング・クラスタ ホスティング・クラスタ 価格設定ページ情報 クラスタ制限の引上げをリクエスト
  • モデル名: Meta Llama 3.1 (70B)
  • OCIモデル名: meta.llama-3.1-70b-instruct
  • 単位サイズ: Large Generic
  • 必須単位: 2
  • 単位サイズ: Large Generic
  • 必須単位: 1
  • 価格設定ページの製品名: Large Meta - Dedicated
  • ホスティングの場合、単価を乗算します。 x2
  • ファインチューニングの場合、単価を乗算します。 x4
  • 制限名: dedicated-unit-llama2-70-count
  • ホスティングの場合、リクエスト制限の引上げ単位: 2
  • ファインチューニングの場合、リクエスト制限の引上げ単位: 4
ヒント

  • 専用AIクラスタでMeta Llama 3.1 (70B)モデルをホストするための十分なクラスタ制限がテナンシにない場合は、dedicated-unit-llama2-70-count制限を2増やすようにリクエストします。

  • ファインチューニングの場合、dedicated-unit-llama2-70-count制限を4増やすようにリクエストします。

クラスタのエンドポイント・ルール

  • 専用AIクラスタは、最大50個のエンドポイントを保持できます。
  • これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示す別名を作成しますが、両方のタイプは作成しません。
  • 同じモデルの複数のエンドポイントにより、異なるユーザーまたは目的に簡単に割り当てることができます。
ホスト・クラスタ・ユニット・サイズ エンドポイント・ルール
Large Generic
  • ベース・モデル: 複数のエンドポイントでmeta.llama-3.1-70b-instruct⁇ モデルを実行するには、Large Genericクラスタで必要な数のエンドポイントを作成します(単位サイズ)。
  • カスタム・モデル: meta.llama-3.1-70b-instructの上に構築されたカスタム・モデルにも同じことが当てはまります。Large Generic (ユニット・サイズ)クラスタで必要な数のエンドポイントを作成します。
ヒント

クラスタ・パフォーマンス・ベンチマーク

様々なユースケースについて、Meta Llama 3.1 (70B)クラスタのパフォーマンス・ベンチマークを確認します。

リリース日と除・売却日

モデル リリース日 オンデマンド処分日 専用モード除・売却日
meta.llama-3.1-70b-instruct 2024-09-19 2,025-7-10 2,025-8-7
重要

すべてのモデル・タイム・ラインおよびリタイア詳細のリストは、モデルのリタイアを参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。

温度

出力テキストの生成に使用されるランダム性のレベル。

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

top kの最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、ランダムな出力が生成され、出力テキストがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

頻度ペナルティ

トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスになります。正の数は、モデルが新しいトークンを使用することを推奨し、負の数はモデルがトークンを繰り返すことを推奨します。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。

シード

トークンを確定的にサンプリングする最善の努力をするパラメータ。このパラメータに値が割り当てられると、大規模言語モデルは、リクエストに同じシードとパラメータを割り当てたときに、繰返しリクエストに対して同じ結果を返すことを目的としています。

許可される値は整数で、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストを番号でタグ付けすることと似ています。大規模言語モデルは、連続するリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がなく、コンソールでは最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能は無効になります。

警告

OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータで長時間実行しても同じ結果が生成されない場合があります。