Meta Llama 3.3 (70B)
meta.llama-3.3-70b-instructモデルは、オンデマンド推論、専用ホスティングおよびファインチューニングに使用でき、テキスト・タスクの場合、Llama 3.1 70BおよびLlama 3.2 90Bよりも優れたパフォーマンスを提供します。
このモデルのリージョン
このモデルへのアクセス
主な機能
- モデルには700億のパラメータがあります。
- テキストのみの入力を受け入れ、テキストのみの出力を生成します。
- Llama 3.1 70Bと同じプロンプト形式を使用します。
- Llama 3.1 70Bと同じコード・インタプリタをサポートし、128,000トークン・コンテキスト長を保持します。(最大プロンプト+レスポンス長: 実行ごとに128,000トークン)
- Llama 3.1 70Bの先行と比較して、推論、コーディング、数学、および命令フォローの改善で応答します。Llama 3.3 model cardを参照してください。
- オンデマンド推論、専用ホスティング、ファインチューニングが可能です。
- オンデマンド推論の場合、レスポンスの長さは実行ごとに4,000トークンに制限されます。
- 専用モードの場合、レスポンスの長さは制限されず、コンテキストの長さは128,000トークンです。
Meta Llama 3.3バリアント
Meta Llama 3.3 (70B)モデルは、標準のmeta.llama-3.3-70b-instructと最適化されたmeta.llama-3.3-70b-instruct-fp8-dynamic (動的FP8バージョン)の2つのバリアントで提供されます。いくつかの地域を除いて、両方の変異体は同じ地域で提供されます。可用性は、リージョンおよびモード(オンデマンドまたは専用AIクラスタ)によって異なります。完全なリストおよび完全な詳細は、リージョン別モデルを参照してください。
- 標準バリアント:
meta.llama-3.3-70b-instruct -
- パフォーマンス:フル精度のパフォーマンスを提供します。
- ファインチューニング:商用(OC1)リージョンのデータセットを使用して、このモデルをファインチューニングできます。OC19リージョンのOC4のモデルでは、ファイン・チューニングはサポートされていません。
- 使用するタイミング:複雑な推論、コンテンツ生成、ファインチューニングが必要なユースケースなど、高精度を必要とする汎用タスクに最適です。
- 動的FP8バリアント:
meta.llama-3.3-70b-instruct-fp8-dynamic -
- パフォーマンス: FP8 (8ビット浮動小数点)を使用します。これは、推論を高速化するために8ビットを使用して浮動小数点数を表す、精度の低い数値形式です。FP16などの16ビット形式と比較して、FP8はメモリー帯域幅の要件を半分にし、計算スループットを向上させ、GPU消費電力を削減できます。
- 効率性:効率性のために最適化されているこのバリアントは、多くのタスクの精度損失を最小限に抑えながら、より迅速な推論を提供します。
- ファインチューニング:使用できません。
- 使用するタイミング:このバリアントは、リアルタイム・アプリケーション、大規模サービング、コスト最適化推論など、高速性と効率が微調整や最大精度よりも重要である場合に、大規模でレイテンシの影響を受けやすいシナリオに選択します。このバリアントは、カスタマイズではなくスループットに重点を置いた本番環境に最適です。
APIリクエストの場合は、常に正確なモデルIDを指定します。
オンデマンドモード
価格設定ページのこのモデルのオンデマンド製品名については、次の表を参照してください。
| モデル名 | OCIモデル名 | 価格設定ページ製品名 |
|---|---|---|
| Meta Llama 3.3 (70B) (標準) | meta.llama-3.3-70b-instruct |
Large Meta |
| Meta Llama 3.3 (70B) (動的FP8) | meta.llama-3.3-70b-instruct-fp8-dynamic |
Large Meta |
オンデマンド・モードについて学習します。
モデルの専用AIクラスタ
オンデマンド・モードのモデルの場合、クラスタは必要ありません。コンソール・プレイグラウンドおよびAPIからアクセスします。専用モードで使用可能なモデルの場合は、専用AIクラスタで作成されたエンドポイントを使用します。専用モードについて学習します。
次の表に、専用AIクラスタのハードウェア・ユニット・サイズおよびサービス制限を示します。
| ベース・モデル | クラスタのファインチューニング | ホスト・クラスタ | 価格設定ページ情報 | クラスタ制限の引上げのリクエスト |
|---|---|---|---|---|
|
|
|
|
|
|
ファインチューニングに使用できません |
UAE East (Dubai):の場合
他の利用可能な地域:
|
|
|
クラスタのエンドポイント・ルール
- 専用AIクラスタには、最大50のエンドポイントを保持できます。
- これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示すが、両方の型を指さない別名を作成します。
- 同じモデルの複数のエンドポイントにより、それらを異なるユーザーまたは目的に簡単に割り当てることができます。
| ホスト・クラスタ・ユニット・サイズ | エンドポイント・ルール |
|---|---|
Large Generic(meta.llama-3.3-70b-instructの場合) |
|
Large Generic(meta.llama-3.3-70b-instruct-fp8-dynamicの場合) |
|
LARGE_GENERIC_V1: meta.llama-3.3-70b-instruct-fp8-dynamicの場合(UAE East (Dubai)のみ) |
|
-
ホスティング・クラスタでサポートされているコール・ボリュームを増やすには、専用AIクラスタを編集してインスタンス数を増やします。専用AIクラスタの更新を参照してください。
-
クラスタ当たり50を超えるエンドポイントの場合は、制限
endpoint-per-dedicated-unit-countの引上げをリクエストします。サービス制限の引上げのリクエストおよび生成AIのサービス制限を参照してください。
クラスタ・パフォーマンス・ベンチマーク
様々なユース・ケースについて、Meta Llama 3.3 (70B)クラスタのパフォーマンス・ベンチマークを確認します。
OCIのリリース日および除・売却日
リリース日およびリタイア日および置換モデル・オプションについては、モード(オンデマンドまたは専用)に基づいて次のページを参照してください。
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。
- 温度
-
出力テキストの生成に使用されるランダム性のレベル。
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、
pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。 - 上位k
-
モデルが
top kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、よりランダムな出力が生成されるため、出力テキストのサウンドがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。 - 頻度ペナルティ
-
トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。
Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスにできます。正の数はモデルに新しいトークンを使用することを促し、負の数はモデルがトークンを繰り返すことを促します。無効にするには、0に設定します。
- プレゼンス・ペナルティ
-
出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。
- シード
-
トークンを確定的にサンプリングするために最善を尽くすパラメータ。このパラメータに値が割り当てられている場合、大規模言語モデルでは、リクエストに同じシードおよびパラメータを割り当てるときに、繰返しリクエストに対して同じ結果を返すことを目的としています。
指定できる値は整数であり、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストに番号を付けてタグ付けすることと似ています。大規模言語モデルは、連続したリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がありません。コンソールでは、最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能が無効になります。
警告
OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータによって長時間実行で同じ結果が生成されない可能性があります。