Meta Llama 3 (70B)
meta.llama-3-70b-instructモデルはリタイアされます。
リタイア済モデルについて
- オンデマンド・モードの除・売却
- 
モデルがオンデマンド・モードで廃止されると、生成AIサービス・プレイグラウンドまたは生成AI推論APIでモデルを使用できなくなります。 
- 専用モードの除・売却
- 
モデルが専用モードでリタイアされると、リタイアされたモデルの専用AIクラスタは作成できなくなりますが、リタイアされたモデルを実行しているアクティブな専用AIクラスタは引き続き実行されます。廃止されたモデルから実行されているカスタム・モデルは、アクティブな専用AIクラスタでも引き続き使用でき、廃止されたモデルで作成されたカスタム・モデルを使用して、新しい専用AIクラスタを引き続き作成できます。ただし、Oracleではこれらのシナリオのサポートが制限されており、Oracleエンジニアリングでは、モデルに関連する問題を解決するために、サポートされているモデルにアップグレードするよう求められる場合があります。 専用モードでモデルが退職日より長く存続するようにリクエストするには、サポート・チケットを作成します。 
これらのリージョンで使用可能
専用AIクラスタでこのモデルを実行している場合、このモデルは次のいずれかのリージョンにあります。
- ブラジル東部(サンパウロ)
- ドイツ中央部(フランクフルト)
- 英国南部(ロンドン)
- 米国中西部(シカゴ)
このモデルへのアクセス
主な機能
- モデル・サイズ: 700億のパラメータ
- コンテキスト長: 8,000トークン(最大プロンプト+レスポンス長: 実行ごとに8,000トークン)。
- ナレッジ:アイデアの生成からテキスト分析の改良、電子メール、ブログ投稿、説明などの書面によるコンテンツの作成まで、幅広い一般的な知識を持っています。
オンデマンドモード
cohere.embed-english-light-image-v3.0モデルはリタイアされるため、オンデマンド・モードでは使用できません。
モデルの専用AIクラスタ
リストされた任意のリージョンの専用AIクラスタを介してモデルに到達するには、専用AIクラスタにそのモデルのエンドポイントを作成する必要があります。このモデルの専用AIクラスタを作成した場合、クラスタに関する情報は次のとおりです。
| ベース・モデル | ファインチューニング・クラスタ | ホスティング・クラスタ | 価格設定ページ情報 | クラスタ制限の引上げをリクエスト | 
|---|---|---|---|---|
| 
 | 
 | 
 | 
 | 
 | 
クラスタのエンドポイント・ルール
- 専用AIクラスタは、最大50個のエンドポイントを保持できます。
- これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示す別名を作成しますが、両方のタイプは作成しません。
- 同じモデルの複数のエンドポイントにより、異なるユーザーまたは目的に簡単に割り当てることができます。
| ホスト・クラスタ・ユニット・サイズ | エンドポイント・ルール | 
|---|---|
| Large Generic | 
 | 
- 
ホスティング・クラスタでサポートされるコール・ボリュームを増やすには、専用AIクラスタを編集してインスタンス数を増やします。専用AIクラスタの更新を参照してください。 
- 
クラスタ当たり50を超えるエンドポイントの場合、制限 endpoint-per-dedicated-unit-countの引上げをリクエストします。サービス制限の引上げのリクエストおよび生成AIのサービス制限を参照してください。
クラスタ・パフォーマンス・ベンチマーク
様々なユースケースについて、Meta Llama 3 (70B)クラスタのパフォーマンス・ベンチマークを確認します。
リリース日と除・売却日
| モデル | リリース日 | オンデマンド処分日 | 専用モード除・売却日 | 
|---|---|---|---|
| meta.llama-3-70b-instruct | 2024-06-04 | 2,024-11-12 | 2,025-8-7 | 
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
- 
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。 
- 温度
- 
出力テキストの生成に使用されるランダム性のレベル。 ヒント
 温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。
- 上位p
- 
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に pに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。
- 上位k
- 
top kの最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、ランダムな出力が生成され、出力テキストがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。
- 頻度ペナルティ
- 
トークンが頻繁に表示される場合にトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。 Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスになります。正の数は、モデルが新しいトークンを使用することを推奨し、負の数はモデルがトークンを繰り返すことを推奨します。無効にするには、0に設定します。 
- プレゼンス・ペナルティ
- 
出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。 
- シード
- 
トークンを確定的にサンプリングする最善の努力をするパラメータ。このパラメータに値が割り当てられると、大規模言語モデルは、リクエストに同じシードとパラメータを割り当てたときに、繰返しリクエストに対して同じ結果を返すことを目的としています。 許可される値は整数で、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストを番号でタグ付けすることと似ています。大規模言語モデルは、連続するリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がなく、コンソールでは最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能は無効になります。 警告
 OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータで長時間実行しても同じ結果が生成されない場合があります。