Meta Llama 3.2 90B Vision

meta.llama-3.2-90b-vision-instructモデルは、テキストおよびイメージの理解機能を提供し、オンデマンド推論および専用ホスティングに使用できます。

このモデルのリージョン

重要

このモデルのサポートされているリージョン、エンドポイント・タイプ(オンデマンドまたは専用AIクラスタ)およびホスティング(OCI生成AIまたは外部コール)については、リージョン別モデル・ページを参照してください。リージョンの詳細は、生成AIリージョンのページを参照してください。

このモデルへのアクセス

コンソール、APIおよびCLIを使用してこのモデルにアクセスします:

ノート

サポートされているすべての商用リージョン、ソブリン・リージョンおよび政府リージョンのAPIエンドポイントは、管理APIおよび推論APIリンクにリストされています。各モデルには、そのサポートされているリージョンを介してのみアクセスできます。

主な機能

主な特徴

マルチモーダル・サポート:テキストおよびイメージを入力し、テキスト出力を取得します。
モデル・サイズ:モデルには900億のパラメータがあります。
コンテキスト長: 128,000トークン(最大プロンプト+レスポンス長: 実行ごとに128,000トークン)
多言語サポート:英語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、タイ語

マルチモーダルサポートによる新しいビジョン機能について

イメージを送信し、イメージに関する質問をして、次のようなテキスト出力を取得します。

高度な画像キャプション
イメージの詳細な説明。
イメージに関する質問への回答。
イメージ内のチャートおよびグラフに関する情報。

詳細

前のLlama 3.1 70Bモデルのテキストベースの機能が含まれます。
プレイグラウンドで次のイメージおよびテキストを追加するには、チャットをクリアして、前の会話のコンテキストを失う原因となるチャットをクリアする必要があります。
オンデマンド推論の場合、レスポンスの長さは実行ごとに4,000トークンに制限されます。
専用モードの場合、レスポンスの長さは制限されず、コンテキストの長さは128,000トークンです。
イメージとテキストのオプションでサポートされている言語は英語のみです。
テキストのみのオプションでサポートされる多言語オプション。
コンソールで、5MB以下の.pngまたは.jpgイメージを入力します。
APIの場合は、各実行でbase64エンコード・イメージを入力します。512 x 512イメージは約1,610トークンに変換されます。

オンデマンドモード

価格設定ページのこのモデルのオンデマンド製品名については、次の表を参照してください。


モデル名	OCIモデル名	価格設定ページ製品名
Meta Llama 3.2 90B Vision	`meta.llama-3.2-90b-vision-instruct`	Large Meta

オンデマンドと専用の2つのモードを使用して、生成AIで事前にトレーニングされた基本モデルにアクセスできます。オンデマンド・モードの主な機能は次のとおりです。

プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。
生成AIの使用を開始するための障壁が低くなります。
実験、概念実証、モデル評価に最適です。
リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。

重要

オンデマンド・モードの動的スロットル制限の変更

OCI Generative AIは、モデル需要とシステム容量に基づいてアクティブ・テナンシのリクエスト・スロットル制限を動的に調整して、リソース割当てを最適化し、公平なアクセスを確保します。

この変更は、次の要因によって異なります。

ターゲット・モデルでサポートされている現在の最大スループット。
変更時点で未使用のシステム容量。
各テナンシの履歴スループットの使用量と、そのテナンシに設定された指定されたオーバーライド制限。

ノート: 動的スロットルのため、レート制限は文書化されず、システム全体の需要を満たすように変更できます。

ヒント

スロットル制限の動的変更のため、拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。

モデルの専用AIクラスタ

オンデマンド・モードのモデルの場合、クラスタは必要ありません。コンソール・プレイグラウンドおよびAPIからアクセスします。専用モードで使用可能なモデルの場合は、専用AIクラスタで作成されたエンドポイントを使用します。専用モードについて学習します。

リストされているリージョン内の専用AIクラスタを介してモデルに到達するには、専用AIクラスタ上でそのモデルのエンドポイントを作成する必要があります。このモデルに一致するクラスタユニットサイズについては、次の表を参照してください。


ベース・モデル	クラスタのファインチューニング	ホスト・クラスタ	価格設定ページ情報	クラスタ制限の引上げのリクエスト
モデル名: Meta Llama 3.2 90B Vision OCIモデル名: `meta.llama-3.2-90b-vision-instruct`	ファインチューニングに使用できません	単位サイズ: Large Generic V2 必須単位: 1	価格設定ページ製品名: Large Meta - Dedicated ホスティングの場合は、単価を乗算します: x2	制限名: `dedicated-unit-llama2-70-count` ホスティングの場合、リクエスト制限の引上げ単位: 2

ヒント

専用AIクラスタでMeta Llama 3.2 90B Vision モデルをホストするための十分なクラスタ制限がテナンシにない場合は、制限dedicated-unit-llama2-70-countを2増やすようにリクエストします。

クラスタのエンドポイント・ルール

専用AIクラスタには、最大50のエンドポイントを保持できます。
これらのエンドポイントを使用して、同じベース・モデルまたは同じバージョンのカスタム・モデルのいずれかを指し示すが、両方の型を指さない別名を作成します。
同じモデルの複数のエンドポイントにより、それらを異なるユーザーまたは目的に簡単に割り当てることができます。


ホスト・クラスタ・ユニット・サイズ	エンドポイント・ルール
Large Generic V2	ベース・モデル: 複数のエンドポイントで ⁇ `meta.llama-3.2-90b-vision-instruct`⁇modelを実行するには、必要な数のエンドポイントをLarge Generic V2クラスタ(単位サイズ)に作成します。カスタム・モデル: `meta.llama-3.2-90b-vision-instruct`を微調整できないため、そのベースから構築されたカスタム・モデルを作成およびホストできません。

ヒント

ホスティング・クラスタでサポートされているコール・ボリュームを増やすには、専用AIクラスタを編集してインスタンス数を増やします。専用AIクラスタの更新を参照してください。
クラスタ当たり50を超えるエンドポイントの場合は、制限endpoint-per-dedicated-unit-countの引上げをリクエストします。サービス制限の引上げのリクエストおよび生成AIのサービス制限を参照してください。

クラスタ・パフォーマンス・ベンチマーク

様々なユース・ケースのMeta Llama 3.2 90B Visionクラスタ・パフォーマンス・ベンチマークを確認します。

OCIのリリース日および除・売却日

リリース日およびリタイア日および置換モデル・オプションについては、モード(オンデマンドまたは専用)に基づいて次のページを参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

各レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。

温度

出力テキストの生成に使用されるランダム性のレベル。

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。

上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

モデルがtop kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。kの値が大きいほど、よりランダムな出力が生成されるため、出力テキストのサウンドがより自然になります。kのデフォルト値は、Cohere Commandモデルの場合は0、Meta Llamaモデルの場合は-1です。これは、モデルがすべてのトークンを考慮し、このメソッドを使用しないことを意味します。

頻度ペナルティ

トークンが頻繁に表示される場合に、そのトークンに割り当てられるペナルティ。高いペナルティにより、繰り返されるトークンが少なくなり、よりランダムな出力が生成されます。

Meta Llamaファミリ・モデルでは、このペナルティはプラスまたはマイナスにできます。正の数はモデルに新しいトークンを使用することを促し、負の数はモデルがトークンを繰り返すことを促します。無効にするには、0に設定します。

プレゼンス・ペナルティ

出力に表示されている各トークンにペナルティが割り当てられ、使用されていないトークンを使用した出力の生成を促します。

シード

トークンを確定的にサンプリングするために最善を尽くすパラメータ。このパラメータに値が割り当てられている場合、大規模言語モデルでは、リクエストに同じシードおよびパラメータを割り当てるときに、繰返しリクエストに対して同じ結果を返すことを目的としています。

指定できる値は整数であり、大きいシード値または小さいシード値を割り当てても結果には影響しません。シード・パラメータに番号を割り当てることは、リクエストに番号を付けてタグ付けすることと似ています。大規模言語モデルは、連続したリクエストで同じ整数に対して同じトークンのセットを生成することを目的としています。この機能は、デバッグおよびテストに特に役立ちます。シード・パラメータにはAPIの最大値がありません。コンソールでは、最大値は9999です。コンソールでシード値を空白のままにするか、APIでnullのままにすると、この機能が無効になります。

警告

OCI生成AIサービスのモデル更新によってシードが無効になる可能性があるため、シード・パラメータによって長時間実行で同じ結果が生成されない可能性があります。

Oracle Cloud Infrastructureドキュメント

Meta Llama 3.2 90B Vision

このモデルのリージョン

このモデルへのアクセス

主な機能

オンデマンドモード

モデルの専用AIクラスタ

クラスタのエンドポイント・ルール

クラスタ・パフォーマンス・ベンチマーク

OCIのリリース日および除・売却日

モデル・パラメータ