Google Gemini 2.5 Pro

重要

Oracleの要件に適切に対応するため、このモデルへのアクセスは承認された顧客に限定されます。テナンシでこのモデルを有効にするには、Oracle担当者に連絡してください。

Gemini 2.5 Proモデル(google.gemini-2.5-pro)は、複雑な問題の解決に優れている推論的なマルチモーダルモデルであり、これまでのGeminiモデルで最も高度な推論です。このモデルは、Gemini 2.0シリーズよりも次のイテレーションとプリフォームが優れています。Gemini 2.5 Proモデルは、大規模なデータセットや、テキスト、画像、コードなどのさまざまなタイプの入力からの複雑な問題を理解するのに最適です。

このリージョンで使用可能

  • 米国東部(アッシュバーン)(Oracle Interconnect for Google Cloudのみ)および(オンデマンドのみ)
  • 米国中西部(シカゴ) (オンデマンドのみ)
  • 米国西部(フェニックス) (オンデマンドのみ)
重要

外部コール

OCI生成AIサービスを介してアクセスできるGoogle Gemini 2.5モデルは、Googleによって外部でホストされます。したがって、Google Geminiモデルへのコール(OCI生成AIサービスを使用)では、Googleの場所へのコールが実行されます。

主な機能

  • OCI生成AIのモデル名: google.gemini-2.5-pro
  • オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
  • マルチモーダル・サポート:テキスト、コードおよびイメージを入力し、テキスト出力を取得します。オーディオおよびビデオ・ファイルの入力は、APIを介してのみサポートされます。Image UnderstandingAudio Understanding、および Video Understandingを参照してください。
  • ナレッジ:科学、数学、コードに関する深いドメイン知識を持っています。
  • コンテキストの長さ: 100万個のトークン
  • 最大入力トークン: 1,048,576 (コンソールおよびAPI)
  • 最大出力トークン: 65,536 (デフォルト) (コンソールおよびAPI)
  • これらのユースケースでの抜粋:強力な詳細な思考、強化された推論、詳細な説明、および高度なコーディング、科学分析、複雑なコンテンツ抽出などの深い理解を必要とするアプリケーション。
  • 推論あり:はい。また、視覚的推論とイメージの理解にも強い。理由の問題により、最大出力トークンが増加します。モデル・パラメータを参照してください。
  • ナレッジ・カットオフ: 2025年1月

各機能へのリンクを含む、Google Vertex AI Platform for OCI Generativeでサポートされている機能については、次の表を参照してください。

サポートされているGemini 2.5 Proの機能
機能 サポートされますか。
コード実行 はい
チューニング いいえ
システムの説明 はい
構造化出力 はい
バッチの予測 いいえ
関数呼び出し はい
棚卸トークン いいえ
思考 はい。ただし、思考プロセスをオフにすることはサポートされていません。
コンテキスト・キャッシュ はい、モデルは入力トークンをキャッシュできますが、この機能はAPIを介して制御されません。
Vertex AI RAGエンジン いいえ
チャット完了 はい

主な機能の詳細は、Google Gemini 2.5 ProのドキュメントおよびGoogle Gemini 2.5 Proモデル・カードを参照してください。

イメージの理解

イメージ・サイズ
  • コンソール:最大イメージ・サイズ: 5MB
  • API:プロンプトごとの最大イメージ数: 3,000およびエンコーディング前の最大イメージ・サイズ: 7MB
サポートされるイメージ入力
  • コンソール: pngおよびjpeg形式
  • API: チャット操作で、base64エンコード・バージョンのイメージを送信します。たとえば、512 x 512イメージは通常、約1,610トークンに変換されます。サポートされているMIMEタイプは、image/pngimage/jpegimage/webpimage/heicおよびimage/heifです。形式については、ImageContentリファレンスを参照してください。
技術的な詳細
オブジェクト検出およびセグメンテーションをサポートします。Gemini APIドキュメントのイメージの理解を参照してください。

音声理解

サポートされているオーディオ形式
  • コンソール:使用できません
  • API:サポートされているメディア・ファイルは、audio/wavaudio/mp3audio/aiffaudio/aacaudio/oggおよびaudio/flacです。
APIでサポートされているオーディオ入力
  • URL:サポートされているオーディオ・フォーマットを、base64エンコードされたバージョンのオーディオ・ファイルに変換します。
  • URI: ファイルをアップロードせずに、モデルがオーディオにアクセスできるように、Uniform Resource Identifier (URI)形式でオーディオを送信します。

形式については、AudioContentリファレンスを参照してください。

技術的な詳細
  • トークン変換オーディオの各秒は32個のトークンを表すため、オーディオの1分は1,920個のトークンに対応します。
  • 非音声検出:モデルは、バード・ソングやサイレンなどの非音声コンポーネントを認識できます。
  • 最大長: 1つのプロンプトでサポートされている最大オーディオ長は9.5⁇ 時間です。9.5 ⁇ 時間未満でファイルを結合している限り、複数のファイルを送信できます。
  • Downsampling:モデルは、オーディオファイルを16Kビット/秒解像度までダウンサンプルします。
  • チャネル・マージ:オーディオ・ソースに複数のチャネルがある場合、モデルはそれらを1つのチャネルにマージします。

Gemini APIドキュメントのオーディオ理解を参照してください。

ビデオ理解

サポートされているオーディオ形式
  • コンソール:使用できません
  • API:サポートされているメディア・ファイルは、video/mp4video/mpegvideo/movvideo/avivideo/x-flvvideo/mpgvideo/webmvideo/wmvおよびvideo/3gppです。
APIでサポートされているビデオ入力
  • URL:サポートされているビデオ・フォーマットを、base64エンコードされたバージョンのビデオ・ファイルに変換します。
  • URI: Uniform Resource Identifier (URI)形式でビデオを送信し、ファイルをアップロードせずに、モデルがビデオにアクセスできます。

形式については、VideoContentリファレンスを参照してください。

技術的な詳細

Gemini APIドキュメントのビデオ理解を参照してください。

オンデマンドモード

ノート

Geminiモデルは、オンデマンド・モードでのみ使用できます。
モデル名 OCIモデル名 価格設定ページ製品名
Gemini 2.5 Pro google.gemini-2.5-pro Google - Gemini 2.5 Pro
生成AIの事前トレーニング済基本モデルには、オンデマンド専用の2つのモードを介してアクセスできます。 オンデマンド・モードの主な機能は次のとおりです。
  • プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。

  • 生成AIの使用を開始するための障壁が低くなります。
  • 実験、概念実証、モデル評価に最適です。
  • としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
ヒント

拒否後のリクエストの遅延を伴うバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。

リリース日

モデル リリース日 オンデマンド処分日 専用モード除・売却日
google.gemini-2.5-pro 2025-10-01 このモデルは専用モードには使用できません。
重要

OCI生成AIモデルの廃止および廃止について学習するには、モデルの廃止を参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに128,000トークンです。

ヒント

困難な大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。
温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

top kの最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。Gemini 2.5モデルでは、上位kの固定値は64です。これは、モデルが世代ごとに64の最も可能性の高いトークン(単語または単語の部分)のみを考慮することを意味します。最後のトークンがこのリストから選択されます。

世代数(APIのみ)

APIのnumGenerationsパラメータは、プロンプトごとにモデルが生成する様々なレスポンス・オプションの数を制御します。

  • プロンプトを送信すると、Geminiモデルによって可能な回答のセットが生成されます。デフォルトでは、最も高い確率(numGenerations = 1)のレスポンスのみが返されます。
  • numGenerationsパラメータを2から8までの数値に増やすと、モデルで2から8の個別レスポンスを生成できます。