Google Gemini 2.5 Flash (Beta)

重要

Pre-General Availability (一般提供前)版: 2025-08-29

Gemini 2.5 Flashモデル(google.gemini-2.5-flash)は、価格、パフォーマンス、および思考機能を含む幅広い機能のバランスを提供するマルチモーダル高速推論モデルです。Gemini 2.5 FlashモデルとGemini 2.5 Flash-Liteモデルはどちらも効率的なモデルです。Flash-Liteは、コストを削減し、大容量で複雑でないタスクのパフォーマンスを高速化するために最適化されています。Gemini 2.5 Flashは、より複雑なアプリケーションのための速度と知性のバランスを提供します。

このリージョンで使用可能

  • 米国東部(アッシュバーン) (オンデマンドのみ)
重要

外部コール

OCI生成AIサービスを介してアクセスできるGoogle Gemini 2.5モデルは、Googleによって外部でホストされます。したがって、Google Geminiモデルへのコール(OCI生成AIサービスを使用)では、Googleの場所へのコールが実行されます。

主な機能

  • OCI生成AIのモデル名: google.gemini-2.5-flash
  • オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
  • マルチモーダル・サポート:テキスト、コードおよびイメージを入力し、テキスト出力を取得します。オーディオ、ビデオ、ドキュメント・ファイルなどのファイル入力はサポートされていません。イメージ入力のタイプとサイズについては、制限を参照してください。
  • ナレッジ:科学、数学、コードに関する深いドメイン知識を持っています。
  • コンテキストの長さ: 100万個のトークン
  • 最大入力トークン: 1,048,576 (コンソールおよびAPI)
  • 最大出力トークン: 65,536 (デフォルト) (コンソールおよびAPI)
  • これらのユースケースでのエクセル:強力な推論能力を備えた高速でコスト効率の高いモデルを必要とする汎用的な日常業務用。たとえば、高速でインテリジェントなレスポンスが必要なほとんどのユーザー向けアプリケーションなどです。
  • 推論あり:はい。テキストおよび視覚的推論とイメージの理解が含まれます。理由の問題により、最大出力トークンが増加します。モデル・パラメータを参照してください。
  • ナレッジ・カットオフ: 2025年1月

OCI GenerativeのGoogle Vertex AI Platform (ベータ)でサポートされている機能については、次の表を参照してください。各機能へのリンクがあります。

サポートされているGemini 2.5 Proの機能
機能 サポートされますか。
コード実行 はい
チューニング いいえ
システムの説明 はい
構造化出力 はい
バッチの予測 いいえ
関数呼び出し はい
棚卸トークン いいえ
思考 はい。ただし、思考プロセスをオフにすることはサポートされていません。
コンテキスト・キャッシュ はい、モデルは入力トークンをキャッシュできますが、この機能はAPIを介して制御されません。
Vertex AI RAGエンジン いいえ
チャット完了 はい
接地 いいえ

主な機能の詳細は、Google Gemini 2.5 FlashのドキュメントおよびGemini 2.5 Flashモデル・カードを参照してください。

制限

複雑なプロンプト
Gemini 2.5 Flash (Beta)モデルでは、原因の理解、複雑な論理的編集および逆事実的推論に関する制限が示される場合があります。複雑なタスクについては、Google Gemini 2.5 Pro (ベータ)モデルを使用することをお薦めします。
イメージ入力
  • コンソール: 1つ以上の.pngまたは.jpgイメージを5MB以下でアップロードします。
  • API: base64エンコード・バージョンのイメージを送信します。たとえば、512 x 512イメージは通常、約1,610トークンに変換されます。サポートされているMIMEタイプは、image/pngimage/jpegおよびimage/webpです。
    • プロンプトごとの最大イメージ数: 3,000
    • エンコーディング前のイメージの最大サイズ: 7 MB

オンデマンドモード

生成AIの事前トレーニング済基本モデルには、オンデマンド専用の2つのモードを介してアクセスできます。オンデマンド・モードの主な機能は次のとおりです。
  • プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。

  • 生成AIの使用を開始するための障壁が低くなります。
  • 実験、概念実証、およびモデルの評価に最適です。
  • としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
ヒント

オンデマンド・モードで生成AIモデルへの確実なアクセスを確保するには、拒否後にリクエストを遅延させるバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。

ノート

Geminiモデルは、オンデマンド・モードでのみ使用できます。
モデル名 OCIモデル名 アクセス取得
Gemini 2.5 Flash (Beta) google.gemini-2.5-flash Contact Oracle Beta Programs

リリース日

モデル ベータ・リリース日 オンデマンド処分日 専用モード除・売却日
google.gemini-2.5-flash 2025-08-29 このモデルは専用モードには使用できません。
重要

OCI生成AIモデルの廃止および廃止について学習するには、モデルの廃止を参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。

最大出力トークン

レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに128,000トークンです。

ヒント

困難な大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。
温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。
上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率にpに0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

top kの最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。Gemini 2.5モデルでは、上位kの固定値は64です。これは、モデルが世代ごとに64の最も可能性の高いトークン(単語または単語の部分)のみを考慮することを意味します。最後のトークンがこのリストから選択されます。

世代数(APIのみ)

APIのnumGenerationsパラメータは、プロンプトごとにモデルが生成する様々なレスポンス・オプションの数を制御します。

  • プロンプトを送信すると、Geminiモデルによって可能な回答のセットが生成されます。デフォルトでは、最も高い確率(numGenerations = 1)のレスポンスのみが返されます。
  • numGenerationsパラメータを2から8までの数値に増やすと、モデルで2から8の個別レスポンスを生成できます。