Google Gemini 2.5 Flash
Gemini 2.5 Flashモデル(google.gemini-2.5-flash
)は、価格、パフォーマンス、および思考機能を含む幅広い機能のバランスを提供するマルチモーダル高速推論モデルです。Gemini 2.5 FlashモデルとGemini 2.5 Flash-Liteモデルはどちらも効率的なモデルです。Flash-Liteは、コストを削減し、大容量で複雑でないタスクのパフォーマンスを高速化するために最適化されています。Gemini 2.5 Flashは、より複雑なアプリケーションのための速度と知性のバランスを提供します。
このリージョンで使用可能
- 米国東部(アッシュバーン)(Oracle Interconnect for Google Cloudのみ)および(オンデマンドのみ)
- 米国中西部(シカゴ) (オンデマンドのみ)
- 米国西部(フェニックス) (オンデマンドのみ)
外部コール
OCI生成AIサービスを介してアクセスできるGoogle Gemini 2.5モデルは、Googleによって外部でホストされます。したがって、Google Geminiモデルへのコール(OCI生成AIサービスを使用)では、Googleの場所へのコールが実行されます。
主な機能
- OCI生成AIのモデル名:
google.gemini-2.5-flash
- オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
- マルチモーダル・サポート:テキスト、コードおよびイメージを入力し、テキスト出力を取得します。オーディオおよびビデオ・ファイルの入力は、APIを介してのみサポートされます。Image Understanding、Audio Understanding、および Video Understandingを参照してください。
- ナレッジ:科学、数学、コードに関する深いドメイン知識を持っています。
- コンテキストの長さ: 100万個のトークン
- 最大入力トークン: 1,048,576 (コンソールおよびAPI)
- 最大出力トークン: 65,536 (デフォルト) (コンソールおよびAPI)
- これらのユースケースでのエクセル:強力な推論能力を備えた高速でコスト効率の高いモデルを必要とする汎用的な日常業務用。たとえば、高速でインテリジェントなレスポンスが必要なほとんどのユーザー向けアプリケーションなどです。
- 推論あり:はい。テキストおよび視覚的推論とイメージの理解が含まれます。理由の問題により、最大出力トークンが増加します。モデル・パラメータを参照してください。
- ナレッジ・カットオフ: 2025年1月
各機能へのリンクを含む、Google Vertex AI Platform for OCI Generativeでサポートされている機能については、次の表を参照してください。
機能 | サポートされますか。 |
---|---|
コード実行 | はい |
チューニング | いいえ |
システムの説明 | はい |
構造化出力 | はい |
バッチの予測 | いいえ |
関数呼び出し | はい |
棚卸トークン | いいえ |
思考 | はい。ただし、思考プロセスをオフにすることはサポートされていません。 |
コンテキスト・キャッシュ | はい、モデルは入力トークンをキャッシュできますが、この機能はAPIを介して制御されません。 |
Vertex AI RAGエンジン | いいえ |
チャット完了 | はい |
接地 | いいえ |
主な機能の詳細は、Google Gemini 2.5 FlashのドキュメントおよびGemini 2.5 Flashモデル・カードを参照してください。
イメージの理解
- イメージ・サイズ
-
- コンソール:最大イメージ・サイズ: 5MB
- API:プロンプトごとの最大イメージ数: 3,000およびエンコーディング前の最大イメージ・サイズ: 7MB
- サポートされるイメージ入力
-
- コンソール:
png
およびjpeg
形式 - API: チャット操作で、
base64
エンコード・バージョンのイメージを送信します。たとえば、512 x 512イメージは通常、約1,610トークンに変換されます。サポートされているMIMEタイプは、image/png
、image/jpeg
、image/webp
、image/heic
およびimage/heif
です。形式については、ImageContentリファレンスを参照してください。
- コンソール:
- 技術的な詳細
- オブジェクト検出およびセグメンテーションをサポートします。Gemini APIドキュメントのイメージの理解を参照してください。
音声理解
- サポートされているオーディオ形式
-
- コンソール:使用できません
- API:サポートされているメディア・ファイルは、
audio/wav
、audio/mp3
、audio/aiff
、audio/aac
、audio/ogg
およびaudio/flac
です。
- APIでサポートされているオーディオ入力
-
- URL:サポートされているオーディオ・フォーマットを、
base64
エンコードされたバージョンのオーディオ・ファイルに変換します。 - URI: ファイルをアップロードせずに、モデルがオーディオにアクセスできるように、Uniform Resource Identifier (URI)形式でオーディオを送信します。
- URL:サポートされているオーディオ・フォーマットを、
- 技術的な詳細
-
- トークン変換オーディオの各秒は32個のトークンを表すため、オーディオの1分は1,920個のトークンに対応します。
- 非音声検出:モデルは、バード・ソングやサイレンなどの非音声コンポーネントを認識できます。
- 最大長: 1つのプロンプトでサポートされている最大オーディオ長は9.5⁇ 時間です。9.5 ⁇ 時間未満でファイルを結合している限り、複数のファイルを送信できます。
- Downsampling:モデルは、オーディオファイルを16Kビット/秒解像度までダウンサンプルします。
- チャネル・マージ:オーディオ・ソースに複数のチャネルがある場合、モデルはそれらを1つのチャネルにマージします。
Gemini APIドキュメントのオーディオ理解を参照してください。
ビデオ理解
- サポートされているオーディオ形式
-
- コンソール:使用できません
- API:サポートされているメディア・ファイルは、
video/mp4
、video/mpeg
、video/mov
、video/avi
、video/x-flv
、video/mpg
、video/webm
、video/wmv
およびvideo/3gpp
です。
- APIでサポートされているビデオ入力
-
- URL:サポートされているビデオ・フォーマットを、
base64
エンコードされたバージョンのビデオ・ファイルに変換します。 - URI: Uniform Resource Identifier (URI)形式でビデオを送信し、ファイルをアップロードせずに、モデルがビデオにアクセスできます。
- URL:サポートされているビデオ・フォーマットを、
- 技術的な詳細
-
Gemini APIドキュメントのビデオ理解を参照してください。
制限事項
- 複雑なプロンプト
- Gemini 2.5 Flashモデルでは、原因の理解、複雑な論理的編集および逆事実的推論に関する制限が示される場合があります。複雑なタスクについては、Google Gemini 2.5 Proモデルを使用することをお薦めします。
オンデマンドモード
Geminiモデルは、オンデマンド・モードでのみ使用できます。
モデル名 | OCIモデル名 | 価格設定ページ製品名 |
---|---|---|
Gemini 2.5 Flash | google.gemini-2.5-flash |
Gemini 2.5 Flash |
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、モデル評価に最適です。
- としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
拒否後のリクエストの遅延を伴うバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。
リリース日
モデル | リリース日 | オンデマンド処分日 | 専用モード除・売却日 |
---|---|---|---|
google.gemini-2.5-flash |
2025-10-01 | 仮 | このモデルは専用モードには使用できません。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。最大プロンプト+出力長は、実行ごとに128,000トークンです。
ヒント
困難な大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。 - 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に
p
に0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、p
を1に設定します。 - 上位k
-
top k
の最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。Gemini 2.5モデルでは、上位kの固定値は64です。これは、モデルが世代ごとに64の最も可能性の高いトークン(単語または単語の部分)のみを考慮することを意味します。最後のトークンがこのリストから選択されます。 - 世代数(APIのみ)
-
APIの
numGenerations
パラメータは、プロンプトごとにモデルが生成する様々なレスポンス・オプションの数を制御します。- プロンプトを送信すると、Geminiモデルによって可能な回答のセットが生成されます。デフォルトでは、最も高い確率(
numGenerations = 1
)のレスポンスのみが返されます。 numGenerations
パラメータを2から8までの数値に増やすと、モデルで2から8の個別レスポンスを生成できます。
- プロンプトを送信すると、Geminiモデルによって可能な回答のセットが生成されます。デフォルトでは、最も高い確率(