Google Gemini 2.5 Flash
Gemini 2.5 Flashモデル(google.gemini-2.5-flash)は、価格、パフォーマンス、および思考機能を含む幅広い機能のバランスを提供するマルチモーダルな高速推論モデルです。Gemini 2.5 FlashおよびGemini 2.5 Flash-Liteモデルはどちらも効率的なモデルです。Flash-Liteは、より低コストで、より複雑な大量のタスクでより高速なパフォーマンスを実現するように最適化されています。Gemini 2.5 Flashは、より複雑なアプリケーションのための速度とインテリジェンスのバランスを提供します。
これらの米国リージョンで使用可能
- 米国東部(アッシュバーン)(Oracle Interconnect for Google Cloudのみ)および(オンデマンドのみ)
- 米国中西部(シカゴ)(オンデマンドのみ)
- 米国西部(フェニックス)(オンデマンドのみ)
外部コール
米国リージョンのOCI生成AIサービスを介してアクセスできるGemini 2.5 Flashモデルは、外部でGoogleによってホストされます。したがって、(OCI生成AIサービスを介して)Gemini 2.5 Flashモデルをコールすると、Googleロケーションがコールされます。Gemini 2.5 Flashでは、Google Americaasのリージョナル・ロケーションが使用され、リクエストはGoogle Americaasのロケーションにのみルーティングされます。機械学習処理は、Google Americasのロケーション内で行われます。
このEUリージョンで使用可能
- ドイツ中央部(フランクフルト)(Oracle Interconnect for Google Cloudのみ)および(オンデマンドのみ)
外部コール
フランクフルト・リージョンのOCI生成AIサービスを介してアクセスできるGemini 2.5 Flashモデルは、外部でGoogleによってホストされます。したがって、(OCI生成AIサービスを介して)Gemini 2.5 Flashモデルをコールすると、Googleロケーションがコールされます。Gemini 2.5 Flashには、Google欧州連合(EU)の地域ロケーションが使用され、リクエストはGoogle EUのロケーションにのみルーティングされます。機械学習処理は、Google EUの所在地内で行われます。
これらのアジア太平洋(AP)リージョンで利用可能
- 日本中央部(大阪)(オンデマンドのみ)
- インド南部(ハイデラバード)(オンデマンドのみ)
外部コール
大阪リージョンおよびハイデラバード・リージョンのOCI生成AIサービスを介してアクセスできるGemini 2.5 Flashモデルは、Googleによって外部でホストされます。したがって、(OCI生成AIサービスを介して)Gemini 2.5 Flashモデルをコールすると、Googleロケーションがコールされます。Gemini 2.5 Flashには、Googleアジア太平洋地域の場所が使用され、リクエストはGoogleアジア太平洋地域の場所にのみルーティングされます。機械学習処理は、世界中のあらゆるGoogleの場所で行われます。
主な機能
- OCI生成AIのモデル名:
google.gemini-2.5-flash - 使用可能なオンデマンド:コンソール・プレイグラウンドまたはAPIを介して、このモデルにオンデマンドでアクセスします。
- マルチモーダル・サポート:テキスト、コードおよびイメージを入力し、テキスト出力を取得します。ドキュメント、オーディオおよびビデオ・ファイルの入力は、APIでのみサポートされます。Document Understanding、Image Understanding、Audio Understanding、および Video Understandingを参照してください。
- 知識:科学、数学およびコードに関する深い知識があります。
- コンテキストの長さ: 100万のトークン
- 最大入力トークン: 1,048,576 (コンソールおよびAPI)
- 最大出力トークン: 65,536 (デフォルト) (コンソールおよびAPI)
- これらのユースケースにおけるエクセル:強力な推論能力を備えた高速でコスト効率の高いモデルを必要とする、汎用的な日常業務の場合。たとえば、高速でインテリジェントなレスポンスが必要なほとんどのユーザー向けアプリケーションの場合です。
- 推論あり:はい。テキストおよび視覚的な推論およびイメージの理解が含まれます。理由付けの問題により、最大出力トークンが増加します。モデル・パラメータを参照してください。
- ナレッジ・カットオフ: 2025年1月
各機能へのリンクを含む、Google Vertex AI Platform for OCI Generativeでサポートされている機能については、次の表を参照してください。
| 機能 | サポート済? |
|---|---|
| コード実行 | はい |
| チューニング | いいえ |
| システム指示 | はい |
| 構造化出力 | はい |
| バッチの予測 | いいえ |
| 関数の呼び出し | はい |
| トークンのカウント | いいえ |
| 思考 | はい。ただし、思考プロセスをオフにすることはサポートされていません。 |
| コンテキスト・キャッシュ | はい、モデルは入力トークンをキャッシュできますが、この機能はAPIによって制御されません。 |
| Vertex AI RAGエンジン | いいえ |
| チャットの完了 | はい |
| 接地 | いいえ |
主な機能の詳細は、Google Gemini 2.5 FlashのドキュメントおよびGemini 2.5 Flashモデル・カードを参照してください。
ドキュメントの内容
- サポートされているコンテンツ・タイプ
-
- コンソール:使用できません
- API:サポートされているファイルは、テキスト・ファイルの場合は
text/plain、インライン・データの使用時にはPDFファイルの場合はapplication/pdfです。
- APIでサポートされているドキュメント入力
-
- URL:サポートされているドキュメント形式を、
base64でエンコードされたバージョンのドキュメントに変換します。 - URI: Uniform Resource Identifier (URI)形式でドキュメントを送信し、ファイルをアップロードせずにモデルがファイルにアクセスできるようにします。
- URL:サポートされているドキュメント形式を、
- 技術的な詳細
-
Gemini APIドキュメントのドキュメントの理解を参照してください。
イメージの理解
- イメージ・サイズ
-
- コンソール:最大イメージ・サイズ: 5 MB
- API:プロンプト当たりの最大イメージ数: 3,000およびエンコーディング前の最大イメージ・サイズ: 7MB
- サポートされているイメージ入力
-
- コンソール:
pngおよびjpeg形式 - API: チャット操作で、
base64でエンコードされたバージョンのイメージを送信します。たとえば、512 x 512イメージは通常、約1,610トークンに変換されます。サポートされているMIMEタイプは、image/png、image/jpeg、image/webp、image/heicおよびimage/heifです。形式については、ImageContentリファレンスを参照してください。
- コンソール:
- 技術的な詳細
- オブジェクト検出およびセグメンテーションをサポートします。Gemini APIドキュメントのイメージの理解を参照してください。
オーディオの理解
- サポートされているオーディオ形式
-
- コンソール:使用できません
- API:サポートされているメディア・ファイルは、
audio/wav、audio/mp3、audio/aiff、audio/aac、audio/oggおよびaudio/flacです。
- APIでサポートされているオーディオ入力
-
- URL:サポートされているオーディオ・フォーマットを、
base64でエンコードされたバージョンのオーディオ・ファイルに変換します。 - URI: ファイルをアップロードせずに、モデルがオーディオにアクセスできるように、Uniform Resource Identifier (URI)形式でオーディオを送信します。
- URL:サポートされているオーディオ・フォーマットを、
- 技術的な詳細
-
- トークン変換オーディオの各秒は32個のトークンを表すため、1分のオーディオは1,920個のトークンに対応します。
- 非音声検出:モデルは、バード・ソングやサイレンなどの非音声コンポーネントを認識できます。
- 最大長: 1つのプロンプトでサポートされているオーディオの最大長は9.5⁇hoursです。複数のファイルを送信できるのは、合計期間が9.5⁇hours未満の場合です。
- ダウンサンプリング:モデルは、オーディオ・ファイルを16kbpsの解像度にダウンサンプルします。
- チャネル・マージ:オーディオ・ソースに複数のチャネルがある場合、モデルはそれらを単一のチャネルにマージします。
Gemini APIドキュメントのオーディオの理解を参照してください。
ビデオの理解
- サポートされているオーディオ形式
-
- コンソール:使用できません
- API:サポートされているメディア・ファイルは、
video/mp4、video/mpeg、video/mov、video/avi、video/x-flv、video/mpg、video/webm、video/wmvおよびvideo/3gppです。
- APIでサポートされているビデオ入力
-
- URL:サポートされているビデオ・フォーマットを、
base64でエンコードされたバージョンのビデオ・ファイルに変換します。 - URI: Uniform Resource Identifier (URI)形式でビデオを送信し、ファイルをアップロードせずにモデルがビデオにアクセスできるようにします。
- URL:サポートされているビデオ・フォーマットを、
- 技術的な詳細
-
Gemini APIドキュメントのビデオの理解を参照してください。
制限
- トークン/分(TPM)
- TPM制限の引き上げには、次の制限名
gemini-2-5-flash-chat-tokens-per-minute-countを使用します(100,000トークンの場合)。サービス制限の引き上げのリクエストを参照してください。
制限事項
- 複雑なプロンプト
- Gemini 2.5 Flashモデルは、因果関係の理解、複雑な論理的編集および逆事実上の推論に関する制限を示す場合があります。複雑なタスクの場合は、Google Gemini 2.5 Proモデルを使用することをお薦めします。
オンデマンドモード
Geminiモデルは、オンデマンド・モードでのみ使用できます。
| モデル名 | OCIモデル名 | 価格設定ページ製品名 |
|---|---|---|
| Gemini 2.5 Flash | google.gemini-2.5-flash |
Gemini 2.5 Flash |
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、モデル評価に最適です。
- リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。
拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。
リリース日
| モデル | リリース日 | オンデマンド除・売却日 | 専用モード除・売却日 |
|---|---|---|---|
google.gemini-2.5-flash |
2025-10-01 | 暫定 | このモデルは専用モードには使用できません。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIで次のパラメータの値を変更できます。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。プロンプト+出力の最大長は、実行ごとに128,000トークンです。
ヒント
困難な問題がある大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。 - 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、
pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。 - 上位k
-
モデルが
top kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。Gemini 2.5モデルでは、トップkの固定値は64で、これはモデルが世代ごとに64の最も可能性の高いトークン(単語または単語部分)のみを考慮することを意味します。このリストから最終的なトークンが選択されます。 - 世代数(APIのみ)
-
APIの
numGenerationsパラメータは、モデルが各プロンプトに対して生成する様々なレスポンス・オプションの数を制御します。- プロンプトを送信すると、Geminiモデルによって一連の可能な回答が生成されます。デフォルトでは、可能性が最も高いレスポンス(
numGenerations = 1)のみが返されます。 numGenerationsパラメータを2から8までの数値に増やすと、モデルで2から8の個別レスポンスを生成できます。
- プロンプトを送信すると、Geminiモデルによって一連の可能な回答が生成されます。デフォルトでは、可能性が最も高いレスポンス(