Google Gemini 2.5 Flash-Lite

Google Gemini 2.5 Flash Liteモデル(google.gemini-2.5-flash-lite)は、2.5ファミリで最も高速で予算に配慮したマルチモーダル推論モデルであり、低レイテンシに最適化されています。Gemini 2.5 FlashおよびGoogle Gemini 2.5 Flash Liteモデルはどちらも効率的なモデルです。Flash-Liteは、より低コストで、より複雑な大量のタスクでより高速なパフォーマンスを実現するように最適化されています。Gemini 2.5 Flashは、より複雑なアプリケーションのための速度とインテリジェンスのバランスを提供します。

このモデルのリージョン

重要

このモデルのサポートされているリージョン、エンドポイント・タイプ(オンデマンドまたは専用AIクラスタ)およびホスティング(OCI生成AIまたは外部コール)については、リージョン別モデル・ページを参照してください。リージョンの詳細は、生成AIリージョンのページを参照してください。

主な機能

OCI生成AIのモデル名: google.gemini-2.5-flash-lite
使用可能なオンデマンド:コンソール・プレイグラウンドまたはAPIを介して、このモデルにオンデマンドでアクセスします。
マルチモーダル・サポート:テキスト、コードおよびイメージを入力し、テキスト出力を取得します。ドキュメント、オーディオおよびビデオ・ファイルの入力は、APIでのみサポートされます。Document Understanding、Image Understanding、Audio Understanding、および Video Understandingを参照してください。
知識:科学、数学およびコードに関する深い知識があります。
コンテキストの長さ: 100万のトークン
最大入力トークン: 1,048,576 (コンソールおよびAPI)
最大出力トークン: 65,536 (デフォルト) (コンソールおよびAPI)
これらのユース・ケースでのエクセル:分類、翻訳、インテリジェント・ルーティングなど、複雑な推論を必要としない、汎用的で高スループットでコストがかかるタスクの場合。たとえば、カスタマーサポートへの問い合わせや大規模文書の要約などです。
推論あり:はい。テキストおよび視覚的な推論およびイメージの理解が含まれます。理由付けの問題により、最大出力トークンが増加します。モデル・パラメータを参照してください。
ナレッジ・カットオフ: 2025年1月

各機能へのリンクを含む、Google Vertex AI Platform for OCI Generativeでサポートされている機能については、次の表を参照してください。

サポートされている Gemini 2.5 Pro機能
機能	サポート済?
コード実行	はい
チューニング	いいえ
システム指示	はい
構造化出力	はい
バッチの予測	いいえ
関数の呼び出し	はい
トークンのカウント	いいえ
思考	いいえ
コンテキスト・キャッシュ	はい、モデルは入力トークンをキャッシュできますが、この機能はAPIによって制御されません。
Vertex AI RAGエンジン	いいえ
チャットの完了	はい
接地	いいえ

主な機能の詳細は、Google Gemini 2.5 Flash-Liteのドキュメントおよびhttps://modelcards.withgoogle.com/assets/documents/gemini-2-flash-lite.pdfを参照してください。

ドキュメントの内容

サポートされているコンテンツ・タイプ

コンソール:使用できません
API:サポートされているファイルは、テキスト・ファイルの場合はtext/plain、インライン・データの使用時にはPDFファイルの場合はapplication/pdfです。

APIでサポートされているドキュメント入力

URL:サポートされているドキュメント形式を、base64でエンコードされたバージョンのドキュメントに変換します。
URI: Uniform Resource Identifier (URI)形式でドキュメントを送信し、ファイルをアップロードせずにモデルがファイルにアクセスできるようにします。

形式については、DocumentContentリファレンスを参照してください。

技術的な詳細

Gemini APIドキュメントのドキュメントの理解を参照してください。

イメージの理解

イメージ・サイズ

コンソール:最大イメージ・サイズ: 5 MB
API:プロンプト当たりの最大イメージ数: 3,000およびエンコーディング前の最大イメージ・サイズ: 7MB

サポートされているイメージ入力

コンソール: pngおよびjpeg形式
API: チャット操作で、base64でエンコードされたバージョンのイメージを送信します。たとえば、512 x 512イメージは通常、約1,610トークンに変換されます。サポートされているMIMEタイプは、image/png、image/jpeg、image/webp、image/heicおよびimage/heifです。形式については、ImageContentリファレンスを参照してください。

技術的な詳細

オブジェクト検出およびセグメンテーションをサポートします。Gemini APIドキュメントのイメージの理解を参照してください。

オーディオの理解

サポートされているオーディオ形式

コンソール:使用できません
API:サポートされているメディア・ファイルは、audio/wav、audio/mp3、audio/aiff、audio/aac、audio/oggおよびaudio/flacです。

APIでサポートされているオーディオ入力

URL:サポートされているオーディオ・フォーマットを、base64でエンコードされたバージョンのオーディオ・ファイルに変換します。
URI: ファイルをアップロードせずに、モデルがオーディオにアクセスできるように、Uniform Resource Identifier (URI)形式でオーディオを送信します。

形式については、AudioContentリファレンスを参照してください。

技術的な詳細

トークン変換オーディオの各秒は32個のトークンを表すため、1分のオーディオは1,920個のトークンに対応します。
非音声検出:モデルは、バード・ソングやサイレンなどの非音声コンポーネントを認識できます。
最大長: 1つのプロンプトでサポートされているオーディオの最大長は9.5⁇hoursです。複数のファイルを送信できるのは、合計期間が9.5⁇hours未満の場合です。
ダウンサンプリング:モデルは、オーディオ・ファイルを16kbpsの解像度にダウンサンプルします。
チャネル・マージ:オーディオ・ソースに複数のチャネルがある場合、モデルはそれらを単一のチャネルにマージします。

Gemini APIドキュメントのオーディオの理解を参照してください。

ビデオの理解

サポートされているオーディオ形式

コンソール:使用できません
API:サポートされているメディア・ファイルは、video/mp4、video/mpeg、video/mov、video/avi、video/x-flv、video/mpg、video/webm、video/wmvおよびvideo/3gppです。

APIでサポートされているビデオ入力

Base64でエンコードされたアップロード(URL):サポートされているビデオ形式をbase64に変換します。最大ペイロードは50MB (エンコード済)です。元のファイル・サイズが小さくなります。たとえば、エンコードされると、37.5MBのファイルが最大50MBになります。
URI: Uniform Resource Identifier (URI)を発行して、アップロードせずにビデオにアクセスします。最大ペイロード・サイズは100MBです。

形式については、VideoContentリファレンスを参照してください。

技術的な詳細

Gemini APIドキュメントのビデオの理解を参照してください。

制限

トークン/分(TPM): TPM制限の引き上げには、次の制限名gemini-2-5-flash-lite-chat-tokens-per-minute-countを使用します(100,000トークンの場合)。サービス制限の引き上げのリクエストを参照してください。

制限事項

複合プロンプト: Gemini 2.5 Flash-Liteモデルでは、速度とコストを優先するために思考プロセスがオフになっているため、複雑なタスクには適していません。複雑なタスクの場合は、Gemini 2.5 Flash-Liteモデル・カード・モデルを使用することをお薦めします。

オンデマンドモード

ノート

Geminiモデルは、オンデマンド・モードでのみ使用できます。


モデル名	OCIモデル名	価格設定ページ製品名
Gemini 2.5 Flash-Lite	`google.gemini-2.5-flash-lite`	Gemini 2.5 Flash Lite

オンデマンドと専用の2つのモードを使用して、生成AIで事前にトレーニングされた基本モデルにアクセスできます。 オンデマンド・モードの主な機能は次のとおりです。

プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合に、推論コールごとに支払いをするようにします。
生成AIの使用を開始するための障壁が低くなります。
実験、概念実証、モデル評価に最適です。
リストされていないリージョンの事前トレーニング済モデルで使用可能です(専用AIクラスタのみ)。

ヒント

拒否後のリクエストの遅延を含むバックオフ戦略を実装することをお薦めします。これがないと、迅速なリクエストを繰り返すことで、時間の経過とともにさらに拒否され、レイテンシが増加し、生成AIサービスによるクライアントの一時的なブロックが発生する可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、より均等にリクエストを配分し、負荷を削減し、再試行の成功を向上させることができます。

OCIのリリース日および除・売却日

リリース日およびリタイア日および置換モデル・オプションについては、モデル・リタイア日(オンデマンド・モード)を参照してください。

モデル・パラメータ

モデル・レスポンスを変更するには、プレイグラウンドまたはAPIの一部のパラメータの値を変更します。

最大出力トークン

各レスポンスに対してモデルで生成するトークンのの最大数。トークンごとに4文字を見積もります。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用する必要はありません。Gemini 2.5モデル・シリーズの最大出力トークンは、実行ごとに65,536 (デフォルト)トークンです。

ヒント

困難な問題がある大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。

温度

出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1

ヒント

温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は幻覚をもたらし、事実上誤った情報をもたらす可能性があります。

上位p

次のトークンで考慮する上位トークンの累積確率を制御するサンプリング・メソッド。確率として、pに0から1までの小数を割り当てます。たとえば、上位75パーセントが考慮される場合は0.75と入力します。すべてのトークンを考慮するには、pを1に設定します。

上位k

モデルがtop kの最も可能性の高いトークンから次のトークンをランダムに選択するサンプリング・メソッド。Gemini 2.5モデルでは、トップkの固定値は64で、これはモデルが世代ごとに64の最も可能性の高いトークン(単語または単語部分)のみを考慮することを意味します。このリストから最終的なトークンが選択されます。

世代数(APIのみ)

APIのnumGenerationsパラメータは、モデルが各プロンプトに対して生成する様々なレスポンス・オプションの数を制御します。

プロンプトを送信すると、Geminiモデルによって一連の可能な回答が生成されます。デフォルトでは、可能性が最も高いレスポンス(numGenerations = 1)のみが返されます。
numGenerationsパラメータを2から8までの数値に増やすと、モデルで2から8の個別レスポンスを生成できます。

Oracle Cloud Infrastructureドキュメント

Google Gemini 2.5 Flash-Lite

このモデルのリージョン

主な機能

ドキュメントの内容

イメージの理解

オーディオの理解

ビデオの理解

制限

制限事項

オンデマンドモード

OCIのリリース日および除・売却日

モデル・パラメータ