Google Gemini 2.5 Flash-Lite (Beta)
Pre-General Availability (一般提供前)版: 2025-08-29
このドキュメントはPre-General Availability (一般提供前)版であり、デモおよび暫定使用のみを目的としたものです。このソフトウェアを使用するハードウェアに限定するものではありません。Oracle Corporationおよびその関連会社は、このドキュメントに関して一切の責任を負わず、いかなる保証もいたしません。また、このドキュメントを使用したことによって損失、費用、あるいは損害が発生しても、一切の責任を負いかねます。
このドキュメントは、マテリアルやコード、機能またはサービスを提供することのオラクルによるコミットメント(確約)ではありません。このドキュメントおよびOracleのPre-General Availability(一般提供前) プログラムとサービスは、予告なしにいつでも変更される可能性があります。したがって、購買決定を行う際の判断材料にしないでください。オラクルのPre-General Availability(一般提供前)プログラムおよびサービスの開発、リリース、およびすべての機能の時期は、オラクルの単独の裁量により決定されます。すべてのリリース日または将来のイベントなどの予測は変更される可能性があります。オラクルとのあらゆるライセンス契約またはサービス契約の締結にあたり、今後のオラクルのプログラムまたはサービスの将来の利用可能性を前提としないでください。
Gemini 2.5 Flash-Liteモデル(google.gemini-2.5-flash-lite
)は、低レイテンシに最適化された、2.5ファミリで最も高速で予算に適したマルチモーダル推論モデルです。Gemini 2.5 FlashモデルとGemini 2.5 Flash-Liteモデルはどちらも効率的なモデルです。Flash-Liteは、コストを削減し、大容量で複雑でないタスクのパフォーマンスを高速化するために最適化されています。Gemini 2.5 Flashは、より複雑なアプリケーションのための速度と知性のバランスを提供します。
このリージョンで使用可能
- 米国東部(アッシュバーン) (オンデマンドのみ)
外部コール
OCI生成AIサービスを介してアクセスできるGoogle Gemini 2.5モデルは、Googleによって外部でホストされます。したがって、Google Geminiモデルへのコール(OCI生成AIサービスを使用)では、Googleの場所へのコールが実行されます。
主な機能
- OCI生成AIのモデル名:
google.gemini-2.5-flash-lite
- オンデマンドで利用可能:コンソール・プレイグラウンドまたはAPIを使用して、このモデルにオンデマンドでアクセスできます。
- マルチモーダル・サポート:テキスト、コードおよびイメージを入力し、テキスト出力を取得します。オーディオ、ビデオ、ドキュメント・ファイルなどのファイル入力はサポートされていません。イメージ入力のタイプとサイズについては、制限を参照してください。
- ナレッジ:科学、数学、コードに関する深いドメイン知識を持っています。
- コンテキストの長さ: 100万個のトークン
- 最大入力トークン: 1,048,576 (コンソールおよびAPI)
- 最大出力トークン: 65,536 (デフォルト) (コンソールおよびAPI)
- これらのユースケースでのExcel:分類、翻訳、インテリジェント・ルーティングなど、複雑な推論を必要としない、汎用的で高スループットなコスト・センシティブなタスクの場合。たとえば、カスタマ・サポートの照会や大規模な文書の要約などです。
- 推論あり:はい。テキストおよび視覚的推論とイメージの理解が含まれます。理由の問題により、最大出力トークンが増加します。モデル・パラメータを参照してください。
- ナレッジ・カットオフ: 2025年1月
OCI GenerativeのGoogle Vertex AI Platform (ベータ)でサポートされている機能については、次の表を参照してください。各機能へのリンクがあります。
機能 | サポートされますか。 |
---|---|
コード実行 | はい |
チューニング | いいえ |
システムの説明 | はい |
構造化出力 | はい |
バッチの予測 | いいえ |
関数呼び出し | はい |
棚卸トークン | いいえ |
思考 | いいえ |
コンテキスト・キャッシュ | はい、モデルは入力トークンをキャッシュできますが、この機能はAPIを介して制御されません。 |
Vertex AI RAGエンジン | いいえ |
チャット完了 | はい |
接地 | いいえ |
主な機能の詳細は、Google Gemini 2.5 Flash-Liteのドキュメントを参照してください。
制限
- 複合プロンプト
- Gemini 2.5 Flash-Lite (Beta)モデルでは、速度とコストを優先するために思考プロセスがオフになっているため、複雑なタスクには適していません。複雑なタスクについては、Google Gemini 2.5 Pro (ベータ)モデルを使用することをお薦めします。
- イメージ入力
-
- コンソール: 1つ以上の
.png
または.jpg
イメージを5MB以下でアップロードします。 - API:
base64
エンコード・バージョンのイメージを送信します。たとえば、512 x 512イメージは通常、約1,610トークンに変換されます。サポートされているMIMEタイプは、image/png
、image/jpeg
およびimage/webp
です。- プロンプトごとの最大イメージ数: 3,000
- エンコーディング前のイメージの最大サイズ: 7 MB
- コンソール: 1つ以上の
オンデマンドモード
-
プレイグラウンドでモデルを使用する場合、またはAPIを介してモデルをコールする場合、推論コールごとに従量課金します。
- 生成AIの使用を開始するための障壁が低くなります。
- 実験、概念実証、およびモデルの評価に最適です。
- としてリストされていないリージョンの事前トレーニング済モデルで使用できます(専用AIクラスタのみ)。
オンデマンド・モードで生成AIモデルへの確実なアクセスを確保するには、拒否後にリクエストを遅延させるバックオフ戦略を実装することをお薦めします。1つがない場合、迅速なリクエストを繰り返すと、生成AIサービスによる時間の経過に伴うさらなる拒否、レイテンシの増加、およびクライアントの一時的なブロックにつながる可能性があります。指数関数的なバックオフ戦略などのバックオフ戦略を使用することで、業界のベスト・プラクティスに従い、サービスとの統合の全体的な安定性とパフォーマンスを向上させ、リクエストをより均等に配分し、負荷を軽減し、再試行の成功を向上させることができます。
Geminiモデルは、オンデマンド・モードでのみ使用できます。
モデル名 | OCIモデル名 | アクセス取得 |
---|---|---|
Gemini 2.5 Flash-Lite (Beta) | google.gemini-2.5-flash-lite |
Contact Oracle Beta Programs |
リリース日
モデル | ベータ・リリース日 | オンデマンド処分日 | 専用モード除・売却日 |
---|---|---|---|
google.gemini-2.5-flash-lite |
2025-08-29 | 仮 | このモデルは専用モードには使用できません。 |
モデル・パラメータ
モデル・レスポンスを変更するには、プレイグラウンドまたはAPIの一部のパラメータの値を変更します。
- 最大出力トークン
-
各レスポンスに対してモデルで生成するトークンの上限数。トークンごとに4文字を推定します。チャット・モデルを要求するため、レスポンスはプロンプトに依存し、各レスポンスは必ずしも最大割当てトークンを使用するわけではありません。Gemini 2.5モデル・シリーズの最大出力トークンは、実行ごとに65,536 (デフォルト)トークンです。
ヒント
困難な大きな入力の場合は、最大出力トークン・パラメータに高い値を設定します。 - 温度
-
出力テキストの生成に使用されるランダム性のレベル。最小: 0、最大: 2、デフォルト: 1
ヒント
温度の設定を0で開始し、出力を改良のためにプロンプトを再生成するときに温度を上げます高温は、幻覚や事実上誤った情報をもたらす可能性があります。 - 上位p
-
次のトークンで考慮する上位トークンの累積確率を制御するサンプリング方法。確率に
p
に0から1までの小数を割り当てます。たとえば、上位75パーセントを考慮するには、0.75と入力します。すべてのトークンを考慮するには、p
を1に設定します。 - 上位k
-
top k
の最も可能性の高いトークンからモデルが次のトークンをランダムに選択するサンプリング・メソッド。Gemini 2.5モデルでは、上位kの固定値は64です。これは、モデルが世代ごとに64の最も可能性の高いトークン(単語または単語の部分)のみを考慮することを意味します。最後のトークンがこのリストから選択されます。 - 世代数(APIのみ)
-
APIの
numGenerations
パラメータは、プロンプトごとにモデルが生成する様々なレスポンス・オプションの数を制御します。- プロンプトを送信すると、Geminiモデルによって可能な回答のセットが生成されます。デフォルトでは、最も高い確率(
numGenerations = 1
)のレスポンスのみが返されます。 numGenerations
パラメータを2から8までの数値に増やすと、モデルで2から8の個別レスポンスを生成できます。
- プロンプトを送信すると、Geminiモデルによって可能な回答のセットが生成されます。デフォルトでは、最も高い確率(