インポートでサポートされているモデル
オープンソースおよびサードパーティの大規模言語モデルをHugging FaceおよびOCI Object StorageバケットからOCI Generative AIにインポートできます。これらのモデルのエンドポイントを作成し、生成AIサービスで使用してAIイニシアチブを高速化します。
OCI生成AIインポート済モデル・アーキテクチャ
OCI生成AIサービスは、Open Model Engine (OME)を使用して、インポートされたモデルをデプロイおよび管理します。OMEは、GPUと推論ランタイムの間のオーケストレーション・レイヤーとして機能します。
インポートしたモデルをデプロイすると、OMEはモデルを分析し、最も効率的なランタイムであるvLLM (高スループット用に最適化)およびSGLang (高パフォーマンス用に最適化)と組み合せます。vLLMおよびSGLangランタイム・エンジンは、GPU上でモデルを実行します。
一部のモデルは、SGLang用に重く最適化されています(大規模LLMや、長文メモリー用にRadixAttentionを必要とするモデルなど)。一方、vLLMではコミュニティ・カーネルが優れています(一般的なオープンソースLLMやマルチモーダル・モデルなど)。
オープン・モデル・エンジン(vLLMまたはSGLangランタイムを使用)でサポートされている任意のチャット、埋込みおよびファインチューニング・モデルをインポートできますが、「サポートされているモデル」セクションに明示的にリストされたモデルのみがサポートされています。非リスト・モデルには互換性に問題がある可能性があり、本番で使用する前にリストされていないモデルをテストすることをお薦めします。
インポートされたモデルのデプロイ方法に関する使用可能なハードウェアおよびステップは、インポートされたモデルの管理を参照してください。
サポートされるモデル
- Alibaba Qwen
高度な多言語およびマルチモーダル機能を提供します。
- Google Gemma
幅広い言語処理ニーズと高い汎用性を実現します。
- Meta Llama
グループ化された問合せアテンション(GQA)によって拡張され、パフォーマンスが向上しました。
- Microsoft Phi
スケーラブルで柔軟なパフォーマンスのために設計された、効率性とコンパクトさのために知られています。
- ミストラル
埋込みモデルとチャット・モデルが含まれます。埋込みモデルは、効率的な長文処理に適しています。
- OpenAI GptOss
オープンウェイトMixture-of-Experts(MoE)アーキテクチャで構築され、効率的な推論と大規模なコンテキスト処理を実現します。