Unterstützte Modelle für Import

Sie können große Sprachmodelle von Open-Source- und Drittanbietern aus Hugging Face- und OCI Object Storage-Buckets in OCI Generative AI importieren. Erstellen Sie Endpunkte für diese Modelle, und verwenden Sie sie im Generative AI-Service, um KI-Initiativen zu beschleunigen.

Importierte OCI Generative AI-Modellarchitektur

Der OCI Generative AI-Service verwendet Open Model Engine (OME), um importierte Modelle bereitzustellen und zu verwalten. OME fungiert als Orchestrierungsschicht zwischen der GPU und der Inferenzlaufzeit.

Wenn Sie ein importiertes Modell bereitstellen, analysiert OME das Modell und koppelt es mit der effizientesten Laufzeit: vLLM (optimiert für hohen Durchsatz) und SGLang (optimiert für hohe Performance). Die vLLM- und SGLang-Laufzeit-Engines führen die Modelle auf den GPUs aus.

Einige Modelle sind stark für SGLang optimiert (wie groß angelegte LLMs und solche, die RadixAttention für Langzeitkontextspeicher benötigen), während andere bessere Community-Kernels in vLLM haben (wie beliebte Open-Source-LLMs und multimodale Modelle).

Wichtig

Sie können zwar alle Chats, Einbettungs- und Feinoptimierungsmodelle importieren, die über die Open Model Engine (mit vLLM- oder SGLang-Laufzeit) unterstützt werden, nur explizit aufgeführte Modelle im Abschnitt Unterstützte Modelle werden unterstützt. Nicht aufgelistete Modelle können Kompatibilitätsprobleme aufweisen. Wir empfehlen, alle nicht aufgelisteten Modelle vor der Verwendung in der Produktion zu testen.

Verfügbare Hardware und Schritte zum Deployment der importierten Modelle finden Sie unter Importierte Modelle verwalten.

Unterstützte Models

  • Alibaba Qwen

    Mit erweiterten mehrsprachigen und multimodalen Funktionen.

  • DeepSeek

    Optimiert für Codierung, Mathematik und komplexe Argumentation mit hoher Effizienz.

  • Google Gemma

    Für breite Anforderungen an die Sprachverarbeitung und hohe Vielseitigkeit konzipiert.

  • Meta Llama

    Erweitert mit Grouped Query Attention (GQA), um die Performance zu verbessern.

  • Microsoft Phi

    Bekannt für Effizienz und Kompaktheit, entwickelt für skalierbare und flexible Leistung.

  • Mistral

    Beinhaltet Einbettung und Chat-Modelle. Das Einbettungsmodell eignet sich für eine effiziente Verarbeitung mit langem Kontext.

  • NVIDIA Nemotron

    Offene Modelle mit veröffentlichten Trainingsdaten und Rezepten, die für die Erstellung spezialisierter KI-Agents geeignet sind.

  • OpenAI GptOss

    Entwickelt mit einer offenen Mixture-of-Experts-(MoE-)Architektur für effiziente Argumentation und großkontextbezogenes Handling.