Kompatible Modelle für Import

Sie können große Sprachmodelle von Open-Source- und Drittanbietern aus Hugging Face- und OCI Object Storage-Buckets in OCI Generative AI importieren. Nachdem Sie ein Modell importiert haben, können Sie es in einem dedizierten KI-Cluster hosten, einen Endpunkt erstellen und im Service für generative KI verwenden.

Hinweis

Importierte Modelle erfordern nicht die Mindest-Hosting-Verpflichtung von 744 Einheiten pro Stunde, die gilt, wenn Sie vortrainierte Modelle hosten, die in OCI Generative AI auf dedizierten KI-Clustern verfügbar sind.

Ihre Nutzung dieser Modelle kann gesonderten Bedingungen von den jeweiligen Drittanbietern unterliegen, und Sie sind dafür verantwortlich, dass Sie diese Bedingungen einhalten. Oracle lehnt alle Gewährleistungen, Freistellungen und Verbindlichkeiten ab, die sich aus oder im Zusammenhang mit einem Open-Source-LLM-Programm oder einem LLM-Programm Dritter ergeben, das Sie importieren.

Importierte OCI Generative AI-Modellarchitektur

Der OCI Generative AI-Service verwendet Open Model Engine (OME), um importierte Modelle bereitzustellen und zu verwalten. OME fungiert als Orchestrierungsschicht zwischen der GPU und der Inferenzlaufzeit.

Wenn Sie ein importiertes Modell bereitstellen, analysiert OME das Modell und koppelt es mit der effizientesten Laufzeit: vLLM (optimiert für hohen Durchsatz) und SGLang (optimiert für hohe Performance). Die vLLM- und SGLang-Laufzeit-Engines führen die Modelle auf den GPUs aus.

Einige Modelle sind stark für SGLang optimiert (wie groß angelegte LLMs und solche, die RadixAttention für Langzeitkontextspeicher benötigen), während andere bessere Community-Kernels in vLLM haben (wie beliebte Open-Source-LLMs und multimodale Modelle).

Wichtig

Während Sie alle Chats, Einbettungs- und Feinoptimierungsmodelle importieren können, die mit der Open Model Engine (mit vLLM- oder SGLang-Laufzeit) validiert wurden, wurden nur explizit aufgeführte Modelle im Abschnitt Kompatible Modelle von Oracle anhand von Open-Source-Modelllaufzeiten bewertet und auf von Oracle unterstützten GPU-Konfigurationen getestet. Ungeachtet des Vorstehenden ist Oracle nicht für Probleme im Zusammenhang mit der Leistung, Verfügbarkeit, dem Betrieb oder der Sicherheit kompatibler Modelle verantwortlich. Nicht aufgelistete Modelle können Kompatibilitätsprobleme aufweisen. Wir empfehlen, alle nicht aufgelisteten Modelle vor der Verwendung in der Produktion zu testen.

Verfügbare Hardware und Schritte zum Deployment der importierten Modelle finden Sie unter Importierte Modelle verwalten.

Kompatible Modelle

  • Alibaba Qwen

    Enthält erweiterte mehrsprachige und multimodale Anwendungsfälle.

  • DeepSeek

    Optimiert für Codierung, Mathematik und komplexe Argumentation.

  • Google Gemma

    Entwickelt für eine breite Sprachverarbeitung und allgemeine Anwendungsfälle.

  • Meta Llama

    Modelle mit verbesserter Grouped Query Attention (GQA) für eine verbesserte Performance.

  • Microsoft Phi

    Kompakte und effiziente Modelle für skalierbare Deployments.

  • Mistral

    Beinhaltet Einbettung und Chat-Modelle. Das Einbettungsmodell eignet sich für eine effiziente Verarbeitung mit langem Kontext.

  • NVIDIA Nemotron

    Offene Modelle mit veröffentlichten Trainingsdaten und Rezepten, die für die Erstellung spezialisierter KI-Agents geeignet sind.

  • OpenAI GptOss

    Open-weight Mixture-of-Experts (MoE) Modelle für effizientes Argumentieren und Großkontext-Handling.