Unterstützte Modelle für Import

Sie können große Sprachmodelle aus Hugging Face- und OCI Object Storage-Buckets in OCI Generative AI importieren, Endpunkte für diese Modelle erstellen und im generativen KI-Service verwenden.

Unterstützte Modellarchitekturen

Generativer KI-Service unterstützt das Importieren und Bereitstellen führender Open-Source- und Fremdsprachenmodelle, um KI-Initiativen zu beschleunigen. Die folgenden Modellarchitekturen werden unterstützt:

Chatmodelle

Mit Chatmodellen können Sie Fragen stellen und kontextbezogene Antworten von KI erhalten. Wählen Sie aus den folgenden Modellfamilien aus, um Geschwindigkeit, Qualität und Kosten für den Anwendungsfall auszugleichen. Wählen Sie jeden Link für eine Liste der unterstützten Modelle mit Modell-ID, Modellfunktion und empfohlenen Ausprägungen für dedizierte KI-Clustereinheiten aus.

  • Alibaba Qwen 3 und Qwen 2

    Mit erweiterten mehrsprachigen und multimodalen Funktionen.

  • Google Gemma

    Für breite Anforderungen an die Sprachverarbeitung und hohe Vielseitigkeit konzipiert.

  • Llama2, Llama3, Llama3.1, Llama3.2, Llama3.3, Llama4

    Eine verbesserte Version von Meta Llama-Modellen mit Grouped Query Attention (GQA).

  • Microsoft Phi

    Bekannt für Effizienz und Kompaktheit, entwickelt für skalierbare und flexible Leistung.

  • OpenAI GptOss

    Eine fortschrittliche Open-weight-Transformer-Architektur mit Mixture-of-Experts-(MoE-)Architektur, optimiert für effizientes, hochwertiges Sprachverständnis und große Kontextverarbeitung.

Modell einbetten

Ein Einbettungsmodell transformiert Eingabedaten (wie Wörter und Bilder) in numerische Vektoren, die ihre semantische Bedeutung oder Beziehungen erfassen. Dadurch können Maschinen Ähnlichkeiten, Beziehungen und Muster innerhalb der Daten effektiver verstehen. Wählen Sie den folgenden Link für die Modell-ID, die Modellfunktion und die empfohlene Ausprägung der dedizierten KI-Clustereinheit aus.

  • Mistral

    Eine leistungsstarke Transformer-Architektur, die nur auf Decoder basiert und Sliding Window Attention (SWA) für eine effiziente Verarbeitung mit langem Kontext und optional Grouped Query Attention (GQA) für eine verbesserte Skalierbarkeit bietet.