Unterstützte Modelle für Import
Sie können große Sprachmodelle aus Hugging Face- und OCI Object Storage-Buckets in OCI Generative AI importieren, Endpunkte für diese Modelle erstellen und im generativen KI-Service verwenden.
Unterstützte Modellarchitekturen
Generativer KI-Service unterstützt das Importieren und Bereitstellen führender Open-Source- und Fremdsprachenmodelle, um KI-Initiativen zu beschleunigen. Die folgenden Modellarchitekturen werden unterstützt:
Chatmodelle
Mit Chatmodellen können Sie Fragen stellen und kontextbezogene Antworten von KI erhalten. Wählen Sie aus den folgenden Modellfamilien aus, um Geschwindigkeit, Qualität und Kosten für den Anwendungsfall auszugleichen. Wählen Sie jeden Link für eine Liste der unterstützten Modelle mit Modell-ID, Modellfunktion und empfohlenen Ausprägungen für dedizierte KI-Clustereinheiten aus.
- Alibaba Qwen 3 und Qwen 2
Mit erweiterten mehrsprachigen und multimodalen Funktionen.
- Google Gemma
Für breite Anforderungen an die Sprachverarbeitung und hohe Vielseitigkeit konzipiert.
- Llama2, Llama3, Llama3.1, Llama3.2, Llama3.3, Llama4
Eine verbesserte Version von Meta Llama-Modellen mit Grouped Query Attention (GQA).
- Microsoft Phi
Bekannt für Effizienz und Kompaktheit, entwickelt für skalierbare und flexible Leistung.
- OpenAI GptOss
Eine fortschrittliche Open-weight-Transformer-Architektur mit Mixture-of-Experts-(MoE-)Architektur, optimiert für effizientes, hochwertiges Sprachverständnis und große Kontextverarbeitung.
Modell einbetten
Ein Einbettungsmodell transformiert Eingabedaten (wie Wörter und Bilder) in numerische Vektoren, die ihre semantische Bedeutung oder Beziehungen erfassen. Dadurch können Maschinen Ähnlichkeiten, Beziehungen und Muster innerhalb der Daten effektiver verstehen. Wählen Sie den folgenden Link für die Modell-ID, die Modellfunktion und die empfohlene Ausprägung der dedizierten KI-Clustereinheit aus.
- Mistral
Eine leistungsstarke Transformer-Architektur, die nur auf Decoder basiert und Sliding Window Attention (SWA) für eine effiziente Verarbeitung mit langem Kontext und optional Grouped Query Attention (GQA) für eine verbesserte Skalierbarkeit bietet.