En savoir plus sur le modèle d'inférence d'UC

Les modèles d'IA d'Oracle Cloud Infrastructure sont une solution simplifiée sans code pour le déploiement et la gestion des charges de travail d'IA générative sur Oracle Cloud Infrastructure Kubernetes Engine (OKE).

En fournissant des recommandations matérielles avisées, des piles logicielles prêtes à l'emploi et des outils d'observabilité prêts à l'emploi, les modèles d'IA pour OCI vous aident à exécuter vos applications d'IA rapidement et efficacement, sans vous attaquer à la complexité des décisions d'infrastructure, à la compatibilité logicielle et aux meilleures pratiques en matière d'opérations d'apprentissage automatique (ML Ops).

Ce modèle d'inférence d'UC fournit un cadre complet pour tester l'inférence sur les processeurs à l'aide de la plate-forme Ollama avec une variété de modèles pris en charge tels que Mistral, Gemma et d'autres disponibles via Ollama. Contrairement aux solutions dépendantes du GPU, ce modèle est conçu pour les environnements où l'inférence du processeur est préférée ou requise.

Le modèle offre des directives et des paramètres de configuration clairs pour déployer un service d'inférence robuste et permettre ainsi des évaluations approfondies des performances et des tests de fiabilité. L'architecture légère et efficace d'Ollama en fait une solution idéale pour les développeurs qui cherchent à comparer et à optimiser les charges de travail d'inférence basées sur le CPU.

Ce modèle explique comment utiliser l'inférence d'UC pour exécuter de grands modèles de langage à l'aide d'Ollama. Il comprend deux stratégies de déploiement principales :

Service de modèles préenregistrés directement à partir du service Oracle Cloud Infrastructure Object Storage
Extraction des modèles à partir d'Ollama et enregistrement dans le stockage d'objets OCI

Architecture

Le diagramme ci-dessous présente une vue simplifiée de l'architecture.

Description de l'illustration ollama-blueprint-architecture.png

ollama-blueprint-architecture-oracle.zip