Informazioni sulla distribuzione dei carichi di lavoro AI distribuiti multicloud mediante Oracle Interconnect for Google Cloud
LLM (Large Language Models) può richiedere una grande quantità di GPU da più provider cloud in un'area. Questa soluzione di progettazione introduce un approccio multicloud per l'esecuzione della formazione LLM e dell'inferenza su Oracle Cloud Infrastructure (OCI) AI Infrastructure on demand utilizzando Oracle Interconnect for Google Cloud con il front end dell'applicazione in esecuzione su Google Kubernetes Engine (GKE).
OCI AI Cluster offre una solida piattaforma per la formazione di modelli di linguaggio di grandi dimensioni. Questi modelli, in grado di generare testo, traduzione e codice di qualità umana, richiedono un'immensa potenza computazionale e una grande quantità di dati. OCI AI Cluster fornisce l'infrastruttura necessaria con risorse di elaborazione ad alte prestazioni e rete ottimizzata per accelerare la formazione LLM. I cluster AI dedicati sono risorse di computazione che puoi utilizzare per ottimizzare i modelli personalizzati o per ospitare gli endpoint per i modelli di base e i modelli personalizzati pre-addestrati nell'AI generativa OCI. I cluster sono dedicati ai modelli e non vengono condivisi con gli utenti di altre tenancy.
Informazioni sull'AI generativa e su Google Kubernetes Engine
Questa soluzione sfrutta l'infrastruttura AI di Oracle Cloud per la formazione dei modelli accelerata dalla GPU e utilizza gli strumenti di orchestrazione Kubernetes.
L'AI generativa è un servizio OCI completamente gestito che fornisce un set di LLM personalizzabili e all'avanguardia che coprono una vasta gamma di casi d'uso, tra cui chat, generazione del testo, riepilogo e creazione di incorporazioni di testo. Puoi utilizzare il parco giochi per provare i modelli pre-addestrati pronti all'uso o creare e ospitare i tuoi modelli personalizzati ottimizzati in base AI tuoi dati su cluster AI dedicati.
Un cluster GKE è costituito da un piano di controllo e da computer operativi denominati nodi. Il piano di controllo e i nodi costituiscono il sistema di orchestrazione dei cluster Kubernetes. GKE Autopilot gestisce l'intera infrastruttura di base dei cluster, inclusi il piano di controllo, i nodi e tutti i componenti del sistema. Se si utilizza la modalità standard GKE, GKE gestisce il piano di controllo e i componenti di sistema e i nodi.
Informazioni sui vantaggi di questa architettura
I vantaggi principali dell'utilizzo del cluster AI OCI per la formazione LLM includono:
- Scalabilità: regola facilmente le risorse di calcolo in base alle esigenze di formazione.
- Performance: sfrutta il networking ad alte prestazioni e le istanze di computazione con accelerazione GPU.
- Efficienza in termini di costi: ottimizza l'utilizzo delle risorse e paga solo per ciò che utilizzi.
- Sicurezza: sfrutta le solide misure di sicurezza di Oracle per proteggere i dati sensibili.
- Integrazione: integra perfettamente con altri servizi OCI per la gestione dei dati e la distribuzione dei modelli.
Sfruttando la potenza del cluster AI OCI, le organizzazioni possono sviluppare e distribuire LLM sofisticati per promuovere l'innovazione e il valore aziendale.
Comprendere i passi necessari per formare un LLM su un cluster AI OCI
Di seguito sono riportati i passi necessari per addestrare un LLM nel cluster AI OCI.
- Impostare l'ambiente del cluster AI.
- Prepara e pre-elabora i dati di formazione.
- Selezionare e configurare un'architettura LLM.
- Implementa la pipeline di formazione e l'ottimizzazione degli iperparametri.
- Valuta le prestazioni del modello e il fine tuning.