Acerca del despliegue de cargas de trabajo de IA distribuida multinube mediante Oracle Interconnect for Google Cloud

La formación de modelos de lenguaje grande (LLM) puede requerir una gran cantidad de GPU de varios proveedores de nube en una región. Esta solución de diseño presenta un enfoque multinube para ejecutar la formación e inferencia de LLM en Oracle Cloud Infrastructure (OCI) AI Infrastructure bajo demanda mediante el uso de Oracle Interconnect for Google Cloud con el front-end de la aplicación que se ejecuta en Google Kubernetes Engine (GKE).

OCI AI Cluster ofrece una plataforma sólida para entrenar grandes modelos de lenguaje. Estos modelos, capaces de generar texto, traducción y código de calidad humana, requieren una inmensa potencia computacional y grandes cantidades de datos. OCI AI Cluster proporciona la infraestructura necesaria con recursos informáticos de alto rendimiento y redes optimizadas para acelerar el entrenamiento de LLM. Los clusters de IA dedicada son recursos informáticos que puede utilizar para ajustar modelos personalizados o alojar puntos finales para los modelos base y modelos personalizados previamente entrenados en OCI Generative AI. Los clusters están dedicados a sus modelos y no se comparten con usuarios de otros arrendamientos.

Acerca de la IA generativa y Google Kubernetes Engine

Esta solución aprovecha la infraestructura de IA de Oracle Cloud para el entrenamiento de modelos acelerado por GPU mientras utiliza herramientas de orquestación de Kubernetes conocidas.

La IA generativa es un servicio de OCI totalmente gestionado que proporciona un conjunto de LLM personalizables de última generación que cubren una amplia gama de casos de uso, incluidos chat, generación de texto, resumen y creación de incrustaciones de texto. Puedes usar el patio de recreo para probar los modelos preentrenados listos para usar o crear y alojar tus propios modelos personalizados ajustados basados en tus propios datos en clústeres de IA dedicados.

Un cluster de GKE consta de un plano de control y máquinas de trabajo denominadas nodos. El plano de control y los nodos conforman el sistema de orquestación de clusters de Kubernetes. GKE Autopilot gestiona toda la infraestructura subyacente de los clusters, incluidos el plano de control, los nodos y todos los componentes del sistema. Si utiliza el modo estándar GKE, GKE gestiona el plano de control y los componentes del sistema, y gestiona los nodos.

Acerca de los beneficios de esta arquitectura

Entre las principales ventajas de utilizar OCI AI Cluster para el entrenamiento de LLM se incluyen:

  • Escalabilidad: ajusta fácilmente los recursos informáticos para satisfacer las demandas de formación.
  • Rendimiento: aproveche las instancias informáticas aceleradas por GPU y redes de alto rendimiento.
  • Eficiencia de costos: optimice la utilización de recursos y pague solo por lo que utiliza.
  • Seguridad: aproveche las sólidas medidas de seguridad de Oracle para proteger los datos confidenciales.
  • Integración: intégrela sin problemas con otros servicios de OCI para la gestión de datos y el despliegue de modelos.

Al aprovechar el poder de OCI AI Cluster, las organizaciones pueden desarrollar e implementar LLM sofisticados para impulsar la innovación y el valor empresarial.

Descripción de los pasos implicados en la formación de un LLM en un cluster de IA de OCI

Los pasos necesarios para entrenar un LLM en el cluster de IA de OCI son:

  1. Configure el entorno del cluster de AI.
  2. Preparación y preprocesamiento de datos de formación.
  3. Seleccione y configure una arquitectura de LLM.
  4. Implantar el ajuste del pipeline de formación y los hiperparámetros.
  5. Evalúe el rendimiento y el ajuste del modelo.