Sobre a Implantação de Cargas de Trabalho de IA Distribuída Multicloud Usando o Oracle Interconnect for Google Cloud

O Treinamento de Grandes Modelos de Linguagem (LLM) pode exigir uma grande quantidade de GPUs de vários provedores de nuvem em uma região. Esta solução de design apresenta uma abordagem multicloud para executar treinamento e inferência de LLM na Infraestrutura de IA da Oracle Cloud Infrastructure (OCI) sob demanda usando o Oracle Interconnect for Google Cloud com o front-end de aplicativos em execução no Google Kubernetes Engine (GKE).

O OCI AI Cluster oferece uma plataforma robusta para treinar grandes modelos de linguagem. Esses modelos, capazes de gerar texto, tradução e código de qualidade humana, exigem imenso poder computacional e grandes quantidades de dados. O OCI AI Cluster fornece a infraestrutura necessária com recursos de computação de alto desempenho e rede otimizada para acelerar o treinamento de LLM. Clusters de IA dedicados são recursos de computação que você pode usar para ajustar modelos personalizados ou para hospedar pontos finais para os modelos base e modelos personalizados pré-treinados na OCI Generative AI. Os clusters são dedicados aos seus modelos e não são compartilhados com usuários em outras tenancies.

Sobre IA generativa e Google Kubernetes Engine

Essa solução aproveita a infraestrutura de IA da Oracle Cloud para treinamento de modelo acelerado por GPU, usando ferramentas de orquestração familiares do Kubernetes.

A IA generativa é um serviço da OCI totalmente gerenciado que fornece um conjunto de LLMs personalizáveis de última geração que abrangem uma ampla variedade de casos de uso, incluindo bate-papo, geração de texto, resumo e criação de incorporações de texto. Você pode usar o playground para experimentar os modelos pré-treinados prontos para usar ou criar e hospedar seus próprios modelos personalizados ajustados com base em seus próprios dados em clusters de IA dedicados.

Um cluster GKE consiste em um plano de controle e máquinas de trabalho chamadas nós. O plano de controle e os nós compõem o sistema de orquestração de cluster do Kubernetes. O GKE Autopilot gerencia toda a infraestrutura subjacente de clusters, incluindo o plano de controle, os nós e todos os componentes do sistema. Se você usar o modo Padrão GKE, o GKE gerenciará o plano de controle e os componentes do sistema e você gerenciará os nós.

Sobre os Benefícios desta Arquitetura

Os principais benefícios de usar o OCI AI Cluster para treinamento de LLM incluem:

  • Escalabilidade: Ajuste facilmente os recursos de computação para atender às demandas de treinamento.
  • Desempenho: Aproveite a rede de alto desempenho e as instâncias de computação aceleradas por GPU.
  • Eficiência de custo: Otimize a utilização de recursos e pague apenas pelo que usar.
  • Segurança: explore as medidas de segurança robustas da Oracle para proteger dados confidenciais.
  • Integração: integre-se perfeitamente a outros serviços da OCI para gerenciamento de dados e implantação de modelos.

Ao aproveitar o poder do OCI AI Cluster, as organizações podem desenvolver e implementar LLMs sofisticados para impulsionar a inovação e o valor comercial.

Compreender as Etapas Envolvidas no Treinamento de um LLM em um Cluster de IA do OCI

As etapas necessárias para treinar um LLM no OCI AI Cluster são:

  1. Configure o ambiente do Cluster de IA.
  2. Preparar e pré-processar dados de treinamento.
  3. Selecionar e configurar uma arquitetura LLM.
  4. Implementar o pipeline de treinamento e o ajuste de hiperparâmetros.
  5. Avalie o desempenho e o ajuste do modelo.