Habilite plataformas de autoatendimento seguras e escaláveis para IA generativa e LLMs na OCI

Capacite cientistas de dados, desenvolvedores e equipes de TI para criar, testar e implementar modelos avançados de IA de forma independente, garantindo governança de nível empresarial e otimização de infraestrutura.

Essa solução oferece os principais recursos necessários para dar suporte a iniciativas de inteligência artificial (IA) generativa e grandes modelos de linguagem (LLMs) em um modelo de autoatendimento, combinando acesso seguro, infraestrutura escalável e governança de nível empresarial na Oracle Cloud Infrastructure (OCI).

Casos de uso e serviços suportados:

  • BYOLLM (Bring Your Own Large Language Model)/Validação de segurança de código

    Modelos de terceiros (por exemplo, Hugging Face) são implantados no ambiente "playground" isolado com aceleração de GPU e passam por validação de segurança automatizada. As políticas de OCI Functions, Oracle Identity Cloud Service (IDCS) e OCI Identity and Access Management (IAM) são usadas para inspeção, controle de acesso e execução segura.

  • Playground de ciência de dados

    O playground de ciência de dados é um ambiente flexível e escalável projetado para experimentação de ciência de dados. Com tecnologia de infraestrutura avançada de GPU, ele oferece integração perfeita com o Oracle Database 23ai e armazenamento otimizado de vetores e objetos para gerenciamento de documentos e incorporações, ideal para prototipagem rápida e dimensionamento eficiente de projetos de IA.

  • IA multimodal

    A OCI suporta modelos multimodais integrando entradas de texto, voz e imagem. Esses modelos são hospedados em instâncias de GPU de alto desempenho.

  • Fala com texto

    A OCI Speech é o serviço de fala em texto da Oracle que converte áudio em texto com alta precisão. Integrado à OCI, ele oferece suporte a vários idiomas, transcrição em tempo real e em lote e oferece recursos avançados, como diarização de alto-falantes, confiança no nível da palavra e filtragem de linguagem ofensiva. Ele também se conecta perfeitamente a outros serviços da OCI para processamento escalável e em tempo real.

  • Geração de recuperação aumentada

    A OCI fornece uma solução abrangente de geração aumentada de recuperação (RAG) integrando o Oracle Database 23ai e o OCI Object Storage aos serviços de IA generativa. Os dados são transformados em incorporações de vetores e armazenados no Oracle Autonomous Database para permitir uma pesquisa semântica eficiente. As respostas geradas são enriquecidas com informações relevantes e atualizadas. Os workflows de RAG são orquestrados por meio do OCI Connector Hub, oferecendo suporte à execução orientada a eventos, ingestão automatizada de dados e escalabilidade em tempo real.

    Os workflows de RAG são orquestrados por meio do OCI Connector Hub, com suporte para execução orientada a eventos e integração com pipelines de ingestão de dados.

  • Banco de dados vetorial

    O Oracle Database 23ai oferece recursos de banco de dados vetorial nativo por meio do tipo de dados VECTOR, permitindo o armazenamento de incorporações e pesquisa semântica usando SQL padrão. Ele suporta indexação vetorial, geração de incorporação externa ou baseada em ONNX e controle de precisão para consultas de similaridade. Otimizado para o Exadata, ele elimina a necessidade de armazenamentos de vetores separados, oferecendo suporte a casos de uso como RAG, recomendações e IA generativa em um ambiente Oracle unificado.

  • Agentes da OCI Generative AI

    Esses agentes são alimentados pelo serviço OCI Generative AI ou por modelos de terceiros em execução na infraestrutura de GPU bare metal da OCI.

  • Velocidade da OCI

    Para garantir alto throughput e desempenho, as instâncias bare metal (por exemplo, A100, H200, B200 e GB200) são usadas para treinamento e inferência de modelos grandes, suportando rápida experimentação e cargas de trabalho de nível de produção.

Arquitetura

Essa arquitetura ilustra como a Oracle Cloud Infrastructure (OCI) suporta fluxos de trabalho de IA generativa de ponta a ponta em desenvolvimento, integração e interação com o usuário.

Fluxo A: Integração

  1. Aplicativos para clientes
  2. Oracle Integration
  3. OCI Object Storage (buckets)
  4. Detecção do OCI Events
  5. OCI Streaming e OCI Connector Hub
  6. OCI Functions (execução lógica)
  7. Oracle Process Cloud Service (inferência por GPUs)
  8. Camada de dados (Oracle Database 23ai e buckets)

Fluxo B: Interação do usuário

  1. Interfaces de usuário final (Apex)
  2. Aplicativos (Agentes GenAI do OCI, OCI Speech, Oracle Digital Assistant)
  3. Oracle Process Cloud Service (inferência por GPUs)
  4. Camada de dados (Oracle Database 23ai e buckets)

Fluxo C: Desenvolvimento e sandbox

  1. Origens de modelo externo
  2. Validação da segurança do código
  3. Desenvolvimento e teste
  4. Pipeline de automação para produção

O diagrama a seguir ilustra essa arquitetura de referência.



ai-llm-workflow-arquitetura-oracle.zip

Visão geral da arquitetura por domínios funcionais

  • Desenvolvimento e treinamento (espaço de trabalho de autoatendimento)

    A arquitetura é estruturada em um compartimento centralizado para operações de LLM:

    • O serviço Data Science fornece um espaço de trabalho integrado para desenvolvimento de modelos, notebooks Jupyter e estruturas de ML predefinidas. Inclui ferramentas de ação rápida para implantação de modelo e execução de job.
    • A implantação de modelo hospeda máquinas virtuais (VMs) para teste e implantação de modelos. Os usuários podem validar modelos aqui antes de movê-los para a produção.
    • O Playground é um ambiente acelerado por GPU (Flex VMs, A10, A100, LS40) que oferece recursos de computação isolados e de alto desempenho para modelos personalizados e de terceiros (por exemplo, Hugging Face). Ele serve como zona de experimentação para fluxos de trabalho BYOLLM (Bring Your Own LLM).
  • Camada de aplicação e função
    • As APIs de linguagem e OCI Speech oferecem serviços prontos para consumo para transcrição, NLU e extração de entidades.
    • O OCI Functions é usado para transcrição em tempo real, NLP e execução sem servidor de pipelines de IA.
    • As ferramentas de front-end e monitoramento do APEX fornecem interfaces para interação, análise e governança do usuário.
    • Os Agentes GenAI da OCI e o Digital Assistant permitem experiências de conversação usando dados empresariais e LLMs integrados.
  • Processamento (camada de produção)
    • O OCI Kubernetes Engine (OKE) oferece suporte à implantação em contêineres de modelos de produção e serviços de inferência.
    • A OCI Generative AI fornece acesso baseado em API a LLMs personalizados ou hospedados pela Oracle, ajustados e com suporte a casos de uso corporativos seguros e escaláveis.
  • Infraestrutura de GPU (H100 e suporte a RDMA)
    • As instâncias de GPU bare metal (H100 com RDMA) permitem treinamento e inferência distribuídos com vários nós com alto rendimento e comunicação de baixa latência, ideais para cargas de trabalho massivas de LLM.
    • Otimizada para a tecnologia GPU (Multi-Instance GPU) do Kubernetes e NVIDIA, essa configuração permite a orquestração de GPU e o compartilhamento dinâmico de recursos, permitindo alocação de GPU fracionária e agendamento de vários usuários entre as equipes.
  • Camada de dados e conhecimento
    • O Oracle Database 23ai, aprimorado com suporte para pesquisa vetorial e semântica, atua como a camada de recuperação para workflows de Geração Aumentada de Recuperação (RAG).
    • Os buckets do OCI Object Storage armazenam dados não estruturados, incorporações, documentos e artefatos de modelo.
  • MLOps (pipeline do modelo de produção)
    • A arquitetura inclui um pipeline de CI/CD para promover modelos do ambiente de playground à produção. Atualmente representado pelo OCI DevOps é o serviço nativo, totalmente gerenciado e de integração contínua e entrega contínua (CI/CD) da OCI que permite às organizações automatizar a implantação de modelos de machine learning, da experimentação à produção.
    • Pipelines de build integrados com o Git.
    • Implantação automatizada em VMs ou contêineres.
    • Integração nativa com OCI Artifacts Registry, OCI Functions e OCI API Gateway.
  • Camada de integração e segurança
    • Os buckets do OCI Object Storage atuam como o armazenamento central para modelos, dados de treinamento, saídas de inferência e incorporações.
    • Os serviços OCI Events, OCI Streaming e OCI Connector Hub permitem orquestração orientada a eventos e integração de serviços em todo o ambiente.
    • Oracle Identity Cloud Service, políticas do IAM, OCI Logging e listas de segurança fornecem recursos robustos de governança, autenticação, controle de acesso e conformidade em todos os serviços da OCI.
    • O Oracle Integration é uma plataforma de middleware predefinida que permite a integração segura e perfeita entre sistemas on-premises e serviços em nuvem, oferecendo suporte à sincronização de dados em tempo real, orquestração de API e automação de processos em aplicações heterogêneas.

A arquitetura tem os seguintes componentes:

  • Domínios de disponibilidade

    Domínios de disponibilidade são data centers stand-alone e independentes dentro de uma região. Os recursos físicos de cada domínio de disponibilidade são isolados dos recursos de outros domínios de disponibilidade, o que oferece tolerância a falhas. Os domínios de disponibilidade não compartilham infraestrutura como energia ou refrigeração ou a rede interna do domínio de disponibilidade. Portanto, uma falha em um domínio de disponibilidade não deve afetar os outros domínios de disponibilidade na região.

  • Bare metal

    Os servidores bare metal da Oracle fornecem isolamento, visibilidade e controle usando instâncias de computação dedicadas. Os servidores suportam aplicativos que exigem altas contagens de núcleos, grandes quantidades de memória e alta largura de banda. Eles podem escalar até 192 núcleos, 2,3 TB de RAM e até 1 PB de armazenamento em blocos. Os clientes podem criar ambientes na nuvem nos servidores bare metal do sistema Oracle com melhorias significativas de desempenho em comparação com outras nuvens públicas e data centers locais.

  • Compartimento

    Compartimentos são partições lógicas entre regiões em uma tenancy do OCI. Use compartimentos para organizar, controlar o acesso e definir cotas de uso para seus recursos do Oracle Cloud. Em um determinado compartimento, você define políticas que controlam o acesso e definem privilégios para recursos.

  • Connector Hub

    O Oracle Cloud Infrastructure Connector Hub é uma plataforma de barramento da mensagem que orquestra a movimentação dos dados entre os serviços na OCI. Você pode usar conectores para mover dados de um serviço de origem para um serviço de destino. Os conectores também permitem que você especifique opcionalmente uma tarefa (como uma função) a ser executada nos dados antes de serem entregues ao serviço de destino.

    Você pode usar o OCI Connector Hub para criar rapidamente uma estrutura de agregação de logs para sistemas SIEM (Security Information and Event Management).

  • Gateway de roteamento dinâmico (DRG)

    O DRG é um roteador virtual que fornece um caminho para tráfego de rede privada entre VCNs na mesma região, entre uma VCN e uma rede fora da região, como uma VCN em outra região do OCI, uma rede on-premises ou uma rede em outro provedor de nuvem.

  • FastConnect

    O Oracle Cloud Infrastructure FastConnect cria uma conexão privada dedicada entre seu data center e a OCI. FastConnect fornece opções mais altas de largura de banda e uma experiência em rede mais confiável quando comparada com conexões baseadas na internet.

  • Computação de alto desempenho

    A computação de alto desempenho foi projetada para cargas de trabalho que exigem rede de cluster e núcleos de processador de alta velocidade para cargas de trabalho massivamente paralelas.

  • Gateway de internet

    Um gateway de internet permite o tráfego entre as sub-redes públicas em uma VCN e a internet pública.

  • Rede on-premises

    Esta é uma rede local usada pela sua organização.

  • Região

    Uma região do OCI é uma área geográfica localizada que contém um ou mais data centers, hospedando domínios de disponibilidade. Regiões são independentes de outras regiões, e grandes distâncias podem separá-las (entre países ou mesmo continentes).

  • Tabela de roteamento

    As tabelas de roteamento virtual contêm regras para rotear o tráfego de sub-redes para destinos fora de uma VCN, geralmente por meio de gateways.

  • Lista de segurança

    Para cada sub-rede, você pode criar regras de segurança que especifiquem a origem, o destino e o tipo de tráfego permitido dentro e fora da sub-rede.

  • Gateway de serviço

    Um gateway de serviço fornece acesso de uma VCN a outros serviços, como o Oracle Cloud Infrastructure Object Storage. O tráfego da VCN para o serviço Oracle atravessa a malha de rede Oracle e não atravessa a internet.

  • Tenancy

    Uma tenancy é uma partição segura e isolada que a Oracle configura no Oracle Cloud quando você se inscreve no OCI. Você pode criar, organizar e administrar seus recursos no OCI em sua tenancy. Uma tenancy é sinônimo de uma empresa ou organização. Normalmente, uma empresa terá uma única tenancy e refletirá sua estrutura organizacional dentro dessa tenancy. Uma única tenancy geralmente está associada a uma única assinatura, e uma única assinatura geralmente tem apenas uma tenancy.

  • VCN (Rede Virtual na Nuvem) e sub-rede

    Uma VCN é uma rede personalizável e definida por software que você configura em uma região da OCI. Assim como as redes tradicionais do data center, as VCNs dão a você controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos de CIDR (Classless Inter-domain Routing) não sobrepostos que você pode alterar após criar a VCN. Você pode segmentar uma VCN em sub-redes, com escopo definido para uma região ou para um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contíguo de endereços que não se sobrepõem a outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Oracle Database 23ai

    A versão 23ai do Oracle Database tem foco em IA e produtividade do desenvolvedor. Ele traz a IA para seus dados com a adição do AI Vector Search ao banco de dados convergente da Oracle. Esse recurso, combinado com novos paradigmas de desenvolvimento unificado e recursos de missão crítica, torna mais simples para desenvolvedores e profissionais de dados capacitar aplicativos, desenvolvimento de aplicativos e cargas de trabalho de missão crítica com IA.

  • Eventos

    Os serviços no OCI emitem eventos, que são mensagens estruturadas que descrevem as alterações nos recursos. Os eventos são emitidos para operações de criação, leitura, atualização ou exclusão (CRUD), alterações no estado do ciclo de vida do recurso e eventos do sistema que afetam os recursos da nuvem.

  • Logging
    O Oracle Cloud Infrastructure Logging é um serviço altamente escalável e totalmente gerenciado que fornece acesso aos seguintes tipos de logs de seus recursos na nuvem:
    • Logs de auditoria: Logs relacionados a eventos produzidos pelo OCI Audit.
    • Logs de serviço: Logs publicados por serviços individuais, como OCI API Gateway, OCI Events, OCI Functions, OCI Load Balancing, OCI Object Storage e logs de fluxo da VCN.
    • Logs personalizados: Logs que contêm informações de diagnóstico dos aplicativos personalizados, de outros provedores de nuvem ou de um ambiente on-premises.
  • Monitoring

    O Oracle Cloud Infrastructure Monitoring monitora ativa e passivamente seus recursos de nuvem e usa alarmes para notificá-lo quando as métricas atendem aos acionadores especificados.

  • OCI Registry

    O Oracle Cloud Infrastructure Registry é um serviço gerenciado pelo sistema Oracle que permite simplificar seu workflow de desenvolvimento para produção. O Registry facilita o armazenamento, o compartilhamento e o gerenciamento de artefatos do desenvolvimento, como imagens Docker.

  • Fala

    O Oracle Cloud Infrastructure Speech aproveita o poder da linguagem falada, permitindo que você converta facilmente arquivos de mídia que contêm fala humana em transcrições de texto altamente precisas. Você pode acessar usando a Console, a API REST, a CLI e o SDK.

  • Fluxo de Trabalho

    O Oracle Cloud Infrastructure Workflow é um mecanismo de workflow sem servidor com um designer de fluxo gráfico para desenvolvedores e arquitetos. Ele acelera a criação, a execução e a orquestração de serviços da OCI, como OCI Functions ou AI/ML.

  • Serviço do APEX

    O Oracle APEX Application Development é uma plataforma de desenvolvimento de baixo código que permite criar aplicativos corporativos escaláveis, ricos em recursos e seguros que podem ser implantados em qualquer lugar em que o Oracle Database esteja instalado. Não é necessário ser um especialista em uma vasta gama de tecnologias para fornecer soluções sofisticadas. O APEX Service inclui recursos incorporados, como temas de interface de usuário, controles navegacionais, handlers de formulários e relatórios flexíveis, que aceleram o processo do desenvolvimento de aplicativos.

  • Gateway da API

    O Oracle Cloud Infrastructure API Gateway permite que você publique APIs com pontos finais privados acessíveis de dentro da sua rede e que você pode expor à internet pública, se necessário. Os pontos finais suportam validação da API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação.

  • Volumes em Blocos do OCI

    Com o Oracle Cloud Infrastructure Block Volumes, você pode criar, anexar, conectar e mover volumes de armazenamento e alterar o desempenho do volume para atender aos seus requisitos de armazenamento, desempenho e aplicativo. Depois de anexar e conectar um volume a uma instância, você pode usar o volume como disco rígido comum. Você também pode desconectar um volume e anexá-lo a outra instância sem perder dados.

  • Computação

    Com o Oracle Cloud Infrastructure Compute, você pode provisionar e gerenciar hosts de computação na nuvem. Você pode iniciar instâncias de computação com formas que atendam aos seus requisitos de recursos para CPU, memória, largura de banda de rede e armazenamento. Depois de criar uma instância de computação, você poderá acessá-la com segurança, reiniciá-la, anexar e desanexar volumes e encerrá-la quando não precisar mais dela.

  • Data Science

    O Oracle Cloud Infrastructure Data Science é uma plataforma totalmente gerenciada e serverless que as equipes de ciência de dados podem usar para criar, treinar e gerenciar modelos de machine learning (ML) na OCI. Ele pode ser facilmente integrado a outros serviços da OCI, como Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e muito mais. Você pode criar e avaliar modelos de machine learning de alta qualidade que aumentam a flexibilidade dos negócios, colocando os dados confiáveis da empresa para funcionar rapidamente e pode oferecer suporte a objetivos de negócios orientados por dados com implementação mais fácil de modelos de ML. O serviço Data Science permite que cientistas de dados e engenheiros de machine learning usem pacotes do Repositório Anaconda gratuitamente.

    O recurso Jobs do serviço Data Science permite que os cientistas de dados definam e executem tarefas repetíveis de aprendizado de máquina em uma infraestrutura totalmente gerenciada.

    O recurso Implantação de Modelo do serviço Data Science permite que os cientistas de dados implantem modelos treinados como pontos finais HTTP totalmente gerenciados que podem fornecer previsões em tempo real, infundindo inteligência em processos e aplicativos e permitindo que a empresa reaja a eventos relevantes à medida que ocorrem.

  • DevOps

    O Oracle Cloud Infrastructure DevOps (operações do desenvolvedor) é uma plataforma completa de integração contínua/entrega contínua (CI/CD) para que os desenvolvedores simplifiquem e automatizem seu ciclo de vida de desenvolvimento de software. A OCI DevOps permite que desenvolvedores e operadores desenvolvam, criem, testem e implantem software de forma colaborativa. Desenvolvedores e operadores obtêm visibilidade em todo o ciclo de vida de desenvolvimento com um histórico de commit de origem por meio das fases de criação, teste e implementação.

  • Funções

    O Oracle Cloud Infrastructure Functions é uma plataforma Functions-as-a-Service (FaaS) totalmente gerenciada, multitenant, altamente escalável e sob demanda. Ele é alimentado pelo mecanismo de open source do Fn Project. O OCI Functions permite que você implante o código da sua conta e o chame diretamente ou o acione em resposta a eventos. O OCI Functions usa contêineres Docker hospedados no Oracle Cloud Infrastructure Registry.

  • Serviço Identity and Access Management

    O Oracle Cloud Infrastructure Identity and Access Management (IAM) fornece controle de acesso do usuário para OCI e Oracle Cloud Applications. A API do IAM e a interface do usuário permitem gerenciar domínios de identidades e os recursos dentro deles. Cada domínio de identidades do OCI IAM representa uma solução independente de gerenciamento de identidades e acessos ou outra população de usuários.

  • Integração

    O Oracle Integration é um ambiente pré-configurado totalmente gerenciado que permite integrar aplicativos na nuvem e on-premises, automatizar processos de negócios e desenvolver aplicativos visuais. Ele usa um servidor de arquivos compatível com SFTP para armazenar e recuperar arquivos e permite que você troque documentos com parceiros comerciais business-to-business usando um portfólio de centenas de adaptadores e receitas para se conectar com aplicativos Oracle e de terceiros.

  • Cluster do Kubernetes

    Um cluster do Kubernetes é um conjunto de máquinas que executam aplicativos em contêineres. O Kubernetes fornece uma plataforma portátil, extensível e de código aberto para gerenciar cargas de trabalho e serviços em contêineres nesses nós. Um cluster do Kubernetes é formado por nós de trabalho e nós de plano de controle.

  • Plano de controle do Kubernetes

    Um plano de controle do Kubernetes gerencia os recursos dos nós de trabalho e pods em um cluster do Kubernetes. Os componentes do plano de controle detectam e respondem a eventos, executam a programação e movem recursos de cluster.

    Estes são os componentes do plano de controle:
    • kube-apiserver: Executa o servidor de API do Kubernetes.
    • etcd: Armazenamento de chave/valor distribuído para todos os dados do cluster.
    • kube-scheduler: Determina em qual nó os novos pods não atribuídos serão executados.
    • kube-controller-manager: Executa processos do controlador.
    • cloud-controller-manager: vincula seu cluster à API específica da nuvem.
  • Mecanismo do Kubernetes do OCI

    O Oracle Cloud Infrastructure Kubernetes Engine (OCI Kubernetes Engine ou OKE) é um serviço totalmente gerenciado, escalável e altamente disponível que você pode usar para implantar seus aplicativos conteinerizados na nuvem. Você especifica os recursos de computação necessários aos seus aplicativos e o OKE os provisiona no OCI em uma tenancy existente. O OKE usa o Kubernetes para automatizar a implantação, o dimensionamento e o gerenciamento de aplicativos em contêineres em clusters de hosts.

  • Nó de trabalho do Kubernetes

    Um nó de trabalho do Kubernetes é uma máquina de trabalho que executa aplicativos conteinerizados em um cluster do Kubernetes. Cada cluster tem pelo menos um nó de trabalho.

  • Object Storage

    O OCI Object Storage oferece acesso a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de banco de dados, dados analíticos e conteúdo avançado como imagens e vídeos. Você pode armazenar dados com segurança e diretamente da internet ou de dentro da plataforma na nuvem. Você pode dimensionar o armazenamento sem sofrer qualquer degradação no desempenho ou na confiabilidade de serviço.

    Use armazenamento padrão para armazenamento "quente" que você precisa acessar com rapidez, rapidez e frequência. Use armazenamento de arquivo compactado para armazenamento "frio" que você retém por longos períodos de tempo e acesso raro.

  • Streaming

    O Oracle Cloud Infrastructure Streaming fornece uma solução para armazenamento totalmente gerenciada, escalável e durável para a ingestão de streams contínuos de alto volume de dados que você pode acessar e processar em tempo real. Você pode usar o OCI Streaming para ingerir dados de alto volume, como logs de aplicativos, telemetria operacional, dados de sequência de cliques da web; ou para outros casos em que os dados sejam produzidos e processados de maneira contínua e sequencial em um modelo de mensagens publicar-assinar.

  • Auditoria

    O serviço Oracle Cloud Infrastructure Audit registra automaticamente chamadas para todos os pontos finais suportados da Interface de Programação de Aplicativos (API) pública do OCI como eventos de log. Todos os serviços do OCI suportam o registro em log pelo Oracle Cloud Infrastructure Audit.

  • IA Generativa

    O Oracle Cloud Infrastructure Generative AI é um serviço do OCI totalmente gerenciado que fornece um conjunto de modelos de linguagem grandes (LLMs) personalizáveis e de última geração que abrangem uma ampla variedade de casos de uso para geração, resumo, pesquisa semântica e muito mais. Use o playground para testar os modelos de pré-treinamento prontos a usar ou crie e hospede seus próprios modelos personalizados ajustados com base em seus próprios dados em clusters dedicados de IA.

  • Balanceador de carga

    O Oracle Cloud Infrastructure Load Balancing fornece distribuição automatizada de tráfego de um único ponto de entrada para vários servidores.

  • Gateway de tradução de endereço de rede (NAT)

    Um gateway NAT permite que recursos privados em uma VCN acessem hosts na internet, sem expor esses recursos a conexões de internet de entrada.

  • IA Generativa

    O Oracle Cloud Infrastructure Generative AI é um serviço do OCI totalmente gerenciado que fornece um conjunto de modelos de linguagem grandes (LLMs) personalizáveis e de última geração que abrangem uma ampla variedade de casos de uso para geração, resumo, pesquisa semântica e muito mais. Use o playground para testar os modelos de pré-treinamento prontos a usar ou crie e hospede seus próprios modelos personalizados ajustados com base em seus próprios dados em clusters dedicados de IA.

  • Digital Assistant

    Oracle Digital Assistant é uma plataforma que permite criar e implantar assistentes digitais para seus usuários. Com o Oracle Digital Assistant, você pode criar interfaces orientadas por IA (ou chatbots) para aplicativos de negócios por meio de interfaces de texto, chat e voz. Cada assistente digital tem uma coleção de uma ou mais habilidades especializadas para ajudar os usuários a concluir uma variedade de tarefas em conversas em linguagem natural. Por exemplo, um assistente digital individual pode ter habilidades que se concentram em tipos específicos de tarefas, como rastrear estoque, enviar cartões de ponto e criar relatórios de despesas.

  • Política

    Uma política do Oracle Cloud Infrastructure Identity and Access Management especifica quem pode acessar quais recursos e como. O acesso é concedido no nível do grupo e do compartimento. Significa que você pode gravar uma política que conceda a um grupo um tipo específico de acesso em um compartimento específico ou na tenancy.

  • Zona de segurança

    As zonas de segurança implementam as principais melhores práticas de segurança da Oracle, impondo políticas para um compartimento inteiro, como criptografar dados e impedir o acesso público às redes. Uma zona de segurança está associada a um compartimento com o mesmo nome e inclui políticas de zona de segurança (uma receita) que se aplicam ao compartimento e seus subcompartimentos. Você não pode adicionar ou mover um compartimento padrão para um compartimento da zona da segurança.

Recomendações

Garanta o sucesso, a escalabilidade e a sustentabilidade da plataforma de IA empresarial criada em OCIs, com foco no desenvolvimento de LLM de autoatendimento, MLOps, otimização de GPU e integração de nível empresarial.

  • Governança de plataforma e estratégia
    • Crie um centro de excelência multifuncional dedicado para a IA governar:
      • Melhores práticas em treinamento e implementação de LLM
      • Alocação de recursos e gerenciamento de cotas
      • Segurança, conformidade e uso ético de IA
    • Evite a expansão descontrolada de recursos ao ativar cotas e políticas de marcação na OCI para garantir a rastreabilidade e a responsabilidade de custos entre departamentos e equipes.
  • Eficiência e programação de recursos de GPU
    • Combine o MIG da NVIDIA para otimizar o uso da GPU. Atribua GPUs fracionárias por trabalho ou usuário para aumentar a utilização e reduzir custos.
    • Solução de fracionamento de GPU:
      • A GPU de várias instâncias (MIG) é um recurso disponível nas GPUs NVIDIA A100 e H100 que permite o particionamento de uma única GPU física em várias instâncias (ou fatias) isoladas por hardware, conhecidas como instâncias de GPU.

        Cada instância funciona como uma GPU independente com sua própria:

        • Memória dedicada
        • Núcleos de computação
        • Largura de banda de cache e memória

        Isso permite que as equipes executem várias cargas de trabalho de IA simultaneamente em uma única GPU com desempenho previsível e isolamento em nível de hardware.

        O OCI Kubernetes Engine (OKE) é configurado para oferecer suporte ao agendamento com reconhecimento de MIG, permitindo:

        • Cada pod para solicitar uma instância específica do MIG (por exemplo, 1/7 de um A100).
        • O scheduler do Kubernetes para alocar de forma inteligente fatias de GPU disponíveis com base nas solicitações.
        • Instâncias MIG a serem expostas por meio do plug-in de dispositivo NVIDIA e descoberta de recursos do nó, garantindo que sejam detectáveis e agendáveis pelo OKE.
        • As GPUs habilitadas para MIG (por exemplo, A100 ou H100) são implantadas em instâncias bare metal do OCI ou como nós de trabalho do OKE.
        • O OKE lida com cargas de trabalho de IA em contêiner com agendamento com reconhecimento de MIG.
    • Perfil MIG Fração da fatia Memória dedicada Adequado para...
      1g.5gb 1/7 5 GB Inferência leve, testando
      2g.10gb 2/7 10 GB Ajustando modelos menores
      3g.20gb 3/7 20 GB Modelos de médio porte
      7g.40gb GPU completa 40 GB Treinamento em larga escala
    • Use o OCI Monitoring para evitar gargalos em fases de alta demanda (por exemplo, sprints de treinamento de modelo).
  • Ciclo de vida e automação do modelo
    • Padronize a CI/CD implantando modelos por meio de pipelines do OCI DevOps integrados ao Git e Container Registry para automatizar:
      • Embalagem de modelo
      • Testes e validação
      • Implantação para o OKE ou Funções
    • Inclua etapas de rollback e validação incorporando testes A/B, implantações canárias e lógica de rollback para evitar regressões no comportamento do modelo.
  • Arquitetura de dados
    • Implemente o Oracle Database 23ai para armazenar incorporações e ativar a pesquisa semântica por meio do Oracle AI Vector Search. Combiná-lo com:
      • OCI Object Storage para documentos
      • OCI Functions para orquestração de recuperação
    • Mantenha a frescura do vetor recomputando e atualizando incorporações regularmente quando os documentos de origem forem alterados para garantir a precisão da saída de RAG.
  • Segurança, conformidade e observabilidade
    • Imponha a segmentação baseada no IAM usando políticas, compartimentos e grupos do OCI IAM para definir limites claros entre ambientes de desenvolvimento, teste e produção.
    • Registre e audite cada ação crítica ativando logs do OCI Logging, do OCI Monitoring e do OCI Audit para todos os componentes críticos (nós OKE, Functions, Storage, GPU).
  • Integração multicloud e híbrida
    • Use o OCI FastConnect, o gateway de serviço e os pontos finais privados para garantir a integração segura e de alta velocidade com serviços de IA locais e de terceiros (por exemplo, Azure OpenAI, AWS Bedrock).
    • Evite a exposição pública à Internet para cargas de trabalho confidenciais. Use sub-redes privadas, gateways NAT e autenticação service-to-service sempre que possível.
  • Autosserviço para desenvolvedor
    • Forneça modelos iniciais selecionados e APIs, oferecendo um conjunto de pipelines do OCI Functions, OCI DevOps e modelos de notebook para integrar novos usuários de forma rápida e segura no ambiente de autoatendimento.
    • Equilibre a autonomia com proteções, capacitando os usuários e mantendo o controle por meio de políticas, cotas e melhores práticas compartilhadas para o desenvolvimento responsável de modelos.

Considerações

Considere os pontos a seguir ao implantar essa arquitetura de referência.

  • Desempenho
    • Implemente instâncias de GPU de alto desempenho, como A100, H100, H200, B200 e GB200, personalizadas para requisitos específicos de carga de trabalho, incluindo treinamento, inferência e IA distribuída em larga escala.
    • Aproveite clusters de GPU habilitados para RDMA para cargas de trabalho distribuídas de alta largura de banda e baixa latência.
    • Monitore continuamente o uso de recursos para mitigar a disputa de forma proativa.
  • Segurança
    • Implemente a compartimentação e as sub-redes privadas para isolar diferentes ambientes operacionais.
    • Impor controles de acesso rigorosos usando o OCI IAM e o IDCS.
    • Mantenha trilhas abrangentes de registro e auditoria para todas as operações significativas.
  • Disponibilidade
    • Distribua recursos críticos entre vários domínios de falha para garantir a tolerância a falhas.
    • Utilize o OCI Kubernetes Engine (OKE) com dimensionamento automático para manter a elasticidade.
    • Valide estratégias de backup, recuperação e replicação de dados para atingir os objetivos de continuidade dos negócios.
  • Custo
    • Maximize a eficiência da utilização de GPU por meio da fracionização de MIG da NVIDIA.
    • Implemente estratégias de armazenamento em camadas, aproveitando as políticas de ciclo de vida do OCI Object Storage.
    • Use tags no nível do projeto e cotas de orçamento para manter a responsabilidade financeira.
  • Integração e implantação
    • Padronize fluxos de trabalho de CI/CD com o OCI DevOps para simplificar e automatizar o ciclo de vida do modelo.
    • Garanta práticas consistentes de integração multicloud usando o OCI FastConnect e gateways de roteamento dinâmico (DRGs) para fluxos de dados seguros.
  • Gerenciamento de Dados
    • Gerencie e atualize regularmente as incorporações semânticas no Oracle Database 23ai para recuperação precisa.
    • Categorize o armazenamento adequadamente por padrões de uso de dados (padrão versus arquivamento).
  • Adoção e gerenciamento de usuários
    • Forneça recursos de integração estruturados para acelerar a adoção do autoatendimento.
    • Avalie continuamente os ambientes de autoatendimento e ajuste as políticas para equilibrar a liberdade do usuário com a governança operacional.

Explorar Mais

Saiba mais sobre como a OCI capacita soluções de IA generativa escaláveis, seguras e prontas para a empresa.

Revise estes recursos adicionais:

Confirmações

  • Autores: Diego Mariano, Diogo Santiago
  • Colaboradores: Douglas Silva, John Sulyok