Visão Geral da Implantação de Agentes no OCI Generative AI

Você pode implantar agentes usando o OCI Generative AI Applications, que fornece um runtime gerenciado para cargas de trabalho de agentes em contêineres.

Para implantar um agente, empacote-o como uma imagem de contêiner, faça upload dele no Oracle Cloud Infrastructure Registry (OCIR) e implante-o usando a Console, a API ou a CLI do OCI.

Durante a implantação, configure:

  • Dimensionamento
  • Armazenamento
  • Rede
  • Autenticação

Após a implantação, o serviço provisiona um ponto final (por exemplo, um URL HTTP) que os clientes ou outros agentes podem usar para chamar o agente.

Como Funciona

Depois de desenvolver um agente localmente (por exemplo, usando LangGraph ou estruturas semelhantes), você cria um aplicativo do serviço Generative AI para definir a configuração do runtime.

Em seguida, você cria uma implantação selecionando uma imagem de contêiner. A implantação ativa atende a solicitações por meio do ponto final do aplicativo. Depois que a implantação é provisionada, o ponto final fica disponível para chamar o agente.

Demonstração

Use Generative AI Applications para implementar agentes como aplicativos gerenciados em contêineres na OCI Generative AI.

Com o Generative AI Applications, você cria uma imagem de contêiner, faz upload dela para o Oracle Cloud Infrastructure Registry (OCIR) e implanta essa imagem como um Aplicativo de IA Generativa usando a Console, a API ou a CLI do OCI.

Ao implantar um agente, você pode configurar como o aplicativo é executado e como os clientes o acessam, incluindo:

  • Dimensionamento
  • Armazenamento
  • Rede
  • Autenticação

Depois que a implantação é provisionada, o OCI Generative AI fornece um ponto final, como um URL HTTP, que os clientes podem usar para chamar o agente implantado.

A implantação de um agente é útil quando você deseja um runtime gerenciado para um aplicativo de agente em contêiner, com configuração de implantação gerenciada pelo OCI e provisionamento de ponto final.

Para obter mais informações, consulte os tópicos sobre o Generative AI Applications e a implantação de aplicativos de agente em contêineres.

Comparar Aplicativos com Outras Opções de Implantação de Contêiner do OCI

Compare o Generative AI Applications com o OCI Container Instances e o Oracle Kubernetes Engine (OKE).

Os aplicativos OCI Generative AI fornecem uma opção de implantação gerenciada para aplicativos agentic e servidores MCP. As tabelas a seguir as comparam com outras soluções de implantação de contêiner do OCI.

Compare aplicações de IA generativa com OCI Container Instances

Capacidade Aplicativos GenAI Instâncias de Contêineres do OCI
Uso principal Web services, especialmente aplicativos agênticos e servidores MCP Trabalhos em lote, scripts e colaboradores
Acionar modelo HTTP ou orientado a eventos Manual, orientado por API ou programado
Dimensionamento Dimensionamento automático de 0 para muitas instâncias Sem dimensionamento automático integrado
Escalar para zero Sim Não automático
Balanceamento de carga Incorporado Gerenciado pelo usuário
Nível de abstração Implantação de estilo serverless de nível mais alto Execução de contêiner de nível inferior
Modelo de inicialização Inicialização rápida e baseada em solicitações Inicia como uma pequena VM
Rede Pontos finais HTTPS gerenciados Controle no nível da VCN

Comparar Aplicativos de IA Generativa com o OKE

Capacidade Aplicativos GenAI OKE
Despesas gerais de operações Baixo Alto
Dimensionamento Dimensionamento automático de 0 para N Configurável com HPA e dimensionamento automático de cluster
Escalar para zero Sim Não nativo
Implantação Simples, enviando uma imagem de contêiner Mais complexo, com manifestos e gráficos Helm
Controle Limitado Controle total
Rede Totalmente gerenciado Totalmente personalizável
Uso do caso APIs e serviços sem monitoramento de estado Sistemas distribuídos complexos

Protocolos de Transporte Suportados

Na OCI Generative AI, depois que um agente é implantado, os clientes podem chamá-lo por meio do ponto final provisionado. O protocolo de transporte depende da implementação do servidor do agente e do modelo de interação necessário (sessões de solicitação/resposta, streaming ou bidirecionais).

Os protocolos compatíveis incluem:

HTTP

HTTP é o modelo de chamada mais amplamente suportado.

  • Modelo de interação: Solicitação/resposta sem estado
  • Transporte: HTTP/1.1 ou HTTP/2 com TLS
  • Caso de uso: Chamadas de API síncronas e solicitações de inferência de curta duração

Nesse modo, o cliente envia uma solicitação HTTP (normalmente POST com um payload JSON). O servidor retorna uma única resposta após a conclusão do processamento.

SSE (Eventos enviados pelo servidor)

O SSE (Server-Sent Events) é um protocolo de streaming unidirecional criado com base no HTTP.

  • Modelo de interação: de cliente para servidor (solicitação única), de servidor para cliente (resposta em fluxo)
  • Transporte: HTTP com Content-Type: text/event-stream
  • Caso de uso: Respostas de streaming (por exemplo, saída token por token)

Neste modo, o cliente envia uma solicitação e o servidor mantém a conexão aberta enquanto transmite resultados incrementais como eventos.

WebSocket (Full Duplex Streaming)

O WebSocket fornece comunicação bidirecional e persistente entre o cliente e o servidor.

  • Modelo de interação: Full duplex (cliente e servidor podem enviar mensagens a qualquer momento)
  • Transporte: Protocolo WebSocket (wss://)
  • Caso de uso: Agentes interativos, execução de ferramentas em tempo real e sessões de várias voltas

Após o handshake inicial do upgrade HTTP, a conexão permanece aberta, permitindo a troca de mensagens bidirecional por um canal persistente.

Autenticação

Configure a autenticação de entrada para controlar o acesso a agentes e a autenticação de saída para acessar com segurança os recursos do OCI.

Os aplicativos suportam a autenticação do OAuth 2.0 usando um domínio de identidades. Consulte Configurando a Autenticação para o Suporte Agentic

Autenticação de entrada

A autenticação de entrada controla quem pode acessar seus agentes validando tokens de provedores de identidade antes de rotear solicitações para agentes hospedados.

O OCI Generative AI suporta o OAuth 2.0 para autenticação de entrada, integrado a provedores de identidade como o Oracle Identity Cloud Service (IDCS). Consulte Configurando a Autenticação para o Suporte do Agentic.

Autenticação de saída

Com a autenticação de saída, os aplicativos do agente implantados podem acessar com segurança outros recursos do OCI em uma tenancy.

O acesso é concedido definindo políticas do OCI IAM que autorizam o aplicativo do agente (como controlador de recursos) a executar ações específicas em recursos especificados. Essas políticas decidem o escopo do acesso com base no princípio do privilégio mínimo.

Após a implantação, a plataforma provisiona automaticamente um Token de Sessão do Controlador de Recursos (RPST) para a carga de trabalho do agente. O RPST é injetado com segurança no runtime do contêiner, permitindo que o aplicativo se autentique nos serviços do OCI sem usar credenciais de longa duração, como chaves de API ou tokens de usuário.

No contêiner, o agente usa o OCI SDK com o provedor de autenticação do controlador de recursos. O SDK recupera e atualiza automaticamente o RPST, permitindo acesso seguro a serviços autorizados do OCI, como Armazenamento de Objetos, Autonomous Database, Vault e Streaming.

Rede para Implantações

Na OCI Generative AI, por padrão, os aplicativos implantados têm acesso de saída à internet pública. Isso permite que as cargas de trabalho do agente acessem recursos externos, como servidores MCP públicos, APIs de terceiros, pontos finais do modelo básico e outros serviços hospedados na internet.

Para redes privadas, você pode ativar o Modo de Rede do Cliente. Nesse modo, você especifica uma sub-rede de destino em uma VCN dentro da sua tenancy. A plataforma estabelece uma conexão segura entre a carga de trabalho do agente e a sub-rede usando um Ponto Final Privado/Ponto Final de Conexão Reversa (PE/RCE).

Quando ativado, todo o tráfego de saída (saída) do agente é roteado por meio da sub-rede especificada. Isso permite:

  • Acesso seguro a recursos privados em sua rede (por exemplo, bancos de dados, instâncias de computação e serviços internos)
  • Tráfego para permanecer dentro dos limites da rede privada
  • Controles de segurança de rede, como NSGs (Network Security Groups), tabelas de roteamento e firewalls, para controlar a conectividade de saída
  • Restrição ou desativação de acesso público à Internet, com base em seus requisitos de segurança

Esse modelo suporta cargas de trabalho voltadas para a Internet e implantações privadas integradas à empresa, mantendo o isolamento claro da rede entre a plataforma e seu ambiente.

Armazenamento Gerenciado

As cargas de trabalho do agente geralmente exigem serviços com monitoramento de estado para oferecer suporte a memória de curto prazo, pontos de verificação, armazenamento em cache e armazenamento de contexto. Para simplificar as operações, a OCI Generative AI fornece serviços de armazenamento totalmente gerenciados para agentes implantados.

Ao implantar um agente, você pode selecionar uma ou mais das seguintes opções de armazenamento gerenciado:

  • PostgreSQL
  • OCI Cache
  • Oracle Autonomous Database

Esses serviços são automaticamente provisionados e configurados para seu aplicativo.

Como funciona o armazenamento gerenciado

O armazenamento gerenciado difere do armazenamento provisionado em sua própria tenancy:

  • Implantação gerenciada pelo serviço

    O armazenamento é provisionado na tenancy de serviço e não é exposto para acesso externo direto (por exemplo, por meio de clientes de banco de dados ou pontos finais públicos).

  • Acesso no escopo do aplicativo

    Somente o aplicativo implantado associado pode acessar seu armazenamento. O acesso é gerenciado pela plataforma, portanto, nenhuma rede manual ou configuração de credencial é necessária.

  • Integração do ciclo de vida

    O armazenamento é vinculado ao ciclo de vida do agente:
    • Criado quando o agente é implantado
    • Dimensiona com o aplicativo (quando suportado)
    • Excluído quando o agente é excluído
  • Sem gerenciamento administrativo

    A plataforma gerencia a infraestrutura de armazenamento. Você não tem acesso ou controle no nível do DBA sobre os recursos subjacentes.

Importante

Quando um agente é excluído, seu armazenamento gerenciado é removido permanentemente e não pode ser recuperado.

Quando Usar o Armazenamento Gerenciado pelo Cliente

Use o armazenamento gerenciado pelo cliente quando precisar:

  • Ciclo de vida de armazenamento independente
  • Controle administrativo total
  • Acesso direto de sistemas ou ferramentas externos
  • Configuração personalizada, extensões ou acesso compartilhado entre aplicativos

Nesses casos, provisione o armazenamento na sua própria VCN e tenancy e configure o agente para estabelecer conexão com ele usando o Modo de Rede do Cliente.

Essa abordagem oferece maior flexibilidade e controle sobre sua infraestrutura.