Visão Geral da Implantação de Agentes no OCI Generative AI
Você pode implantar agentes usando o OCI Generative AI Applications, que fornece um runtime gerenciado para cargas de trabalho de agentes em contêineres.
Para implantar um agente, empacote-o como uma imagem de contêiner, faça upload dele no Oracle Cloud Infrastructure Registry (OCIR) e implante-o usando a Console, a API ou a CLI do OCI.
Durante a implantação, configure:
- Dimensionamento
- Armazenamento
- Rede
- Autenticação
Após a implantação, o serviço provisiona um ponto final (por exemplo, um URL HTTP) que os clientes ou outros agentes podem usar para chamar o agente.
Como Funciona
Depois de desenvolver um agente localmente (por exemplo, usando LangGraph ou estruturas semelhantes), você cria um aplicativo do serviço Generative AI para definir a configuração do runtime.
Em seguida, você cria uma implantação selecionando uma imagem de contêiner. A implantação ativa atende a solicitações por meio do ponto final do aplicativo. Depois que a implantação é provisionada, o ponto final fica disponível para chamar o agente.
Demonstração
Use Generative AI Applications para implementar agentes como aplicativos gerenciados em contêineres na OCI Generative AI.
Com o Generative AI Applications, você cria uma imagem de contêiner, faz upload dela para o Oracle Cloud Infrastructure Registry (OCIR) e implanta essa imagem como um Aplicativo de IA Generativa usando a Console, a API ou a CLI do OCI.
Ao implantar um agente, você pode configurar como o aplicativo é executado e como os clientes o acessam, incluindo:
- Dimensionamento
- Armazenamento
- Rede
- Autenticação
Depois que a implantação é provisionada, o OCI Generative AI fornece um ponto final, como um URL HTTP, que os clientes podem usar para chamar o agente implantado.
A implantação de um agente é útil quando você deseja um runtime gerenciado para um aplicativo de agente em contêiner, com configuração de implantação gerenciada pelo OCI e provisionamento de ponto final.
Para obter mais informações, consulte os tópicos sobre o Generative AI Applications e a implantação de aplicativos de agente em contêineres.
Comparar Aplicativos com Outras Opções de Implantação de Contêiner do OCI
Compare o Generative AI Applications com o OCI Container Instances e o Oracle Kubernetes Engine (OKE).
Os aplicativos OCI Generative AI fornecem uma opção de implantação gerenciada para aplicativos agentic e servidores MCP. As tabelas a seguir as comparam com outras soluções de implantação de contêiner do OCI.
Compare aplicações de IA generativa com OCI Container Instances
| Capacidade | Aplicativos GenAI | Instâncias de Contêineres do OCI |
|---|---|---|
| Uso principal | Web services, especialmente aplicativos agênticos e servidores MCP | Trabalhos em lote, scripts e colaboradores |
| Acionar modelo | HTTP ou orientado a eventos | Manual, orientado por API ou programado |
| Dimensionamento | Dimensionamento automático de 0 para muitas instâncias | Sem dimensionamento automático integrado |
| Escalar para zero | Sim | Não automático |
| Balanceamento de carga | Incorporado | Gerenciado pelo usuário |
| Nível de abstração | Implantação de estilo serverless de nível mais alto | Execução de contêiner de nível inferior |
| Modelo de inicialização | Inicialização rápida e baseada em solicitações | Inicia como uma pequena VM |
| Rede | Pontos finais HTTPS gerenciados | Controle no nível da VCN |
Comparar Aplicativos de IA Generativa com o OKE
| Capacidade | Aplicativos GenAI | OKE |
|---|---|---|
| Despesas gerais de operações | Baixo | Alto |
| Dimensionamento | Dimensionamento automático de 0 para N | Configurável com HPA e dimensionamento automático de cluster |
| Escalar para zero | Sim | Não nativo |
| Implantação | Simples, enviando uma imagem de contêiner | Mais complexo, com manifestos e gráficos Helm |
| Controle | Limitado | Controle total |
| Rede | Totalmente gerenciado | Totalmente personalizável |
| Uso do caso | APIs e serviços sem monitoramento de estado | Sistemas distribuídos complexos |
Protocolos de Transporte Suportados
Na OCI Generative AI, depois que um agente é implantado, os clientes podem chamá-lo por meio do ponto final provisionado. O protocolo de transporte depende da implementação do servidor do agente e do modelo de interação necessário (sessões de solicitação/resposta, streaming ou bidirecionais).
Os protocolos compatíveis incluem:
HTTP
HTTP é o modelo de chamada mais amplamente suportado.
- Modelo de interação: Solicitação/resposta sem estado
- Transporte: HTTP/1.1 ou HTTP/2 com TLS
- Caso de uso: Chamadas de API síncronas e solicitações de inferência de curta duração
Nesse modo, o cliente envia uma solicitação HTTP (normalmente POST com um payload JSON). O servidor retorna uma única resposta após a conclusão do processamento.
SSE (Eventos enviados pelo servidor)
O SSE (Server-Sent Events) é um protocolo de streaming unidirecional criado com base no HTTP.
- Modelo de interação: de cliente para servidor (solicitação única), de servidor para cliente (resposta em fluxo)
- Transporte: HTTP com
Content-Type: text/event-stream - Caso de uso: Respostas de streaming (por exemplo, saída token por token)
Neste modo, o cliente envia uma solicitação e o servidor mantém a conexão aberta enquanto transmite resultados incrementais como eventos.
WebSocket (Full Duplex Streaming)
O WebSocket fornece comunicação bidirecional e persistente entre o cliente e o servidor.
- Modelo de interação: Full duplex (cliente e servidor podem enviar mensagens a qualquer momento)
- Transporte: Protocolo WebSocket (
wss://) - Caso de uso: Agentes interativos, execução de ferramentas em tempo real e sessões de várias voltas
Após o handshake inicial do upgrade HTTP, a conexão permanece aberta, permitindo a troca de mensagens bidirecional por um canal persistente.
Autenticação
Configure a autenticação de entrada para controlar o acesso a agentes e a autenticação de saída para acessar com segurança os recursos do OCI.
Os aplicativos suportam a autenticação do OAuth 2.0 usando um domínio de identidades. Consulte Configurando a Autenticação para o Suporte Agentic
Autenticação de entrada
A autenticação de entrada controla quem pode acessar seus agentes validando tokens de provedores de identidade antes de rotear solicitações para agentes hospedados.
O OCI Generative AI suporta o OAuth 2.0 para autenticação de entrada, integrado a provedores de identidade como o Oracle Identity Cloud Service (IDCS). Consulte Configurando a Autenticação para o Suporte do Agentic.
Autenticação de saída
Com a autenticação de saída, os aplicativos do agente implantados podem acessar com segurança outros recursos do OCI em uma tenancy.
O acesso é concedido definindo políticas do OCI IAM que autorizam o aplicativo do agente (como controlador de recursos) a executar ações específicas em recursos especificados. Essas políticas decidem o escopo do acesso com base no princípio do privilégio mínimo.
Após a implantação, a plataforma provisiona automaticamente um Token de Sessão do Controlador de Recursos (RPST) para a carga de trabalho do agente. O RPST é injetado com segurança no runtime do contêiner, permitindo que o aplicativo se autentique nos serviços do OCI sem usar credenciais de longa duração, como chaves de API ou tokens de usuário.
No contêiner, o agente usa o OCI SDK com o provedor de autenticação do controlador de recursos. O SDK recupera e atualiza automaticamente o RPST, permitindo acesso seguro a serviços autorizados do OCI, como Armazenamento de Objetos, Autonomous Database, Vault e Streaming.
Rede para Implantações
Na OCI Generative AI, por padrão, os aplicativos implantados têm acesso de saída à internet pública. Isso permite que as cargas de trabalho do agente acessem recursos externos, como servidores MCP públicos, APIs de terceiros, pontos finais do modelo básico e outros serviços hospedados na internet.
Para redes privadas, você pode ativar o Modo de Rede do Cliente. Nesse modo, você especifica uma sub-rede de destino em uma VCN dentro da sua tenancy. A plataforma estabelece uma conexão segura entre a carga de trabalho do agente e a sub-rede usando um Ponto Final Privado/Ponto Final de Conexão Reversa (PE/RCE).
Quando ativado, todo o tráfego de saída (saída) do agente é roteado por meio da sub-rede especificada. Isso permite:
- Acesso seguro a recursos privados em sua rede (por exemplo, bancos de dados, instâncias de computação e serviços internos)
- Tráfego para permanecer dentro dos limites da rede privada
- Controles de segurança de rede, como NSGs (Network Security Groups), tabelas de roteamento e firewalls, para controlar a conectividade de saída
- Restrição ou desativação de acesso público à Internet, com base em seus requisitos de segurança
Esse modelo suporta cargas de trabalho voltadas para a Internet e implantações privadas integradas à empresa, mantendo o isolamento claro da rede entre a plataforma e seu ambiente.
Armazenamento Gerenciado
As cargas de trabalho do agente geralmente exigem serviços com monitoramento de estado para oferecer suporte a memória de curto prazo, pontos de verificação, armazenamento em cache e armazenamento de contexto. Para simplificar as operações, a OCI Generative AI fornece serviços de armazenamento totalmente gerenciados para agentes implantados.
Ao implantar um agente, você pode selecionar uma ou mais das seguintes opções de armazenamento gerenciado:
- PostgreSQL
- OCI Cache
- Oracle Autonomous Database
Esses serviços são automaticamente provisionados e configurados para seu aplicativo.
Como funciona o armazenamento gerenciado
O armazenamento gerenciado difere do armazenamento provisionado em sua própria tenancy:
-
Implantação gerenciada pelo serviço
O armazenamento é provisionado na tenancy de serviço e não é exposto para acesso externo direto (por exemplo, por meio de clientes de banco de dados ou pontos finais públicos).
-
Acesso no escopo do aplicativo
Somente o aplicativo implantado associado pode acessar seu armazenamento. O acesso é gerenciado pela plataforma, portanto, nenhuma rede manual ou configuração de credencial é necessária.
-
Integração do ciclo de vida
O armazenamento é vinculado ao ciclo de vida do agente:- Criado quando o agente é implantado
- Dimensiona com o aplicativo (quando suportado)
- Excluído quando o agente é excluído
-
Sem gerenciamento administrativo
A plataforma gerencia a infraestrutura de armazenamento. Você não tem acesso ou controle no nível do DBA sobre os recursos subjacentes.
Quando um agente é excluído, seu armazenamento gerenciado é removido permanentemente e não pode ser recuperado.
Quando Usar o Armazenamento Gerenciado pelo Cliente
Use o armazenamento gerenciado pelo cliente quando precisar:
- Ciclo de vida de armazenamento independente
- Controle administrativo total
- Acesso direto de sistemas ou ferramentas externos
- Configuração personalizada, extensões ou acesso compartilhado entre aplicativos
Nesses casos, provisione o armazenamento na sua própria VCN e tenancy e configure o agente para estabelecer conexão com ele usando o Modo de Rede do Cliente.
Essa abordagem oferece maior flexibilidade e controle sobre sua infraestrutura.