Aplicativos Hospedados

Um aplicativo é um recurso da OCI que define como uma carga de trabalho de IA Generativa hospedada é executada e como é acessada. Os aplicativos centralizam as configurações operacionais, como dimensionamento automático, armazenamento gerenciado, rede e autenticação. As implantações hospedadas criadas em um aplicativo herdam essas definições.

Um aplicativo é um recurso da OCI que define como uma carga de trabalho de IA Generativa hospedada é executada e como é acessada. Os aplicativos centralizam as configurações operacionais, como dimensionamento automático, armazenamento gerenciado, rede e autenticação. As implantações hospedadas criadas em um aplicativo herdam essas definições.

Uma configuração de aplicativo pode incluir:

  • Definições de dimensionamento para implantações hospedadas (réplicas mínimas e máximas e métrica de dimensionamento automático)
  • Opções de armazenamento gerenciado e variáveis de ambiente de runtime
  • Definições de rede para tráfego de saída (saída) e acesso ao ponto final
  • Definições de autenticação usando um domínio de identidades

Dimensionamento

As definições de dimensionamento definem como as implantações hospedadas associadas a um aplicativo adicionam ou removem réplicas para tratar a carga. Você define um número mínimo e máximo de réplicas e seleciona uma métrica de dimensionamento automático, como solicitações simultâneas, solicitações por segundo (RPS), utilização de CPU ou utilização de memória.

Armazenamento gerenciado e variáveis de runtime

O armazenamento gerenciado fornece opções de armazenamento com monitoramento de estado gerenciadas pelo serviço que podem ser usadas por implantações hospedadas associadas a um aplicativo. Quando ativada, os detalhes da conexão são fornecidos ao contêiner por meio de variáveis de ambiente.

Você também pode definir outras variáveis de runtime que são injetadas no contêiner no runtime.

Autenticação

As definições de autenticação controlam como as solicitações são autenticadas antes de serem roteadas para a implantação hospedada. Os aplicativos suportam a autenticação do OAuth 2.0 usando um domínio de identidades. Consulte Configurando a Autenticação para o Suporte Agentic

Rede

As definições de rede controlam como as implantações hospedadas associadas a um tráfego de saída de rota de aplicativo (saída) e como a implantação ativa é acessada por meio de um ponto final público ou privado.

Por padrão, cada aplicativo implantado é configurado com acesso de saída à internet pública. Isso permite que as cargas de trabalho do agente cheguem a recursos externos, como servidores MCP públicos, APIs de terceiros, pontos finais do modelo básico e outras ferramentas hospedadas na internet necessárias para fluxos de trabalho típicos de IA.

Um aplicativo também pode operar no Modo de Rede do Cliente. Para essa opção, você especifica uma sub-rede de destino dentro de uma VCN na tenancy. Em seguida, a plataforma estabelece uma conexão de rede privada segura entre a carga de trabalho do agente e a sub-rede selecionada usando um mecanismo Ponto Final Privado/Ponto Final de Conexão Reversa (PE/RCE).

Depois de ativado, todo o tráfego de saída (saída) do agente é roteado por meio da sub-rede especificada pelo cliente. Como resultado:

  • O agente pode acessar com segurança recursos privados dentro da sua rede (por exemplo, bancos de dados, instâncias do serviço Compute, serviços internos).
  • O tráfego permanece dentro dos limites da rede privada.
  • Controles de segurança de rede, como grupos de segurança de rede, (NSG), tabelas de roteamento e firewalls na sua VCN, controlam a conectividade de saída.
  • A saída da Internet pública pode ser restrita ou desativada de acordo com os requisitos de segurança da empresa.

Esse modelo fornece flexibilidade para suportar cargas de trabalho de IA voltadas para a Internet e implementações totalmente privadas e integradas à empresa, mantendo limites claros de isolamento de rede entre a plataforma e os ambientes do cliente.

Pontos Finais

Por padrão, cada aplicativo implantado é provisionado com um ponto final público que permite que seus clientes chamem o agente pela Internet, sujeito a controles de autenticação e autorização configurados.

Para casos de uso que exigem acesso à rede privada, você pode criar um Ponto Final Privado (PE) na plataforma GenAI. O Private Endpoint permite a chamada por meio de um endereço IP privado e resolução de DNS interno. Os clientes dentro da rede privada conectada (por exemplo, VCN, on-premises por meio de FastConnect/VPN ou redes pareadas) podem chamar o agente usando o FQDN (nome de domínio totalmente qualificado) do Ponto Final Privado.

Essa definição permite:

  • Eliminação da exposição pública à Internet
  • Confinamento do tráfego dentro dos limites da rede privada
  • Alinhamento com requisitos de segurança e conformidade de rede empresarial

Protocolos de Transporte Suportados

Depois que um agente é implantado, os clientes o chamam por meio do ponto final provisionado. O protocolo de transporte depende da implementação do servidor do agente e do modelo de interação necessário (sessões de solicitação/resposta, streaming ou bidirecionais).

Os protocolos compatíveis incluem:

HTTP

HTTP é o modelo de chamada mais amplamente suportado.

  • Modelo de interação: Solicitação/resposta sem estado
  • Transporte: HTTP/1.1 ou HTTP/2 com TLS
  • Caso de uso: Chamadas de API síncronas e solicitações de inferência de curta duração

Nesse modo, o cliente envia uma solicitação HTTP (normalmente POST com um payload JSON). O servidor retorna uma única resposta após a conclusão do processamento.

SSE (Eventos enviados pelo servidor)

O SSE (Server-Sent Events) é um protocolo de streaming unidirecional criado com base no HTTP.

  • Modelo de interação: de cliente para servidor (solicitação única), de servidor para cliente (resposta em fluxo)
  • Transporte: HTTP com Content-Type: text/event-stream
  • Caso de uso: Respostas de streaming (por exemplo, saída token por token)

Neste modo, o cliente envia uma solicitação e o servidor mantém a conexão aberta enquanto transmite resultados incrementais como eventos.

WebSocket (Full Duplex Streaming)

O WebSocket fornece comunicação bidirecional e persistente entre o cliente e o servidor.

  • Modelo de interação: Full duplex (cliente e servidor podem enviar mensagens a qualquer momento)
  • Transporte: Protocolo WebSocket (wss://)
  • Caso de uso: Agentes interativos, execução de ferramentas em tempo real e sessões de várias voltas

Após o handshake inicial do upgrade HTTP, a conexão permanece aberta, permitindo a troca de mensagens bidirecional por um canal persistente.

Armazenamento Gerenciado

Os agentes de IA exigem serviços com monitoramento de estado para oferecer suporte a memória de curto prazo, pontos de verificação, armazenamento em cache e contexto. Para simplificar as operações e reduzir a sobrecarga de gerenciamento, a plataforma fornece armazenamento totalmente gerenciado para aplicativos hospedados.

Ao implantar um agente, você pode selecionar uma ou mais das seguintes opções de armazenamento gerenciado:

  • PostgreSQL
  • Cache do OCI
  • Oracle Autonomous Database

Esses serviços de armazenamento são automaticamente provisionados e configurados para seu aplicativo.

Como funciona o armazenamento gerenciado

O armazenamento gerenciado difere do armazenamento que você provisiona diretamente em sua própria tenancy.

  • Implantação gerenciada pelo serviço: O armazenamento gerenciado é implantado na tenancy de serviço, não na sua tenancy. Ele só pode ser acessado pelo aplicativo hospedado associado e não é exposto para acesso externo direto (por exemplo, por meio de clientes de banco de dados locais ou pontos finais públicos).
  • Acesso com escopo do aplicativo: Somente o aplicativo implantado específico pode acessar sua instância de armazenamento gerenciado. O acesso é controlado internamente pela plataforma e você não precisa configurar a rede, a autenticação ou as credenciais manualmente.
  • Integração do ciclo de vida: O armazenamento gerenciado é fortemente acoplado ao ciclo de vida do seu agente:
    • Quando você implanta um agente, o armazenamento é criado automaticamente.
    • Quando você dimensiona o agente, o armazenamento é dimensionado de acordo (quando suportado).
    • Quando você exclui o agente, o armazenamento associado também é excluído.
  • Nenhuma administração no nível de DBA: Como o armazenamento é totalmente gerenciado pela plataforma:
    • Você não tem permissões no nível do DBA.
    • Não é possível acessar a infraestrutura subjacente.
Importante

Depois que o agente for excluído, o armazenamento gerenciado será removido permanentemente e não poderá ser recuperado.

Quando Usar o Armazenamento Gerenciado pelo Cliente

Em alguns cenários, pode ser necessário:

  • Armazenamento cujo ciclo de vida é independente do agente
  • Controle administrativo total sobre a configuração do banco de dados
  • Acesso direto de outros sistemas ou ferramentas
  • Extensões personalizadas, ajuste ou compartilhamento entre aplicativos

Nesses casos, você pode provisionar recursos de armazenamento na sua própria VCN e tenancy. Em seguida, configure o agente para estabelecer conexão com esses recursos usando o Modo de Rede do Cliente (descrito na seção anterior).

Essa opção oferece a máxima flexibilidade, permitindo que você mantenha o controle total sobre sua infraestrutura.

Limites

Para obter limites, como o número de aplicativos ou artefatos permitidos por tenancy, consulte Limites do Aplicativo