Aplicativos Hospedados
Um aplicativo é um recurso da OCI que define como uma carga de trabalho de IA Generativa hospedada é executada e como é acessada. Os aplicativos centralizam as configurações operacionais, como dimensionamento automático, armazenamento gerenciado, rede e autenticação. As implantações hospedadas criadas em um aplicativo herdam essas definições.
Um aplicativo é um recurso da OCI que define como uma carga de trabalho de IA Generativa hospedada é executada e como é acessada. Os aplicativos centralizam as configurações operacionais, como dimensionamento automático, armazenamento gerenciado, rede e autenticação. As implantações hospedadas criadas em um aplicativo herdam essas definições.
Uma configuração de aplicativo pode incluir:
- Definições de dimensionamento para implantações hospedadas (réplicas mínimas e máximas e métrica de dimensionamento automático)
- Opções de armazenamento gerenciado e variáveis de ambiente de runtime
- Definições de rede para tráfego de saída (saída) e acesso ao ponto final
- Definições de autenticação usando um domínio de identidades
Dimensionamento
As definições de dimensionamento definem como as implantações hospedadas associadas a um aplicativo adicionam ou removem réplicas para tratar a carga. Você define um número mínimo e máximo de réplicas e seleciona uma métrica de dimensionamento automático, como solicitações simultâneas, solicitações por segundo (RPS), utilização de CPU ou utilização de memória.
Armazenamento gerenciado e variáveis de runtime
O armazenamento gerenciado fornece opções de armazenamento com monitoramento de estado gerenciadas pelo serviço que podem ser usadas por implantações hospedadas associadas a um aplicativo. Quando ativada, os detalhes da conexão são fornecidos ao contêiner por meio de variáveis de ambiente.
Você também pode definir outras variáveis de runtime que são injetadas no contêiner no runtime.
Autenticação
As definições de autenticação controlam como as solicitações são autenticadas antes de serem roteadas para a implantação hospedada. Os aplicativos suportam a autenticação do OAuth 2.0 usando um domínio de identidades. Consulte Configurando a Autenticação para o Suporte Agentic
Rede
As definições de rede controlam como as implantações hospedadas associadas a um tráfego de saída de rota de aplicativo (saída) e como a implantação ativa é acessada por meio de um ponto final público ou privado.
Por padrão, cada aplicativo implantado é configurado com acesso de saída à internet pública. Isso permite que as cargas de trabalho do agente cheguem a recursos externos, como servidores MCP públicos, APIs de terceiros, pontos finais do modelo básico e outras ferramentas hospedadas na internet necessárias para fluxos de trabalho típicos de IA.
Um aplicativo também pode operar no Modo de Rede do Cliente. Para essa opção, você especifica uma sub-rede de destino dentro de uma VCN na tenancy. Em seguida, a plataforma estabelece uma conexão de rede privada segura entre a carga de trabalho do agente e a sub-rede selecionada usando um mecanismo Ponto Final Privado/Ponto Final de Conexão Reversa (PE/RCE).
Depois de ativado, todo o tráfego de saída (saída) do agente é roteado por meio da sub-rede especificada pelo cliente. Como resultado:
- O agente pode acessar com segurança recursos privados dentro da sua rede (por exemplo, bancos de dados, instâncias do serviço Compute, serviços internos).
- O tráfego permanece dentro dos limites da rede privada.
- Controles de segurança de rede, como grupos de segurança de rede, (NSG), tabelas de roteamento e firewalls na sua VCN, controlam a conectividade de saída.
- A saída da Internet pública pode ser restrita ou desativada de acordo com os requisitos de segurança da empresa.
Esse modelo fornece flexibilidade para suportar cargas de trabalho de IA voltadas para a Internet e implementações totalmente privadas e integradas à empresa, mantendo limites claros de isolamento de rede entre a plataforma e os ambientes do cliente.
Pontos Finais
Por padrão, cada aplicativo implantado é provisionado com um ponto final público que permite que seus clientes chamem o agente pela Internet, sujeito a controles de autenticação e autorização configurados.
Para casos de uso que exigem acesso à rede privada, você pode criar um Ponto Final Privado (PE) na plataforma GenAI. O Private Endpoint permite a chamada por meio de um endereço IP privado e resolução de DNS interno. Os clientes dentro da rede privada conectada (por exemplo, VCN, on-premises por meio de FastConnect/VPN ou redes pareadas) podem chamar o agente usando o FQDN (nome de domínio totalmente qualificado) do Ponto Final Privado.
Essa definição permite:
- Eliminação da exposição pública à Internet
- Confinamento do tráfego dentro dos limites da rede privada
- Alinhamento com requisitos de segurança e conformidade de rede empresarial
Protocolos de Transporte Suportados
Depois que um agente é implantado, os clientes o chamam por meio do ponto final provisionado. O protocolo de transporte depende da implementação do servidor do agente e do modelo de interação necessário (sessões de solicitação/resposta, streaming ou bidirecionais).
Os protocolos compatíveis incluem:
HTTP
HTTP é o modelo de chamada mais amplamente suportado.
- Modelo de interação: Solicitação/resposta sem estado
- Transporte: HTTP/1.1 ou HTTP/2 com TLS
- Caso de uso: Chamadas de API síncronas e solicitações de inferência de curta duração
Nesse modo, o cliente envia uma solicitação HTTP (normalmente POST com um payload JSON). O servidor retorna uma única resposta após a conclusão do processamento.
SSE (Eventos enviados pelo servidor)
O SSE (Server-Sent Events) é um protocolo de streaming unidirecional criado com base no HTTP.
- Modelo de interação: de cliente para servidor (solicitação única), de servidor para cliente (resposta em fluxo)
- Transporte: HTTP com
Content-Type: text/event-stream - Caso de uso: Respostas de streaming (por exemplo, saída token por token)
Neste modo, o cliente envia uma solicitação e o servidor mantém a conexão aberta enquanto transmite resultados incrementais como eventos.
WebSocket (Full Duplex Streaming)
O WebSocket fornece comunicação bidirecional e persistente entre o cliente e o servidor.
- Modelo de interação: Full duplex (cliente e servidor podem enviar mensagens a qualquer momento)
- Transporte: Protocolo WebSocket (
wss://) - Caso de uso: Agentes interativos, execução de ferramentas em tempo real e sessões de várias voltas
Após o handshake inicial do upgrade HTTP, a conexão permanece aberta, permitindo a troca de mensagens bidirecional por um canal persistente.
Armazenamento Gerenciado
Os agentes de IA exigem serviços com monitoramento de estado para oferecer suporte a memória de curto prazo, pontos de verificação, armazenamento em cache e contexto. Para simplificar as operações e reduzir a sobrecarga de gerenciamento, a plataforma fornece armazenamento totalmente gerenciado para aplicativos hospedados.
Ao implantar um agente, você pode selecionar uma ou mais das seguintes opções de armazenamento gerenciado:
- PostgreSQL
- Cache do OCI
- Oracle Autonomous Database
Esses serviços de armazenamento são automaticamente provisionados e configurados para seu aplicativo.
Como funciona o armazenamento gerenciado
O armazenamento gerenciado difere do armazenamento que você provisiona diretamente em sua própria tenancy.
- Implantação gerenciada pelo serviço: O armazenamento gerenciado é implantado na tenancy de serviço, não na sua tenancy. Ele só pode ser acessado pelo aplicativo hospedado associado e não é exposto para acesso externo direto (por exemplo, por meio de clientes de banco de dados locais ou pontos finais públicos).
- Acesso com escopo do aplicativo: Somente o aplicativo implantado específico pode acessar sua instância de armazenamento gerenciado. O acesso é controlado internamente pela plataforma e você não precisa configurar a rede, a autenticação ou as credenciais manualmente.
- Integração do ciclo de vida: O armazenamento gerenciado é fortemente acoplado ao ciclo de vida do seu agente:
- Quando você implanta um agente, o armazenamento é criado automaticamente.
- Quando você dimensiona o agente, o armazenamento é dimensionado de acordo (quando suportado).
- Quando você exclui o agente, o armazenamento associado também é excluído.
- Nenhuma administração no nível de DBA: Como o armazenamento é totalmente gerenciado pela plataforma:
- Você não tem permissões no nível do DBA.
- Não é possível acessar a infraestrutura subjacente.
Depois que o agente for excluído, o armazenamento gerenciado será removido permanentemente e não poderá ser recuperado.
Quando Usar o Armazenamento Gerenciado pelo Cliente
Em alguns cenários, pode ser necessário:
- Armazenamento cujo ciclo de vida é independente do agente
- Controle administrativo total sobre a configuração do banco de dados
- Acesso direto de outros sistemas ou ferramentas
- Extensões personalizadas, ajuste ou compartilhamento entre aplicativos
Nesses casos, você pode provisionar recursos de armazenamento na sua própria VCN e tenancy. Em seguida, configure o agente para estabelecer conexão com esses recursos usando o Modo de Rede do Cliente (descrito na seção anterior).
Essa opção oferece a máxima flexibilidade, permitindo que você mantenha o controle total sobre sua infraestrutura.
Limites
Para obter limites, como o número de aplicativos ou artefatos permitidos por tenancy, consulte Limites do Aplicativo
Gerenciar
Você pode executar as seguintes tarefas para criar e listar aplicativos: