Ingestão de Dados da Origem de Dados em Agentes de IA Generativa

Um job de ingestão de dados extrai dados de documentos de origem de dados, os converte em um formato estruturado adequado para análise e os armazena em uma base de conhecimento.

  1. Na página de lista Bases de Conhecimento, selecione a base de conhecimento que você deseja ingerir para sua origem de dados. Se precisar de ajuda para localizar a página da lista, consulte Listando Bases de Conhecimento.
  2. Selecione a origem de dados que você deseja ingerir seus dados.
  3. Selecione Criar job de Ingestão.
  4. Informe os seguintes valores:
    • Nome: um nome que começa com uma letra ou sublinhado, seguido de letras, números, hifens ou sublinhados. O tamanho pode ser de 1 a 255 caracteres.
    • Descrição: Uma descrição opcional
    • Tags: Selecione Mostrar opções avançadas e adicione uma ou mais tags ao job de ingestão. Se você tiver permissões para criar um recurso, terá permissão para atualizar suas tags. Se precisar de ajuda, consulte Tags e Conceitos de Namespace de Tag.
  5. Selecione Criar.

    Um job de ingestão é iniciado com Aceito como o status inicial do job. Não é possível cancelar um job de ingestão em nenhum estado.

  6. Aguarde a alteração do status do job e execute qualquer ação que possa ser necessária.

    Exiba os logs de status do job para obter detalhes do processamento de ingestão de arquivos, incluindo ações corretivas. Consulte Obtendo Detalhes de um Job de Ingestão de Dados para obter instruções sobre como exibir os logs de status.

    Status do job Descrição Ação a ser executada
    Bem-sucedido O job foi concluído e processou todos os arquivos com sucesso. Revise os logs de status para confirmar se todos os arquivos atualizados foram ingeridos com sucesso.
    Concluído, com falhas O job concluiu e processou todos os arquivos. No entanto, existem algumas falhas de arquivo. As possíveis falhas de arquivo podem ser:
    • Arquivo danificado.
    • O arquivo PDF é protegido por senha.
    • As imagens corrompidas em um arquivo são ignoradas.
    • Falha na ingestão de dados da tabela em um PDF. O restante do conteúdo do arquivo é ingerido.
    • Falha na ingestão de URLs em um PDF. O restante do conteúdo do arquivo é ingerido.
    • Há um problema ao processar atributos de metadados do arquivo. O arquivo é ingerido, mas sem os atributos de metadados.
    Verifique os logs de status para entender o motivo de falhas individuais de arquivo. Resolva os problemas e reinicie o job.
    Falha, corrija a origem de dados Há um problema ao acessar o bucket ou os arquivos especificados na configuração da origem de dados. Verifique os logs de status para obter sugestões sobre como corrigir o problema ou os problemas e, em seguida, reinicie o job.
    Falha, é necessário repetir Há um problema com um sistema dependente, como o Object Storage ou o OpenSearch, mesmo após várias tentativas. Execute o job novamente mais tarde.
    Falha, entre em contato com o suporte Há um problema que não pode ser resolvido tentando novamente. Entre em contato com o suporte

Observação

Após a Criação de um Job de Ingestão
  1. Revise os logs de status e status para confirmar se todos os arquivos atualizados foram ingeridos com sucesso. Se precisar de ajuda para obter os logs de status, consulte Obtendo Detalhes de um Job de Ingestão de Dados.
  2. Se o job de ingestão falhar (por exemplo, por causa de um arquivo ser muito grande), resolva o problema e reinicie o job.
Como o Pipeline de Ingestão Trata Jobs Executados Anteriormente

Quando você reinicia um job de ingestão executado anteriormente, o pipeline:

  1. Detecta arquivos que foram ingeridos com sucesso anteriormente e os ignora.
  2. Somente ingere arquivos que falharam anteriormente e desde então foram atualizados.
Exemplo de Cenário

Suponha que você tenha 20 arquivos para ingerir e a execução do job inicial resulte em 2 arquivos com falha. Quando você reinicia o job, o pipeline:

  1. Reconhece que 18 arquivos já foram ingeridos com sucesso e os ignora.
  2. Sugere apenas os 2 arquivos que falharam anteriormente e que foram atualizados desde então.