Inferência de Batch para Jobs

Saiba como usar os vários tipos de usos de inferência de batch com jobs.

A inferência de batch tradicional é um processo assíncrono que está executando previsões com base em modelos e observações existentes e, em seguida, armazena a saída. Essa inferência de batch é um único job de máquina virtual que você pode executar com jobs do serviço Data Science.

Normalmente, uma carga de trabalho varia, mas é maior que uma inferência de min batch e pode exigir várias horas ou dias para ser finalizada. Esse tipo de carga de trabalho não exige produção de resultados em tempo real ou quase em tempo real. Ele pode ter requisitos extensivos na CPU ou na GPU e memória obrigatória para execução.

Para um melhor desempenho, use o modelo AI e ML diretamente em vez de chamá-lo em HTTP ou em outra rede. O uso direto do modelo é especialmente importante quando se exige processamento pesado com grandes conjuntos de dados. Por exemplo, processamento de imagens.

Mostra um conjunto de dados processado por um job em batch usando um modelo do catálogo de modelos e armazenando os resultados.

Inferência de Minibatch

A inferência de minibatch é semelhante à inferência de batch com a diferença de que você pode dividir tarefas em batches pequenos usando vários jobs ou um único job que executa várias tarefas pequenas simultaneamente.

Como as tarefas são pequenas e os minibatches são executados regularmente, eles geralmente só são executados por vários minutos. Esse tipo de carga de trabalho é executado regularmente usando programadores ou acionadores para trabalhar em pequenos grupos de dados. O minibatch ajuda você a carregar e processar incrementalmente pequenas partes de dados ou inferência.

Você pode executar mini batches em um modelo do catálogo de modelos quando o melhor desempenho é necessário ou no modelo implantado porque geralmente as cargas de trabalho e a entrada de dados não são pesadas.

Mostra um conjunto de dados processado por vários mini jobs em batch com vários modelos do catálogo de modelos e armazenando os resultados.

Inferência de Batch Distribuído

Você usa inferência de batch distribuído para jobs pesados.

Não confundir inferência de batch distribuído com treinamento de modelo distribuído porque são diferentes. Além disso, não é um tipo de implantação de modelo de inferência porque normalmente você deseja provisionar e usar a infraestrutura apenas durante o tempo de inferência de batch e destruí-la automaticamente ao concluir.

A inferência de batch distribuído é necessária em um conjunto de dados grande e em uma inferência pesada que não podem ser processados em tempo hábil em uma única VM ou BM e que exigem escala horizontal. Você pode ter uma ou várias configurações de job em execução (1+n) em vários tipos de infraestrutura e dividir o conjunto de dados. Esse tipo de carga de trabalho fornece o melhor desempenho quando trabalham com o modelo AI e ML diretamente do catálogo de modelos usando a memória de infraestrutura, CPU ou GPU até o máximo de jobs em uso.

Mostra um conjunto de dados processado por várias tarefas em batch distribuídas com vários modelos do catálogo de modelos e armazenando os resultados.

Comparar Cargas de Trabalho de Inferência de Batch

Uma comparação de alto nível entre os diferentes tipos de cargas de trabalho e os tipos de inferência de batch correspondentes:

Inferência de Batch

Inferência de Minibatch

Inferência de Batch Distribuído

Infraestrutura

Grande

Leve a média

Muito grande

VM

Única

Único ou muitos (em pequena escala)

Muitos

Velocidade de Provisionamento - Obrigatória

Média

Rápida

Média a lenta

Programações - Obrigatórias

Sim

Sim

Dependente do caso de uso

Trigger - Obrigatório

Sim

Sim

Não

Cargas de Trabalho

Grande

Leve

Grande ou pesada

Tamanho dos Conjuntos de Dados

Grande

Pequeno

Dimensionamento extremamente grande ou automático

Tempo de Processamento de Batch (no entanto, a estimativa pode ser diferente, dependendo do caso de uso)

Médio a muito longo (de dois dígitos de minutos de processo até dias ou horas)

Curto até quase em tempo real

Médio a muito longo (de algumas horas até dias)

Implantação de Modelo

Não é obrigatório

Sim, mas não é obrigatório

Não é obrigatório

Pontos Finais

Não

Não

Não