Riferimento batch per mansioni

Informazioni su come utilizzare i vari tipi di inferenza batch utilizzati con i job.

L'inferenza batch tradizionale è un processo asincrono che esegue previsioni basate su modelli e osservazioni esistenti e quindi memorizza l'output. Questa inferenza batch è un singolo job di virtual machine che è possibile eseguire con i job di Data Science.

In genere, un carico di lavoro varia, ma è più grande di un'inferenza in mini batch e potrebbe richiedere diverse ore o giorni per essere completato. Questo tipo di carico di lavoro non richiede la produzione di risultati quasi o in tempo reale. Può avere ampi requisiti di CPU o GPU e memoria necessari per l'esecuzione.

Per ottenere prestazioni ottimali, utilizza direttamente il modello AI e ML anziché chiamarlo tramite HTTP o un'altra rete. L'utilizzo diretto del modello è particolarmente importante quando è necessaria un'elaborazione intensiva con set di dati di grandi dimensioni. Ad esempio, l'elaborazione di immagini.

Mostra un data set elaborato da un job batch utilizzando un modello del catalogo modelli e memorizzando i risultati.

Riferimento batch minimo

L'inferenza in mini batch è simile all'inferenza batch, con la differenza che è possibile suddividere i task in piccoli batch utilizzando più job o un job che esegue più task di piccole dimensioni contemporaneamente.

Poiché le attività sono piccole e i mini batch vengono eseguiti regolarmente, di solito vengono eseguiti solo per alcuni minuti. Questo tipo di carico di lavoro viene eseguito regolarmente utilizzando pianificatori o trigger per lavorare su piccoli gruppi di dati. Il mini batch consente di caricare ed elaborare in modo incrementale piccole parti di dati o inferenza.

È possibile eseguire mini batch su un modello del catalogo modelli quando sono richieste le prestazioni migliori o sul modello distribuito perché in genere i carichi di lavoro e l'input dei dati non sono elevati.

Mostra un data set elaborato da diversi processi mini batch con diversi modelli del catalogo modelli e memorizzando i risultati.

Inferenza batch distribuito

Utilizzare l'inferenza batch distribuita per gli OdL per uso intensivo.

Non confondere l'inferenza batch distribuita con l'addestramento modello distribuito perché sono diversi. Inoltre, non si tratta di un tipo di inferenza di distribuzione del modello perché in genere si desidera eseguire il provisioning e utilizzare l'infrastruttura solo durante il periodo di inferenza batch e distruggerla automaticamente al completamento.

L'inferenza batch distribuita è necessaria su un set di dati di grandi dimensioni e l'inferenza grave che non può essere elaborata in modo tempestivo su una singola VM o BM e richiede la scalabilità orizzontale. È possibile disporre di una o più configurazioni di job in esecuzione (1+n) su vari tipi di infrastruttura e suddividere il data set. Questo tipo di carico di lavoro offre le migliori prestazioni quando si utilizzano i modelli AI e ML direttamente dal catalogo modelli utilizzando la memoria dell'infrastruttura e la CPU o la GPU al massimo utilizzando i job.

Mostra un data set elaborato da diversi processi batch distribuiti con diversi modelli del catalogo modelli e memorizzando i risultati.

Confronta carichi di lavoro di inferenza batch

Un confronto di alto livello tra i diversi tipi di carichi di lavoro e i tipi di inferenza batch corrispondenti:

Inferenza batch

Riferimento batch minimo

Inferenza batch distribuito

Infrastruttura

Grande

Da leggero a medio

Molto grande

VM

Singola

Singolo o molti (su piccola scala)

Molti

Velocità provisioning - Obbligatorio

Media

Veloce:

Media per rallentamento

Scheduler - obbligatorio

Dipendente da caso d'uso

Trigger - Obbligatorio

N

Carichi di lavoro

Grande

Chiaro

Grande o pesante

Dimensione set di dati

Grande

piccolo

Estremamente grande o con ridimensionamento automatico

Tempo di elaborazione batch (la stima potrebbe tuttavia variare a seconda del caso d'uso)

Da medio a molto lungo (dal processo lungo due cifre minuti a giorni o ore)

Da breve a quasi in tempo reale

Da medio a molto lungo (da poche ore fino a giorni)

Distribuzione modello

Non necessaria

Sì, ma non obbligatorio

Non necessaria

Endpoint

N

N

N