Riferimento batch per mansioni
Informazioni su come utilizzare i vari tipi di inferenza batch utilizzati con i job.
L'inferenza batch tradizionale è un processo asincrono che esegue previsioni basate su modelli e osservazioni esistenti e quindi memorizza l'output. Questa inferenza batch è un singolo job di virtual machine che è possibile eseguire con i job di Data Science.
In genere, un carico di lavoro varia, ma è più grande di un'inferenza in mini batch e potrebbe richiedere diverse ore o giorni per essere completato. Questo tipo di carico di lavoro non richiede la produzione di risultati quasi o in tempo reale. Può avere ampi requisiti di CPU o GPU e memoria necessari per l'esecuzione.
Per ottenere prestazioni ottimali, utilizza direttamente il modello AI e ML anziché chiamarlo tramite HTTP o un'altra rete. L'utilizzo diretto del modello è particolarmente importante quando è necessaria un'elaborazione intensiva con set di dati di grandi dimensioni. Ad esempio, l'elaborazione di immagini.

Riferimento batch minimo
L'inferenza in mini batch è simile all'inferenza batch, con la differenza che è possibile suddividere i task in piccoli batch utilizzando più job o un job che esegue più task di piccole dimensioni contemporaneamente.
Poiché le attività sono piccole e i mini batch vengono eseguiti regolarmente, di solito vengono eseguiti solo per alcuni minuti. Questo tipo di carico di lavoro viene eseguito regolarmente utilizzando pianificatori o trigger per lavorare su piccoli gruppi di dati. Il mini batch consente di caricare ed elaborare in modo incrementale piccole parti di dati o inferenza.
È possibile eseguire mini batch su un modello del catalogo modelli quando sono richieste le prestazioni migliori o sul modello distribuito perché in genere i carichi di lavoro e l'input dei dati non sono elevati.

Inferenza batch distribuito
Utilizzare l'inferenza batch distribuita per gli OdL per uso intensivo.
Non confondere l'inferenza batch distribuita con l'addestramento modello distribuito perché sono diversi. Inoltre, non si tratta di un tipo di inferenza di distribuzione del modello perché in genere si desidera eseguire il provisioning e utilizzare l'infrastruttura solo durante il periodo di inferenza batch e distruggerla automaticamente al completamento.
L'inferenza batch distribuita è necessaria su un set di dati di grandi dimensioni e l'inferenza grave che non può essere elaborata in modo tempestivo su una singola VM o BM e richiede la scalabilità orizzontale. È possibile disporre di una o più configurazioni di job in esecuzione (1+n) su vari tipi di infrastruttura e suddividere il data set. Questo tipo di carico di lavoro offre le migliori prestazioni quando si utilizzano i modelli AI e ML direttamente dal catalogo modelli utilizzando la memoria dell'infrastruttura e la CPU o la GPU al massimo utilizzando i job.

Confronta carichi di lavoro di inferenza batch
Un confronto di alto livello tra i diversi tipi di carichi di lavoro e i tipi di inferenza batch corrispondenti:
Inferenza batch |
Riferimento batch minimo |
Inferenza batch distribuito |
|
---|---|---|---|
Infrastruttura |
Grande |
Da leggero a medio |
Molto grande |
VM |
Singola |
Singolo o molti (su piccola scala) |
Molti |
Velocità provisioning - Obbligatorio |
Media |
Veloce: |
Media per rallentamento |
Scheduler - obbligatorio |
Sì |
Sì |
Dipendente da caso d'uso |
Trigger - Obbligatorio |
Sì |
Sì |
N |
Carichi di lavoro |
Grande |
Chiaro |
Grande o pesante |
Dimensione set di dati |
Grande |
piccolo |
Estremamente grande o con ridimensionamento automatico |
Tempo di elaborazione batch (la stima potrebbe tuttavia variare a seconda del caso d'uso) |
Da medio a molto lungo (dal processo lungo due cifre minuti a giorni o ore) |
Da breve a quasi in tempo reale |
Da medio a molto lungo (da poche ore fino a giorni) |
Distribuzione modello |
Non necessaria |
Sì, ma non obbligatorio |
Non necessaria |
Endpoint |
N |
N |
N |