Pipeline
Una pipeline di Machine Learning (ML) Data Science è una risorsa che definisce un flusso di lavoro di task, chiamati passi.
Il machine learning è spesso un processo complesso che coinvolge diversi passaggi che lavorano insieme in un flusso di lavoro per creare e servire un modello di machine learning. Questi passaggi di solito includono: acquisizione ed estrazione dei dati, preparazione dei dati per il ML, featurizzazione, formazione di un modello (inclusa la selezione dell'algoritmo e l'ottimizzazione degli iperparametri), valutazione del modello e distribuzione del modello.
I passi della pipeline possono avere dipendenze da altri passi per creare il workflow. Ogni passo è discreto, quindi ti dà la flessibilità di mescolare ambienti diversi e anche linguaggi di codifica diversi nella stessa pipeline.
Una pipeline (workflow) tipica include i passi riportati di seguito.

Questo ciclo di vita ML viene eseguito come una pipeline ML ripetibile e continua.
Concetti pipeline
Una pipeline potrebbe avere l'aspetto seguente:

In un contesto ML, le pipeline di solito forniscono un flusso di lavoro per l'importazione, la trasformazione dei dati, l'addestramento dei modelli e la valutazione dei modelli. I passi nella pipeline possono essere eseguiti in sequenza o in parallelo, purché creino un grafico aciclico diretto (DAG).
- pipeline
-
Risorsa che contiene tutti i passi e le relative dipendenze (flusso di lavoro DAG). È possibile definire configurazioni predefinite per l'infrastruttura, i log e altre impostazioni da utilizzare nelle risorse della pipeline. Queste impostazioni predefinite vengono utilizzate quando non sono definite nei passi della pipeline.
È inoltre possibile modificare alcune configurazioni della pipeline dopo la creazione, ad esempio il nome, il log e le variabili di ambiente personalizzate.
- Passo pipeline
-
Task da eseguire in una pipeline. Il passo contiene l'artifact del passo, l'infrastruttura (forma di computazione, volume a blocchi) da utilizzare durante l'esecuzione, le impostazioni di log, le variabili di ambiente e altri elementi.
Un passo della pipeline può essere uno dei seguenti tipi:
- Uno script (file di codice). Sono supportati Python, Bash e Java e una configurazione per eseguirlo.
-
Job esistente in Data Science identificato dal relativo OCID.
- Artifact passo
-
Obbligatorio quando si utilizza un tipo di passo script. Un artifact è tutto il codice da utilizzare per eseguire il passo. L'artifact stesso deve essere un singolo file. Tuttavia, può essere un file compresso (zip) che include diversi file. È possibile definire il file specifico da eseguire durante l'esecuzione del passo.
Tutti i passi script in una pipeline devono avere un artifact per la pipeline in stato ACTIVE in modo che possa essere eseguita.
- DAG
-
Il workflow dei passi, definito dalle dipendenze di ogni passo su altri passi della pipeline. Le dipendenze creano un workflow logico o un grafico (deve essere aciclico). La pipeline si sforza di eseguire i passi in parallelo per ottimizzare il tempo di completamento della pipeline a meno che le dipendenze non forzino l'esecuzione sequenziale dei passi. Ad esempio, la formazione deve essere completata prima di valutare il modello, ma diversi modelli possono essere addestrati in parallelo per competere per il modello migliore.
- Esecuzione della pipeline
-
Istanza di esecuzione di una pipeline. Ogni esecuzione della pipeline include le esecuzioni dei passi. È possibile configurare un'esecuzione della pipeline per sostituire alcune delle impostazioni predefinite della pipeline prima di avviare l'esecuzione.
- Esecuzione passo della pipeline
-
Istanza di esecuzione di un passo della pipeline. La configurazione per l'esecuzione del passo viene eseguita dall'esecuzione della pipeline per la prima volta quando viene definita o dalla definizione della pipeline per la seconda volta.
- Stato ciclo di vita pipeline
-
Mentre la pipeline viene creata, costruita e persino eliminata, può essere in vari stati. Dopo la creazione della pipeline, la pipeline si trova nello stato CREATING e non può essere eseguita finché tutti i passi non dispongono di un artifact o di un job da eseguire, quindi lo stato della pipeline diventa ACTIVE.
- Accesso alle risorse OCI
-
I passi della pipeline possono accedere a tutte le risorse OCI in una tenancy, a condizione che esista un criterio che lo consenta. Puoi eseguire pipeline sui dati in ADW o nello storage degli oggetti. Inoltre, puoi utilizzare i vault per fornire un modo sicuro per eseguire l'autenticazione su risorse di terze parti. I passi della pipeline possono accedere alle origini esterne se è stata configurata la VCN appropriata.