12 Workflow

I flussi di lavoro in Oracle AI Data Platform Workbench offrono un modo potente e flessibile per automatizzare le attività di elaborazione dei dati. Con i flussi di lavoro, gli utenti possono definire e orchestrare pipeline di dati complesse che possono essere eseguite su richiesta e in base a una pianificazione predefinita. I flussi di lavoro possono essere composti da più task, ognuno dei quali esegue un'azione specifica, e possono includere funzioni avanzate quali dipendenze, trigger e gestione degli errori.

Funzioni principali dei flussi di lavoro della piattaforma dati AI

  • Automazione: automatizza attività e processi di dati complessi.
  • Orchestrazione: definisce la sequenza e le dipendenze dei task in una pipeline.
  • Schedulazione: esegue i flussi di lavoro in base a una schedulazione o a un trigger in base a eventi specifici.
  • Monitoraggio: tenere traccia dello stato del flusso di lavoro, dei log e della cronologia di esecuzione.
  • Parametrizzazione: passare i parametri per personalizzare il funzionamento dei flussi di lavoro e delle attività.

Concetti di base

  • Job: raccolta di task eseguiti in sequenza o in parallelo per completare un job di elaborazione dati.
  • Task: singoli passi che costituiscono un flusso di lavoro. I task possono includere azioni quali l'esecuzione di codice Python, l'esecuzione di un notebook, un task if-else o l'esecuzione di un altro task job.
  • Esecuzione job: istanza dell'esecuzione di un job. Un job può essere attivato più volte, ogni volta che rappresenta un nuovo job eseguito.
  • Trigger: definisce le condizioni in cui viene eseguito un flusso di lavoro, ad esempio in una pianificazione, o se viene attivato manualmente.
  • Dipendenze: definire l'ordine di esecuzione dei task o specificare le condizioni in cui vengono eseguiti determinati task.
  • Parametri: valori passati a flussi di lavoro o task per personalizzarne l'esecuzione. I parametri possono essere definiti a livello di job, task o runtime.

Vantaggi/casi d'uso dell'utilizzo dei flussi di lavoro

  • Automazione semplificata - Semplifica l'esecuzione di attività di dati ricorrenti automatizzandole attraverso i flussi di lavoro.
  • Elaborazione parallela: velocizza l'elaborazione dei dati eseguendo task in parallelo.
  • Esecuzione personalizzabile - Modifica i flussi di lavoro in runtime con parametri per soddisfare esigenze specifiche.
  • Efficienza migliorata - Riduci gli interventi manuali e gli errori, consentendo operazioni più fluide.

I flussi di lavoro in un AI Data Platform Workbench consentono una vasta gamma di casi d'uso, tra cui pipeline ETL automatizzate, integrazione dei dati da più origini e analytics avanzati. Gli utenti possono automatizzare il monitoraggio della qualità dei dati, l'addestramento dei modelli di machine learning e l'implementazione. Queste funzionalità favoriscono l'efficienza e la scalabilità per flussi di lavoro moderni basati sui dati.

Procedure consigliate

  • Modularizzazione delle attività: suddivide i flussi di lavoro in attività riutilizzabili per semplificare la gestione e migliorare la manutenibilità.
  • Allocazione efficiente delle risorse - Ottimizza i flussi di lavoro per migliorare le prestazioni eseguendo i task in parallelo, se necessario.
  • Gestione degli errori: utilizza nuovi tentativi, notifiche di errore e meccanismi di fallback per garantire l'esecuzione affidabile dei flussi di lavoro.
  • Assegnazione computazione - Assegna risorse di computazione specifiche a ogni task in base alle dimensioni del carico di lavoro, ottimizzando prestazioni e costi.

Seguendo queste best practice, puoi progettare flussi di lavoro scalabili, affidabili ed efficienti, garantendo performance ottimali e una gestione più semplice in Oracle AI Data Platform.