Panoramica di Data Flow

Scopri di più su Data Flow e su come utilizzarlo per creare, condividere, eseguire e visualizzare facilmente l'output delle applicazioni Apache Spark .

Architettura del flusso di dati che mostra le applicazioni, la libreria e le esecuzioni nel livello utente. Di seguito è riportato il livello di amministratore costituito da controlli di amministratore per i criteri di accesso e i limiti di utilizzo. Di seguito è riportato il livello di infrastruttura di computazione elastica e storage elastico. Infine è il Security Layer che consiste nella gestione delle identità e nella gestione degli accessi.

Che cos'è Oracle Cloud Infrastructure Data Flow

Data Flow è una piattaforma serverless basata su cloud con un'interfaccia utente avanzata. Consente agli sviluppatori e ai data scientist Spark di creare, modificare ed eseguire job Spark su qualsiasi scala senza la necessità di cluster, un team operativo o una conoscenza Spark altamente specializzata. Essere serverless significa non avere alcuna infrastruttura da distribuire o gestire. È interamente basato sulle API REST e ti offre una facile integrazione con applicazioni o flussi di lavoro. È possibile controllare il flusso dati utilizzando questa API REST. È possibile eseguire il flusso di dati dall'interfaccia CLI poiché i comandi del flusso di dati sono disponibili nell'ambito dell'interfaccia della riga di comando di Oracle Cloud Infrastructure. È possibile effettuare le seguenti operazioni.

  • Connettersi alle origini dati Apache Spark.

  • Crea applicazioni Apache Spark riutilizzabili.

  • Avvia i job Apache Spark in pochi secondi.

  • Crea applicazioni Apache Spark utilizzando SQL, Python, Java, Scala o spark-submit.

  • Gestisci tutte le applicazioni Apache Spark da un'unica piattaforma.

  • Elabora i dati nel cloud o on-premise nel tuo data center.

  • Crea modelli di Big Data che puoi assemblare facilmente in applicazioni avanzate di Big Data.

Esiste una casella che rappresenta il flusso di dati Spark su richiesta da cui una freccia denominata Dati elaborati passa allo storage degli oggetti. Sotto Storage degli oggetti ci sono altre due caselle con una freccia da ciascuna di esse. Una casella rappresenta le applicazioni Spark, l'altra rappresenta i dati non elaborati. Sono disponibili due frecce che mostrano il flusso delle applicazioni Spark e dei dati non elaborati dallo storage degli oggetti a Data Flow Spark su richiesta.