Sviluppo di applicazioni Data Flow

Informazioni sulla libreria , inclusi i modelli di applicazione Spark riutilizzabili e la sicurezza delle applicazioni. Imparare inoltre a creare e visualizzare applicazioni, modificare applicazioni, eliminare applicazioni e applicare argomenti o parametri.

Data Flow arresta automaticamente i processi batch a esecuzione prolungata (più di 24 ore) utilizzando un token di delega. In questo caso, se l'applicazione non ha terminato l'elaborazione dei dati, è possibile che si verifichi un errore di esecuzione e che il job rimanga incompleto. Per evitare questo problema, utilizzare le seguenti opzioni per limitare il tempo totale di esecuzione dell'applicazione:
Quando si creano applicazioni mediante la console
In Opzioni avanzate specificare la durata in Minuti durata massima esecuzione.
Quando si creano applicazioni mediante l'interfaccia CLI
Opzione pass della riga di comando di --max-duration-in-minutes <number>
Quando si creano applicazioni mediante l'SDK
Fornire l'argomento facoltativo max_duration_in_minutes
Quando si creano applicazioni mediante l'API
Impostare l'argomento facoltativo maxDurationInMinutes

Modelli di applicazione Spark riutilizzabili

Un'applicazione è un modello di applicazione Spark riutilizzabile all'infinito.

Le applicazioni di flusso dati sono costituite da un'applicazione Spark, dalle relative dipendenze, dai parametri predefiniti e da una specifica di risorsa runtime predefinita. Dopo che uno sviluppatore Spark ha creato un'applicazione di flusso dati, chiunque può utilizzarla senza preoccuparsi delle complessità legate alla sua distribuzione, impostazione o esecuzione. Puoi utilizzarlo tramite l'analitica Spark in dashboard, report, script o chiamate API REST personalizzate. Sulla sinistra c'è una figura che rappresenta gli sviluppatori Spark. Una freccia passa a una casella che rappresenta le applicazioni pubblicate. La freccia è denominata Pubblica: Applicazione parametrizzata. A destra della scatola c'è un'altra figura che rappresenta i non sviluppatori. Una freccia passa dai non sviluppatori alla casella ed è denominata Esegui: report personalizzati e dashboard personalizzati.

Ogni volta che si richiama l'applicazione di flusso dati, si crea un'esecuzione . Compila i dettagli del modello di applicazione e lo avvia su un set specifico di risorse IaaS. È disponibile una casella denominata Applicazione flusso dati. Contiene un elenco: Collegamento a codice Spark, dipendenze, forma e conteggio driver/esecutore predefiniti, argomenti e parametri predefiniti. Una freccia denominata Esegui un'applicazione passa a un'altra casella denominata Esecuzione flusso dati. Contiene la lista: Collegamento al codice Spark, Dipendenze, Forme e conteggi driver/esecutore specifici, Argomenti, Parametri specifici, Interfaccia utente Spark e Output log.