Dimensionamento dell'applicazione Data Flow

Ogni volta che si esegue un'applicazione di flusso dati, si specifica una dimensione e un numero di esecutori che, a loro volta, decidono il numero di OCPU utilizzate per eseguire l'applicazione Spark.

Una OCPU è uguale a una memoria centrale della CPU, che a sua volta è uguale a due memorie centrali vCPUs. Per ulteriori informazioni sul numero di OCPU contenute in ciascuna forma, vedere Forme di computazione.

Una guida approssimativa prevede l'assunzione di 10 GB di dati elaborati per OCPU all'ora. I formati di dati ottimizzati come Parquet sembrano funzionare molto più velocemente perché viene elaborato solo un piccolo sottoinsieme di dati. La formula per calcolare il numero di OCPU necessarie, supponendo che 10 GB di dati elaborati per OCPU all'ora, è la seguente:
<Number_of_OCPUs> = <Processed_Data_in_GB> / (10 * <Desired_runtime_in_hours>)
Ad esempio, per elaborare 1 TB di dati con un SLA di 30 minuti, prevedi di utilizzare circa 200 OCPU:
<Number_of_OCPUs> = 1024 / (10 * 0.5) = 204.8

È possibile allocare 200 OCPU in vari modi. Ad esempio, è possibile selezionare una forma esecutore di VM.Standard2.8 e 25 esecutori totali per 8 * 25 = 200 OCPU totali.

Questa formula è una stima approssimativa e i tempi di esecuzione potrebbero differire. È possibile stimare meglio la velocità di elaborazione effettiva del carico di lavoro caricando l'applicazione e visualizzando la cronologia delle esecuzioni dell'applicazione. Questa cronologia ti consente di vedere il numero di OCPU utilizzate, il totale dei dati elaborati e il tempo di esecuzione, consentendoti di stimare le risorse necessarie per soddisfare gli SLA. Da lì, si stima la quantità di dati di un processo di esecuzione e si ridimensiona l'esecuzione in modo appropriato.
Nota

Il numero di OCPU è limitato dalla forma VM scelta e dal valore impostato nella tenancy per VM.Total. Non è possibile utilizzare più VM in tutte le forme VM del valore in VM.Total. Ad esempio, se ogni forma VM è impostata su 20 e VM.Total è impostata su 20, non è possibile utilizzare più di 20 VM in tutte le forme VM. Con forme flessibili, in cui il limite viene misurato come memorie centrali o OCPU, 80 memorie centrali in una forma flessibile sono uguali a 10 forme VM.Standard2.8. Per ulteriori informazioni, consulta Limiti del servizio.

Forme di computazione flessibili

Data Flow supporta forme di computazione flessibili per i job Spark.

Sono supportate le seguenti forme di computazione flessibili:
  • VM.Standard3. Flex (Intel)
  • VM.StandardE3. Flexfield (AMD)
  • VM.StandardE4. Flexfield (AMD)
  • VM.Standard.A1. Flex (processore Arm da Ampere)
Per ulteriori informazioni sulle forme di computazione flessibili, consulta la documentazione sulla computazione.
Quando si crea un'applicazione o si modifica un'applicazione, selezionare la forma flessibile per il driver e l'esecutore. Per ogni selezione di OCPU, è possibile selezionare l'opzione di memoria flessibile.
Nota

Il driver e l'esecutore devono avere la stessa forma.

Migrazione delle applicazioni dalle forme di computazione VM.Standard2

Attenersi alla procedura riportata di seguito durante la migrazione delle applicazioni Data Flow esistenti da VM.Standard2 a forme di computazione flessibili.

  1. Richiedere i limiti per la scelta della forma flessibile.
    Il conteggio OCPU definisce i limiti di forma flessibile. Con le forme di computazione VM.Standard2, il conteggio dei nodi ha definito i limiti. Ad esempio, se si dispone di un'applicazione che utilizza 16 OCPU per il driver e 16 OCPU per un esecutore, è necessario richiedere 32 OCPU nella richiesta di aumento del limite.
  2. (Facoltativo) Se si prevede di eseguire più job concorrenti in forme diverse, richiedere ulteriori informazioni su Vm.Total.
  3. Quando si crea un'applicazione o si modifica un'applicazione, selezionare la forma flessibile per il driver e l'esecutore.
    Nota

    Il driver e l'esecutore devono avere la stessa forma.
  4. (Facoltativo) Per ogni selezione di OCPU, selezionare l'opzione di memoria flessibile.