Dimensionnement de l'application Data Flow

Chaque fois que vous exécutez une application Data Flow, vous indiquez une taille et un nombre d'exécuteurs qui, à leur tour, déterminent le nombre d'OCPU utilisées pour exécuter l'application Spark.

Une OCPU est égale à un coeur de processeur, qui est lui-même égal à deux vCPUs. Pour plus d'informations sur le nombre d'OCPU contenues dans chaque forme, reportez-vous à Formes de calcul.

De manière générale, on suppose que 10 Go de données sont traités par OCPU et par heure. Les formats de données optimisés tels que Parquet s'exécutent beaucoup plus rapidement car seulement un petit sous-ensemble des données est traité. La formule permettant de calculer le nombre d'OCPU nécessaires, en supposant que 10 Go de données soient traitées par OCPU et par heure, est la suivante :
<Number_of_OCPUs> = <Processed_Data_in_GB> / (10 * <Desired_runtime_in_hours>)
Par exemple, pour traiter 1 To de données avec un contrat de niveau de service de 30 minutes, envisagez d'utiliser environ 200 OCPU :
<Number_of_OCPUs> = 1024 / (10 * 0.5) = 204.8

Vous pouvez allouer 200 OCPU de différentes manières. Par exemple, vous pouvez sélectionner la forme d'exécuteur VM.Standard2.8 et 25 exécuteurs au total, pour 8 * 25 = 200 OCPU au total.

Cette formule est une estimation et les temps d'exécution peuvent différer. Vous pouvez mieux estimer le taux de traitement de la charge globale réelle en chargeant l'application et en visualisant l'historique des exécutions d'application. Cet historique vous permet de voir le nombre d'OCPU utilisées, le nombre total de données traitées et le temps d'exécution, ce qui vous permet d'estimer les ressources dont vous avez besoin pour répondre aux contrats de niveau de service. A partir de là, vous pouvez estimer la quantité de données traitées par une exécution et dimensionner correctement cette dernière.
Remarque

Le nombre d'OCPU est limité par la forme de machine virtuelle choisie et par la valeur définie dans la location pour VM.Total. Vous ne pouvez pas utiliser un nombre de machines virtuelles sur l'ensemble des formes de machine virtuelle supérieur à la valeur de VM.Total. Par exemple, si chaque forme de machine virtuelle est définie sur 20 et que VM.Total est défini sur 20, vous ne pouvez pas utiliser plus de 20 machines virtuelles sur l'ensemble des formes de machine virtuelle. Avec les formes flexibles, dont la limite est mesurée en cœurs ou OCPU, 80 cœurs d'une forme flexible est égale à 10 formes VM.Standard2.8. Pour plus d'informations, reportez-vous à Limites de service.

Formes de calcul flexibles

Data Flow prend en charge des formes de calcul flexibles pour les travaux Spark.

Les formes de calcul flexibles suivantes sont prises en charge :
  • VM.Standard3.Flex (Intel)
  • VM.StandardE3.Flex (AMD)
  • VM.StandardE4.Flex (AMD)
  • VM.Standard.A1.Flex (processeur Arm d'Ampere)
Pour plus d'informations sur les formes de calcul flexibles, reportez-vous à la documentation Compute.
Lorsque vous créez une application ou modifiez une application, sélectionnez la forme flexible pour le pilote et l'exécuteur. Pour la sélection de chaque OCPU, vous pouvez sélectionner l'option de mémoire flexible.
Remarque

Le pilote et l'exécuteur doivent avoir la même forme.

Migration d'applications à partir des formes de calcul VM.Standard2

Suivez ces étapes lors de la migration de vos applications Data Flow existantes de VM.Standard2 vers des formes de calcul flexibles.

  1. Demandez les limites pour la forme flexible de votre choix.
    Le nombre d'OCPU définit les limites de la forme flexible. Avec les formes de calcul VM.Standard2, le nombre de noeuds définit les limites. Par exemple, si votre application utilise 16 OCPU pour le pilote et 16 OCPU pour un exécuteur, vous demandez 32 OCPU dans la demande d'augmentation de la limite.
  2. (Facultatif) Si vous prévoyez d'exécuter davantage de travaux simultanés dans différentes formes, demandez une valeur plus élevée pour VM.Total.
  3. Lorsque vous créez une application ou modifiez une application, sélectionnez la forme flexible pour le pilote et l'exécuteur.
    Remarque

    Le pilote et l'exécuteur doivent avoir la même forme.
  4. (Facultatif) Pour chaque sélection d'OCPU, sélectionnez l'option de mémoire flexible.