Création d'une application de flux de données Spark-Submit

Créer une application Spark-Submit dans le service de flux de données.

  • Chargez vos fichiers Spark-submit dans un service Oracle Cloud Infrastructure Object Storage. Voir Configurer le magasin d'objets pour plus de détails.
    1. Dans la page Flux de données, dans le menu de gauche, sélectionnez Applications. Si vous avez besoin d'aide pour trouver la page Flux de données, voir Liste des applications.
    2. Dans la page Applications, sélectionnez Créer une application.
    3. Dans le panneau Créer une application, entrez un nom pour l'application et une description facultative qui peut vous aider à la rechercher.
    4. Sous Configuration des ressources, fournissez les valeurs suivantes. Pour vous aider à calculer le nombre de ressources dont vous avez besoin, voir Dimensionnement de l'application de flux de données.
      1. Sélectionnez la version de Spark.
      2. (Facultatif) Sélectionnez un groupe.
      3. Pour Forme du pilote, sélectionnez le type de noeud de grappe à utiliser pour héberger le pilote Spark.
      4. (Facultatif) Si vous avez sélectionné une forme flexible pour le pilote, personnalisez le nombre d'OCPU et la quantité de mémoire.
      5. Pour Forme d'exécuteur, sélectionnez le type de noeud de grappe à utiliser pour héberger chaque exécuteur Spark.
      6. (Facultatif) Si vous avez sélectionné une forme flexible pour l'exécuteur, personnalisez le nombre d'OCPU et la quantité de mémoire.
      7. (Facultatif) Pour activer l'utilisation de l'affectation dynamique Spark (ajustement automatique), sélectionnez Activer l'ajustement automatique.
      8. Entrez le nombre d'exécuteurs dont vous avez besoin. Si vous avez choisi d'utiliser l'ajustement automatique, entrez un nombre minimal et maximal d'exécuteurs.
    5. Sous Configuration de l'application, fournissez les valeurs suivantes.
      1. (Facultatif) Si l'application est destinée à la diffusion en continu Spark, sélectionnez Spark Streaming.
      2. Sélectionnez Utiliser les options Spark-Submit. Les options spark-submit prises en charge sont les suivantes :
        • --py-files
        • --files
        • --jars
        • --class
        • --conf Propriété de configuration arbitraire Spark au format key=value. Si une valeur contient des espaces, encadrez-la de apostrophes, "key=value". Transmettez de nombreuses configurations en tant qu'arguments distincts, par exemple,
           --conf <key1>=<value1> --conf <key2>=<value2>
        • application-jar Chemin d'un fichier JAR regroupant votre application et toutes ses dépendances.
        • application-arguments Arguments transmis à la méthode principale de votre classe principale.
      3. Dans la zone de texte Options Spark-Submit, entrez les options dans le format suivant :
         --py-files oci://<bucket_name>@<objectstore_namespace>/<file_name> .pyoci://<bucket_name>@<objectstore_namespace>/<dependencies_file_name.zip>
         --files oci://<bucket_name>@<objectstore_namespace>/<file_name>.json
         --jars oci://<bucket_name>@<objectstore_namespace>/<file_name>.jar
         --conf spark.sql.crossJoin.enabled=true
          oci://<bucket_name>@<objectstore_namespace>/<file_name>.py oci://<argument2_path_to_input> oci://<argument3_path_to_output>
        Par exemple, pour utiliser la source de données Oracle pour Spark, utilisez l'option suivante :
        --conf spark.oracle.datasource.enable=true
        Important

        Le service de flux de données ne prend pas en charge les URI commençant le local:// ou le hdfs://. L'URI doit démarrer oci://. Par conséquent, tous les fichiers (y compris main-application) doivent se trouver dans le service de stockage d'objets pour Oracle Cloud Infrastructure Object Storage et vous devez utiliser le nom de domaine complet pour chaque fichier.
      4. (Facultatif) Si vous disposez d'un fichier archive.zip, chargez archive.zip dans le service de stockage d'objets pour Oracle Cloud Infrastructure Object Storage et alimentez l'URI d'archive avec le chemin d'accès. Vous pouvez le faire de deux façons :
        • Sélectionnez le fichier dans la liste Nom du fichier de stockage d'objets. Sélectionnez Changer de compartiment si le seau se trouve dans un autre compartiment.
        • Sélectionnez Entrer le chemin d'accès manuellement et entrez le nom du fichier et son chemin au format suivant :
           oci://<bucket_name>@<namespace_name>/<file_name>
      5. Sous Emplacement du journal d'application, spécifiez l'emplacement où vous voulez ingérer Oracle Cloud Infrastructure Logging de l'une des façons suivantes :
        • Sélectionnez le seau dataflow-logs dans la liste Nom du fichier de stockage d'objets. Sélectionnez Changer de compartiment si le seau se trouve dans un autre compartiment.
        • Sélectionnez Entrer manuellement le chemin du seau et entrez le chemin du seau à l'aide de ce format :
           oci://dataflow-logs@<namespace_name>
        • Ne sélectionnez pas Entrer manuellement le chemin du seau et sélectionnez le fichier.
      6. (Facultatif) Sélectionnez le magasin de métadonnées dans la liste. Si le magasin de métadonnées se trouve dans un compartiment différent, sélectionnez d'abord Modifier le compartiment et sélectionnez un autre compartiment, puis sélectionnez le magasin de métadonnées dans la liste. Le champ Emplacement de table gérée par défaut est alimenté automatiquement en fonction de votre magasin de métadonnées.
    6. (Facultatif) Dans la section Marqueurs, ajoutez un ou plusieurs marqueurs à <resourceType>. Si vous êtes autorisé à créer une ressource, vous disposez également des autorisations nécessaires pour appliquer des marqueurs de formulaire libre à cette ressource. Pour appliquer un marqueur défini, vous devez être autorisé à utiliser l'espace de noms de marqueur. Pour plus d'informations sur le marquage, voir Marqueurs de ressource. Si vous ne savez pas si vous devez appliquer des marqueurs, ignorez cette option ou demandez à un administrateur. Vous pouvez appliquer des marqueurs plus tard.
    7. (Facultatif) Sélectionnez Afficher les options avancées et indiquez les valeurs suivantes.
      1. (Facultatif) Sélectionnez Utiliser l'authentification du principal de ressource pour permettre un démarrage plus rapide ou si vous prévoyez que l'exécution durera plus de 24 heures. Vous devez avoir configuré des politiques de principal de ressource.
      2. Cochez Activer Delta Lake pour utiliser Delta Lake.
        1. Sélectionnez la version Delta Lake. La valeur que vous sélectionnez est reflétée dans la paire clé/valeur des propriétés de configuration Spark.
        2. Sélectionnez le groupe de journaux.
      3. (Facultatif) Sélectionnez Activer la source de données Oracle pour Spark pour utiliser la source de données Oracle pour Spark.
      4. (Facultatif) Dans la section Journaux, sélectionnez les groupes de journaux et les journaux d'application pour Oracle Cloud Infrastructure Logging. Si les groupes de journaux se trouvent dans un autre compartiment, sélectionnez Changer de compartiment.
      5. Ajouter des propriétés de configuration Spark. Entrez une paire entre une clé et une valeur.
      6. Sélectionnez + Une autre propriété pour en ajouter une autre.
      7. Répétez les étapes b et c jusqu'à ce que vous ayez ajouté toutes les propriétés de configuration.
      8. Remplacer la valeur par défaut du seau d'entrepôt en indiquant dans URI du seau d'entrepôt au format suivant :
        oci://<warehouse-name>@<tenancy>
      9. Pour Sélectionner l'accès au réseau, sélectionnez l'une des options suivantes :
        • Si vous attachez un point d'extrémité privé au service de flux de données, sélectionnez le bouton radio Accès sécurisé au sous-réseau privé. Sélectionnez le point d'extrémité privé dans la liste qui s'affiche.
          Note

          Vous ne pouvez pas utiliser une adresse IP pour vous connecter au point d'extrémité privé. Vous devez utiliser le nom de domaine complet.
        • Si vous n'utilisez pas de point d'extrémité privé, sélectionnez le bouton radio Accès Internet (aucun sous-réseau).
      10. (Facultatif) Pour activer la collecte du lignage des données :
        1. Sélectionnez Activer la collecte du lignage des données.
        2. Sélectionnez Entrer le catalogue de données manuellement ou sélectionnez une instance de catalogue de données dans un compartiment configurable de la location courante.
        3. (Facultatif) Si vous avez sélectionné Entrer le catalogue de données manuellement à l'étape précédente, entrez les valeurs pour OCID de la location du catalogue de données, OCID du compartiment du catalogue de données et ODID de l'instance du catalogue de données.
      11. (Facultatif) Pour les tâches par lots uniquement, pour Durée d'exécution maximale en minutes, entrez une valeur comprise entre 60 (1 heure) et 10080 (7 jours). Si vous n'entrez pas de valeur, l'exécution soumise se poursuit jusqu'à ce qu'elle réussisse, échoue, soit annulée ou atteigne sa durée maximale par défaut (24 heures).
    8. Sélectionnez Créer pour créer l'application ou sélectionnez Enregistrer en tant que pile pour la créer plus tard.
      Pour modifier les valeurs des champs Nom et URL de fichier à l'avenir, voir Modification d'une application.
  • Utilisez la commande create et les paramètres requis pour créer une application :

    oci data-flow application create [OPTIONS]
    Pour la liste complète des indicateurs et des options de variable pour les commandes de l'interface de ligne de commande, voir Informations de référence sur les commandes de l'interface de ligne de commande.
  • Exécutez l'opération CreateApplication pour créer une application.