Création d'une application SQL dans Data Flow

Pour créer une application SQL dans Data Flow, procédez comme suit :

  • Téléchargez les fichiers soumis par Spark vers Oracle Cloud Infrastructure Object Storage. Pour plus d'informations, reportez-vous à Configuration de la banque d'objets.
    1. Sur la page Flux de données, dans le menu de gauche, sélectionnez Applications. Si vous avez besoin d'aide pour rechercher la page Data Flow, reportez-vous à Liste des applications.
    2. Sur la page Applications, sélectionnez Créer une application.
    3. Dans le panneau Créer une application, entrez le nom de l'application et éventuellement une description qui peut vous aider à la rechercher.
    4. Sous Configuration de ressource, indiquez les valeurs suivantes. Pour vous aider à calculer le nombre de ressources dont vous avez besoin, reportez-vous à Dimensionnement de l'application Data Flow.
      1. Sélectionnez la version de Spark.
      2. (Facultatif) Sélectionnez un pool.
      3. Pour Forme de pilote, sélectionnez le type de noeud de cluster à utiliser pour héberger le pilote Spark.
      4. (Facultatif) Si vous avez sélectionné une forme flexible pour le pilote, personnalisez le nombre d'OCPU et la quantité de mémoire.
      5. Pour Forme d'exécuteur, sélectionnez le type de noeud de cluster à utiliser pour héberger chaque exécuteur Spark.
      6. (Facultatif) Si vous avez sélectionné une forme flexible pour l'exécuteur, personnalisez le nombre d'OCPU et la quantité de mémoire.
      7. (Facultatif) Pour activer l'utilisation de l'allocation dynamique Spark (redimensionnement automatique), sélectionnez Activer le redimensionnement automatique.
      8. Entrez le nombre d'exécuteurs dont vous avez besoin. Si vous avez choisi d'utiliser le redimensionnement automatique, entrez un nombre minimal et un nombre maximal d'exécuteurs.
    5. Sous Configuration de l'application, indiquez les valeurs suivantes.
      1. (Facultatif) Si l'application est conçue pour Spark Streaming, sélectionnez Spark Streaming.
      1. Remarque

        Vous devez avoir suivi les étapes décrites dans Introduction à Spark Streaming pour que votre application de transmission en continu fonctionne.
      2. Ne sélectionnez pas Utiliser les options de soumission Spark
      3. Sélectionnez SQL dans les options de langue.
      4. Sous Sélectionner un fichier, entrez l'URL du fichier vers l'application. Pour ce faire, vous avez le choix entre deux méthodes :
        • Sélectionnez le fichier dans la liste Nom de fichier Object Storage. Sélectionnez Modifier le compartiment si le bucket se trouve dans un autre compartiment.
        • Sélectionnez Entrer l'URL de fichier manuellement et entrez le nom du fichier et son chemin à l'aide du format suivant :
           oci://<bucket_name>@<objectstore_namespace>/<file_name>
      5. (Facultatif) Entrez des paramètres.
        • Saisissez le nom et la valeur de chaque paramètre.
        • Pour ajouter un autre paramètre, sélectionnez +Another parameter.
      6. (Facultatif) Si vous disposez d'un fichier archive.zip, téléchargez-le vers Oracle Cloud Infrastructure Object Storage, puis indiquez le chemin d'accès correspondant dans URI de l'archive. Pour ce faire, vous avez le choix entre deux méthodes :
        • Sélectionnez le fichier dans la liste Nom de fichier Object Storage. Sélectionnez Modifier le compartiment si le bucket se trouve dans un autre compartiment.
        • Sélectionnez Entrer le chemin de fichier manuellement et saisissez le nom du fichier et son chemin à l'aide du format suivant :
           oci://<bucket_name>@<namespace_name>/<file_name>
      7. Sous Emplacement du journal d'application, indiquez l'emplacement d'inclusion d'Oracle Cloud Infrastructure Logging de l'une des manières suivantes :
        • Sélectionnez le bucket dataflow-logs dans la liste Nom de fichier Object Storage. Sélectionnez Modifier le compartiment si le bucket se trouve dans un autre compartiment.
        • Sélectionnez Saisir le chemin du bucket manuellement et saisissez le chemin du bucket vers ce dernier à l'aide du format suivant :
           oci://dataflow-logs@<namespace_name>
      8. (Facultatif) Sélectionnez le metastore dans la liste. Si le metastore se trouve dans un autre compartiment, sélectionnez Modifier le compartiment. Le champ Emplacement de la table gérée par défaut est automatiquement renseigné en fonction du métastore.
    6. (Facultatif) Dans la section Balises, ajoutez des balises au <resourceType>. Si vous êtes autorisé à créer une ressource, vous disposez également des droits d'accès nécessaires pour lui appliquer des balises à forme libre. Pour appliquer une balise defined, vous devez être autorisé à utiliser la balise namespace. Pour plus d'informations sur le balisage, reportez-vous à Balises de ressource. Si vous n'êtes pas sûr d'appliquer des balises, ignorez cette option ou demandez à un administrateur. Vous pouvez appliquer des balises ultérieurement.
    7. Ajoutez des options de configuration avancées.
      1. Sélectionnez l'option Afficher les options avancées.
      2. (Facultatif) Sélectionnez Utiliser l'authentification du principal de ressource pour activer un démarrage plus rapide ou si vous prévoyez que l'exécution durera plus de 24 heures.
      3. (Facultatif) Sélectionnez Activer la source de données Oracle Spark pour utiliser une source de données Oracle Spark.
      4. Sélectionnez une version de Delta Lake. La valeur sélectionnée est reflétée dans la paire clé/valeur des propriétés de configuration Spark. Pour plus d'informations sur Delta Lake, reportez-vous à Data Flow et Delta Lake.
      5. Dans la section Journaux, sélectionnez les groupes de journaux et les journaux d'application pour Oracle Cloud Infrastructure Logging. Vous pouvez modifier le compartiment si les groupes de journaux se trouvent dans un autre compartiment.
      6. Entrez la clé de la propriété de configuration Spark et une valeur.
        • Si vous utilisez Spark streaming, incluez une clé spark.sql.streaming.graceful.shutdown.timeout avec une valeur maximale de 30 minutes (en millisecondes).
        • Si vous utilisez une source de données Oracle Spark, incluez une clé spark.oracle.datasource.enabled avec la valeur true.
      7. Sélectionnez + Une autre propriété pour ajouter une autre propriété de configuration.
      8. (Facultatif) Remplacez la valeur par défaut pour le bucket d'entrepôt en renseignant le URI de bucket d'entrepôt au format suivant :
        oci://<warehouse-name>@<tenancy>
      9. Sélectionnez l'accès réseau.
        1. Si vous attachez une adresse privée à Data Flow, sélectionnez Accès sécurisé au sous-réseau privé. Sélectionnez l'adresse privée dans la liste qui apparaît.
          Remarque

          Vous ne pouvez pas utiliser une adresse IP pour vous connecter à l'adresse privée. Vous devez utiliser le nom de domaine qualifié complet.
        2. Si vous n'utilisez pas d'adresse privée, sélectionnez Accès Internet (pas de sous-réseau).
      10. (Facultatif) Pour activer la collecte de lignage des données :
        1. Sélectionnez Activer la collecte de lignage des données.
        2. Sélectionnez Entrer manuellement le catalogue de données ou sélectionnez une instance Data Catalog dans un compartiment configurable de la location en cours.
        3. (Facultatif) Si vous avez sélectionné Entrer manuellement dans le catalogue de données à l'étape précédente, entrez les valeurs pour OCID de location de catalogue de données, OCID de compartiment de catalogue de données et ODID d'instance de catalogue de données.
      11. Pour Durée d'exécution maximale en minutes, entrez une valeur comprise entre 60 (1 heure) et 10080 (7 jours). Si vous n'entrez pas de valeur, l'exécution soumise continue jusqu'à ce qu'elle réussisse, échoue, soit annulée ou atteigne sa durée maximale par défaut (24 heures).
    8. Sélectionnez Créer pour créer l'application ou Enregistrer en tant que pile pour la créer ultérieurement.
      Pour modifier les valeurs de langue, de nom et d'URL de fichier ultérieurement, reportez-vous à Modification d'une application. Vous ne pouvez pas modifier le langage si SQL est sélectionné.
  • Utilisez la commande create et les paramètres requis pour créer une application :

    oci data-flow application create [OPTIONS]
    Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.
  • Exécutez l'opération CreateApplication pour créer une demande.