Création d'une application Java ou Scala dans Data Flow
Pour créer une application Java ou Scala dans Data Flow, procédez comme suit :
Téléchargez les fichiers soumis par Spark vers Oracle Cloud Infrastructure Object Storage. Pour plus d'informations, reportez-vous à Configuration de la banque d'objets. - Sur la page Flux de données, dans le menu de gauche, sélectionnez Applications. Si vous avez besoin d'aide pour rechercher la page Data Flow, reportez-vous à Liste des applications.
- Sur la page Applications, sélectionnez Créer une application.
- Dans le panneau Créer une application, entrez le nom de l'application et éventuellement une description qui peut vous aider à la rechercher.
-
Sous Configuration de ressource, indiquez les valeurs suivantes. Pour vous aider à calculer le nombre de ressources dont vous avez besoin, reportez-vous à Dimensionnement de l'application Data Flow.
- Sélectionnez la version de Spark.
- (Facultatif) Sélectionnez un pool.
- Pour Forme de pilote, sélectionnez le type de noeud de cluster à utiliser pour héberger le pilote Spark.
- (Facultatif) Si vous avez sélectionné une forme flexible pour le pilote, personnalisez le nombre d'OCPU et la quantité de mémoire.
- Pour Forme d'exécuteur, sélectionnez le type de noeud de cluster à utiliser pour héberger chaque exécuteur Spark.
- (Facultatif) Si vous avez sélectionné une forme flexible pour l'exécuteur, personnalisez le nombre d'OCPU et la quantité de mémoire.
- (Facultatif) Pour activer l'utilisation de l'allocation dynamique Spark (redimensionnement automatique), sélectionnez Activer le redimensionnement automatique.
- Entrez le nombre d'exécuteurs dont vous avez besoin. Si vous avez choisi d'utiliser le redimensionnement automatique, entrez un nombre minimal et un nombre maximal d'exécuteurs.
-
Sous Configuration de l'application, indiquez les valeurs suivantes.
- (Facultatif) Si l'application est conçue pour Spark Streaming, sélectionnez Spark Streaming.
-
Remarque
Vous devez avoir suivi les étapes décrites dans Introduction à Spark Streaming pour que votre application de transmission en continu fonctionne. - Ne sélectionnez pas Utiliser les options de soumission Spark.
- Sélectionnez Java ou Scala comme approprié dans les options Langue.
- Sous Sélectionner un fichier, entrez l'URL du fichier vers l'application. Pour ce faire, vous avez le choix entre deux méthodes :
- Sélectionnez le fichier dans la liste Nom de fichier Object Storage. Sélectionnez Modifier le compartiment si le bucket se trouve dans un autre compartiment.
- Sélectionnez Entrer l'URL de fichier manuellement et entrez le nom du fichier et son chemin à l'aide du format suivant :
oci://<bucket_name>@<objectstore_namespace>/<file_name>
- Entrez le nom de classe principale.
- (Facultatif) Entrez les arguments à utiliser pour appeler la classe principale. Il n'y a aucune limite à leur nombre ou à leur nom. Par exemple, dans le champ Arguments, entrez :
Vous êtes invité à saisir la valeur par défaut. Il est préférable de saisir ces informations maintenant. Chaque fois que vous ajoutez un argument, un paramètre s'affiche avec le nom saisi dans le champ Argument et une zone de texte dans laquelle entrer la valeur du paramètre.${<argument_1>} ${<argument_2>}
Si Spark Streaming est indiqué, vous devez inclure le dossier de point de reprise comme argument. Reportez-vous à un exemple de code sur GitHub pour savoir comment transmettre un point de reprise en tant qu'argument.
Remarque
N'incluez pas les caractères $ ou / dans le nom ou la valeur du paramètre. - (Facultatif) Si vous disposez d'un fichier
archive.zip
, téléchargez-le vers Oracle Cloud Infrastructure Object Storage, puis indiquez le chemin d'accès correspondant dans URI de l'archive. Pour ce faire, vous avez le choix entre deux méthodes :- Sélectionnez le fichier dans la liste Nom de fichier Object Storage. Sélectionnez Modifier le compartiment si le bucket se trouve dans un autre compartiment.
- Sélectionnez Entrer le chemin de fichier manuellement et saisissez le nom du fichier et son chemin à l'aide du format suivant :
oci://<bucket_name>@<namespace_name>/<file_name>
- Sous Emplacement du journal d'application, indiquez l'emplacement d'inclusion d'Oracle Cloud Infrastructure Logging de l'une des manières suivantes :
- Sélectionnez le bucket
dataflow-logs
dans la liste Nom de fichier Object Storage. Sélectionnez Modifier le compartiment si le bucket se trouve dans un autre compartiment. - Sélectionnez Saisir le chemin du bucket manuellement et saisissez le chemin du bucket vers ce dernier à l'aide du format suivant :
oci://dataflow-logs@<namespace_name>
- Sélectionnez le bucket
- (Facultatif) Sélectionnez le metastore dans la liste. Si le metastore se trouve dans un autre compartiment, sélectionnez Modifier le compartiment. Le champ Emplacement de la table gérée par défaut est automatiquement renseigné en fonction du métastore.
- (Facultatif) Dans la section Balises, ajoutez des balises au <resourceType>. Si vous êtes autorisé à créer une ressource, vous disposez également des droits d'accès nécessaires pour lui appliquer des balises à forme libre. Pour appliquer une balise defined, vous devez être autorisé à utiliser la balise namespace. Pour plus d'informations sur le balisage, reportez-vous à Balises de ressource. Si vous n'êtes pas sûr d'appliquer des balises, ignorez cette option ou demandez à un administrateur. Vous pouvez appliquer des balises ultérieurement.
- (Facultatif) Ajoutez des options de configuration avancées.
- Sélectionnez l'option Afficher les options avancées.
- (Facultatif) Sélectionnez Utiliser l'authentification de principal de ressource pour activer un démarrage plus rapide ou si l'exécution doit durer plus de 24 heures.
- (Facultatif) Sélectionnez Activer la source de données Oracle Spark pour utiliser une source de données Oracle Spark.
- Sélectionnez une version de Delta Lake. La valeur sélectionnée est reflétée dans la paire clé/valeur des propriétés de configuration Spark. Pour plus d'informations sur Delta Lake, reportez-vous à Data Flow et Delta Lake.
- Dans la section Journaux, sélectionnez les groupes de journaux et les journaux d'application pour Oracle Cloud Infrastructure Logging. Vous pouvez modifier le compartiment si les groupes de journaux se trouvent dans un autre compartiment.
- Entrez la clé de la propriété de configuration Spark et une valeur.
- Si vous utilisez Spark streaming, incluez une clé
spark.sql.streaming.graceful.shutdown.timeout
avec une valeur maximale de 30 minutes (en millisecondes). - Si vous utilisez une source de données Oracle Spark, incluez une clé
spark.oracle.datasource.enabled
avec la valeurtrue
.
- Si vous utilisez Spark streaming, incluez une clé
- Sélectionnez + Une autre propriété pour ajouter une autre propriété de configuration.
- (Facultatif) Remplacez la valeur par défaut pour le bucket d'entrepôt en renseignant le URI de bucket d'entrepôt au format suivant :
oci://<warehouse-name>@<tenancy>
- Sélectionnez l'accès réseau.
- Si vous attachez une adresse privée à Data Flow, sélectionnez Accès sécurisé au sous-réseau privé. Sélectionnez l'adresse privée dans la liste qui apparaît. Remarque
Vous ne pouvez pas utiliser une adresse IP pour vous connecter à l'adresse privée. Vous devez utiliser le nom de domaine qualifié complet. - Si vous n'utilisez pas d'adresse privée, sélectionnez Accès Internet (pas de sous-réseau).
- Si vous attachez une adresse privée à Data Flow, sélectionnez Accès sécurisé au sous-réseau privé. Sélectionnez l'adresse privée dans la liste qui apparaît.
- (Facultatif) Pour activer la collecte de lignage des données :
- Sélectionnez Activer la collecte de lignage des données.
- Sélectionnez Entrer manuellement le catalogue de données ou sélectionnez une instance Data Catalog dans un compartiment configurable de la location en cours.
- (Facultatif) Si vous avez sélectionné Entrer manuellement dans le catalogue de données à l'étape précédente, entrez les valeurs pour OCID de location de catalogue de données, OCID de compartiment de catalogue de données et ODID d'instance de catalogue de données.
- Pour Durée d'exécution maximale en minutes, entrez une valeur comprise entre 60 (1 heure) et 10080 (7 jours). Si vous n'entrez pas de valeur, l'exécution soumise continue jusqu'à ce qu'elle réussisse, échoue, soit annulée ou atteigne sa durée maximale par défaut (24 heures).
-
Sélectionnez Créer pour créer l'application ou Enregistrer en tant que pile pour la créer ultérieurement.
Pour modifier les valeurs de langue, de nom et d'URL de fichier ultérieurement, reportez-vous à Modification d'une application. Vous pouvez modifier le langage uniquement entre Java et Scala. Vous ne pouvez pas le remplacer par Python ou SQL.
Utilisez la commande create et les paramètres requis pour créer une application :
Afin d'obtenir la liste complète des indicateurs et des options de variable pour les commandes d'interface de ligne de commande, reportez-vous à Référence de commande d'interface de ligne de commande.oci data-flow application create [OPTIONS]
Exécutez l'opération CreateApplication pour créer une demande.