Création d'une application de flux de données Java ou Scala
Suivez ces étapes pour créer une application Java ou Scala dans le service de flux de données.
Chargez vos fichiers Spark-submit dans un service Oracle Cloud Infrastructure Object Storage. Voir Configurer le magasin d'objets pour plus de détails. - Dans la page Flux de données, dans le menu de gauche, sélectionnez Applications. Si vous avez besoin d'aide pour trouver la page Flux de données, voir Liste des applications.
- Dans la page Applications, sélectionnez Créer une application.
- Dans le panneau Créer une application, entrez un nom pour l'application et une description facultative qui peut vous aider à la rechercher.
-
Sous Configuration des ressources, fournissez les valeurs suivantes. Pour vous aider à calculer le nombre de ressources dont vous avez besoin, voir Dimensionnement de l'application de flux de données.
- Sélectionnez la version de Spark.
- (Facultatif) Sélectionnez un groupe.
- Pour Forme du pilote, sélectionnez le type de noeud de grappe à utiliser pour héberger le pilote Spark.
- (Facultatif) Si vous avez sélectionné une forme flexible pour le pilote, personnalisez le nombre d'OCPU et la quantité de mémoire.
- Pour Forme d'exécuteur, sélectionnez le type de noeud de grappe à utiliser pour héberger chaque exécuteur Spark.
- (Facultatif) Si vous avez sélectionné une forme flexible pour l'exécuteur, personnalisez le nombre d'OCPU et la quantité de mémoire.
- (Facultatif) Pour activer l'utilisation de l'affectation dynamique Spark (ajustement automatique), sélectionnez Activer l'ajustement automatique.
- Entrez le nombre d'exécuteurs dont vous avez besoin. Si vous avez choisi d'utiliser l'ajustement automatique, entrez un nombre minimal et maximal d'exécuteurs.
-
Sous Configuration de l'application, fournissez les valeurs suivantes.
- (Facultatif) Si l'application est destinée à la diffusion en continu Spark, sélectionnez Spark
-
Note
Vous devez avoir suivi les étapes décrites dans Introduction à la diffusion en continu Spark pour que votre application de diffusion en continu fonctionne. - Ne pas sélectionner Utiliser les options Spark-Submit.
- Sélectionnez Java ou Scala selon les options Langage.
- Sous Sélectionner un fichier, entrez l'URL du fichier de fichier pour l'application. Il existe deux façons de le faire :
- Sélectionnez le fichier dans la liste Nom du fichier de stockage d'objets. Sélectionnez Changer de compartiment si le seau se trouve dans un autre compartiment.
- Sélectionnez Entrer l'URL du fichier manuellement et entrez le nom du fichier et son chemin au format suivant :
oci://<bucket_name>@<objectstore_namespace>/<file_name>
- Entrez le nom de la classe principale.
- (Facultatif) Entrez les arguments à utiliser pour appeler la classe principale. Il n'y a pas de limite à leur nombre ou à leurs noms. Par exemple, dans le champ Arguments, entrez :
Vous êtes invité à entrer la valeur par défaut. Il est bon de les entrer maintenant. Chaque fois que vous ajoutez un argument, un paramètre est affiché avec le nom, tel qu'il est entré dans le champ Argument et une zone de texte dans laquelle entrer la valeur du paramètre.${<argument_1>} ${<argument_2>}
Si la diffusion en continu Spark est spécifiée, vous devez inclure le dossier de points de vérification en tant qu'argument. Voir un exemple à partir de l'exemple de code sur GitHub pour savoir comment transmettre un point de vérification en tant qu'argument.
Note
N'incluez pas "$" ni "/" dans le nom ou la valeur du paramètre. - (Facultatif) Si vous disposez d'un fichier
archive.zip
, chargez le fichier dans le service de stockage d'objets pour Oracle Cloud Infrastructure Object Storage, puis alimentez l'URI de l'archive avec le chemin d'accès. Vous pouvez le faire de deux façons :- Sélectionnez le fichier dans la liste Nom du fichier de stockage d'objets. Sélectionnez Changer de compartiment si le seau se trouve dans un autre compartiment.
- Sélectionnez Entrer le chemin d'accès manuellement et entrez le nom du fichier et son chemin au format suivant :
oci://<bucket_name>@<namespace_name>/<file_name>
- Sous Emplacement du journal d'application, spécifiez l'emplacement où vous voulez ingérer Oracle Cloud Infrastructure Logging de l'une des façons suivantes :
- Sélectionnez le seau
dataflow-logs
dans la liste Nom du fichier de stockage d'objets. Sélectionnez Changer de compartiment si le seau se trouve dans un autre compartiment. - Sélectionnez Entrer manuellement le chemin du seau et entrez le chemin du seau à l'aide de ce format :
oci://dataflow-logs@<namespace_name>
- Sélectionnez le seau
- (Facultatif) Sélectionnez le magasin de métadonnées dans la liste. Si le magasin de métadonnées se trouve dans un autre compartiment, sélectionnez Changer de compartiment. Le champ Emplacement de table gérée par défaut est alimenté automatiquement en fonction du magasin de métadonnées.
- (Facultatif) Dans la section Marqueurs, ajoutez un ou plusieurs marqueurs à <resourceType>. Si vous êtes autorisé à créer une ressource, vous disposez également des autorisations nécessaires pour appliquer des marqueurs de formulaire libre à cette ressource. Pour appliquer un marqueur défini, vous devez être autorisé à utiliser l'espace de noms de marqueur. Pour plus d'informations sur le marquage, voir Marqueurs de ressource. Si vous ne savez pas si vous devez appliquer des marqueurs, ignorez cette option ou demandez à un administrateur. Vous pouvez appliquer des marqueurs plus tard.
- (Facultatif) Ajoutez des options de configuration avancées.
- Sélectionnez Afficher les options avancées.
- (Facultatif) Sélectionnez Utiliser l'authentification du principal de ressource pour activer un démarrage plus rapide ou si vous prévoyez que l'exécution dure plus de 24 heures.
- (Facultatif) Sélectionnez Activer la source de données Oracle pour Spark pour utiliser la source de données Oracle pour Spark.
- Sélectionnez une version de Delta Lake. La valeur que vous sélectionnez est reflétée dans la paire clé/valeur des propriétés de configuration Spark. Voir Data Flow and Delta Lake pour plus d'informations sur Delta Lake.
- Dans la section Journaux, sélectionnez les groupes de journaux et les journaux d'application pour Oracle Cloud Infrastructure Logging. Vous pouvez changer de compartiment si les groupes de journaux se trouvent dans un compartiment différent.
- Entrez la clé de la propriété de configuration Spark et une valeur.
- Si vous utilisez la diffusion en continu Spark, incluez une clé
spark.sql.streaming.graceful.shutdown.timeout
avec une valeur n'excédant pas 30 minutes (en millisecondes). - Si vous utilisez la source de données Oracle pour Spark, incluez une clé
spark.oracle.datasource.enabled
avec la valeurtrue
.
- Si vous utilisez la diffusion en continu Spark, incluez une clé
- Sélectionnez + Une autre propriété pour en ajouter une autre.
- (Facultatif) Remplacez la valeur par défaut du seau d'entrepôt en indiquant dans URI du seau d'entrepôt au format suivant :
oci://<warehouse-name>@<tenancy>
- Sélectionnez l'accès au réseau.
- Si vous attachez un point d'extrémité privé au service de flux de données, sélectionnez Accès sécurisé au sous-réseau privé. Sélectionnez le point d'extrémité privé dans la liste qui s'affiche. Note
Vous ne pouvez pas utiliser une adresse IP pour vous connecter au point d'extrémité privé. Vous devez utiliser le nom de domaine complet. - Si vous n'utilisez pas de point d'extrémité privé, sélectionnez Accès Internet (aucun sous-réseau).
- Si vous attachez un point d'extrémité privé au service de flux de données, sélectionnez Accès sécurisé au sous-réseau privé. Sélectionnez le point d'extrémité privé dans la liste qui s'affiche.
- (Facultatif) Pour activer la collecte du lignage des données :
- Sélectionnez Activer la collecte du lignage des données.
- Sélectionnez Entrer le catalogue de données manuellement ou sélectionnez une instance de catalogue de données dans un compartiment configurable de la location courante.
- (Facultatif) Si vous avez sélectionné Entrer le catalogue de données manuellement à l'étape précédente, entrez les valeurs pour OCID de la location du catalogue de données, OCID du compartiment du catalogue de données et ODID de l'instance du catalogue de données.
- Pour Durée d'exécution maximale en minutes, entrez une valeur comprise entre 60 (1 heure) et 10080 (7 jours). Si vous n'entrez pas de valeur, l'exécution soumise se poursuit jusqu'à ce qu'elle réussisse, échoue, soit annulée ou atteigne sa durée maximale par défaut (24 heures).
-
Sélectionnez Créer pour créer l'application ou sélectionnez Enregistrer en tant que pile pour la créer plus tard.
Pour modifier les valeurs de langue, de nom et d'URL de fichier à l'avenir, voir Modification d'une application. Vous ne pouvez modifier le langage qu'entre Java et Scala. Vous ne pouvez pas le modifier en Python ou en SQL.
Utilisez la commande create et les paramètres requis pour créer une application :
Pour la liste complète des indicateurs et des options de variable pour les commandes de l'interface de ligne de commande, voir Informations de référence sur les commandes de l'interface de ligne de commande.oci data-flow application create [OPTIONS]
Exécutez l'opération CreateApplication pour créer une application.