Utiliser un pipeline

Un pipeline vous permet de connecter un jeu de tâches dans une séquence ou en parallèle pour orchestrer le traitement des données.

En créant un pipeline, vous pouvez créer un graphique de dépendance de tâche complexe et automatiser toute une charge de travail des tâches. Les tâches doivent être publiées et vous pouvez ajouter des tâches publiées à partir de n'importe quelle application qui se trouve dans l'espace de travail courant ou à partir d'un autre espace de travail.

Dans ce tutoriel, vous allez :

  • Créez deux tâches de chargement de données à exécuter en parallèle dans un pipeline.
  • Créer une tâche REST pour utiliser le service d'avis pour envoyer des avis par courriel.
  • Créer un pipeline et ajouter des opérateurs pour les tâches de chargement de données, de fusion, d'intégration et REST.
  • Créer une tâche de pipeline pour configurer un contexte d'exécution pour un pipeline.
  • Publier une tâche de pipeline et exécuter un pipeline.
  • Surveiller une exécution de pipeline.

1. Création d'une tâche de chargement de données pour les données de revenus

Dupliquez la tâche Load Revenue Data into Data Warehouse pour créer une nouvelle tâche qui charge et remplace les données de revenus.

  1. Dans la page de détails du projet DI Lab, sélectionnez Tâches dans le sous-menu.
  2. Dans la liste Tâches, recherchez Load Revenue Data into Data Warehouse.
  3. Sélectionnez le menu Actions (trois points), puis sélectionnez Dupliquer.
  4. Dans la boîte de dialogue Dupliquer la tâche, entrez Revenue Data Load pour le nouveau nom et sélectionnez Dupliquer.

    La valeur de l'identificateur est générée automatiquement en fonction du nom que vous fournissez. Vous pouvez modifier la valeur générée, mais après avoir enregistré la nouvelle tâche, vous n'êtes pas autorisé à mettre à jour l'identificateur.

  5. Dans la liste Tâches, sélectionnez Chargement des données de revenus.

    La page de tâche de chargement de données en double s'ouvre dans un nouvel onglet.

  6. Sélectionnez l'icône d'étape Cible.
  7. Sous Paramètres de chargement des entités de données cibles, sélectionnez Utiliser des entités de données existantes.
  8. Dans le menu Stratégie d'intégration, sélectionnez Remplacer.
  9. Sous Entités de données disponibles, cochez la case REVENUE_TARGET, puis sélectionnez Définir comme cible.

    Le nom REVENUE_TARGET s'affiche à côté de Entités de données sélectionnées.

  10. Sélectionnez Enregistrer pour enregistrer la tâche et continuer de modifier.
  11. Sélectionnez Suivant pour naviguer vers l'étape Transformation.

    Ne supprimez pas la transformation de remplissage nulle qui a été précédemment appliquée à SRC_ORDER_NUMBER.

  12. Sélectionnez Suivant pour naviguer jusqu'à l'étape Mappage d'attributs.

    Tous les attributs source et cible sont automatiquement mappés.

  13. Sélectionnez Suivant pour naviguer jusqu'à l'étape Vérifier et valider.

    La validation de la tâche commence automatiquement.

    Un sommaire des détails de configuration de chaque étape est présenté dans un bloc. Si vous modifiez la configuration d'une étape, naviguez jusqu'à l'étape Vérifier et valider pour valider de nouveau la tâche.

    Le résultat de la validation de la tâche est affiché dans le dernier bloc, Validation.

  14. Lorsque la validation a réussi, sélectionnez Enregistrer et fermer.

2. Création d'une tâche de chargement de données pour les données de client

Créez une tâche de chargement de données pour charger les données de client dans Data Warehouse en créant une nouvelle entité de données cible.

  1. Dans la page de détails du projet DI Lab, sélectionnez Tâches dans le sous-menu.
  2. Sélectionnez Créer une tâche, puis Chargeur de données.

    La page Créer une tâche de chargement de données s'ouvre dans un nouvel onglet. Les étapes numérotées et nommées en haut vous guident tout au long de la configuration. Une coche s'affiche sur une icône d'étape une fois que vous avez configuré l'étape. Pour passer d'une étape à une autre, sélectionnez Suivant ou Précédent. Vous pouvez également naviguer directement jusqu'à une étape configurée en sélectionnant l'icône correspondante.

  3. Dans la page Create data loader task (Créer une tâche de chargement de données), étape Basic information (Informations de base), sélectionnez les éléments suivants :
    Pour cet élémentSélectionnez
    Type de source Stockage de fichiers
    Type de cible Base de données
    Type de chargement Entité de données unique
  4. Pour le nom de la tâche, entrez Customer Data Load. Sélectionnez ensuite Suivant pour naviguer jusqu'à l'étape suivante.

    Une case à cocher s'affiche sur l'icône de l'étape informations de base une fois que vous avez configuré l'étape.

  5. À l'étape Source, sélectionnez les éléments suivants :
    Pour cet élémentSélectionnez
    Ressource de données Lac de données
    Connexion Connexion par défaut
    Compartiment compartiment contenant le seau dans lequel vous avez chargé le fichier de données-échantillons, CUSTOMERS.JSON
    Seau Seau de stockage d'objets qui contient l'exemple de fichier JSON
  6. Sous Paramètres de fichier, sélectionnez les éléments suivants :
    Pour cet élémentSélectionnez
    Type de fichier JSON
    Type de compression Auto (Valeur par défaut)
    Encodage UTF-8

    Vous pouvez laisser les paramètres par défaut tels quels dans les autres champs.

  7. Sous Entités de données disponibles, cochez la case CUSTOMERS.JSON, puis sélectionnez Définir comme source.

    Le nom CUSTOMERS.JSON s'affiche à côté de Entités de données sélectionnées.

  8. Sélectionnez Créer pour enregistrer la tâche et continuer d'apporter des modifications.
  9. Sélectionnez Suivant pour avancer à l'étape Cible, puis sélectionnez les éléments suivants :
    Pour cet élémentSélectionnez
    Ressource de données Entrepôt de données
    Connexion Connexion par défaut
    Schéma Bêta
  10. Sous Emplacement temporaire, vous pouvez utiliser l'emplacement temporaire par défaut configuré lors de la création de la ressource de données cible.

    Vous pouvez également désélectionner la case pour sélectionner un autre seau de stockage d'objets.

  11. Sous Target data entity load settings (Paramètres de chargement des entités de données cibles), sélectionnez Create new data entity (Créer de nouvelles entités de données).
  12. Sous Options de nom de l'entité de données cible, sélectionnez Indiquer le nom de l'entité. Dans le champ Nom d'entité, entrez CUSTOMER_JSON_TARGET.
  13. Sélectionnez Enregistrer pour enregistrer la tâche et continuer de modifier.
  14. Sélectionnez l'étape Vérifier et valider, en ignorant l'étape de transformation facultative.

    La validation de la tâche commence automatiquement.

    Un sommaire des détails de configuration de chaque étape est présenté dans un bloc. Si vous modifiez la configuration d'une étape, naviguez jusqu'à l'étape Vérifier et valider pour valider de nouveau la tâche.

    Le résultat de la validation de la tâche est affiché dans le dernier bloc, Validation.

  15. Lorsque la validation a réussi, sélectionnez Enregistrer et fermer.

3. Création d'une tâche REST pour l'envoi d'avis

Vous pouvez utiliser une tâche REST pour exécuter un point d'extrémité d'API REST dans un pipeline. Dans ce tutoriel, vous utiliserez l'API du service d'avis dans une tâche REST du service d'intégration de données pour publier un courriel à partir d'un pipeline.

Pour créer une tâche REST à cette étape, vous devez déjà disposer des éléments suivants :
  • Sujet et abonnement au courriel créés dans le service Avis.

  • OCID du sujet que vous avez créé. L'OCID est disponible dans la section Informations sur le sujet de la page de détails du sujet du service d'avis.

  • L'énoncé de politique suivant vous permet d'exécuter les tâches d'intégration de données qui appellent l'API REST du service d'avis :

    allow any-user to use notification-family in tenancy where ALL {request.principal.type='disworkspace'}

Puis, dans le service d'intégration de données, créez une tâche REST qui utilise l'API du service d'avis pour publier un courriel.

  1. Dans la page de détails du projet DI Lab, sélectionnez Tâches dans le sous-menu.
  2. Sélectionnez Créer une tâche, puis REST.

    La page Créer une tâche REST s'ouvre dans un nouvel onglet.

  3. Pour Nom, entrez Notify by Email.

    La valeur de l'identificateur est générée automatiquement en fonction du nom que vous fournissez. Vous pouvez modifier la valeur générée, mais après avoir enregistré la nouvelle tâche, vous n'êtes pas autorisé à mettre à jour l'identificateur.

  4. Dans la section Détails de l'API REST, sélectionnez Configurer.

    La page Configurer les détails de l'API REST s'affiche. Les étapes numérotées et nommées en haut vous guident tout au long de la configuration. Une coche s'affiche sur une icône d'étape une fois que vous avez configuré l'étape. Pour passer d'une étape à une autre, sélectionnez Suivant ou Précédent. Vous pouvez également naviguer directement jusqu'à une étape configurée en sélectionnant l'icône correspondante.

  5. Pour Méthode HTTP, sélectionnez POST.
  6. Dans le champ URL, entrez ce qui suit et appuyez sur Entrée.
    https://notification.us-ashburn-1.oci.oraclecloud.com/20181201/topics/${TOPICID}/messages
    Note

    Assurez-vous d'utiliser l'identificateur de région approprié pour le service d'avis.

    Lorsque vous appuyez sur Entrée après avoir entré l'URL, le service d'intégration de données convertit la syntaxe du paramètre ${} en paramètre d'URL de chaîne.

  7. Dans le tableau, dans la rangée du nouveau paramètre d'URL TOPICID, sélectionnez Modifier dans le menu Actions (trois points).
  8. Dans le champ Valeur, entrez l'OCID du sujet d'avis que vous avez créé et sélectionnez Enregistrer.
  9. Ajoutez ensuite un en-tête en procédant comme suit :
    1. Sélectionnez En-tête.
    2. Sélectionnez Ajouter un en-tête.
    3. Dans le champ Clé, entrez con et sélectionnez Content-Type dans la liste.
    4. Dans le champ Valeur, entrez app et sélectionnez application/json dans la liste.
    5. Sélectionnez Ajouter.
  10. Ajoutez un corps de demande en procédant comme suit :
    1. Sélectionnez Demande.
    2. Dans l'éditeur, entrez les informations suivantes.
      {"title": "Put your title here", "body": "Put your email body here."}
    3. Sélectionnez Ajouter.
  11. Sélectionnez Suivant, puis Configurer.
  12. Pour fournir l'authentification, procédez comme suit :
    1. Dans la section Authentication (Authentification), sélectionnez Edit (Modifier) pour afficher le panneau Configure authentication (Configurer l'authentification).
    2. Dans le menu Authentification, sélectionnez P principal de ressource OCI.
    3. Sous Source d'authentification, sélectionnez Espace de travail.
    4. Sélectionnez Configurer.
  13. Dans la section facultative Valider la tâche, sélectionnez Valider.
  14. Lorsque la validation réussit, sélectionnez Créer et fermer.

4. Publication du chargeur de données et des tâches REST

  1. Dans la page de détails du projet DI_Lab, sélectionnez Tâches dans le sous-menu.
  2. Dans la liste des tâches, cochez les cases à côté de Chargement des données de revenus, Chargement des données de client et Avis par courriel.
  3. Sélectionnez Publier dans l'application.
  4. Dans la boîte de dialogue Publier dans l'application, sélectionnez Application de laboratoire, puis Publier.

    Un message d'avis s'affiche, avec un lien vers l'application pour voir les tâches publiées.

  5. Dans l'avis, sélectionnez Voir l'application. Cliquez ensuite sur X pour fermer l'avis.

    La liste Correctifs de la page Détails de l'application s'affiche. Une entrée de correctif est créée pour les tâches que vous publiez.

  6. Dans la liste Correctifs, vous pouvez surveiller le statut des correctifs. Sélectionnez Actualiser pour obtenir les dernières mises à jour du statut.

    Lorsque le statut d'un correctif passe à Réussite, trois entrées de tâche publiées sont créées dans la liste Tâches de la page Détails de l'application.

  7. Dans la page des détails de l'application de laboratoire, sélectionnez Tâches.

    Les tâches publiées pour le chargement de données sur les revenus, le chargement de données sur les clients et l'avis par courriel sont affichées dans la liste des tâches.

5. Création d'un pipeline

  1. Dans la barre d'onglets, sélectionnez l'onglet Ouvrir (icône plus), puis Projets.
  2. Dans la page Projets, sélectionnez DI_Lab.
  3. Dans la page des détails du projet DI_Lab, sélectionnez Pipelines dans le sous-menu sur le côté gauche, puis sélectionnez Créer un pipeline.

    Le concepteur de pipeline s'ouvre dans un nouvel onglet. Un opérateur Démarrer et un opérateur Fin sont placés sur le canevas pour vous.

  4. Dans le panneau Propriétés du pipeline, entrez Analyze Revenue dans le champ Nom.

    La valeur Identificateur est générée automatiquement en fonction de la valeur que vous entrez pour le nom du pipeline. Vous pouvez modifier la valeur générée, mais après avoir enregistré le pipeline, vous n'êtes pas autorisé à mettre à jour l'identificateur.

  5. Sélectionnez Créer.

    Le concepteur reste ouvert pour que vous puissiez continuer à apporter des modifications.

6. Ajout d'opérateurs de pipeline

Vous ajoutez des opérateurs de tâche pour spécifier les tâches publiées à orchestrer dans le pipeline.

Pour en savoir plus, sur les opérateurs de pipeline.

  1. Dans le panneau Opérateurs, déposez un opérateur Chargeur de données sur le canevas, en le plaçant entre les opérateurs de début et de fin.

    Le panneau Propriétés affiche maintenant les détails de l'opérateur de tâche de chargement de données non limité.

  2. Dans l'onglet Détails du panneau Propriétés, cliquez sur Sélectionner.

    Le panneau Sélectionner une tâche de chargement de données s'affiche pour vous permettre de sélectionner une tâche de chargement de données publiée.

  3. Dans Application de main-d'oeuvre, sélectionnez Chargement des données de revenus (tâche qui charge les données de revenus dans un entrepôt de données), puis cliquez sur Sélectionner.

    L'icône de l'opérateur prend le nom de la tâche sélectionnée.

  4. Connectez l'opérateur Démarrer à la tâche de chargement des données de revenus.
  5. Pour enregistrer le pipeline et continuer la modification, sélectionnez Enregistrer.
  6. Répétez les étapes pour ajouter un deuxième opérateur Chargeur de données. Cette fois, sélectionnez Chargement des données de client (la tâche qui charge les données de client). Connectez ensuite l'opérateur Démarrer à la tâche de chargement de données client.
  7. Ensuite, déposez l'opérateur Fusionner sur le canevas, en le plaçant après les deux tâches de chargement de données.
  8. Connectez chaque tâche de chargement de données à l'opérateur Fusionner.
  9. Dans l'onglet Détails du panneau Propriétés pour l'opérateur Fusion, sélectionnez Toute réussite dans le menu Condition de fusion.

    Cela spécifie que les opérations parallèles liées en amont doivent se terminer et réussir avant que la prochaine opération en aval puisse se poursuivre.

  10. Dans le panneau Opérateurs, déposez l'opérateur Intégration sur le canevas et placez-le après l'opérateur Fusion.
  11. Dans l'onglet Détails du panneau Propriétés, cliquez sur Sélectionner.
  12. Dans le panneau Sélectionner une tâche d'intégration, sélectionnez la tâche Charger le laboratoire des clients, puis cliquez sur Sélectionner.
  13. Connectez l'opérateur de fusion à l'opérateur de tâche d'intégration.
  14. Ensuite, déposez l'opérateur REST sur le canevas, en le plaçant après la tâche d'intégration.
  15. Dans l'onglet Détails du panneau Propriétés, cliquez sur Sélectionner.
  16. Dans le panneau Sélectionner une tâche REST, sélectionnez la tâche Avis par courriel, puis cliquez sur Sélectionner.
  17. Dans l'onglet Détails du panneau Propriétés pour l'opérateur de tâche REST, sélectionnez Exécuter en cas de réussite de l'opérateur précédent dans le menu Condition de lien entrant.
  18. Connectez la tâche REST à l'opérateur Fin.
  19. Sélectionnez Valider dans la barre d'outils du canevas.

    Le panneau Validation globale s'affiche pour vous permettre de vérifier les avertissements ou les erreurs.

  20. Pour enregistrer le pipeline, sélectionnez Enregistrer et fermer.

7. Création d'une tâche de pipeline

  1. Dans la barre d'onglets, sélectionnez l'onglet Ouvrir (icône plus), puis Projets.
  2. Dans la page Projets, sélectionnez DI_Lab.
  3. Dans la page de détails du projet DI_Lab, sélectionnez Tâches dans le sous-menu de gauche.
  4. Sélectionnez Créer une tâche, puis Pipeline.

    La page Créer une tâche de pipeline s'ouvre dans un nouvel onglet.

  5. Dans la page Créer une tâche de pipeline, remplacez le nom par Analyze Revenue Lab.

    La Description est facultative. La valeur du champ Identificateur est générée automatiquement en fonction de la valeur que vous entrez pour Nom. Vous pouvez modifier la valeur générée, mais après l'enregistrement de la tâche, vous n'êtes pas autorisé à mettre à jour l'identificateur.

  6. Dans la section Pipeline, cliquez sur Sélectionner.
  7. Dans le panneau Sélectionner un pipeline, sélectionnez Analyser les revenus, puis cliquez sur Sélectionner.

    La validation du pipeline commence automatiquement.

  8. Sélectionnez Créer et fermer.

8. Publication et exécution d'une tâche de pipeline

  1. Dans la page de détails du projet DI_Lab, sélectionnez Tâches dans le sous-menu.
  2. Dans la liste Tâches, dans le menu Actions (trois points) de Analyser le laboratoire de revenus, sélectionnez Publier dans l'application.
  3. Dans la boîte de dialogue Publier dans l'application, sélectionnez Application de laboratoire, puis Publier.

    Un message d'avis s'affiche, avec un lien vers l'application pour voir les tâches publiées.

  4. Allez à la page des détails de l'application de laboratoire et sélectionnez Correctifs dans le sous-menu de gauche pour voir les détails du correctif de tâche.

    Un correctif contient des mises à jour d'une tâche publiée dans une application. Lors de la publication d'une tâche, un correctif de publication est créé. En savoir plus sur les correctifs.

  5. Dans la liste Correctifs, vous pouvez surveiller le statut des correctifs. Sélectionnez Actualiser pour obtenir les dernières mises à jour du statut.

    Lorsque le statut d'un correctif change pour Réussite, une entrée de tâche publiée est créée dans la liste Tâches de la page Détails de l'application.

  6. Dans la page des détails de l'application de laboratoire, sélectionnez Tâches.

    La tâche publiée du pipeline Analyser le laboratoire des revenus est affichée dans la liste des tâches.

  7. Sélectionnez le menu Actions (trois points) pour la tâche de pipeline, puis sélectionnez Exécuter.

    Un message de réussite apparaît. Le fait d'exécuter une tâche crée une exécution de tâche. Vous accédez automatiquement à la page Exécutions, où vous pouvez voir toutes les exécutions de tâche et leur statut. Le statut initial d'une exécution de pipeline est Not started.

  8. Dans la liste Exécutions de la page de détails de l'application de main-d'oeuvre, sélectionnez Actualiser pour obtenir les dernières mises à jour de statut d'exécution de tâche.

    Notez que l'exécution d'un pipeline comprend des étapes de prétraitement, d'acceptation et de validation avant que le moteur d'exécution ne démarre l'exécution réelle du pipeline.

    Sélectionnez Actualiser plusieurs fois jusqu'à ce que le statut En cours d'exécution s'affiche.

  9. Lorsque la tâche de pipeline est en cours d'exécution, sélectionnez le nom d'exécution de la tâche.

    La page Détails de l'exécution s'affiche, où vous pouvez surveiller la progression de l'exécution du pipeline sur le graphique de pipeline. Le statut de chaque noeud est indiqué par une icône et une étiquette. Par exemple, une coche verte pour un noeud terminé, l'étiquette Running pour les tâches en cours d'exécution et l'étiquette Waiting pour une tâche en aval en attente d'exécution.

    Sélectionnez Actualiser plusieurs fois jusqu'à ce que vous voyiez Réussite pour le statut d'exécution global du pipeline.

    Vous pouvez également sélectionner Aperçu pour voir plus de détails sur l'exécution du pipeline.

  10. Une fois l'exécution du pipeline réussie, allez à la liste Exécutions de la page de détails de l'application de laboratoire et développez l'entrée d'exécution principale pour l'exécution de la tâche de pipeline.

    Vous pouvez voir les détails d'exécution de quatre tâches individuelles dans le pipeline.

    Vous auriez également reçu un courriel du service d'avis.