Collecte à partir d'Oracle Object Storage

La collecte est un processus qui extrait les métadonnées techniques de vos ressources de données vers votre catalogue de données. Une ressource de données représente une source de données. Par exemple, une base de données, une banque d'objets, une banque de fichiers ou de documents, une file d'attente de messages ou une application.

Dans ce tutoriel, vous allez effectuer les opérations suivantes :

  1. Autoriser Data Catalog à accéder à n'importe quel objet de votre instance Oracle Object Storage, dans n'importe quel bucket et dans n'importe quel compartiment de la location dans laquelle la stratégie est créée
  2. Créer une ressource de données Oracle Object Storage
  3. Ajouter une connexion par défaut pour la ressource de données
  4. Collecter la ressource de données en exécutant le travail de collecte immédiatement
Important

Vous pouvez collecter des fichiers Object Storage en tant qu'entités de données logiques.

Avant de commencer

Pour effectuer ce tutoriel, vous devez disposer des éléments suivants :

1. Création d'une stratégie d'accès

Vous créez une stratégie pour autoriser Data Catalog à accéder à vos ressources Object Storage.

Vous devez au moins disposer du droit d'accès READ sur tous les types de ressource objectstorage-namespaces, buckets et objects, ou sur le type agrégé de ressource Object Storage object-family.

Pour créer une stratégie d'accès afin d'octroyer le droit d'accès READ au type de ressource agrégée Object Storage object-family, procédez comme suit :

  1. Ouvrez le menu de navigation et sélectionnez Identité et sécurité. Sous Identité, sélectionnez Stratégies.
  2. Sur la page Règles, cliquez sur Créer une stratégie.
  3. Dans le panneau Créer une stratégie, entrez les détails suivants :
    • Nom : : entrez un nom unique pour la stratégie. Le nom doit être unique parmi toutes les stratégies de la location. Vous ne pouvez pas modifier le nom ultérieurement. Par exemple, data-catalog-dynamic-group.
    • Description : entrez une description, par exemple Accorder l'accès aux ressources de stockage d'objet dans n'importe quel compartiment de la location.
    • Compartiment : sélectionnez le compartiment dans lequel créer la stratégie.
    • Générateur de stratégies : dans cette section, déplacez le curseur vers Afficher l'éditeur manuel et entrez la règle de stratégie. Par exemple, pour le groupe dynamique data-catalog-dynamic-group, entrez la règle de stratégie suivante :
      allow dynamic-group data-catalog-dynamic-group to read object-family in tenancy
      Remarque

      Cette stratégie permet d'accéder à n'importe quel objet, dans n'importe quel bucket et dans n'importe quel compartiment de la location dans laquelle la stratégie est créée. Pour plus d'exemples, reportez-vous aux exemples de stratégie.
  4. Cliquez sur Créer.
La stratégie qui autorise Data Catalog à accéder à toutes vos ressources Oracle Object Storage est créée.

2. Création d'une ressource de données

Vous êtes désormais prêt à inscrire les sources de données Oracle Object Storage auprès de Data Catalog en tant que ressources de données .

Pour créer une ressource de données Oracle Object Storage, procédez comme suit :

  1. Ouvrez le menu de navigation et sélectionnez Analytics et IA. Sous Data Lake, sélectionnez Data Catalog.
  2. Cliquez sur l'instance de catalogue de données dans laquelle créer la ressource de données.
  3. Sur la page d'accueil de l'instance de catalogue de données, cliquez sur Créer une ressource de données dans la mosaïque Actions rapides.
    Remarque

    Après avoir créé une instance de catalogue de données, lorsque vous accédez à l'onglet Accueil pour la première fois, vous pouvez voir le bouton Créer une ressource de données dans la mosaïque Ressources de données.
  4. Dans le panneau Créer une ressource de données, entrez les détails suivants :
    Champ Description
    Nom

    Entrez un nom permettant d'identifier de manière unique la ressource de données. Vous pouvez modifier le nom ultérieurement.

    Vous ne pouvez pas utiliser les caractères spéciaux suivants dans le nom :

    & < > " ' / \ = ;

    Le champ Nom peut faire l'objet d'une recherche dans Data Catalog.

    Description Indiquez le motif ou l'objectif de la création de cette ressource de données.
    Type Sélectionnez Oracle Object Storage.
    URL Entrez l'URI Swift pour la ressource Oracle Object Storage au format suivant : https://swiftobjectstorage.<region-identifier>.oraclecloud.com

    Par exemple :

    https://swiftobjectstorage.us-phoenix-1.oraclecloud.com/
    Espace de noms Entrez l'espace de noms de stockage d'objet pour la ressource Oracle Cloud Infrastructure Object Storage indiquée.

    Pour visualiser la chaîne d'espace de noms Object Storage dans la console, dans le menu Profil, cliquez sur Location : <your_tenancy_name>. L'espace de noms est répertorié sous Paramètres Object Storage.

  5. Cliquez sur Créer.
Vous avez créé une ressource de données Oracle Object Storage.

3. Ajout d'une connexion

Après avoir créé la ressource de données Oracle Object Storage, vous devez créer une connexion pour cette ressource.

Afin d'ajouter une connexion pour la ressource de données Oracle Object Storage, procédez comme suit :

  1. Dans l'onglet Accueil, cliquez sur Ressources de données.
  2. Dans la liste Ressources de données, sélectionnez la ressource de données Oracle Object Storage que vous avez créée.
  3. Dans l'onglet Récapitulatif de la page de détails de la ressource de données, sous Informations de connexion, cliquez sur Ajouter une connexion.
  4. Dans le panneau Ajouter une connexion, entrez les détails décrits dans le tableau suivant :
    Champ Description
    Nom Entrez un nom unique pour la connexion.
    Description Saisissez une brève description de la connexion.
    Type Sélectionnez l'un des éléments suivants :
    • Principal de ressource : il s'agit du type de connexion recommandé. Avant de créer une connexion de principal de ressource pour votre ressource de données Oracle Object Storage, vous devez créer une stratégie autorisant Data Catalog à accéder à la ressource Object Storage.
    • Demande pré-authentification : sélectionnez ce type de connexion pour collecter un bucket de stockage d'objet public ou privé auquel vous avez accès via une demande pré-authentification. Lorsque vous sélectionnez ce type de connexion, le champ URL de la demande pré-authentifiée apparaît. Saisissez l'URL de demande pré-authentifiée pour accéder au bucket de stockage d'objet. Pour plus d'informations sur l'utilisation de ce type de connexion, reportez-vous à Utilisation de demandes pré-authentifiées.
    Région OCI Saisissez l'identificateur de région de la ressource Object Storage.

    Pour visualiser l'identificateur de votre région dans la console, dans le menu Profil, cliquez sur Location : <your_tenancy_name>. Dans la bannière d'informations Gérer les régions, cliquez sur Gérer les régions. Le nom et l'identificateur des régions sont répertoriés.

    Compartiment Sélectionnez le compartiment pour la ressource Object Storage.

    Pour afficher le compartiment, dans la console, ouvrez le menu de navigation et cliquez sur Identité et sécurité. Sous Identité, cliquez sur Compartiments. Cliquez sur le lien du compartiment pour la ressource Object Storage. Sur la page Détails du compartiment, copiez l'OCID dans l'onglet Informations sur le compartiment.

    Définissez cette connexion comme connexion par défaut pour la ressource de données. Cochez cette case pour faire de cette connexion la connexion par défaut pour la ressource de données.
    Tester la connexion Cliquez sur ce bouton pour tester la connexion.
  5. Cliquez sur Ajouter.

4. Collecte de la ressource de données

Vous êtes désormais prêt à collecter votre ressource de données Oracle Object Storage.

Pour collecter votre ressource de données Oracle Object Storage, procédez comme suit :

  1. Sur la page de détails de la ressource de données, cliquez sur Rechercher.
    La page Sélectionner une connexion apparaît avec la connexion par défaut sélectionnée.
  2. Cliquez sur Suivant.
    La page Sélectionner des entités de données apparaît.
  3. Dans la section Bucket disponible, ajoutez les entités de données à collecter. Pour ajouter une entité de données, cliquez sur l'icône d'ajout en regard de cette entité. Pour collecter toutes les entités de données, cliquez sur Tout ajouter.
    Les autres opérations que vous pouvez effectuer sur cette page sont les suivantes :
    • Pour rechercher une entité de données parmi celles disponibles, utilisez la zone Filtrer les buckets/entités de données.
    • Utilisez les icônes de navigation de page pour parcourir toutes les entités de données.
    • Pour enlever une entité de données sélectionnée du travail de collecte, cliquez sur l'icône de suppression en regard de cette entité.
    • Pour enlever toutes les entités de données sélectionnées, cliquez sur Enlever tout.
  4. Cliquez sur Suivant.
    La page Créer un travail apparaît.
  5. Sur cette page, procédez comme suit :
    1. Nom de travail : entrez un nom unique permettant d'identifier le travail de collecte.
    2. Description du travail : entrez une description.
    3. Collecte incrémentielle : cochez cette case pour que les exécutions suivantes de ce travail collectent uniquement les entités de données modifiées à partir de la première exécution du travail de collecte.
    4. Inclure les fichiers non reconnus : cochez cette case pour collecter une entité de données logique composée uniquement de fichiers archivés ou d'autres fichiers non pris en charge dans Data Catalog. Par exemple, .log, .txt, .sh, .jar et .pdf.
    5. Inclure les fichiers avec correspondance uniquement : cochez cette case si vous voulez que Data Catalog ne collecte que les fichiers qui correspondent aux modèles de nom de fichier affectés. Lorsque vous cochez cette case, les fichiers qui ne correspondent pas aux modèles de nom de fichier affectés sont ignorés lors de la collecte. Ils sont ajoutés au nombre d'éléments ignorés.
    6. Heure d'exécution : dans cette section, sélectionnez l'une des options suivantes :
      • Exécuter le travail maintenant : crée un travail de collecte, l'exécute immédiatement.
      • Programmer le traitement du travail : affiche des champs supplémentaires pour programmer le travail de collecte. Saisissez le nom et la description de la programmation. Indiquez la fréquence d'exécution du travail. Les choix possibles sont toutes les heures, tous les jours, toutes les semaines et tous les mois. Enfin, sélectionnez les heures de début et de fin du travail.
      • Enregistrer les configurations de travail pour plus tard : crée un travail pour collecter la ressource de données, mais le travail n'est pas exécuté. Vous pouvez exécuter ou programmer le travail ultérieurement sur la page Travaux.
  6. Cliquez sur Créer un travail.
    Le travail de collecte de la ressource de données Oracle Object Storage est créé. Le travail est répertorié sur la page Jobs.
La ressource de données est collectée en fonction de la programmation sélectionnée. Vous pouvez consulter les détails du travail de collecte en cliquant sur son nom sur la page Jobs.