Liaison vers des objets dans le stockage cloud

Lorsque vous créez un lien vers des fichiers dans un bucket de banque cloud à partir de votre base de données autonome Oracle, vous créez une table externe qui établit des liens vers les fichiers de la banque cloud.

Vous pouvez lier les fichiers aux formats suivants : AVRO, CSV, JSON, GeoJSON, Parquet, ORC, TXT délimité. Pour plus d'informations sur les formats de fichier pris en charge, reportez-vous à Spécifications de format pour les fichiers JSON, AVRO et XML.

Configurez et exécutez un travail de liaison de données à partir de la page Objet cloud de lien. Pour ouvrir la page :

  1. Ouvrez la fenêtre d'accueil Database Actions, cliquez sur l'onglet Data Studio et sélectionnez le menu Chargement des données. Reportez-vous à Page Chargement des données.
  2. Sélectionnez LIEN DONNÉES et CLOUD STORE.

Sur le côté gauche de la page se trouve un panneau de navigation, dans lequel vous pouvez choisir une connexion de banque cloud et les dossiers ou fichiers contenant les données. A droite de la page se trouve le cart de chargement des données, dans lequel vous transférez les fichiers et dossiers du travail de liaison de données. Vous pouvez définir des options pour le travail de liaison de données avant de l'exécuter. Autonomous Database est fourni avec des partages CPU/E/S prédéfinis affectés à différents groupes de consommateurs de ressources. Vous pouvez définir le groupe de consommateurs de ressources sur Faible, Moyen ou Elevé lors de l'exécution d'un travail de chargement de données en fonction de votre charge globale.

Gérer les liens de stockage cloud pour les travaux de lien de données

Pour pouvoir créer un lien vers des données dans une banque cloud, vous devez établir une connexion avec la banque cloud à utiliser.

Dans la page Lier un objet cloud :

  1. Cliquez sur l'icône Gérer la banque cloud en regard du champ dans lequel vous entrez l'emplacement de la banque cloud. Sélectionnez + Créer un emplacement de banque cloud.

  2. Entrez vos informations dans le panneau Ajouter un emplacement de banque cloud. Voir pour ajouter un emplacement de stockage cloud.

Reportez-vous à Gestion des connexions.

Pour revenir à la page Lier l'objet cloud, cliquez sur Chargement des données dans le chemin de navigation en haut de la page, puis revenez à la page.

Préparer le travail de liaison de données

Vous devrez peut-être ajuster vos données source ou votre table cible pour que les données source soient correctement liées à la table cible externe. Considérez :

  • Si vous créez un lien vers plusieurs fichiers, vous devez vous assurer que :

    • Tous les fichiers source sont du même type, par exemple, CSV, JSON, etc.

    • Le nombre, l'ordre et les types de données des colonnes dans tous les fichiers source correspondent.

  • Si vous souhaitez partitionner par date :

    • Le fichier source doit contenir des données dont le type est Date ou Horodatage.

    • Vous devez charger un dossier contenant au moins deux sources de données.

    • Les noms des fichiers du dossier doivent indiquer une ou plusieurs dates, par exemple, MAR-1999.csv ou 2017-04-21.xlsx.

Ajout de fichiers ou de dossiers pour le travail de liaison de données

Ajoutez des fichiers de la banque cloud au panier de liens de données, dans lequel vous pouvez modifier les détails du travail de lien de données. Pour ajouter les fichiers :

  1. Dans la liste en haut du volet de navigation sur la gauche, sélectionnez le bucket avec vos données source.

    La liste affiche les liens établis sur la page Gérer le stockage cloud. Si vous n'avez pas encore inscrit la banque cloud à utiliser, cliquez sur le bouton Connexions sous le menu Chargement de données de la suite d'outils Data Studio et enregistrez une connexion.

  2. Faites glisser un ou plusieurs éléments du navigateur de fichiers sur la gauche et déposez-les dans le panier sur la droite.

    • Vous pouvez ajouter des fichiers, des dossiers ou les deux. Une carte est ajoutée au panier pour chaque fichier ou dossier que vous y faites glisser. La carte répertorie le nom du fichier ou du dossier source et un nom proposé pour la table cible.

    • Si vous ajoutez un dossier contenant plusieurs fichiers, tous les fichiers doivent être du même type, à savoir CSV, TXT, etc.

      Lorsque vous ajoutez le dossier au panier, une invite s'affiche pour vous demander si vous voulez charger tous les objets des fichiers source multiples dans une seule table cible. Cliquez sur Oui pour continuer ou Non pour annuler l'action.

    • Lorsque vous ajoutez plusieurs fichiers individuels ou plusieurs dossiers au panier, les données représentées par chaque carte sont chargées dans une table distincte, mais tous les articles du panier sont traités dans le cadre du même travail de chargement de données.

    • Vous pouvez ajouter des fichiers ou des dossiers à partir d'un autre bucket, mais si vous le faites, vous êtes invité à supprimer tous les fichiers qui se trouvent déjà dans le panier avant de continuer. Pour sélectionner des fichiers dans un autre bucket, sélectionnez-le dans la liste déroulante du volet de navigation à gauche, puis ajoutez les fichiers, comme décrit ci-dessus.

    • Vous pouvez déposer des fichiers ou des dossiers dans le panier de chargement de données, puis quitter la page Objet de lien de données. Lorsque vous revenez à la page, ces éléments restent sur la page, mais vous pouvez recevoir un message, "Supprimer tous les éléments de lien de données". Le passage à un autre emplacement de stockage cloud requiert que tous les éléments du travail de chargement de données soient enlevés. Voulez-vous continuer ?" Cliquez sur Oui pour supprimer les articles du panier. Cliquez sur Non pour conserver les articles dans le panier. Vous pouvez alors continuer à travailler.

Vous pouvez supprimer des articles du panier avant d'exécuter le travail de liaison de données :

  • Pour supprimer un article du panier, sélectionnez Supprimer sur la carte pour la barre de menu du panier Lien de données d'article en haut du panneau.

  • Pour enlever tous les articles du panier, cliquez sur Enlever tout dans la barre de menus du panier de liens de données en haut du panneau.

Entrer les détails du travail de liaison de données

Entrez les détails du travail de liaison de données dans le panneau Lier les données à partir du stockage cloud.

Sur la carte du panier de liens de données, cliquez sur Paramètres pour ouvrir le panneau Lier les données à partir du stockage cloud pour ce travail. Le volet contient :

Onglet Paramètres - Section Tableau

Définissez les détails de la table cible dans la section Table.

  • Nom : nom de la Table cible.
  • Colonne de partition :

    Les partitions par liste et les partitions par date sont les différents types de partition disponibles dans la liaison de données.

    Le partitionnement de liste est obligatoire lorsque vous souhaitez mapper des lignes à des partitions en fonction de valeurs distinctes.

    Pour partitionner en fonction d'une colonne spécifique, cliquez sur la liste déroulante Colonne de partition et sélectionnez la colonne à utiliser pour le partitionnement.

    Vous aurez N fichiers par valeur de partition, tous partitionnés par la colonne de partition que vous sélectionnez.

    Remarque

    • Pour les fichiers liés (à partir de tables externes), il est également nécessaire que pour chaque fichier, la colonne de partitionnement de liste ne puisse contenir qu'une seule valeur distincte sur toutes les lignes.
    • Si un fichier est partitionné par liste, la clé de partitionnement ne peut comporter qu'une seule colonne de la table.

    Le partitionnement basé sur la date est disponible lorsque vous liez un dossier contenant au moins deux sources de données dont les colonnes contiennent des données de date ou d'horodatage.

    Pour partitionner en fonction de la DATE, cliquez sur la liste déroulante Colonne de partition et sélectionnez la colonne DATE ou TIMESTAMP à utiliser pour le partitionnement.

  • Type de validation : la validation permet d'examiner les fichiers source, les informations de partitionnement facultatives et la ligne d'état qui ne correspondent pas aux options de format spécifiées. Sélectionnez Aucun pour ne pas effectuer de validation ; sélectionnez Exemple pour effectuer la validation en fonction d'un échantillon de données ; ou sélectionnez Complet pour effectuer la validation en fonction de toutes les données.

  • Utiliser un caractère générique : cette case à cocher permet d'utiliser des caractères génériques dans la condition de recherche pour extraire un groupe de fichiers spécifique qui correspond aux critères de filtre.

    Vous pouvez utiliser un caractère générique, tel qu'un astérisque (*) qui recherche, filtre et spécifie des groupes de fichiers qui détectent et ajoutent de nouveaux fichiers à la table externe.

    Par exemple, si vous entrez file*, file01, file02, file03, etc. sont considérés comme correspondant au mot-clé. L'astérisque (*) correspond à zéro ou plusieurs caractères des possibilités, au mot-clé.

    Remarque

    La prise en charge des caractères génériques est incompatible avec le partitionnement. La validation du fichier source échoue si vous utilisez des caractères génériques avec des données partitionnées.

Onglet Paramètres - Section Propriétés

Indiquez les options permettant de contrôler la façon dont les données source sont interprétées, prévisualisées et traitées. Ces options varient en fonction du type de données source.

  • Encodage : sélectionnez un type d'encodage de caractères dans la liste. Cette option est disponible lorsque le fichier lié est en format texte brut (CSV, TSV ou TXT). Le type d'encodage par défaut est UTF-8.

  • Texte englobant : sélectionnez le caractère englobant le texte : " (caractère entre guillemets), ' (caractère entre guillemets simples) ou Aucun. Cette option est visible uniquement lorsque le fichier sélectionné est en format texte brut (CSV, TSV ou TXT).

  • Délimiteur de champ : sélectionnez le caractère de délimiteur utilisé pour séparer les colonnes de la source. Par exemple, si le fichier source utilise des points-virgules pour délimiter les colonnes, sélectionnez Semicolon dans cette liste. Par défaut, la valeur est Virgule. Cette option est visible uniquement lorsque le fichier sélectionné est en format texte brut (CSV, TSV ou TXT).

  • Démarrer le traitement des données sur la ligne : indique le nombre de lignes à ignorer lors de la liaison des données source à la table externe cible :

    • Si vous sélectionnez l'option Ligne d'en-tête de colonne sous Nom de colonne source (voir ci-dessous) et que vous entrez un nombre supérieur à 0 dans le champ Démarrer le traitement des données sur la ligne, ce nombre de lignes après la première ligne n'est pas lié à la cible.

    • Si vous désélectionnez l'option Ligne d'en-tête de colonne sous Nom de colonne source et que vous entrez un nombre supérieur à 0 dans le champ Démarrer le traitement des données sur la ligne, ce nombre de lignes, y compris la première ligne, n'est pas lié à la cible.

  • Nom de colonne source : cochez la case Ligne d'en-tête de colonne pour utiliser les noms de colonne qui forment la table source dans la table cible.

    • Si vous sélectionnez cette option, la première ligne du fichier est traitée en tant que noms de colonne. Les lignes de la section Mise en correspondance, ci-dessous, sont remplies de ces noms (et des types de données existants, sauf si vous les modifiez).

    • Si vous désélectionnez cette option, la première ligne est traitée en tant que données. Pour spécifier des noms de colonne manuellement, entrez un nom pour chaque colonne cible dans la section Mise en correspondance. (Vous devrez également saisir des types de données.)

  • Colonne numérique : cochez la case Convertir les données non valides en valeurs NULL pour convertir une valeur de colonne numérique non valide en valeur NULL.

  • Nouvelles lignes incluses dans les valeurs de données : sélectionnez cette option s'il existe des caractères de nouvelle ligne ou revient au début de la ligne en cours sans avancer vers le bas dans les champs de données. La sélection de cette option augmente le temps nécessaire au traitement du chargement. Si vous ne sélectionnez pas cette option lors du chargement des données, les lignes avec des lignes nouvelles dans les champs seront rejetées. Vous pouvez afficher la ligne rejetée dans le panneau Job Report.

Onglet Paramètres - Section Mappage

Les paramètres de la section Mise en correspondance contrôlent la manière dont les données des fichiers source sont liées aux lignes de la table externe cible. Pour chaque ligne, les données de la colonne répertoriée sous Colonne source sont liées à la colonne répertoriée sous Colonne cible.

  • Colonne source : répertorie les colonnes du fichier source.

    Si l'option Ligne d'en-tête de colonne sous Propriétés est sélectionnée, l'option Colonne source affiche les noms des colonnes dans le fichier source. Si l'option Ligne d'en-tête de colonne n'est pas sélectionnée, des noms génériques tels que COLUMN_1, COLUMN_2, etc., sont utilisés. Ce champ est toujours en lecture seule.

    Vous pouvez visualiser deux colonnes source FILE$NAME et SYSTIMESTAMP. La colonne FILE$NAME permet de localiser le fichier source contenant un enregistrement de données particulier. Par exemple, vous chargez un fichier source qui contient une liste de fichiers. Les noms de fichier dans la liste des fichiers font référence aux noms de service dans toute l'organisation. Par exemple, un fichier finance.txt contient des données du service financier. Dans le mapping, vous pouvez utiliser des types de données de type chaîne pour extraire le nom du service de la sortie de la colonne de nom de fichier. Vous pouvez utiliser le nom du service extrait pour traiter les données différemment pour chaque service.

    La colonne SYSTIMESTAMP permet de visualiser l'horodatage en cours dans la base de données.

    Remarque

    • Les colonnes source FILE$NAME et SYSTIMESTAMP ne sont pas incluses par défaut. Vous devez cocher la case Inclure et exécuter le chargement pour la table cible afin d'afficher ces deux colonnes.
    • Lorsque vous créez un flux d'activité, les colonnes source FILE$NAME et SYSTIMESTAMP apparaissent par défaut dans la table de mapping.
  • Colonne cible : répertorie les colonnes de la table cible.

    • Si l'option Ligne d'en-tête de colonne est sélectionnée, la colonne cible utilise les noms des colonnes dans le fichier source. Vous pouvez modifier le nom d'une colonne cible en remplaçant le nom fourni par un nouveau nom. Vous devez vous assurer que la colonne cible n'est pas vide. Le nom de colonne cible ne doit pas être un doublon d'une autre colonne cible. Le nom de colonne cible ne peut pas avoir un nom en double en tant qu'autre colonne cible. La longueur de la colonne cible ne doit pas dépasser 128 octets. La limite de 128 octets est une limite de base de données.

    • Si l'option Ligne d'en-tête de colonne n'est pas sélectionnée, des noms génériques tels que COLUMN_1, COLUMN_2, etc., sont utilisés. Vous pouvez modifier le nom d'une colonne cible en remplaçant le nom fourni par un nouveau nom.

    Remarque

    Si vous liez plusieurs fichiers à partir d'un dossier dans un travail de liaison de données unique, seul le premier fichier sera affiché dans la section Mise en correspondance. Toutefois, tant que les noms de colonne et les types de données correspondent, les données de tous les fichiers source seront liées.

  • Type de données : répertorie le type de données à utiliser pour les données de cette colonne. Le contenu varie selon que l'option Obtenir à partir de l'en-tête de fichier est sélectionnée ou non.

    • Si l'option Ligne d'en-tête de colonne est sélectionnée, le champ Type de données affiche les types de données des colonnes dans le fichier source. Si vous souhaitez modifier le type de données de la cible, cliquez sur le nom et sélectionnez-en un autre dans la liste.

    • Si l'option Ligne d'en-tête de colonne n'est pas sélectionnée, le champ Type de données affiche tous les types de données disponibles. Sélectionnez le type de données à utiliser pour la colonne cible dans la liste.

  • Longueur/précision (facultatif) : Pour les colonnes dont le type de données est NUMBER, entrez la longueur/la précision des nombres de la colonne. La précision est le nombre de chiffres significatifs d'un nombre. La précision peut être comprise entre 1 et 38.

    Pour les colonnes dont le type de données est VARCHAR2, la valeur Auto du champ Longueur/précision active la fonction de taille automatique.

    Avec la fonction de dimensionnement automatique de la largeur de colonne, vous pouvez définir automatiquement la taille de n'importe quelle colonne afin qu'elle contienne la valeur la plus grande. Sélectionnez Auto dans la liste déroulante Longueur/précision ou choisissez une valeur dans la liste déroulante.

  • Echelle (facultatif) : pour les colonnes dont le type de données est NUMBER, entrez l'échelle des nombres dans la colonne. L'échelle représente le nombre de chiffres à droite du séparateur décimal (positif) ou à gauche (négatif). L'échelle peut être comprise entre -84 et 127,

  • Format : si le type de données dans la colonne Type de données est DATE ou l'un des types TIMESTAMP, sélectionnez un format pour ce type dans la liste déroulante Format.

Onglet Aperçu

Le menu Prévisualiser le chargement de l'onglet Aperçu affiche les données source sous forme de tableau. L'affichage reflète les paramètres choisis dans la section Propriétés. Le menu Fichier affiche les données source avec les noms de colonne.

Si vous avez fait glisser un dossier contenant plusieurs fichiers dans le panier de liens de données, puis cliqué sur Paramètres Paramètres pour cette carte, le panneau Aperçu inclut une liste déroulante Objet d'aperçu (fichier) en haut du panneau qui répertorie tous les fichiers du dossier. Sélectionnez le fichier source à prévisualiser dans cette liste.

Onglet Table

L'onglet Table affiche à quoi la table cible doit ressembler une fois les données liées.

Onglet SQL

L'onglet SQL affiche les commandes SQL qui seront exécutées pour terminer ce travail de liaison de données.

Remarque

Vous pouvez voir le code SQL avant même la création de la table.

Bouton Fermer - Enregistrer et fermer le volet

Après avoir entré tous les détails du travail de lien de données, cliquez sur Fermer en bas de la page. Les détails que vous avez saisis sont enregistrés et vous êtes renvoyé au panneau Lier les données à partir du stockage cloud.

Exécuter le travail de liaison de données

Une fois que vous avez ajouté des sources de données au panier de liens de données et saisi des détails sur le travail de lien de données, vous pouvez exécuter le travail.

Pour exécuter le travail, procédez comme suit :

  1. Si vous ne l'avez pas encore fait, cliquez sur le bouton Fermer dans le panneau Lier les données à partir de Cloud Storage pour enregistrer vos paramètres et fermer le panneau. Si l'un des paramètres n'est pas valide, un message d'erreur signale le problème. Corrigez le problème, puis cliquez sur Fermer.
  2. Cliquez sur Démarrer Démarrer dans la barre de menus du panier de liens de données. Pour arrêter le travail de lien de données, cliquez sur Arrêter Arrêter.

    Une fois le travail de liaison de données terminé, la page Tableau de bord de chargement de données affiche les résultats du travail sous la section Chargements de table et de vue.

    Une fois le travail de liaison de données démarré, vous pouvez visualiser la progression du travail dans le tableau de bord Chargement de données.

Afficher les détails du travail de liaison de données après son exécution

Vous pouvez afficher la progression du travail dans le tableau de bord Chargement des données.

Une fois le travail de chargement de données terminé, la page du tableau de bord Chargement de données affiche les résultats du travail. En haut de l'en-tête du chargement de table, vous pouvez afficher le nom de la table ainsi que le nombre total de colonnes présentes dans la table.

Cliquez sur Rapport sur les travaux pour afficher le nombre total de lignes traitées et le nombre de lignes rejetées. Vous pouvez également afficher l'heure de début. Le volet SQL du rapport sur les travaux affiche le code SQL équivalent du travail.

Pour afficher des informations sur un élément du travail, cliquez sur l'icône Actions sur le chargement de table.

Pour afficher un journal de l'opération de chargement, cliquez sur l'icône Logging. Vous pouvez enregistrer le journal, le vider ou l'actualiser. Cliquez sur OK pour fermer le journal.

Afficher la table résultant du travail de liaison de données

Après avoir exécuté un travail de liaison de données, vous pouvez afficher la table créée par le travail de liaison de données dans le tableau de bord Chargement de données.

Corrigez le travail de chargement des données. Une fois le travail de chargement de données terminé, vous pouvez voir des erreurs à corriger ou, lors de l'inspection, réaliser que vous vouliez nommer une colonne différemment. Dans ce cas, cliquez sur l'option Recharger sur le chargement de table sélectionné pour recharger les cartes de votre panier récent et les modifier comme vous l'avez fait avant votre première tentative. L'icône Recharger recharge les données source avec les corrections suggérées par l'outil. Cliquez sur l'icône Actions de l'en-tête de table, cliquez sur Table et sélectionnez Modifier pour apporter des modifications au travail de chargement de données (c'est-à-dire, modifier un nom de colonne).