Interrogation des données partitionnées externes avec l'organisation de fichier source au format de dossier

Utilisez DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE pour créer une table partitionnée externe et générer les informations de partitionnement à partir du chemin de fichier de la banque d'objets cloud.

Lorsque vous créez une table externe avec des fichiers de données au format dossier, vous disposez de deux options pour spécifier les types de colonne de partition :

  • Vous pouvez indiquer manuellement les colonnes et leurs types de données avec le paramètre column_list. Pour obtenir un exemple d'utilisation du paramètre column_list, reportez-vous à Interrogation des données partitionnées externes avec l'organisation du fichier source du format Hive.

  • Vous pouvez laisser DBMS_CLOUD dériver les colonnes de fichier de données et leurs types à partir d'informations dans des fichiers de données structurées tels que Avro, ORC et Parquet. Dans ce cas, vous utilisez l'option partition_columns avec le paramètre format pour fournir les noms de colonne et leurs types de données pour les colonnes de partition. Vous n'avez pas besoin de fournir les paramètres column_list ou field_list.

Examinez les exemples de fichiers source suivants dans la banque d'objets :

.../sales/USA/2020/01/sales1.parquet

.../sales/USA/2020/02/sales2.parquet

Pour créer une table externe partitionnée avec le chemin de fichier de la banque d'objets cloud définissant les partitions des fichiers avec ce format de dossier d'exemple, procédez comme suit :

  1. Stockez les informations d'identification de la banque d'objets à l'aide de la procédure DBMS_CLOUD.CREATE_CREDENTIAL.

    Par exemple :

    BEGIN
      DBMS_CLOUD.CREATE_CREDENTIAL (
        credential_name => 'DEF_CRED_NAME',
        username => 'adb_user@example.com',
        password => 'password' );
    END;
    /
    

    La création d'informations d'identification pour accéder à la banque d'objets Oracle Cloud Infrastructure n'est pas requise si vous activez les informations d'identification de principal de ressource. Pour plus d'informations, reportez-vous à Utilisation du principal de ressource pour accéder à des ressources Oracle Cloud Infrastructure.

    Cette opération stocke les informations d'identification dans la base de données dans un format crypté. Vous pouvez utiliser n'importe quel nom pour le nom des informations d'identification. Cette étape n'est requise qu'une seule fois, sauf si vos informations d'identification de banque d'objets changent. Une fois les informations d'identification stockées, vous pouvez utiliser le même nom d'informations d'identification pour créer des tables externes.

    Pour plus d'informations sur les paramètres username et password pour différents services Object Storage, reportez-vous à Procédure CREATE_CREDENTIAL.

  2. Créez une table partitionnée externe sur vos fichiers source à l'aide de la procédure DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE.

    La procédure DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE prend en charge les fichiers partitionnés externes dans les services de stockage d'objets cloud pris en charge. Les informations d'identification sont des propriétés de niveau table. Les fichiers externes doivent donc se trouver dans la même banque d'objets cloud.

    Par exemple :

    BEGIN DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE(
        table_name => 'MYSALES',
        credential_name => 'DEF_CRED_NAME',
        file_uri_list => 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/sales/*.parquet',
        format =>
            json_object('type' value 'parquet', 'schema' value 'first',
                        'partition_columns' value
                              json_array(
                                    json_object('name' value 'country', 'type' value 'varchar2(100)'),
                                    json_object('name' value 'year', 'type' value 'number'),
                                    json_object('name' value 'month', 'type' value 'varchar2(2)')
                              )
             )
        );
    END;
    /

    Les paramètres DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE pour les fichiers de données structurées, tels que pour un fichier de données Parquet, ne nécessitent pas les paramètres column_list ou field_list. Les noms de colonne et les types de données sont dérivés pour les colonnes du premier fichier parquet analysé par la procédure (et tous les fichiers doivent donc avoir la même forme). La liste de colonnes générée inclut les colonnes dérivées du nom d'objet et les types de données de ces colonnes sont indiqués avec le paramètre partition_columns format.

    Les paramètres sont les suivants :

    • table_name : nom de la table externe.

    • credential_name : nom des informations d'identification créées à l'étape précédente.

    • file_uri_list : liste des URI du fichier source, séparés par des virgules. Deux options sont disponibles pour cette liste :

      • Indiquez une liste d'URI de fichier séparés par des virgules sans caractère générique.

      • Spécifiez un URI de fichier unique avec des caractères génériques, où les caractères génériques ne peuvent être qu'après la dernière barre oblique "/". Le caractère "*" peut être utilisé comme caractère générique pour représenter plusieurs caractères. Le caractère "?" peut être utilisé comme caractère générique pour représenter un seul caractère.

    • column_list est une liste délimitée par des virgule de noms de colonne et de type de données pour une table externe. La liste inclut les colonnes qui se trouvent dans le fichier ainsi que celles dérivées du nom de l'objet.

      column_list n'est pas requis lorsque les fichiers de données sont des fichiers structurés (Parquet, Avro ou ORC).

    • field_list : identifie les champs dans les fichiers source et leurs types de données. La valeur par défaut est NULL, ce qui signifie que les champs et leurs types De données sont déterminés par le paramètre column_list.

      field_list n'est pas requis lorsque les fichiers de données sont des fichiers structurés (Parquet, Avro ou ORC).

    • format : définit les options que vous pouvez indiquer pour décrire le format du fichier source. Le paramètre partition_columns format indique les noms des colonnes de partition. Pour plus d'informations, reportez-vous à DBMS_CLOUD Options de format de package.

      Si les données du fichier source sont cryptées, décryptez-les en spécifiant l'option de format encryption. Pour plus d'informations sur le décryptage des données, reportez-vous à Décryptage des données lors de l'import à partir d'Object Storage.

    Dans cet exemple, namespace-string est l'espace de noms d'objet Oracle Cloud Infrastructure et bucketname est le nom du bucket. Pour plus d'informations, reportez-vous à Présentation des espaces de noms Object Storage.

    Pour plus d'informations sur les paramètres, reportez-vous à Procédure CREATE_EXTERNAL_PART_TABLE.

    Pour plus d'informations sur les services de stockage d'objets cloud pris en charge, reportez-vous à Formats d'URI DBMS_CLOUD.

    Si des lignes des fichiers source ne correspondent pas aux options de format spécifiées, la requête signale une erreur. Vous pouvez utiliser les paramètres DBMS_CLOUD, comme rejectlimit, pour supprimer ces erreurs. Vous pouvez également valider la table externe partitionnée que vous avez créée pour afficher les messages d'erreur et les lignes rejetées afin de modifier vos options d'un format en conséquence. Pour plus d'informations, reportez-vous aux sections Valider les données externes et Valider les données partitionnées externes.

  3. Vous pouvez maintenant exécuter des requêtes sur la table partitionnée externe que vous avez créée à l'étape précédente.

    Votre instance Autonomous Database tire parti des informations de partitionnement de votre table partitionnée externe, en veillant à ce que la requête n'accède qu'aux fichiers de données pertinents dans la banque d'objets. Par exemple, la requête suivante lit uniquement les fichiers de données d'une partition.

    Par exemple :

    SELECT year, month, product, units 
    FROM SALES WHERE year='2020' AND month='02' AND country='USA'

    Les tables partitionnées externes que vous créez avec DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE incluent deux colonnes invisibles file$path et file$name. Ces colonnes permettent d'identifier le fichier d'où provient un enregistrement. Pour plus d'informations, reportez-vous à Colonnes de métadonnées de table externe.