Exporter des données au format Parquet vers le stockage d'objets en nuage

Affiche les étapes pour exporter des données de table de votre base de données d'IA autonome vers le stockage d'objets en nuage en tant que données Parquet en spécifiant une interrogation.

Cette méthode d'exportation prend en charge tous les magasins d'objets en nuage pris en charge par Autonomous AI Database et vous pouvez utiliser un principal de ressource Oracle Cloud Infrastructure pour accéder à votre magasin d'objets Oracle Cloud Infrastructure, les noms de ressource Amazon (ARN) vers accéder à AWS Simple Storage Service (S3), un principal de service Azure pour accéder au stockage Azure BLOB ou à Azure Data Lake Storage, ou à un compte de service Google pour accéder aux ressources Google Cloud Platform (GCP).

  1. Connectez-vous à votre instance de base de données Autonomous AI Database.

    Pour plus d'informations, voir Se connecter à Autonomous AI Database.

  2. Stockez vos données d'identification du service de stockage d'objets en nuage à l'aide de DBMS_CLOUD.CREATE_CREDENTIAL.

    Exemple :

    BEGIN
      DBMS_CLOUD.CREATE_CREDENTIAL(
        credential_name => 'DEF_CRED_NAME',
        username => 'user1@example.com',
        password => 'password'
      );
    END;
    /

    Les valeurs que vous indiquez pour username et password dépendent du service de stockage d'objets en nuage que vous utilisez .

    La création de données d'identification pour accéder au magasin d'objets Oracle Cloud Infrastructure n'est pas requise si vous activez les données d'identification du principal de ressource. Pour plus d'informations, voir Utiliser un principal de ressource pour accéder aux ressources Oracle Cloud Infrastructure.

  3. Exécutez DBMS_CLOUD.EXPORT_DATA et spécifiez le paramètre format type avec la valeur parquet pour exporter les résultats en tant que fichiers parquet dans le stockage d'objets en nuage.
    Pour générer les fichiers de sortie parquet, il existe deux options pour le paramètre file_uri_list :
    • Réglez la valeur file_uri_list à l'URL d'un seau existant dans votre stockage d'objets en nuage.

    • Réglez la valeur file_uri_list à l'URL d'un seau existant dans votre stockage d'objets en nuage et incluez un préfixe de nom de fichier à utiliser lors de la génération des noms de fichier pour les fichiers parquet exportés.

    Si vous n'incluez pas le préfixe de nom de fichier dans file_uri_list, DBMS_CLOUD.EXPORT_DATA fournit un préfixe de nom de fichier. Voir Attribution de nom à un fichier pour une sortie de texte (CSV, JSON, Parquet ou XML) pour plus de détails.

    Par exemple, l'illustration suivante présente DBMS_CLOUD.EXPORT_DATA avec un préfixe de nom de fichier spécifié dans file_uri_list :

    BEGIN
      DBMS_CLOUD.EXPORT_DATA(
        credential_name => 'DEF_CRED_NAME',
        file_uri_list   => 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/dept_export',
        query           => 'SELECT * FROM DEPT',
        format          => JSON_OBJECT('type' value 'parquet', 'compression' value 'snappy'));
    END;
    /

    Dans cet exemple, namespace-string est l'espace de noms du stockage d'objets pour Oracle Cloud Infrastructure et bucketname est le nom du seau. Pour plus d'informations, voir Présentation des espaces de noms du stockage d'objets.

    Pour des informations détaillées sur les paramètres, voir ProcédureEXPORT_DATA.

    Pour des informations détaillées sur les paramètres format disponibles que vous pouvez utiliser avec DBMS_CLOUD.EXPORT_DATA, voir Options de format d'ensemble DBMS_CLOUD pour EXPORT_DATA.

Notes pour l'exportation avec DBMS_CLOUD.EXPORT_DATA :

  • Le paramètre query que vous fournissez peut être une interrogation avancée, si nécessaire, telle qu'une interrogation incluant des jointures ou des sous-interrogations.

  • Spécifiez le paramètre format avec l'option compression pour compresser les fichiers de sortie. La valeur par défaut de compression pour type parquet est snappy.

  • Lorsque vous n'avez plus besoin des fichiers que vous exportez, utilisez la procédure DBMS_CLOUD.DELETE_OBJECT ou les commandes natives du service de stockage d'objets en nuage pour supprimer les fichiers.

  • Voir Mappage du type de données Oracle à Parquet de l'ensemble DBMS_CLOUD pour plus de détails sur le mappage du type Oracle au type Parquet.

    Les types suivants ne sont pas pris en charge ou leur prise en charge pour l'exportation de Parquet avec DBMS_CLOUD.EXPORT_DATA est limitée :

    Type Oracle Notes

    BFILE

    Non pris en charge

    BLOB

    Non pris en charge

    DATE

    Prise en charge de la limitation suivante : Le format DATE prend en charge uniquement la date, le mois et l'année. Les heures, les minutes et les secondes ne sont pas prises en charge.

    Voir DBMS_CLOUD Ensemble de mappage de type de données Oracle à Parquet pour plus de détails sur les limitations de format NLS pour l'exportation de DATE à Parquet.

    INTERVAL DAY TO SECOND

    Pris en charge et traité comme une chaîne en interne

    INTERVAL YEAR TO MONTH

    Pris en charge et traité comme une chaîne en interne

    LONG

    Non pris en charge

    LONG RAW

    Non pris en charge

    NUMBER

    Pris en charge avec les limitations suivantes :

    • Peut avoir une précision maximale de 38 et une échelle inférieure à la précision.
    • Si aucune précision et échelle n'est fournie pour le type de colonne NUMBER, la précision par défaut 38 et l'échelle 20 sont utilisées.
    • L'échelle négative n'est pas prise en charge pour les types NUMBER.

    Object Types

    Non pris en charge

    TIMESTAMP

    Pris en charge avec les limitations suivantes :

    • S'il existe plusieurs colonnes avec une précision différente, la plus grande précision sera prise.
    • TIMESTAMP WITH TIME ZONE Le type de données Oracle utilisera uniquement l'horodatage.

    Voir DBMS_CLOUD Ensemble de mappage de type de données Oracle à Parquet pour plus de détails sur les limitations de format NLS pour l'exportation de TIMESTAMP à Parquet.