Consulta de Datos Particionados Externos con Organización de Archivos de Origen de Formato de Carpeta

Utilice DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE para crear una tabla partición externa y generar la información de partición desde la ruta del archivo del almacén de objetos en la nube.

Al crear una tabla externa con archivos de datos de formato de carpeta, tiene dos opciones para especificar los tipos de columnas de partición:

  • Puede especificar manualmente las columnas y sus tipos de datos con el parámetro column_list. Consulte Consulta de datos particionados externos con organización de archivos de origen de formato Hive para obtener un ejemplo con el parámetro column_list.

  • Puede dejar que DBMS_CLOUD derive las columnas de archivos de datos y sus tipos de información en archivos de datos estructurados, como archivos de datos de Avro, ORC y Parquet. En este caso, utilice la opción partition_columns con el parámetro format para proporcionar los nombres de columna y sus tipos de datos para las columnas de partición y no necesita proporcionar los parámetros column_list o field_list.

Tenga en cuenta los siguientes archivos de origen de ejemplo en el almacén de objetos:

.../sales/USA/2020/01/sales1.parquet

.../sales/USA/2020/02/sales2.parquet

Para crear una tabla externa particionada con la ruta del archivo del almacén de objetos en la nube que define las particiones de los archivos con este formato de carpeta de ejemplo, haga lo siguiente:

  1. Store las credenciales del almacén de objetos mediante el procedimiento DBMS_CLOUD.CREATE_CREDENTIAL.

    Por ejemplo:

    BEGIN
      DBMS_CLOUD.CREATE_CREDENTIAL (
        credential_name => 'DEF_CRED_NAME',
        username => 'adb_user@example.com',
        password => 'password' );
    END;
    /
    

    La creación de una credencial para acceder al almacén de objetos de Oracle Cloud Infrastructure no es necesaria si activa las credenciales de la entidad de recurso. Consulte Uso de la principal de recurso para acceder a los recursos de Oracle Cloud Infrastructure para obtener más información.

    Con esta operación se almacenan las credenciales en la base de datos en un formato cifrado. Puede utilizar cualquier nombre para el nombre de credencial. Tenga en cuenta que este paso solo es necesario una vez, a menos que cambien las credenciales del almacén de objetos. Una vez almacenadas las credenciales, puede utilizar el mismo nombre de credencial para crear tablas externas.

    Consulte Procedimiento CREATE_CREDENTIAL para obtener información sobre los parámetros username y password para diferentes servicios de almacenamiento de objetos.

  2. Creación de una tabla particionada externa sobre los archivos de origen mediante el procedimiento DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE.

    El procedimiento DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE soporta archivos externos en los servicios de almacenamiento de objetos en la nube soportados. La credencial es una propiedad de nivel de tabla; los archivos externos deben estar todos en el mismo almacén de objetos en la nube.

    Por ejemplo:

    BEGIN DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE(
        table_name => 'MYSALES',
        credential_name => 'DEF_CRED_NAME',
        file_uri_list => 'https://objectstorage.us-phoenix-1.oraclecloud.com/n/namespace-string/b/bucketname/o/sales/*.parquet',
        format =>
            json_object('type' value 'parquet', 'schema' value 'first',
                        'partition_columns' value
                              json_array(
                                    json_object('name' value 'country', 'type' value 'varchar2(100)'),
                                    json_object('name' value 'year', 'type' value 'number'),
                                    json_object('name' value 'month', 'type' value 'varchar2(2)')
                              )
             )
        );
    END;
    /

    Los parámetros DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE para archivos de datos estructurados, como para un archivo de datos Parquet, no requieren los parámetros column_list o field_list. Los nombres de columna y los tipos de datos se derivan para las columnas del primer archivo de parquet que explora el procedimiento (y, por lo tanto, todos los archivos deben tener la misma unidad). La lista de columnas generada incluye las columnas derivadas del nombre de objeto y estas columnas tienen los tipos de datos especificados con el parámetro partition_columns format.

    Los parámetros son:

    • table_name: es el nombre de la tabla externa.

    • credential_name: es el nombre de la credencial creada en el paso anterior.

    • file_uri_list: es una lista delimitada por comas de los URI de archivo de origen. Hay dos opciones para esta lista:

      • Especifique una lista delimitada por comas de URI de archivos individuales sin comodines.

      • Especifique un URI de archivo único con comodines, donde los comodines solo pueden estar después de la última barra "/". Se puede utilizar el carácter "*" como comodín para varios caracteres; el carácter "?" se puede utilizar como comodín para un solo carácter.

    • column_list: es una lista delimitada por comas de nombres de columna y tipos de datos para la tabla externa. La lista incluye las columnas que se encuentran dentro del archivo, así como las derivadas del nombre del objeto.

      column_list no es necesario cuando los archivos de datos son archivos estructurados (Parquet, Avro u ORC).

    • field_list: identifica los campos en los archivos de origen y sus tipos de datos. El valor por defecto es NULL, lo que significa que los campos y sus tipos de datos están determinados por el parámetro column_list.

      field_list no es necesario cuando los archivos de datos son archivos estructurados (Parquet, Avro u ORC).

    • format: define las opciones que puede especificar para describir el formato del archivo de origen. El parámetro partition_columns format especifica los nombres de las columnas de partición. Para obtener más información, consulte DBMS_CLOUD Package Format Options.

      Si los datos del archivo de origen están cifrados, descifre los datos especificando la opción de formato encryption. Consulte Descifrado de datos durante la importación desde Object Storage para obtener más información sobre el descifrado de datos.

    En este ejemplo, namespace-string es el espacio de nombres de almacenamiento de objetos de Oracle Cloud Infrastructure, y bucketname es el nombre del cubo. Consulte Descripción de los espacios de nombres de Object Storage para obtener más información.

    Consulte CREATE_EXTERNAL_PART_TABLE Procedure para obtener información detallada sobre los parámetros.

    Consulte Formatos de URI DBMS_CLOUD para obtener más información sobre los servicios de almacenamiento de objetos en la nube soportados.

    Si hay filas en los archivos de origen que no coincidan con las opciones de formato que ha especificado, la consulta informa de un error. Puede utilizar los parámetros DBMS_CLOUD, como rejectlimit para suprimir estos errores. Como alternativa, también puede validar la tabla particionada externa que ha creado para ver los mensajes de error y las filas rechazadas, de modo que pueda cambiar las opciones de formato según corresponda. Consulte Validación de datos externos y Validación de datos particionados externos para obtener más información.

  3. A continuación puede ejecutar consultas en la tabla particionada externa que ha creado en el paso anterior.

    Autonomous Database utiliza la información de partición de la tabla particionada externa, lo que garantiza que la consulta solo acceda a los archivos de datos relevantes del almacén de objetos. Por ejemplo, la siguiente consulta solo lee archivos de datos de una partición.

    Por ejemplo:

    SELECT year, month, product, units 
    FROM SALES WHERE year='2020' AND month='02' AND country='USA'

    Las tablas particionadas externas que crea con DBMS_CLOUD.CREATE_EXTERNAL_PART_TABLE incluyen dos columnas invisibles: file$path y file$name. Estas columnas ayudan a identificar el archivo del que procede un registro. Consulte Columnas de metadatos de tablas externas para obtener más información.