Configuración de metastore de Data Catalog

Data Flow se integra con el metastore de Data Catalog, donde se almacenan las definiciones de esquema para datos no estructurados y semiestructurados.

Solo puede crear un metastore por arrendamiento. Esta restricción garantiza una única fuente de datos para los metadatos. Al crear un metastore de Data Catalog, indique tanto la ubicación managed-table-bucket como la ubicación external-table-bucket en Object Storage. Mantenga estas dos ubicaciones diferentes como mejor práctica. El metastore asume que es propietario de los datos de las tablas gestionadas. Para las tablas externas, el metastore compatible con Hive no gestiona ni es propietario de los datos subyacentes. Por lo tanto, operaciones como la supresión de DROPTABLE tanto de datos como de metadatos para tablas gestionadas, pero solo suprime los metadatos para tablas externas.

Si no tiene un metastore, cree uno para utilizarlo con Data Flow.
    1. En el menú de navegación de la consola, seleccione Data Catalog.
    2. En la página Data Catalog, seleccione Metastores.
    3. Seleccione Crear Metastore.
    4. En Crear en compartimento, seleccione dataflow-compartment.
    5. Introduzca un nombre adecuado para todos los usuarios de su arrendamiento, ya que solo se permite un metastore por región.
    6. En Ubicación de tabla gestionada por defecto, introduzca la ruta de acceso al cubo de tabla gestionada con el formato oci://managed-table-bucket@<your_objectstore_namespace>.
      Por ejemplo, si el espacio de nombres en cuestión es bigdatasciencelarge, introduzca oci://managed-table-bucket@bigdatasciencelarge.
    7. En Ubicación de tabla externa por defecto, introduzca la ruta de acceso al cubo de tabla externa con el formato oci://external-table-bucket@<your_objectstore_namespace>.
      Por ejemplo, si el espacio de nombres en cuestión es bigdatasciencelarge, introduzca oci://external-table-bucket@bigdatasciencelarge.
    8. Haga clic en Crear.
  • Utilice el comando create y los parámetros necesarios para crear un metastore para utilizarlo con Data Flow.

    oci data-catalog metastore create [OPTIONS]

    Para obtener una lista completa de los indicadores y las opciones de variables para los comandos de la CLI, consulte la Referencia de comandos de la CLI.

  • Ejecute la operación CreateMetastore para crear un metastore que utilizar con Data Flow.

Control de acceso detallado en el metastore de Data Catalog

El metastore de Data Catalog proporciona un control de acceso general mediante el servicio Identity and Access Management para evitar el acceso accidental y la modificación de los recursos creados por otro usuario. Como administrador, puede otorgar acceso a recursos como catálogos, bases de datos y tablas mediante políticas predefinidas mencionadas en la lista de recursos de la página de detalles de metastore. Para obtener más información, consulte la documentación de Data Catalog Metastore.
Nota

Esta función no está soportada con Spark 2.4.4.