Configuración de Data Flow

Para poder crear, gestionar y ejecutar aplicaciones en Data Flow, el administrador de inquilino (o cualquier usuario con privilegios elevados para crear cubos y cambiar políticas en IAM) debe crear grupos, un compartimento, almacenamiento y políticas asociadas en IAM.

En la parte superior se encuentran los grupos de usuarios, ETL, ingeniería de datos, administración, usuario SQL y Data Science. Los usuarios del grupo ETL de los espacios de trabajo DIS cargan datos de varios orígenes de datos en Data Flow. Los usuarios de grupos de usuarios de ingeniería de datos, administración y SQL limpian y preparan los datos. Los datos se envían a bases de datos dispares en las que los científicos de datos pueden trabajar en blocs de notas y mediante el catálogo de modelos. Estos son los pasos necesarios para configurar Data Flow:
  • Definición de grupos de identidad.
  • Configuración de cubos de compartimento y almacenamiento de objetos.
  • Configuración de políticas de Identity and Access Management

Configurar grupos de identidades

Como práctica general, categorice los usuarios de Data Flow en tres grupos para separar claramente sus casos de uso y nivel de privilegios.

Cree los tres grupos siguientes en el servicio de identidad y agregue usuarios a cada grupo:

  • administradores de flujo de datos
  • Ingenieros de datos de flujo de datos
  • dataflow-sql-users
administradores de flujo de datos
Los usuarios de este grupo son administradores o superusuarios de Data Flow. Tienen privilegios para realizar cualquier acción en Data Flow o para configurar y gestionar diferentes recursos relacionados con Data Flow. Gestionan aplicaciones que son propiedad de otros usuarios y ejecuciones iniciadas por cualquier usuario de su arrendamiento. Los administradores de flujos de datos no necesitan acceso de administración a los clusters de Spark aprovisionados bajo demanda por Data Flow, ya que estos clusters están totalmente gestionados por Data Flow.
Ingenieros de datos de flujo de datos
Los usuarios de este grupo tienen privilegios para gestionar y ejecutar aplicaciones y ejecuciones de Data Flow para sus trabajos de ingeniería de datos. Por ejemplo, ejecutando trabajos de carga de transformación de extracción (ETL) en clusters de Spark sin servidor bajo demanda de Data Flow. Los usuarios de este grupo no tienen ni necesitan acceso de administración a los clusters de Spark aprovisionados bajo demanda por Data Flow, ya que estos clusters están totalmente gestionados por Data Flow.
dataflow-sql-users
Los usuarios de este grupo tienen privilegios para ejecutar consultas SQL interactivas conectándose a clusters SQL interactivos de Data Flow a través de JDBC o ODBC.

Configuración de cubos de compartimento y almacenamiento de objetos

Siga estos pasos para crear un compartimento y cubos de Object Storage para Data Flow.

Data Flow espera cuatro cubos de almacenamiento específicos en Object Storage. Recomendamos que cree un compartimento dedicado a Data Flow en el que organizar y aislar sus recursos en la nube. Puede encontrar más información sobre compartimentos en la documentación de IAM.
  1. Cree un compartimento denominado dataflow-compartment.
    Siga los pasos para crear un compartimento en la documentación de IAM.
  2. Cree los siguientes cubos de almacenamiento en Object Storage en el compartimento dataflow-compartment:
    • logs de flujo de datos
    • almacén de flujo de datos
    • bloque de tablas gestionado
    • bloque de tablas externo
    logs de flujo de datos

    Data Flow necesita un cubo para almacenar los logs (tanto stdout como stderr) para cada ejecución de aplicación. Créelo como un cubo de nivel de almacenamiento estándar. La ubicación del cubo debe seguir el patrón: oci://dataflow-logs@<your_object_store_namespace>/.

    almacén de flujo de datos

    Data Flow necesita un almacén de datos para las aplicaciones Spark SQL. Créelo como un cubo de nivel de almacenamiento estándar. La ubicación del almacén debe seguir el patrón: oci://dataflow-warehouse@<your_object_store_namespace>/.

    cubo de tabla gestionada y cubo de tabla externa
    Para los activos de datos no estructurados y semiestructurados en Object Storage, Data Flow necesita un metastore para almacenar y recuperar de forma segura las definiciones de esquema. El metastore de Data Catalog proporciona un metastore compatible con Hive como repositorio de metadatos externo persistente compartido en muchos servicios de OCI. Antes de crear un metastore en Data Catalog, debe crear dos cubos en Object Storage para contener las tablas gestionadas y externas. Recomendamos que asigne a esos cubos el nombre managed-table-bucket y external-table-bucket.
    • Managed-table-bucket se utiliza para recursos relacionados con Managed Table en Metastore compatible con Hive de Data Catalog, donde Metastore gestiona el objeto de tabla.
    • External-table-bucket se utiliza para recursos relacionados con External Table en el metastore compatible con Hive de Data Catalog, donde gestiona el objeto de tabla.