Configurar Serviço Data Flow

Antes de criar, gerenciar e executar aplicativos no serviço Data Flow, o administrador do tenant (ou qualquer usuário com privilégios elevados para criar buckets e alterar políticas no IAM) deve criar grupos, um compartimento, armazenamento e políticas associadas no IAM.

Na parte superior estão os grupos de usuários, ETL, Engenharia de dados, Administração, Usuário SQL e Data Science. Os usuários do grupo ETL dos espaços de trabalho DIS carregam dados de várias origens de dados no serviço Data Flow. Ele é limpo e preparado pelos usuários dos grupos Engenharia de Dados, Admin e Usuário SQL. Os dados são enviados para bancos de dados diferentes onde podem ser trabalhados pelos Cientistas de Dados em notebooks e usando o catálogo de modelos. Estas são as etapas necessárias para configurar o serviço Data Flow:
  • Configurando grupos de identidades.
  • Configurando os buckets de compartimento e armazenamento de objetos.
  • Configurando políticas de Gerenciamento de Identidades

Configurar Grupos de Identidades

Como prática geral, categorize os usuários do serviço Data Flow em três grupos para separar claramente seus casos de uso e nível de privilégio.

Crie os três grupos a seguir em seu serviço de identidade e adicione usuários a cada grupo:

  • administradores de fluxo de dados
  • dataflow-data-engineers
  • fluxo de dados-usuários SQL
administradores de fluxo de dados
Os usuários desse grupo são administradores ou superusuários do serviço Data Flow. Eles têm privilégios para executar qualquer ação no serviço Data Flow ou para configurar e gerenciar diferentes recursos relacionados ao serviço Data Flow. Eles gerenciam Aplicativos pertencentes a outros usuários e Execuções iniciadas por qualquer usuário em sua tenancy. Os administradores de fluxo de dados não precisam de acesso de administração aos clusters do Spark provisionados sob demanda pelo serviço Data Flow, pois esses clusters são totalmente gerenciados pelo serviço Data Flow.
dataflow-data-engineers
Os usuários desse grupo têm privilégio de gerenciar e executar Aplicativos e Execuções do serviço Data Flow para seus jobs de engenharia de dados. Por exemplo, executando jobs ETL (Extract Transform Load) nos clusters Spark sem servidor sob demanda do serviço Data Flow. Os usuários desse grupo não têm nem precisam de acesso de administração aos clusters do Spark provisionados sob demanda pelo serviço Data Flow, pois esses clusters são totalmente gerenciados pelo serviço Data Flow.
fluxo de dados-usuários SQL
Os usuários desse grupo têm o privilégio de executar consultas SQL interativas conectando-se aos clusters SQL Interativos do serviço Data Flow por JDBC ou ODBC.

Configurando os Buckets de Compartimento e Armazenamento de Objetos

Siga estas etapas para criar um compartimento e buckets do serviço Object Storage para o serviço Data Flow.

O serviço Data Flow espera quatro buckets de armazenamento específicos no Object Storage. Recomendamos que você crie um compartimento dedicado ao serviço Data Flow para organizar e isolar seus recursos de nuvem. Mais informações sobre compartimentos podem ser encontradas na documentação do serviço IAM.
  1. Crie um compartimento chamado dataflow-compartment.
    Siga as etapas para criar um compartimento na documentação do serviço IAM.
  2. Crie os seguintes buckets de armazenamento no Object Storage no compartimento dataflow-compartment:
    • log de fluxo de dados
    • armazém de fluxo de dados
    • managed-table-bucket
    • bucket de tabela externa
    log de fluxo de dados

    O serviço Data Flow requer um bucket para armazenar os logs (stdout e stderr) para cada execução do Aplicativo. Crie-o como um bucket de camada de armazenamento padrão. O local do bucket deve seguir o padrão: oci://dataflow-logs@<your_object_store_namespace>/.

    armazém de fluxo de dados

    O Data Flow requer um data warehouse para aplicativos Spark SQL. Crie-o como um bucket de camada de armazenamento padrão. O local do warehouse deve seguir o padrão: oci://dataflow-warehouse@<your_object_store_namespace>/.

    managed-table-bucket e external-table-bucket
    Para ativos de dados não estruturados e semiestruturados no Object Storage, o serviço Data Flow requer um metastore para armazenar e recuperar definições de esquema com segurança. O Metastore do serviço Data Catalog fornece um Metastore compatível com o Hive como um repositório de metadados externo persistente compartilhado em muitos serviços do OCI. Antes de criar um metastore no serviço Data Catalog, você deve criar dois buckets no serviço Object Storage para conter as tabelas gerenciadas e externas. Recomendamos que você nomeie esses buckets como managed-table-bucket e external-table-bucket.
    • Managed-table-bucket é usado para recursos relacionados a Managed Table no Metastore compatível com Hive do serviço Data Catalog, no qual o Metastore gerencia o objeto de tabela.
    • External-table-bucket é usado para recursos relacionados ao External Table no Metastore compatível com o Hive do serviço Data Catalog, no qual você gerencia o objeto de tabela.