Imposta flusso dati

Prima di poter creare, gestire ed eseguire applicazioni in Data Flow, l'amministratore del tenant (o qualsiasi utente con privilegi elevati per creare bucket e modificare criteri in IAM) deve creare gruppi, un compartimento, uno storage e i criteri associati in IAM.

In alto ci sono i gruppi di utenti, ETL, Data Engineering, Administration, SQL user e Data Science. Gli utenti del gruppo ETL delle aree di lavoro DIS caricano i dati da varie origini dati in Data Flow. I dati vengono puliti e preparati dagli utenti dei gruppi Data Engineering, Admin e SQL User. i dati vengono inviati a database diversi su cui possono essere utilizzati dai data scientist nei notebook e utilizzando il catalogo dei modelli. I passaggi di impostazione del flusso dati riportati di seguito sono riportati.
  • Impostazione dei gruppi di identità.
  • Impostazione dei bucket del compartimento e dello storage degli oggetti.
  • Impostazione dei criteri di gestione delle identità e degli accessi

Imposta gruppi di identità

Come procedura generale, suddividere gli utenti di Data Flow in tre gruppi per una chiara separazione dei casi d'uso e del livello di privilegi.

Creare i tre gruppi seguenti nel servizio Identity e aggiungere utenti a ciascun gruppo:

  • amministratori del flusso di dati
  • dataflow-data-engineers
  • dataflow-sql-users
amministratori del flusso di dati
Gli utenti di questo gruppo sono amministratori o superutenti del flusso dati. Dispongono dei privilegi per eseguire qualsiasi azione su Data Flow o per impostare e gestire diverse risorse correlate a Data Flow. Gestiscono le applicazioni di proprietà di altri utenti e le esecuzioni avviate da qualsiasi utente all'interno della propria tenancy. Gli amministratori del flusso di dati non devono disporre dell'accesso amministrativo ai cluster Spark di cui è stato eseguito il provisioning su richiesta da parte di Data Flow, poiché tali cluster sono completamente gestiti da Data Flow.
dataflow-data-engineers
Gli utenti di questo gruppo dispongono del privilegio per gestire ed eseguire le applicazioni e le esecuzioni di Data Flow per i propri job di progettazione dati. Ad esempio, l'esecuzione di job ETL (Extract Transform Load) nei cluster Spark serverless su richiesta di Data Flow. Gli utenti di questo gruppo non dispongono né hanno bisogno dell'accesso di amministrazione ai cluster Spark di cui è stato eseguito il provisioning su richiesta da parte di Data Flow, poiché tali cluster sono completamente gestiti da Data Flow.
dataflow-sql-users
Gli utenti di questo gruppo dispongono del privilegio per eseguire query SQL interattive mediante la connessione ai cluster SQL interattivi di Data Flow su JDBC o ODBC.

Impostazione dei bucket del compartimento e dello storage degli oggetti

Attenersi alla procedura riportata di seguito per creare un compartimento e bucket di storage degli oggetti per il flusso di dati.

Data Flow prevede quattro bucket di storage specifici nello storage degli oggetti. Si consiglia di creare un compartimento dedicato al flusso di dati in cui organizzare e isolare le risorse cloud. Ulteriori informazioni sui compartimenti sono disponibili nella documentazione IAM.
  1. Creare un compartimento denominato dataflow-compartment.
    Attenersi alla procedura per creare un compartimento nella documentazione IAM.
  2. Creare i bucket di storage seguenti nello storage degli oggetti nel compartimento dataflow-compartment:
    • log del flusso di dati
    • warehouse del flusso di dati
    • tabella gestita - bucket
    • tabella esterna-bucket
    log del flusso di dati

    Data Flow richiede un bucket per memorizzare i log (sia stdout che stderr) per ogni esecuzione dell'applicazione. Crealo come bucket di livello di storage standard. La posizione del bucket deve seguire il pattern: oci://dataflow-logs@<your_object_store_namespace>/.

    warehouse del flusso di dati

    Data Flow richiede un data warehouse per le applicazioni SQL Spark. Crealo come bucket di livello di storage standard. L'ubicazione del warehouse deve seguire il pattern: oci://dataflow-warehouse@<your_object_store_namespace>/.

    managed-table-bucket e external-table-bucket
    Per gli asset di dati non strutturati e semistrutturati nello storage degli oggetti, Data Flow richiede un metastore per memorizzare e recuperare in modo sicuro le definizioni degli schemi. Data Catalog Metastore fornisce un metastore compatibile con Hive come repository di metadati esterno persistente condiviso tra molti servizi OCI. Prima di creare un metastore in Data Catalog, è necessario creare due bucket nello storage degli oggetti per contenere le tabelle gestite ed esterne. Si consiglia di assegnare un nome a tali bucket managed-table-bucket e external-table-bucket.
    • Managed-table-bucket viene utilizzato per le risorse correlate a Managed Table nel metastore compatibile con Hive di Data Catalog, in cui il metastore gestisce l'oggetto tabella.
    • External-table-bucket viene utilizzato per le risorse correlate a External Table nel metastore compatibile con Hive di Data Catalog, in cui è possibile gestire l'oggetto tabella.