Data Flow einrichten

Bevor Sie Anwendungen in Data Flow erstellen, verwalten und ausführen können, muss der Mandantenadministrator (oder ein anderer Benutzer mit erweiterten Berechtigungen für das Erstellen von Buckets und das Ändern von Policys in IAM) Gruppen, ein Compartment, einen Speicher und zugehörige Policys in IAM erstellen.

Oben stehen die Gruppen von Benutzern, ETL, Data Engineering, Administration, SQL-Benutzer und Data Science. Die ETL-Gruppenbenutzer aus DIS-Workspaces laden Daten aus verschiedenen Datenquellen in Data Flow. Die Daten werden von den Benutzern der Data Engineering-, Admin- und SQL-Benutzergruppen bereinigt und vorbereitet. Die Daten werden an verschiedene Datenbanken gesendet, wo sie von Data Scientists in Notizbüchern und mit dem Modellkatalog bearbeitet werden können. So richten Sie Data Flow ein:
  • Identitätsgruppen einrichten
  • Compartment- und Objektspeicher-Buckets einrichten.
  • Identity and Access Management-Policys einrichten

Identitätsgruppen einrichten

Kategorisieren Sie Ihre Data Flow-Benutzer in drei Gruppen, um ihre Anwendungsfälle und Privilegien klar voneinander zu trennen.

Erstellen Sie die folgenden drei Gruppen in Ihrem Identity Service, und fügen Sie jeder Gruppe Benutzer hinzu:

  • Datenfluss-Admins
  • Datenfluss-Datenentwickler
  • dataflow-sql-users
Datenfluss-Admins
Die Benutzer in dieser Gruppe sind Administratoren oder Superuser des Data Flows. Sie sind berechtigt, Aktionen für Data Flow auszuführen oder verschiedene Ressourcen für Data Flow einzurichten und zu verwalten. Sie verwalten Anwendungen, deren Eigentümer andere Benutzer sind, und Ausführungen, die von einem beliebigen Benutzer in seinem Mandanten gestartet werden. Datenflussadministratoren benötigen keinen Administrationszugriff auf die Spark-Cluster, die On-Demand von Data Flow bereitgestellt werden, da diese Cluster vollständig von Data Flow verwaltet werden.
Datenfluss-Datenentwickler
Die Benutzer in dieser Gruppe sind berechtigt, Data Flow-Anwendungen und -Ausführungen für ihre Data Engineering-Jobs zu verwalten und auszuführen. Beispiel: Sie führen ETL-(Extract Transform Load-)Jobs in den bedarfsgesteuerten serverlosen Spark-Clustern von Data Flow aus. Die Benutzer in dieser Gruppe haben keinen Administrationszugriff auf die Spark-Cluster, die On-Demand von Data Flow bereitgestellt werden, noch benötigen sie keinen Administrationszugriff, da diese Cluster vollständig von Data Flow verwaltet werden.
dataflow-sql-users
Die Benutzer in dieser Gruppe sind berechtigt, interaktive SQL-Abfragen auszuführen, indem sie eine Verbindung zu interaktiven SQL-Clustern von Data Flow über JDBC oder ODBC herstellen.

Compartment und Object Storage-Buckets einrichten

Führen Sie diese Schritte aus, um ein Compartment und Objektspeicher-Buckets für Data Flow zu erstellen.

Data Flow erwartet vier spezifische Speicher-Buckets in Object Storage. Es wird empfohlen, ein Compartment für Data Flow zu erstellen, in dem Sie Ihre Cloud-Ressourcen organisieren und isolieren können. Weitere Informationen zu Compartments finden Sie in der IAM-Dokumentation.
  1. Erstellen Sie ein Compartment mit dem Namen dataflow-compartment.
    Führen Sie die Schritte zum Erstellen eines Compartments in der IAM-Dokumentation aus.
  2. Erstellen Sie die folgenden Speicher-Buckets in Object Storage unter dem Compartment dataflow-compartment:
    • Datenflusslogs
    • dataflow-Warehouse
    • managed-table-bucket
    • Externer Tabellen-Bucket
    Datenflusslogs

    Data Flow erfordert einen Bucket, in dem die Logs (sowohl stdout als auch stderr) für jede Anwendungsausführung gespeichert werden. Erstellen Sie ihn als Standard-Storage-Tier-Bucket. Der Speicherort des Buckets muss dem Muster oci://dataflow-logs@<your_object_store_namespace>/ entsprechen.

    dataflow-Warehouse

    Data Flow benötigt ein Data Warehouse für Spark SQL-Anwendungen. Erstellen Sie ihn als Standard-Storage-Tier-Bucket. Der Speicherort des Warehouse muss dem Muster oci://dataflow-warehouse@<your_object_store_namespace>/ entsprechen.

    managed-table-bucket und external-table-bucket
    Bei unstrukturierten und semistrukturierten Datenassets in Object Storage benötigt Data Flow einen Metastore, um Schemadefinitionen sicher zu speichern und abzurufen. Data Catalog Metastore stellt einen Hive-kompatiblen Metastore als persistentes externes Metadaten-Repository bereit, das von vielen OCI-Services gemeinsam genutzt wird. Vor dem Erstellen eines Metastores in Data Catalog müssen Sie zwei Buckets in Object Storage erstellen, die verwaltete und externe Tabellen enthalten. Wir empfehlen Ihnen, diese Buckets managed-table-bucket und external-table-bucket zu benennen.
    • Managed-table-bucket wird für Ressourcen im Zusammenhang mit Managed Table im Hive-kompatiblen Metastore von Data Catalog verwendet, bei dem der Metastore das Tabellenobjekt verwaltet.
    • External-table-bucket wird für Ressourcen verwendet, die sich auf External Table im Hive-kompatiblen Metastore von Data Catalog beziehen, in dem Sie das Tabellenobjekt verwalten.