Data Flow - Überblick

Mit Data Flow können Sie Apache Spark -Anwendungen einfach erstellen, freigeben, ausführen und deren Ausgabe anzeigen.

Die Data Flow-Architektur, in der Anwendungen, Bibliotheken und Ausführungen auf der Benutzerebene angezeigt werden. Darunter befindet sich die Administratorebene, die aus Administratorkontrollen für Zugriffs-Policys und Nutzungslimits besteht. Darunter befindet sich die Infrastrukturebene aus elastischem Computing und elastischem Speicher. Die letzte Ebene ist die Sicherheitsebene, die aus Identity Management und Access Management besteht.

Was ist Oracle Cloud Infrastructure Data Flow?

Data Flow ist eine cloudbasierte serverlose Plattform mit einer umfangreichen Benutzeroberfläche. Sie ermöglicht es Spark-Entwicklern und Data Scientists, Spark-Jobs in beliebiger Größe zu erstellen, zu bearbeiten und auszuführen, ohne dass Cluster, Administrationsteams oder hochspezielle Spark-Kenntnisse erforderlich sind. Da Data Flow serverlos ist, gibt es auch keine Infrastruktur, die von Ihnen bereitgestellt oder verwaltet werden muss. Der Service wird vollständig von REST-APIs gesteuert und ermöglicht eine einfache Integration mit Anwendungen oder Workflows. Sie können Data Flow mit dieser REST-API kontrollieren. Sie können Data Flow über die CLI ausführen, da Data Flow-Befehle im Rahmen der Befehlszeilenschnittstelle von Oracle Cloud Infrastructure verfügbar sind. Sie können:

  • Verbindung zu Apache Spark-Datenquellen herstellen.

  • Wiederverwendbare Apache Spark-Anwendungen erstellen.

  • Apache Spark-Jobs in Sekunden starten.

  • Erstellen Sie Apache Spark-Anwendungen mit SQL, Python, Java, Scala oder spark-submit.

  • Alle Apache Spark-Anwendungen über eine einzige Plattform verwalten.

  • Daten in der Cloud oder On Premise in Ihrem Data Center verwalten.

  • Big-Data-Bausteine erstellen, die Sie einfach mit erweiterten Big-Data-Anwendungen assemblieren können.

Hier ist ein Feld dargestellt, das Data Flow Spark On-Demand darstellt. Von dort verläuft ein Pfeil mit dem Label "Processed Data" (Verarbeitete Daten) herunter zu "Object Storage". Unter "Object Storage" befinden sich zwei weitere Felder, von denen jeweils ein Pfeil zu "Object Storage" verläuft. Ein Feld repräsentiert Spark-Anwendungen. Das andere Feld stellt Rohdaten dar. Der Fluss von Spark-Anwendungen und Rohdaten von Object Storage zu Data Flow Spark On-Demand wird mit zwei Pfeilen angezeigt.