Apache Spark-Anwendung in Oracle Cloud importieren
Spark-Anwendungen müssen in Oracle Cloud Infrastructure Object Storage gehostet werden, bevor Sie sie ausführen können.
Sie können Ihre Anwendung in einen beliebigen Bucket hochladen. Der Benutzer, der die Anwendung ausführt, muss Lesezugriff auf alle Assets (einschließlich aller zugehörigen Compartments, Buckets und Dateien) haben, damit die Anwendung erfolgreich gestartet werden kann.
Data Flow-kompatible Spark-Anwendungen entwickeln
Data Flow unterstützt die Ausführung herkömmlicher Spark-Anwendungen und hat keine speziellen Designanforderungen.
Es wird empfohlen, dass Sie Ihre Spark-Anwendung mit dem lokalen Spark-Modus auf Ihrem Laptop oder in einer ähnlichen Umgebung entwickeln. Wenn die Entwicklung abgeschlossen ist, hochladen Sie die Anwendung in Oracle Cloud Infrastructure Object Storage, und führen Sie sie skalierbar mit Data Flow aus.
Best Practices für das Bündeln von Anwendungen
Technologie | Hinweise |
---|---|
Java- oder Scala-Anwendungen | Um höchste Zuverlässigkeit zu gewährleisten, laden Sie Anwendungen als Uber-JARs oder Assembly-JARs mit allen Abhängigkeiten in Object Storage hoch. Erstellen Sie die entsprechenden JARs mit Tools wie Maven Assembly Plug-in (Java) oder sbt-assembly (Scala). |
SQL-Anwendungen | Laden Sie alle SQL-Dateien (.sql ) in Object Storage hoch. |
Python-Anwendungen | Erstellen Sie Anwendungen mit den Standardbibliotheken, und laden Sie die Python-Datei in Object Storage hoch. Informationen zum Aufnehmen von Librarys oder Packages von Drittanbietern finden Sie unter Spark-Submit-Funktionalität in Data Flow. |
Geben Sie das Anwendungspaket nicht in einem komprimierten Format an, wie .zip
oder .gzip
.
oci://<bucket>@<tenancy>/<applicationfile>
Beispiel für eine Java- oder Scala-Anwendung: Ein Entwickler bei examplecorp
hat eine Spark-Anwendung namens logcrunch.jar
entwickelt und in einen Bucket namens production_code
hochgeladen. Sie können immer den richtigen Mandanten finden, indem Sie auf das Benutzerprofilsymbol oben rechts in der Konsolen-UI klicken.
oci://production_code@examplecorp/logcrunch.jar
Daten in Oracle Cloud laden
Data Flow ist für die Verwaltung von Daten in Oracle Cloud Infrastructure Object Storage optimiert. Durch die Verwaltung von Daten in Object Storage wird die Performance maximiert. Außerdem kann die Anwendung im Namen des Benutzers, der die Anwendung ausführt, darauf zugreifen. Data Flow kann jedoch Daten aus anderen von Spark unterstützten Datenquellen lesen, einschließlich RDBMS, ADW, NoSQL-Speicher und mehr. Data Flow kann mit dem Feature Privater Endpunkt sowie mit einer vorhandenen FastConnect-Konfiguration auf On-Premise-Systeme zugreifen.
Methode | Tools |
---|---|
Native Web-UI | Mit der Oracle Cloud Infrastructure-Konsole können Sie Speicher-Buckets verwalten und Dateien hochladen, einschließlich Verzeichnisbäumen. |
Drittanbietertools | Ziehen Sie die Verwendung von REST-APIs und der Befehlszeileninfrastruktur in Erwägung. |