Apache Spark-Anwendung in Oracle Cloud importieren

Spark-Anwendungen müssen in Oracle Cloud Infrastructure Object Storage gehostet werden, bevor Sie sie ausführen können.

Sie können Ihre Anwendung in einen beliebigen Bucket hochladen. Der Benutzer, der die Anwendung ausführt, muss Lesezugriff auf alle Assets (einschließlich aller zugehörigen Compartments, Buckets und Dateien) haben, damit die Anwendung erfolgreich gestartet werden kann.

Data Flow-kompatible Spark-Anwendungen entwickeln

Data Flow unterstützt die Ausführung herkömmlicher Spark-Anwendungen und hat keine speziellen Designanforderungen.

Es wird empfohlen, dass Sie Ihre Spark-Anwendung mit dem lokalen Spark-Modus auf Ihrem Laptop oder in einer ähnlichen Umgebung entwickeln. Wenn die Entwicklung abgeschlossen ist, hochladen Sie die Anwendung in Oracle Cloud Infrastructure Object Storage, und führen Sie sie skalierbar mit Data Flow aus.

Best Practices für das Bündeln von Anwendungen

Best Practices für das Bündeln von Anwendungen
TechnologieHinweise
Java- oder Scala-AnwendungenUm höchste Zuverlässigkeit zu gewährleisten, laden Sie Anwendungen als Uber-JARs oder Assembly-JARs mit allen Abhängigkeiten in Object Storage hoch. Erstellen Sie die entsprechenden JARs mit Tools wie Maven Assembly Plug-in (Java) oder sbt-assembly (Scala).
SQL-AnwendungenLaden Sie alle SQL-Dateien (.sql) in Object Storage hoch.
Python-AnwendungenErstellen Sie Anwendungen mit den Standardbibliotheken, und laden Sie die Python-Datei in Object Storage hoch. Informationen zum Aufnehmen von Librarys oder Packages von Drittanbietern finden Sie unter Spark-Submit-Funktionalität in Data Flow.

Geben Sie das Anwendungspaket nicht in einem komprimierten Format an, wie .zip oder .gzip.

Nachdem die Anwendung in Oracle Cloud Infrastructure Object Storage importiert wurde, können Sie sie mit einer speziellen URI referenzieren:
oci://<bucket>@<tenancy>/<applicationfile>

Beispiel für eine Java- oder Scala-Anwendung: Ein Entwickler bei examplecorp hat eine Spark-Anwendung namens logcrunch.jar entwickelt und in einen Bucket namens production_code hochgeladen. Sie können immer den richtigen Mandanten finden, indem Sie auf das Benutzerprofilsymbol oben rechts in der Konsolen-UI klicken.

Die korrekte URI lautet folgendermaßen:
oci://production_code@examplecorp/logcrunch.jar

Daten in Oracle Cloud laden

Data Flow ist für die Verwaltung von Daten in Oracle Cloud Infrastructure Object Storage optimiert. Durch die Verwaltung von Daten in Object Storage wird die Performance maximiert. Außerdem kann die Anwendung im Namen des Benutzers, der die Anwendung ausführt, darauf zugreifen. Data Flow kann jedoch Daten aus anderen von Spark unterstützten Datenquellen lesen, einschließlich RDBMS, ADW, NoSQL-Speicher und mehr. Data Flow kann mit dem Feature Privater Endpunkt sowie mit einer vorhandenen FastConnect-Konfiguration auf On-Premise-Systeme zugreifen.

Daten laden
MethodeTools
Native Web-UIMit der Oracle Cloud Infrastructure-Konsole können Sie Speicher-Buckets verwalten und Dateien hochladen, einschließlich Verzeichnisbäumen.
Drittanbietertools

Ziehen Sie die Verwendung von REST-APIs und der Befehlszeileninfrastruktur in Erwägung.

Beachten Sie für die Übertragung großer Datenmengen die folgenden Tools von Drittanbietern: