Importazione di un'applicazione Apache Spark in Oracle Cloud

Le applicazioni Spark devono essere ospitate in Oracle Cloud Infrastructure Object Storage prima di poter essere eseguite.

Puoi caricare la tua applicazione in qualsiasi bucket. L'utente che esegue l'applicazione deve disporre dell'accesso in lettura a tutti gli asset (inclusi tutti i compartimenti, i bucket e i file correlati) affinché l'avvio dell'applicazione riesca.

Sviluppa applicazioni Spark compatibili con Data Flow

Data Flow supporta l'esecuzione di normali applicazioni Spark e non ha requisiti speciali in termini di tempo di progettazione.

Ti consigliamo di sviluppare la tua applicazione Spark utilizzando la modalità locale Spark sul tuo laptop o in un ambiente simile. Una volta completato lo sviluppo, carica l'applicazione su Oracle Cloud Infrastructure Object Storage ed eseguila su larga scala utilizzando Data Flow.

Best practice per raggruppare le applicazioni

Best practice per raggruppare le applicazioni
Tecnologia	Note
Applicazioni Java o Scala	Per garantire la massima affidabilità, carica le applicazioni come JAR Uber o JAR Assembly, con tutte le dipendenze incluse nell'area di memorizzazione degli oggetti. Utilizzare strumenti come Java (Maven Assembly Plugin) o sbt-assembly (Scala) per creare file JAR appropriati.
Applicazioni SQL	Caricare tutti i file SQL (`.sql`) nell'area di memorizzazione degli oggetti.
Applicazioni Python	Creare applicazioni con le librerie predefinite e caricare il file python nell'area di memorizzazione degli oggetti. Per includere librerie o package di terze parti, vedere Funzionalità di invio Spark in Data Flow.

Non fornire il pacchetto applicativo in un formato compresso, ad esempio .zip o .gzip.

Dopo aver importato l'applicazione nell'area di memorizzazione degli oggetti di Oracle Cloud Infrastructure, è possibile fare riferimento ad essa utilizzando un URI speciale:

oci://<bucket>@<tenancy>/<applicationfile>

Ad esempio, con un'applicazione Java o Scala, supponiamo che uno sviluppatore all'indirizzo examplecorp abbia sviluppato un'applicazione Spark denominata logcrunch.jar e l'abbia caricata in un bucket denominato production_code. È sempre possibile trovare la tenancy corretta facendo clic sull'icona del profilo utente nell'angolo superiore destro dell'interfaccia utente della console.

L'URI corretto diventa:

oci://production_code@examplecorp/logcrunch.jar

Caricare i dati in Oracle Cloud

Data Flow è ottimizzato per gestire i dati in Oracle Cloud Infrastructure Object Storage. La gestione dei dati nello storage degli oggetti ottimizza le prestazioni e consente all'applicazione di accedere ai dati per conto dell'utente che esegue l'applicazione. Tuttavia, Data Flow può leggere i dati da altre origini dati supportate da Spark, incluse le aree di memorizzazione RDBMS, ADW, NoSQL e altro ancora. Data Flow può comunicare con i sistemi in locale utilizzando la funzione Endpoint privato insieme a una configurazione FastConnect esistente.

Caricamento dati in corso
Avvicinamento	Strumenti
UI Web nativa	La console di Oracle Cloud Infrastructure consente di gestire i bucket di storage e caricare i file, incluse le strutture di directory.
Strumenti di terze parti	Valutare la possibilità di utilizzare le API REST e l'infrastruttura della riga di comando. Per trasferire grandi quantità di dati, considera questi strumenti di terze parti: rclone cyberduck

Documentazione dell'infrastruttura Oracle Cloud

Importazione di un'applicazione Apache Spark in Oracle Cloud

Sviluppa applicazioni Spark compatibili con Data Flow

Best practice per raggruppare le applicazioni

Caricare i dati in Oracle Cloud