Importazione di un'applicazione Apache Spark in Oracle Cloud
Le applicazioni Spark devono essere ospitate in Oracle Cloud Infrastructure Object Storage prima di poter essere eseguite.
Puoi caricare la tua applicazione in qualsiasi bucket. L'utente che esegue l'applicazione deve disporre dell'accesso in lettura a tutti gli asset (inclusi tutti i compartimenti, i bucket e i file correlati) affinché l'avvio dell'applicazione riesca.
Sviluppa applicazioni Spark compatibili con Data Flow
Data Flow supporta l'esecuzione di normali applicazioni Spark e non ha requisiti speciali in termini di tempo di progettazione.
Ti consigliamo di sviluppare la tua applicazione Spark utilizzando la modalità locale Spark sul tuo laptop o in un ambiente simile. Una volta completato lo sviluppo, carica l'applicazione su Oracle Cloud Infrastructure Object Storage ed eseguila su larga scala utilizzando Data Flow.
Best practice per raggruppare le applicazioni
Tecnologia | Note |
---|---|
Applicazioni Java o Scala | Per garantire la massima affidabilità, carica le applicazioni come JAR Uber o JAR Assembly, con tutte le dipendenze incluse nell'area di memorizzazione degli oggetti. Utilizzare strumenti come Java (Maven Assembly Plugin) o sbt-assembly (Scala) per creare file JAR appropriati. |
Applicazioni SQL | Caricare tutti i file SQL (.sql ) nell'area di memorizzazione degli oggetti. |
Applicazioni Python | Creare applicazioni con le librerie predefinite e caricare il file python nell'area di memorizzazione degli oggetti. Per includere librerie o package di terze parti, vedere Funzionalità di invio Spark in Data Flow. |
Non fornire il pacchetto applicativo in un formato compresso, ad esempio .zip
o .gzip
.
oci://<bucket>@<tenancy>/<applicationfile>
Ad esempio, con un'applicazione Java o Scala, supponiamo che uno sviluppatore all'indirizzo examplecorp
abbia sviluppato un'applicazione Spark denominata logcrunch.jar
e l'abbia caricata in un bucket denominato production_code
. È sempre possibile trovare la tenancy corretta facendo clic sull'icona del profilo utente nell'angolo superiore destro dell'interfaccia utente della console.
oci://production_code@examplecorp/logcrunch.jar
Caricare i dati in Oracle Cloud
Data Flow è ottimizzato per gestire i dati in Oracle Cloud Infrastructure Object Storage. La gestione dei dati nello storage degli oggetti ottimizza le prestazioni e consente all'applicazione di accedere ai dati per conto dell'utente che esegue l'applicazione. Tuttavia, Data Flow può leggere i dati da altre origini dati supportate da Spark, incluse le aree di memorizzazione RDBMS, ADW, NoSQL e altro ancora. Data Flow può comunicare con i sistemi in locale utilizzando la funzione Endpoint privato insieme a una configurazione FastConnect esistente.
Avvicinamento | Strumenti |
---|---|
UI Web nativa | La console di Oracle Cloud Infrastructure consente di gestire i bucket di storage e caricare i file, incluse le strutture di directory. |
Strumenti di terze parti |
Valutare la possibilità di utilizzare le API REST e l'infrastruttura della riga di comando. |