Origine dati Oracle Spark
L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC fornita da Spark.
L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC Spark. Semplifica la connessione ai database Oracle da Spark. Oltre a tutte le opzioni fornite dall'origine dati JDBC di Spark, Oracle Datasource di Spark semplifica la connessione dei database Oracle da Spark fornendo:
- Un wallet di download automatico da Autonomous Database Serverless, il che significa che non è necessario scaricare il wallet e conservarlo nello storage degli oggetti o nel vault.
- Distribuisce automaticamente il bundle di wallet dallo storage degli oggetti al driver e all'esecutore senza alcun utente di fom di codice personalizzato.
- Include i file JAR del driver JDBC ed elimina quindi la necessità di scaricarli e includerli nel file
archive.zip
. La versione del driver JDBC è 21.3.0.0.
Usa un'origine dati Oracle Spark
È possibile utilizzare questa origine dati in Data Flow in due modi.
- Nella sezione Opzioni avanzate durante la creazione, la modifica o l'esecuzione di un'applicazione, includere la chiave:
con il valore:
spark.oracle.datasource.enabled
true
. Per ulteriori informazioni, vedere la sezione Crea applicazioni. - Utilizzare il formato dell'origine dati Oracle Spark. Ad esempio in Scala:Altri esempi in altre lingue sono disponibili nella sezione Esempi di origine dati Oracle Spark.
val df = spark.read .format("oracle") .option("adbId","autonomous_database_ocid") .option("dbtable", "schema.tablename") .option("user", "username") .option("password", "password") .load()
Le tre proprietà seguenti sono disponibili con l'origine dati Oracle oltre alle proprietà fornite dall'origine dati JDBC di Spark:
Nome proprietà | Impostazione predefinita | descrizione; | Ambito |
---|---|---|---|
walletUri |
URL compatibile con Object Storage o HDFS. Contiene il file ZIP dell'Oracle Wallet necessario per le connessioni mTLS a un database Oracle. Per ulteriori informazioni sull'uso di Oracle Wallet, vedere Visualizzare i nomi TNS e le stringhe di connessione per Autonomous Database Serverless | Lettura/scrittura | |
connectionId |
|
L'alias dell'identificativo di connessione dal file tnsnames.ora, come parte del wallet Oracle. Per ulteriori informazioni, vedere Panoramica dei parametri di denominazione locale e il Glossario in Oracle Database Net Services Reference. | Lettura/scrittura |
adbId |
OCID database Oracle Autonomous. Per ulteriori informazioni, consulta la panoramica di Autonomous Database Serverless. | Lettura/scrittura |
Nota
Le opzioni sono soggette alle seguenti limitazioni:
Puoi utilizzare l'origine dati Oracle Spark in Data Flow con Spark 3.0.2 e versioni successive.Le opzioni sono soggette alle seguenti limitazioni:
- Impossibile utilizzare
adbId
ewalletUri
insieme. connectionId
deve essere fornito conwalletUri
, ma è facoltativo conadbId
.adbId
non è supportato per i database con scansione.
Per utilizzare l'origine dati Oracle Spark con Spark Submit, impostare la seguente opzione:
--conf spark.oracle.datasource.enabled: true
Solo i seguenti database sono supportati con adbId:
- Autonomous Database serverless
Nota
Se si dispone di questo database in una subnet privata della VCN, utilizzare una rete privata per inserire nella lista di inclusione il nome FQDN dell'endpoint privato del database autonomo.
Con l'opzione
walletUri
è possibile utilizzare i seguenti database:- Autonomous Database serverless
- Autonomous Dedicated Infrastructure Database, inclusa l'infrastruttura Exadata.
- Autonomous Transaction Processing, infrastruttura dedicata
- Database Oracle on-premise, a cui è possibile accedere dalla rete di Data Flow, tramite fastconnect o VPN site-to-site.