Origine dati Oracle Spark
L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC fornita da Spark.
L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC Spark. Semplifica la connessione ai database Oracle da Spark. Oltre a tutte le opzioni fornite dall'origine dati JDBC di Spark, Oracle Datasource di Spark semplifica la connessione dei database Oracle da Spark fornendo:
- Un wallet di download automatico da Autonomous AI Database Serverless, il che significa che non è necessario scaricare il wallet e conservarlo nello storage degli oggetti o nel vault.
- Distribuisce automaticamente il bundle di wallet dallo storage degli oggetti al driver e all'esecutore senza alcun utente di fom di codice personalizzato.
- Include i file JAR del driver JDBC ed elimina quindi la necessità di scaricarli e includerli nel file
archive.zip
. La versione del driver JDBC è 21.3.0.0.
Usa un'origine dati Oracle Spark
È possibile utilizzare questa origine dati in Data Flow in due modi.
- Nella sezione Opzioni avanzate durante la creazione, la modifica o l'esecuzione di un'applicazione, includere la chiave indicata di seguito.
con il valore:
spark.oracle.datasource.enabled
true
. Per ulteriori informazioni, vedere la sezione Crea applicazioni. - Utilizzare il formato dell'origine dati Oracle Spark. Ad esempio in Scala:Altri esempi in altre lingue sono disponibili nella sezione Esempi di origini dati Oracle Spark.
val df = spark.read .format("oracle") .option("adbId","autonomous_database_ocid") .option("dbtable", "schema.tablename") .option("user", "username") .option("password", "password") .load()
Le tre proprietà seguenti sono disponibili con l'origine dati Oracle oltre alle proprietà fornite dall'origine dati JDBC di Spark:
Nome proprietà | Impostazione predefinita | descrizione; | Ambito |
---|---|---|---|
walletUri
|
Uno storage degli oggetti o un URL compatibile con HDFS. Contiene il file ZIP di Oracle Wallet necessario per le connessioni mTLS a un database Oracle. Per ulteriori informazioni sull'uso di Oracle Wallet, vedere Visualizzare i nomi TNS e le stringhe di connessione per Autonomous AI Database Serverless | Lettura/scrittura | |
connectionId
|
|
L'alias dell'identificativo di connessione dal file tnsnames.ora, come parte del wallet Oracle. Per ulteriori informazioni, vedere Panoramica dei parametri di denominazione locale e il Glossario in Oracle Database Net Services Reference. | Lettura/scrittura |
adbId
|
OCID di Oracle Autonomous Database. Per ulteriori informazioni, vedere la panoramica di Autonomous AI Database Serverless. | Lettura/scrittura |
Nota
Le opzioni sono soggette alle seguenti limitazioni:
Puoi utilizzare l'origine dati Oracle Spark in Data Flow con Spark 3.0.2 e versioni successive.Le opzioni sono soggette alle seguenti limitazioni:
-
Impossibile utilizzare
adbId
ewalletUri
insieme. -
connectionId
deve essere fornito conwalletUri
, ma è facoltativo conadbId
. -
adbId
non è supportato per i database con scansione.
Per utilizzare l'origine dati Oracle Spark con Invia Spark, impostare l'opzione seguente:
--conf spark.oracle.datasource.enabled: true
Solo i seguenti database sono supportati con adbId:
-
Autonomous AI Serverless Database
Nota
Se si dispone di questo database in una subnet privata di VCN, utilizzare una rete privata per includere nella lista di inclusione il nome FQDN dell'endpoint privato del database autonomo.
Con l'opzione
walletUri
è possibile utilizzare i seguenti database:- Autonomous AI Serverless Database
- Autonomous Dedicated Infrastructure Database, inclusa l'infrastruttura Exadata.
- Infrastruttura dedicata per l'elaborazione delle transazioni AI autonoma
- Database Oracle on-premise, a cui è possibile accedere dalla rete di Data Flow, tramite fastconnect o VPN site-to-site.