Origine dati Oracle Spark

L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC fornita da Spark.

L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC Spark. Semplifica la connessione ai database Oracle da Spark. Oltre a tutte le opzioni fornite dall'origine dati JDBC di Spark, Oracle Datasource di Spark semplifica la connessione dei database Oracle da Spark fornendo:
  • Un wallet di download automatico da Autonomous Database Serverless, il che significa che non è necessario scaricare il wallet e conservarlo nello storage degli oggetti o nel vault.
  • Distribuisce automaticamente il bundle di wallet dallo storage degli oggetti al driver e all'esecutore senza alcun utente di fom di codice personalizzato.
  • Include i file JAR del driver JDBC ed elimina quindi la necessità di scaricarli e includerli nel file archive.zip. La versione del driver JDBC è 21.3.0.0.

Usa un'origine dati Oracle Spark

È possibile utilizzare questa origine dati in Data Flow in due modi.

  • Nella sezione Opzioni avanzate durante la creazione, la modifica o l'esecuzione di un'applicazione, includere la chiave:
    spark.oracle.datasource.enabled
    con il valore: true. Per ulteriori informazioni, vedere la sezione Crea applicazioni.
  • Utilizzare il formato dell'origine dati Oracle Spark. Ad esempio in Scala:
    val df = spark.read
      .format("oracle")
      .option("adbId","autonomous_database_ocid")
      .option("dbtable", "schema.tablename")
      .option("user", "username")
      .option("password", "password")
      .load()
    Altri esempi in altre lingue sono disponibili nella sezione Esempi di origine dati Oracle Spark.
Le tre proprietà seguenti sono disponibili con l'origine dati Oracle oltre alle proprietà fornite dall'origine dati JDBC di Spark:
Proprietà origine dati Oracle
Nome proprietà Impostazione predefinita descrizione; Ambito
walletUri URL compatibile con Object Storage o HDFS. Contiene il file ZIP dell'Oracle Wallet necessario per le connessioni mTLS a un database Oracle. Per ulteriori informazioni sull'uso di Oracle Wallet, vedere Visualizzare i nomi TNS e le stringhe di connessione per Autonomous Database Serverless Lettura/scrittura
connectionId
  • Facoltativo con adbld, <database_name>_medium da tnsnames.ora.
  • Obbligatorio con l'opzione walletUri.
L'alias dell'identificativo di connessione dal file tnsnames.ora, come parte del wallet Oracle. Per ulteriori informazioni, vedere Panoramica dei parametri di denominazione locale e il Glossario in Oracle Database Net Services Reference. Lettura/scrittura
adbId OCID database Oracle Autonomous. Per ulteriori informazioni, consulta la panoramica di Autonomous Database Serverless. Lettura/scrittura
Nota

Le opzioni sono soggette alle seguenti limitazioni:
  • Impossibile utilizzare adbId e walletUri insieme.
  • connectionId deve essere fornito con walletUri, ma è facoltativo con adbId.
  • adbId non è supportato per i database con scansione.
Puoi utilizzare l'origine dati Oracle Spark in Data Flow con Spark 3.0.2 e versioni successive.
Per utilizzare l'origine dati Oracle Spark con Spark Submit, impostare la seguente opzione:
--conf spark.oracle.datasource.enabled: true
Solo i seguenti database sono supportati con adbId:
  • Autonomous Database serverless
    Nota

    Se si dispone di questo database in una subnet privata della VCN, utilizzare una rete privata per inserire nella lista di inclusione il nome FQDN dell'endpoint privato del database autonomo.
Con l'opzione walletUri è possibile utilizzare i seguenti database:
  • Autonomous Database serverless
  • Autonomous Dedicated Infrastructure Database, inclusa l'infrastruttura Exadata.
  • Autonomous Transaction Processing, infrastruttura dedicata
  • Database Oracle on-premise, a cui è possibile accedere dalla rete di Data Flow, tramite fastconnect o VPN site-to-site.