Origine dati Oracle Spark

L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC fornita da Spark.

L'origine dati Oracle Spark è un'estensione dell'origine dati JDBC Spark. Semplifica la connessione ai database Oracle da Spark. Oltre a tutte le opzioni fornite dall'origine dati JDBC di Spark, Oracle Datasource di Spark semplifica la connessione dei database Oracle da Spark fornendo:
  • Un wallet di download automatico da Autonomous AI Database Serverless, il che significa che non è necessario scaricare il wallet e conservarlo nello storage degli oggetti o nel vault.
  • Distribuisce automaticamente il bundle di wallet dallo storage degli oggetti al driver e all'esecutore senza alcun utente di fom di codice personalizzato.
  • Include i file JAR del driver JDBC ed elimina quindi la necessità di scaricarli e includerli nel file archive.zip. La versione del driver JDBC è 21.3.0.0.

Usa un'origine dati Oracle Spark

È possibile utilizzare questa origine dati in Data Flow in due modi.

  • Nella sezione Opzioni avanzate durante la creazione, la modifica o l'esecuzione di un'applicazione, includere la chiave indicata di seguito.
    spark.oracle.datasource.enabled
    con il valore: true. Per ulteriori informazioni, vedere la sezione Crea applicazioni.
  • Utilizzare il formato dell'origine dati Oracle Spark. Ad esempio in Scala:
    val df = spark.read
      .format("oracle")
      .option("adbId","autonomous_database_ocid")
      .option("dbtable", "schema.tablename")
      .option("user", "username")
      .option("password", "password")
      .load()
    Altri esempi in altre lingue sono disponibili nella sezione Esempi di origini dati Oracle Spark.
Le tre proprietà seguenti sono disponibili con l'origine dati Oracle oltre alle proprietà fornite dall'origine dati JDBC di Spark:
Proprietà origine dati Oracle
Nome proprietà Impostazione predefinita descrizione; Ambito
walletUri Uno storage degli oggetti o un URL compatibile con HDFS. Contiene il file ZIP di Oracle Wallet necessario per le connessioni mTLS a un database Oracle. Per ulteriori informazioni sull'uso di Oracle Wallet, vedere Visualizzare i nomi TNS e le stringhe di connessione per Autonomous AI Database Serverless Lettura/scrittura
connectionId
  • Opzionale con adbld, <database_name>_medium da tnsnames.ora.
  • Obbligatorio con l'opzione walletUri.
L'alias dell'identificativo di connessione dal file tnsnames.ora, come parte del wallet Oracle. Per ulteriori informazioni, vedere Panoramica dei parametri di denominazione locale e il Glossario in Oracle Database Net Services Reference. Lettura/scrittura
adbId OCID di Oracle Autonomous Database. Per ulteriori informazioni, vedere la panoramica di Autonomous AI Database Serverless. Lettura/scrittura
Nota

Le opzioni sono soggette alle seguenti limitazioni:
  • Impossibile utilizzare adbId e walletUri insieme.
  • connectionId deve essere fornito con walletUri, ma è facoltativo con adbId.
  • adbId non è supportato per i database con scansione.
Puoi utilizzare l'origine dati Oracle Spark in Data Flow con Spark 3.0.2 e versioni successive.
Per utilizzare l'origine dati Oracle Spark con Invia Spark, impostare l'opzione seguente:
--conf spark.oracle.datasource.enabled: true
Solo i seguenti database sono supportati con adbId:
  • Autonomous AI Serverless Database
    Nota

    Se si dispone di questo database in una subnet privata di VCN, utilizzare una rete privata per includere nella lista di inclusione il nome FQDN dell'endpoint privato del database autonomo.
Con l'opzione walletUri è possibile utilizzare i seguenti database:
  • Autonomous AI Serverless Database
  • Autonomous Dedicated Infrastructure Database, inclusa l'infrastruttura Exadata.
  • Infrastruttura dedicata per l'elaborazione delle transazioni AI autonoma
  • Database Oracle on-premise, a cui è possibile accedere dalla rete di Data Flow, tramite fastconnect o VPN site-to-site.