PySpark

Informazioni sugli ambienti Conda PySpark.

PySpark 3.2 e Feature Store (versione 3.0)

Descrizione dell'ambiente Conda PySpark 3.2 e Feature Store in Python 3.8 (versione 3.0).

Data rilascio

Febbraio 9, 2024

descrizione;

L'ambiente Conda dell'area di memorizzazione delle funzioni include un pacchetto dell'area di memorizzazione delle funzioni che fornisce una soluzione centralizzata per la trasformazione e l'accesso ai dati durante l'addestramento e la distribuzione, stabilendo una pipeline standardizzata per l'inclusione e l'esecuzione di query sui dati e i comandi Magic del flusso di dati per gestire il ciclo di vita di un cluster di sessioni di flusso di dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Questo conda fornisce supporto per l'inclusione dei dati nel formato delta, rendendolo un cittadino di prima classe all'interno del sistema. L'area di memorizzazione delle funzioni di Oracle Data Science offre il supporto per il metastore Hive DCAT, che funge da registro per i metadati dello schema e consente agli utenti di registrare e gestire i metadati associati agli schemi.

Per iniziare a utilizzare l'ambiente dell'area di memorizzazione delle funzioni, esaminare il notebook avviato utilizzando il programma di avvio.

Versione Python

3,8

Slug fspyspark32_p38_cpu_v3
Percorso di storage degli oggetti
oci://service-conda-packs@id19sfcrra6z/service_pack/cpu/PySpark_3.2_and_Feature_Store/3.0/fspyspark32_p38_cpu_v3

Prime librerie

  • Flusso di dati Sparkmagic (1.0.14)
  • oracle-ads(v2.10.0)
  • oraclejdk (v8)
  • piccante (v3.2.1)
  • sparksql-magic (v0.0.3)
  • approfondimenti su oracle-ml (v1.0.4)
  • spark-nlp (v4.2.1)
  • trasformatori (v4.32.1)
  • langchain (v0.0.267)

Per un elenco completo delle librerie Python preinstallate, vedere fspyspark32_p38_cpu_v3.txt.

CPU PySpark 3.5 e Data Flow su Python 3.11 (versione 1.0)
CPU PySpark 3.2 e Data Flow su Python 3.8 (versione 3.0)
CPU PySpark 3.2 e Data Flow su Python 3.8 (versione 2.0)