PySpark

Informazioni sugli ambienti Conda PySpark.

PySpark 3.2 e Feature Store (versione 3.0)

Descrizione dell'ambiente Conda PySpark 3.2 e Feature Store in Python 3.8 (versione 3.0).


Data rilascio	Febbraio 9, 2024
descrizione;	L'ambiente Conda dell'area di memorizzazione delle funzioni include un pacchetto dell'area di memorizzazione delle funzioni che fornisce una soluzione centralizzata per la trasformazione e l'accesso ai dati durante l'addestramento e la distribuzione, stabilendo una pipeline standardizzata per l'inclusione e l'esecuzione di query sui dati e i comandi Magic del flusso di dati per gestire il ciclo di vita di un cluster di sessioni di flusso di dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Questo conda fornisce supporto per l'inclusione dei dati nel formato delta, rendendolo un cittadino di prima classe all'interno del sistema. L'area di memorizzazione delle funzioni di Oracle Data Science offre il supporto per il metastore Hive DCAT, che funge da registro per i metadati dello schema e consente agli utenti di registrare e gestire i metadati associati agli schemi. Per iniziare a utilizzare l'ambiente dell'area di memorizzazione delle funzioni, esaminare il notebook avviato utilizzando il programma di avvio.
Versione Python	3,8
Slug	`fspyspark32_p38_cpu_v3`
Percorso di storage degli oggetti	`oci://service-conda-packs@id19sfcrra6z/service_pack/cpu/PySpark_3.2_and_Feature_Store/3.0/fspyspark32_p38_cpu_v3`
Prime librerie	Flusso di dati Sparkmagic (1.0.14) oracle-ads(v2.10.0) oraclejdk (v8) piccante (v3.2.1) sparksql-magic (v0.0.3) approfondimenti su oracle-ml (v1.0.4) spark-nlp (v4.2.1) trasformatori (v4.32.1) langchain (v0.0.267) Per un elenco completo delle librerie Python preinstallate, vedere fspyspark32_p38_cpu_v3.txt.

CPU PySpark 3.5 e Data Flow su Python 3.11 (versione 1.0)

Descrizione dell'ambiente Conda PySpark 3.5 e Data Flow CPU in Python 3.11 (versione 1.0).


Data rilascio	Settembre 25, 2024
descrizione;	Questo ambiente conda include i comandi magic di Flusso dati per gestire il ciclo di vita di un cluster di sessioni di flusso dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Utilizza PySparkSQL per analizzare i dati strutturati e semistrutturati memorizzati nello storage degli oggetti. PySpark sfrutta tutta la potenza di una sessione notebook utilizzando la computazione parallela. Data Flow è inoltre integrato con il Data Catalog Hive Metastore. Per iniziare a utilizzare questo ambiente Conda, consultare il notebook Introduzione, utilizzando il programma di avvio.
Versione Python	3,11
Percorso di storage degli oggetti	`oci://service-conda-packs@id19sfcrra6z/service_pack/cpu/PySpark_3.5_and_Data_Flow/1.0/pyspark35_p311_cpu_x86_64_v1`
Slug	`pyspark35_p311_cpu_x86_64_v1`
Prime librerie	Flusso di dati Sparkmagic (1.0.88) oracle-ads(2.11.17) orchidea (11) piccante (3.5.0) python (3.11) sparksql-magia (0.0.3) spark-nlp (v5.3.3) Per un elenco completo delle librerie Python preinstallate, vedere pyspark35_p311_cpu_v1.txt.

CPU PySpark 3.2 e Data Flow su Python 3.8 (versione 3.0)

Descrizione dell'ambiente Conda PySpark 3.2 e Data Flow CPU in Python 3.8 (versione 3.0).


Data rilascio	10 luglio 2023
descrizione;	Questo ambiente conda include i comandi magic di Flusso dati per gestire il ciclo di vita di un cluster di sessioni di flusso dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Questo ambiente conda consente ai data scientist di utilizzare Apache Spark, inclusi gli algoritmi di apprendimento automatico in MLlib. Utilizza PySparkSQL per analizzare i data store strutturati e semistrutturati nello storage degli oggetti. PySpark sfrutta tutta la potenza di una sessione notebook utilizzando la computazione parallela. Utilizzare PySparkSQL per analizzare i dati strutturati e semistrutturati memorizzati in Object Storage Data Flow è integrato anche con il Data Catalog Hive Metastore Per iniziare a utilizzare questo ambiente Conda, consultare il notebook Introduzione, utilizzando il programma di avvio.
Versione Python	3,8
Percorso di storage degli oggetti	`oci://service-conda-packs@id19sfcrra6z/service_pack/cpu/PySpark_3.2_and_Data_Flow/3.0/pyspark32_p38_cpu_v3`
Slug	`pyspark32_p38_cpu_v3`
Prime librerie	Flusso di dati Sparkmagic (1.0.14) oracle-ads(v2.8.7) oraclejdk (v8) piccante (v3.2.1) sparksql-magic (v0.0.3) spark-nlp (v4.2.1) Per un elenco completo delle librerie Python preinstallate, vedere pyspark32_p38_cpu_v3.txt.

CPU PySpark 3.2 e Data Flow su Python 3.8 (versione 2.0)

Descrizione dell'ambiente Conda PySpark 3.2 e Data Flow CPU in Python 3.8 (versione 2.0).


Data rilascio	Dicembre 1, 2022
descrizione;	Questo ambiente conda include i comandi magic di Flusso dati per gestire il ciclo di vita di un cluster di sessioni di flusso dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Questo ambiente conda consente ai data scientist di utilizzare Apache Spark, inclusi gli algoritmi di apprendimento automatico in MLlib. Utilizza PySparkSQL per analizzare i data store strutturati e semistrutturati nello storage degli oggetti. PySpark sfrutta tutta la potenza di una sessione notebook utilizzando la computazione parallela. Utilizzare PySparkSQL per analizzare i dati strutturati e semistrutturati memorizzati in Object Storage Data Flow è integrato anche con il Data Catalog Hive Metastore Per iniziare a utilizzare questo ambiente Conda, consultare il notebook Introduzione, utilizzando il programma di avvio.
Versione Python	3,8
Percorso di storage degli oggetti	`oci://service-conda-packs@id19sfcrra6z/service_pack/cpu/PySpark_3.2_and_Data_Flow/2.0/pyspark32_p38_cpu_v2`
Slug	`pyspark32_p38_cpu_v2`
Prime librerie	Sparkmagic del flusso di dati (1.0.7.e08b59192e8) oracle-ads(v2.6.8) oraclejdk (v8) piccante (v3.2.1) sparksql-magic (v0.0.3) spark-nlp (v4.2.1) Per un elenco completo delle librerie Python preinstallate, vedere pyspark32_p38_cpu_v2.txt.

Documentazione dell'infrastruttura Oracle Cloud

PySpark