PySpark
Informazioni sugli ambienti Conda PySpark.
Descrizione dell'ambiente Conda PySpark 3.2 e Feature Store in Python 3.8 (versione 3.0).
Data rilascio |
Febbraio 9, 2024 |
---|---|
descrizione; |
L'ambiente Conda dell'area di memorizzazione delle funzioni include un pacchetto dell'area di memorizzazione delle funzioni che fornisce una soluzione centralizzata per la trasformazione e l'accesso ai dati durante l'addestramento e la distribuzione, stabilendo una pipeline standardizzata per l'inclusione e l'esecuzione di query sui dati e i comandi Magic del flusso di dati per gestire il ciclo di vita di un cluster di sessioni di flusso di dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Questo conda fornisce supporto per l'inclusione dei dati nel formato delta, rendendolo un cittadino di prima classe all'interno del sistema. L'area di memorizzazione delle funzioni di Oracle Data Science offre il supporto per il metastore Hive DCAT, che funge da registro per i metadati dello schema e consente agli utenti di registrare e gestire i metadati associati agli schemi. Per iniziare a utilizzare l'ambiente dell'area di memorizzazione delle funzioni, esaminare il notebook avviato utilizzando il programma di avvio. |
Versione Python |
3,8 |
Slug | fspyspark32_p38_cpu_v3 |
Percorso di storage degli oggetti |
|
Prime librerie |
Per un elenco completo delle librerie Python preinstallate, vedere fspyspark32_p38_cpu_v3.txt. |
Descrizione dell'ambiente Conda PySpark 3.5 e Data Flow CPU in Python 3.11 (versione 1.0).
Data rilascio |
Settembre 25, 2024 |
---|---|
descrizione; |
Questo ambiente conda include i comandi magic di Flusso dati per gestire il ciclo di vita di un cluster di sessioni di flusso dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Utilizza PySparkSQL per analizzare i dati strutturati e semistrutturati memorizzati nello storage degli oggetti. PySpark sfrutta tutta la potenza di una sessione notebook utilizzando la computazione parallela. Data Flow è inoltre integrato con il Data Catalog Hive Metastore. Per iniziare a utilizzare questo ambiente Conda, consultare il notebook Introduzione, utilizzando il programma di avvio. |
Versione Python |
3,11 |
Percorso di storage degli oggetti |
|
Slug |
|
Prime librerie |
Per un elenco completo delle librerie Python preinstallate, vedere pyspark35_p311_cpu_v1.txt. |
Descrizione dell'ambiente Conda PySpark 3.2 e Data Flow CPU in Python 3.8 (versione 3.0).
Data rilascio |
10 luglio 2023 |
---|---|
descrizione; |
Questo ambiente conda include i comandi magic di Flusso dati per gestire il ciclo di vita di un cluster di sessioni di flusso dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Questo ambiente conda consente ai data scientist di utilizzare Apache Spark, inclusi gli algoritmi di apprendimento automatico in MLlib. Utilizza PySparkSQL per analizzare i data store strutturati e semistrutturati nello storage degli oggetti. PySpark sfrutta tutta la potenza di una sessione notebook utilizzando la computazione parallela. Utilizzare PySparkSQL per analizzare i dati strutturati e semistrutturati memorizzati in Object Storage Data Flow è integrato anche con il Data Catalog Hive Metastore Per iniziare a utilizzare questo ambiente Conda, consultare il notebook Introduzione, utilizzando il programma di avvio. |
Versione Python |
3,8 |
Percorso di storage degli oggetti |
|
Slug |
|
Prime librerie |
Per un elenco completo delle librerie Python preinstallate, vedere pyspark32_p38_cpu_v3.txt. |
Descrizione dell'ambiente Conda PySpark 3.2 e Data Flow CPU in Python 3.8 (versione 2.0).
Data rilascio |
Dicembre 1, 2022 |
---|---|
descrizione; |
Questo ambiente conda include i comandi magic di Flusso dati per gestire il ciclo di vita di un cluster di sessioni di flusso dati remoto ed eseguire in remoto gli snippet di codice spark nel cluster. Questo ambiente conda consente ai data scientist di utilizzare Apache Spark, inclusi gli algoritmi di apprendimento automatico in MLlib. Utilizza PySparkSQL per analizzare i data store strutturati e semistrutturati nello storage degli oggetti. PySpark sfrutta tutta la potenza di una sessione notebook utilizzando la computazione parallela. Utilizzare PySparkSQL per analizzare i dati strutturati e semistrutturati memorizzati in Object Storage Data Flow è integrato anche con il Data Catalog Hive Metastore Per iniziare a utilizzare questo ambiente Conda, consultare il notebook Introduzione, utilizzando il programma di avvio. |
Versione Python |
3,8 |
Percorso di storage degli oggetti |
|
Slug |
|
Prime librerie |
Per un elenco completo delle librerie Python preinstallate, vedere pyspark32_p38_cpu_v2.txt. |