PySpark

En savoir plus sur les environnements conda PySpark.

PySpark 3.2 et Feature Store (version 3.0)

Description de l'environnement conda PySpark 3.2 et Feature Store on Python 3.8 (version 3.0).


Publication	Février 9, 2024
Description	L'environnement conda de banque de fonctionnalités inclut un package de banque de fonctionnalités qui fournit une solution centralisée pour la transformation et l'accès aux données pendant l'entraînement et le traitement, établissant un pipeline standardisé pour l'assimilation et l'interrogation des données, ainsi que les commandes magiques Data Flow pour gérer le cycle de vie d'un cluster de sessions Data Flow distant et exécuter à distance des fragments de code sparkline dans le cluster. Ce conda prend en charge l'assimilation des données au format delta, ce qui en fait un citoyen de première classe dans le système. La banque de fonctionnalités Oracle Data Science prend en charge le metastore Hive DCAT, qui sert de registre pour les métadonnées de schéma et permet aux utilisateurs d'inscrire et de gérer les métadonnées associées aux schémas. Pour vous lancer avec l'environnement de banque de fonctionnalités, consultez le bloc-notes de démarrage à l'aide du lanceur.
Version Python	3,8
Slug	`fspyspark32_p38_cpu_v3`
Chemin de stockage d'objet	Le chemin Object Storage se trouve dans l'explorateur d'environnement dans une session de bloc-notes créée dans le domaine que vous utilisez. Le chemin est spécifique au domaine.
Bibliothèques principales	Flux de données Sparkmagic (1.0.14) oracle-ads(v2.10.0) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) oracle-ml-insights (v1.0.4) spark-nlp (v4.2.1) transformateurs (v4.32.1) langchain (v0.0.267) Pour obtenir la liste complète des bibliothèques Python préinstallées, reportez-vous à fspyspark32_p38_cpu_v3.txt.

PySpark 3.5 and Data Flow CPU on Python 3.11 (version 1.0)

Description de l'environnement conda PySpark 3.5 and Data Flow CPU on Python 3.11 (version 1.0).


Publication	septembre 25, 2024
Description	Cet environnement conda inclut les commandes magiques Data Flow permettant de gérer le cycle de vie d'un cluster de sessions Data Flow distant et d'exécuter à distance des fragments de code sparkline dans le cluster. Utilisez PySparkSQL pour analyser les données structurées et semi-structurées stockées dans Object Storage. PySpark exploite la pleine puissance d'une session de bloc-notes à l'aide du calcul parallèle. Data Flow est également intégré au metastore Hive de Data Catalog. Pour vous lancer avec cet environnement conda, consultez le bloc-notes de mise en route à l'aide du lanceur.
Version Python	3,11
Chemin de stockage d'objet	Le chemin Object Storage se trouve dans l'explorateur d'environnement dans une session de bloc-notes créée dans le domaine que vous utilisez. Le chemin est spécifique au domaine.
Slug	`pyspark35_p311_cpu_x86_64_v1`
Bibliothèques principales	Flux de données Sparkmagic (1.0.88) oracle-ads(2.11.17) oraclejdk (11) pyspark (3.5.0) python (3.11) sparksql-magic (0.0.3) spark-nlp (v5.3.3) Pour obtenir la liste complète des bibliothèques Python préinstallées, reportez-vous à pyspark35_p311_cpu_v1.txt.

PySpark 3.2 and Data Flow CPU on Python 3.8 (version 3.0)

Description de l'environnement conda PySpark 3.2 and Data Flow CPU on Python 3.8 (version 3.0).


Publication	Juillet 10, 2023
Description	Cet environnement conda inclut les commandes magiques Data Flow permettant de gérer le cycle de vie d'un cluster de sessions Data Flow distant et d'exécuter à distance des fragments de code sparkline dans le cluster. Cet environnement conda permet aux analystes de données d'exploiter Apache Spark, y compris les algorithmes d'apprentissage automatique disponibles dans MLlib. Utilisez PySparkSQL pour analyser les banques de données structurées et semi-structurées dans Object Storage. PySpark exploite la pleine puissance d'une session de bloc-notes à l'aide du calcul parallèle. L'utilisation de PySparkSQL pour analyser des données structurées et semi-structurées stockées dans Object Storage Data Flow est également intégrée au metastore Hive Data Catalog Pour vous lancer avec cet environnement conda, consultez le bloc-notes de mise en route à l'aide du lanceur.
Version Python	3,8
Chemin de stockage d'objet	Le chemin Object Storage se trouve dans l'explorateur d'environnement dans une session de bloc-notes créée dans le domaine que vous utilisez. Le chemin est spécifique au domaine.
Slug	`pyspark32_p38_cpu_v3`
Bibliothèques principales	Flux de données Sparkmagic (1.0.14) oracle-ads(v2.8.7) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) spark-nlp (v4.2.1) Pour obtenir la liste complète des bibliothèques Python préinstallées, reportez-vous à pyspark32_p38_cpu_v3.txt.

PySpark 3.2 and Data Flow CPU on Python 3.8 (version 2.0)

Description de l'environnement conda PySpark 3.2 and Data Flow CPU on Python 3.8 (version 2.0).


Publication	Décembre 1, 2022
Description	Cet environnement conda inclut les commandes magiques Data Flow permettant de gérer le cycle de vie d'un cluster de sessions Data Flow distant et d'exécuter à distance des fragments de code sparkline dans le cluster. Cet environnement conda permet aux analystes de données d'exploiter Apache Spark, y compris les algorithmes d'apprentissage automatique disponibles dans MLlib. Utilisez PySparkSQL pour analyser les banques de données structurées et semi-structurées dans Object Storage. PySpark exploite la pleine puissance d'une session de bloc-notes à l'aide du calcul parallèle. L'utilisation de PySparkSQL pour analyser des données structurées et semi-structurées stockées dans Object Storage Data Flow est également intégrée au metastore Hive Data Catalog Pour vous lancer avec cet environnement conda, consultez le bloc-notes de mise en route à l'aide du lanceur.
Version Python	3,8
Chemin de stockage d'objet	Le chemin Object Storage se trouve dans l'explorateur d'environnement dans une session de bloc-notes créée dans le domaine que vous utilisez. Le chemin est spécifique au domaine.
Slug	`pyspark32_p38_cpu_v2`
Bibliothèques principales	Sparkmagic de flux de données (1.0.7.e08b59192e8) oracle-ads(v2.6.8) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) spark-nlp (v4.2.1) Pour obtenir la liste complète des bibliothèques Python préinstallées, reportez-vous à pyspark32_p38_cpu_v2.txt.

Documentation Oracle Cloud Infrastructure

PySpark