PySpark

En savoir plus sur les environnements Conda PySpark.

PySpark 3.2 et Feature Store (version 3.0)

Description de l'environnement Conda PySpark 3.2 et du magasin de fonctions avec Python 3.8 (version 3.0).


Date de publication	9er février 2024
Description	L'environnement Conda du magasin de fonctions comprend un ensemble de magasins de fonctions qui fournit une solution centralisée pour la transformation et l'accès des données pendant l'entraînement et le service, l'établissement d'un pipeline normalisé pour l'ingestion et l'interrogation des données et les commandes magiques du service de flux de données pour gérer le cycle de vie d'une grappe de session de flux de données distante et exécuter à distance des extraits de code spark dans la grappe. Cet environnement Conda prend en charge l'ingestion de données au format delta, ce qui en fait un citoyen de première classe dans le système. Le magasin de fonctions du service de science des données d'Oracle prend en charge le magasin de métadonnées DCAT Hive, qui sert de registre pour les métadonnées de schéma et permet aux utilisateurs d'enregistrer et de gérer les métadonnées associées aux schémas. Pour démarrer avec l'environnement du magasin de fonctions, consultez le carnet en cours de démarrage, à l'aide du Lanceur.
Version de Python	3.8
Ligne-bloc	`fspyspark32_p38_cpu_v3`
Chemin du stockage d'objets	Le chemin du stockage d'objets se trouve dans l'explorateur d'environnements dans une session de carnet créée dans le domaine que vous utilisez. Le chemin est spécifique au domaine.
Principales bibliothèques	Flux de données Sparkmagic (1.0.14) oracle-ads(v2.10.0) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) oracle-ml-insights (v1.0.4) spark-nlp (v4.2.1) transformateurs (v4.32.1) langchain (v0.0.267) Pour obtenir la liste complète des bibliothèques Python préinstallées, voir fspyspark32_p38_cpu_v3.txt.

PySpark 3.5 et applications de flux de données pour unité centrale avec Python 3.11 (version 1.0)

Description de l'environnement Conda PySpark 3.5 et applications de flux de données pour unité centrale avec Python 3.11 (version 1.0).


Date de publication	25 septembre 2024
Description	Cet environnement Conda comprend les commandes magiques du service de flux de données pour gérer le cycle de vie d'une grappe de session de flux de données distante et exécuter à distance des extraits de code spark dans la grappe. Utilisez PySparkSQL pour analyser des données structurées et semi-structurées stockées dans le service de stockage d'objets. PySpark exploite la pleine puissance d'une session de carnet à l'aide du calcul parallèle. Le service de flux de données est également intégré au magasin de métadonnées Hive du catalogue de données. Pour démarrer avec cet environnement Conda, consultez le carnet Démarrage, à l'aide du Lanceur.
Version de Python	3.11
Chemin du stockage d'objets	Le chemin du stockage d'objets se trouve dans l'explorateur d'environnements dans une session de carnet créée dans le domaine que vous utilisez. Le chemin est spécifique au domaine.
Ligne-bloc	`pyspark35_p311_cpu_x86_64_v1`
Principales bibliothèques	Flux de données Sparkmagic (1.0.88) oracle-ads(2.11.17) oraclejdk (11) pyspark (3.5.0) python (3.11) sparksql-magic (0.0) spark-nlp (v5.3.3) Pour obtenir la liste complète des bibliothèques Python préinstallées, voir pyspark35_p311_cpu_v1.txt.

PySpark 3.2 et applications de flux de données pour unité centrale avec Python 3.8 (version 3.0)

Description de l'environnement Conda PySpark 3.2 et applications de flux de données pour unité centrale avec Python 3.8 (version 3.0).


Date de publication	Juillet 10, 2023
Description	Cet environnement Conda comprend les commandes magiques du service de flux de données pour gérer le cycle de vie d'une grappe de session de flux de données distante et exécuter à distance des extraits de code spark dans la grappe. Cet environnement Conda permet aux experts en science des données de tirer parti d'Apache Spark, notamment des algorithmes d'apprentissage automatique dans MLlib. Utilisez PySparkSQL pour analyser des magasins de données structurés et semi-structurés dans le service de stockage d'objets. PySpark exploite la pleine puissance d'une session de carnet à l'aide du calcul parallèle. Utiliser PySparkSQL pour analyser les données structurées et semi-structurées stockées dans le service de flux de données du service de stockage d'objets est également intégré au magasin de métadonnées Hive du catalogue de données Pour démarrer avec cet environnement Conda, consultez le carnet Démarrage, à l'aide du Lanceur.
Version de Python	3.8
Chemin du stockage d'objets	Le chemin du stockage d'objets se trouve dans l'explorateur d'environnements dans une session de carnet créée dans le domaine que vous utilisez. Le chemin est spécifique au domaine.
Ligne-bloc	`pyspark32_p38_cpu_v3`
Principales bibliothèques	Flux de données Sparkmagic (1.0.14) oracle-ads(v2.8.7) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) spark-nlp (v4.2.1) Pour obtenir la liste complète des bibliothèques Python préinstallées, voir pyspark32_p38_cpu_v3.txt.

PySpark 3.2 et applications de flux de données pour unité centrale avec Python 3.8 (version 2.0)

Description de l'environnement Conda PySpark 3.2 et applications de flux de données pour unité centrale avec Python 3.8 (version 2.0).


Date de publication	Décembre 1, 2022
Description	Cet environnement Conda comprend les commandes magiques du service de flux de données pour gérer le cycle de vie d'une grappe de session de flux de données distante et exécuter à distance des extraits de code spark dans la grappe. Cet environnement Conda permet aux experts en science des données de tirer parti d'Apache Spark, notamment des algorithmes d'apprentissage automatique dans MLlib. Utilisez PySparkSQL pour analyser des magasins de données structurés et semi-structurés dans le service de stockage d'objets. PySpark exploite la pleine puissance d'une session de carnet à l'aide du calcul parallèle. Utiliser PySparkSQL pour analyser les données structurées et semi-structurées stockées dans le service de flux de données du service de stockage d'objets est également intégré au magasin de métadonnées Hive du catalogue de données Pour démarrer avec cet environnement Conda, consultez le carnet Démarrage, à l'aide du Lanceur.
Version de Python	3.8
Chemin du stockage d'objets	Le chemin du stockage d'objets se trouve dans l'explorateur d'environnements dans une session de carnet créée dans le domaine que vous utilisez. Le chemin est spécifique au domaine.
Ligne-bloc	`pyspark32_p38_cpu_v2`
Principales bibliothèques	Flux de données Sparkmagic (1.0.7.e08b59192e8) oracle-ads(v2.6.8) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) spark-nlp (v4.2.1) Pour obtenir la liste complète des bibliothèques Python préinstallées, voir pyspark32_p38_cpu_v2.txt.

Documentation sur Oracle Cloud Infrastructure

PySpark