Configuration de l'intégration de PySpark
Pour intégrer Jupyter et PySpark, installez l'application findspark
.
Les noeuds de cluster ODH incluent Python 3, le client Apache Spark3 et PySpark.
PySpark est une interface pour Apache Spark dans Python. Elle permet d'écrire des applications Spark à l'aide d'API Python. Le shell PySpark est un environnement d'analyse de données au sein d'un environnement distribué.
L'application findspark
recherche et ajoute PySpark au chemin système. Jupyter et PySpark s'intègrent ainsi en toute simplicité.