Configuration de l'intégration de PySpark

Pour intégrer Jupyter et PySpark, installez l'application findspark.

Les noeuds de cluster ODH incluent Python 3, le client Apache Spark3 et PySpark.

PySpark est une interface pour Apache Spark dans Python. Elle permet d'écrire des applications Spark à l'aide d'API Python. Le shell PySpark est un environnement d'analyse de données au sein d'un environnement distribué.

L'application findspark recherche et ajoute PySpark au chemin système. Jupyter et PySpark s'intègrent ainsi en toute simplicité.

  1. Accédez au noeud de cluster ODH :
    • Deuxième noeud utilitaire d'un cluster hautement disponible.

    • Premier (et unique) noeud utilitaire d'un cluster non hautement disponible.

  2. Installez Python pour Java.
    sudo python3 -m pip install py4j
  3. Installation de findspark.
    sudo python3 -m pip install findspark