Configuración de la integración de PySpark

Para integrar Jupyter y PySpark, instale la aplicación findspark.

Los nodos de cluster de ODH incluyen Python 3, el cliente Apache Spark3 y PySpark.

PySpark es una interfaz para Apache Spark en Python. Con PySpark, puede escribir aplicaciones de Spark mediante las API de Python. El shell PySpark es un entorno para analizar datos en un entorno distribuido.

La aplicación findspark busca y agrega PySpark a la ruta del sistema. De esta forma, Jupyter y PySpark se integran perfectamente.

  1. Acceda al nodo de cluster de ODH:
    • Segundo nodo de utilidad de un cluster HA (de alta disponibilidad).

    • Primer (y único) nodo de utilidad de un cluster sin HA.

  2. Instale Python para Java.
    sudo python3 -m pip install py4j
  3. Instale findspark.
    sudo python3 -m pip install findspark