Configuración de la integración de PySpark
Para integrar Jupyter y PySpark, instale la aplicación findspark
.
Los nodos de cluster de ODH incluyen Python 3, el cliente Apache Spark3 y PySpark.
PySpark es una interfaz para Apache Spark en Python. Con PySpark, puede escribir aplicaciones de Spark mediante las API de Python. El shell PySpark es un entorno para analizar datos en un entorno distribuido.
La aplicación findspark
busca y agrega PySpark a la ruta del sistema. De esta forma, Jupyter y PySpark se integran perfectamente.