Instalación de Jupyter
Instale Jupyter en el mismo nodo que configuró para la integración de PySpark.
-
Instale Jupyter.
sudo python3 -m pip install jupyter
-
Actualice el paquete
Pygments
.$ pip3 install --upgrade Pygments
-
Compruebe la ubicación de instalación de Jupyter.
$ which jupyter
/usr/local/bin/jupyter
-
Compruebe los núcleos disponibles.
$ /usr/local/bin/jupyter kernelspec list
Available kernels: python3 /usr/local/share/jupyter/kernels/python3
-
Compruebe las versiones del paquete Jupyter.
$ /usr/local/bin/jupyter --version
Selected Jupyter core packages... IPython : 7.16.2 ipykernel : 5.5.6 ipywidgets : 7.6.5 jupyter_client : 7.1.0 jupyter_core : 4.9.1 jupyter_server : not installed jupyterlab : not installed nbclient : 0.5.9 nbconvert : 6.0.7 nbformat : 5.1.3 notebook : 6.4.6 qtconsole : 5.2.2 traitlets : 4.3.3
-
Solicite un ticket de Kerberos.
kinit -kt <spark-user-keytabfile> <principle> keyTab File Location: /etc/security/keytabs/**.keytab
Ejemplo$ kinit -kt /etc/security/keytabs/spark.headless.keytab spark-trainingcl@BDACLOUDSERVICE.ORACLE.COM
El ticket de Kerberos solo se aplica a clusters de alta disponibilidad. Debe solicitar un ticket de Kerberos con el usuario adecuado que tenga permisos de Ranger en HDFS, yarn, etc. Este ticket es válido solo durante 24 horas.
Para los clusters no de alta disponibles, no se requieren permisos de ranger ni tickets de kerberos.
-
Inicie Jupyter desde el nodo de utilidad.
<jupyter-location> notebook --ip=0.0.0.0 --allow-root
Ejemplo:
/usr/local/bin/jupyter notebook --ip=0.0.0.0 --allow-root
Salida de ejemplo:
[xxxx NotebookApp] To access the notebook, open this file in a browser: file:////xxxx Or copy and paste one of these URLs: xxxx or http://<some link> or http://127.0.0.1:8888/?token=<your-token>
-
En la salida, copie la URL del bloc de notas y sustituya
127.0.0.1
por la dirección IP pública del nodo de utilidad.http://<utility-node-public-ip-address>:8888/?token=<your-token>
-
Ejecute los siguientes comandos en el bloc de notas.
import findspark findspark.init() import pyspark
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .enableHiveSupport() \ .appName("ODH-ML-WorkBench") \ .getOrCreate()
-
Realice una prueba obteniendo la versión de Spark:
spark.version
Salida de ejemplo:
'3.0.2'