Installation de Jupyter
Installez Jupyter sur le même noeud que celui configuré pour l'intégration de PySpark.
-
Installez Jupyter.
sudo python3 -m pip install jupyter
-
Mettez à niveau l'ensemble
Pygments
.$ pip3 install --upgrade Pygments
-
Vérifiez l'emplacement d'installation de Jupyter.
$ which jupyter
/usr/local/bin/jupyter
-
Vérifiez les noyaux disponibles.
$ /usr/local/bin/jupyter kernelspec list
Available kernels: python3 /usr/local/share/jupyter/kernels/python3
-
Vérifiez les versions de l'ensemble Jupyter.
$ /usr/local/bin/jupyter --version
Selected Jupyter core packages... IPython : 7.16.2 ipykernel : 5.5.6 ipywidgets : 7.6.5 jupyter_client : 7.1.0 jupyter_core : 4.9.1 jupyter_server : not installed jupyterlab : not installed nbclient : 0.5.9 nbconvert : 6.0.7 nbformat : 5.1.3 notebook : 6.4.6 qtconsole : 5.2.2 traitlets : 4.3.3
-
Demandez un ticket Kerberos.
kinit -kt <spark-user-keytabfile> <principle> keyTab File Location: /etc/security/keytabs/**.keytab
Exemple$ kinit -kt /etc/security/keytabs/spark.headless.keytab spark-trainingcl@BDACLOUDSERVICE.ORACLE.COM
Le ticket Kerberos s'applique uniquement aux grappes hautement disponibles. Vous devez demander un ticket Kerberos avec l'utilisateur approprié disposant des autorisations Ranger sur HDFS, YARN, etc. Ce ticket est valable 24 heures seulement.
Pour les grappes qui ne sont pas hautement disponibles, les autorisations Ranger et le ticket Kerberos ne sont pas requis.
-
Lancez Jupyter à partir du noeud d'utilitaire.
<jupyter-location> notebook --ip=0.0.0.0 --allow-root
Exemple :
/usr/local/bin/jupyter notebook --ip=0.0.0.0 --allow-root
Exemple de sortie :
[xxxx NotebookApp] To access the notebook, open this file in a browser: file:////xxxx Or copy and paste one of these URLs: xxxx or http://<some link> or http://127.0.0.1:8888/?token=<your-token>
-
À partir de la sortie, copiez l'URL du carnet et remplacez
127.0.0.1
par l'adresse IP publique du noeud d'utilitaire.http://<utility-node-public-ip-address>:8888/?token=<your-token>
-
Exécutez les commandes suivantes dans votre carnet.
import findspark findspark.init() import pyspark
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .enableHiveSupport() \ .appName("ODH-ML-WorkBench") \ .getOrCreate()
-
Effectuez un test en obtenant la version de Spark :
spark.version
Exemple de sortie :
'3.0.2'