Installation de Jupyter

Installez Jupyter sur le même noeud que celui configuré pour l'intégration de PySpark.

  1. Installez Jupyter.
    sudo python3 -m pip install jupyter
  2. Mettez à niveau l'ensemble Pygments.
    $ pip3 install --upgrade Pygments
  3. Vérifiez l'emplacement d'installation de Jupyter.
    $ which jupyter
    /usr/local/bin/jupyter
  4. Vérifiez les noyaux disponibles.
    $ /usr/local/bin/jupyter kernelspec list
    Available kernels:
      python3    /usr/local/share/jupyter/kernels/python3
  5. Vérifiez les versions de l'ensemble Jupyter.
    $ /usr/local/bin/jupyter --version
    Selected Jupyter core packages...
    IPython          : 7.16.2
    ipykernel        : 5.5.6
    ipywidgets       : 7.6.5
    jupyter_client   : 7.1.0
    jupyter_core     : 4.9.1
    jupyter_server   : not installed
    jupyterlab       : not installed
    nbclient         : 0.5.9
    nbconvert        : 6.0.7
    nbformat         : 5.1.3
    notebook         : 6.4.6
    qtconsole        : 5.2.2
    traitlets        : 4.3.3
  6. Demandez un ticket Kerberos.
    kinit -kt <spark-user-keytabfile> <principle>
    keyTab File Location: /etc/security/keytabs/**.keytab
    Exemple
    $ kinit -kt /etc/security/keytabs/spark.headless.keytab spark-trainingcl@BDACLOUDSERVICE.ORACLE.COM

    Le ticket Kerberos s'applique uniquement aux grappes hautement disponibles. Vous devez demander un ticket Kerberos avec l'utilisateur approprié disposant des autorisations Ranger sur HDFS, YARN, etc. Ce ticket est valable 24 heures seulement.

    Pour les grappes qui ne sont pas hautement disponibles, les autorisations Ranger et le ticket Kerberos ne sont pas requis.

  7. Lancez Jupyter à partir du noeud d'utilitaire.
    <jupyter-location> notebook --ip=0.0.0.0 --allow-root

    Exemple :

    /usr/local/bin/jupyter notebook --ip=0.0.0.0 --allow-root

    Exemple de sortie :

    [xxxx NotebookApp] To access the notebook, open this file in a browser:
    file:////xxxx
    Or copy and paste one of these URLs:
    xxxx
    or http://<some link>
    or http://127.0.0.1:8888/?token=<your-token>
  8. À partir de la sortie, copiez l'URL du carnet et remplacez 127.0.0.1 par l'adresse IP publique du noeud d'utilitaire.
    http://<utility-node-public-ip-address>:8888/?token=<your-token>
  9. Exécutez les commandes suivantes dans votre carnet.
    import findspark
    findspark.init()
    import pyspark
    from pyspark.sql import SparkSession
    spark = SparkSession \
        .builder \
        .enableHiveSupport() \
        .appName("ODH-ML-WorkBench") \
        .getOrCreate()
  10. Effectuez un test en obtenant la version de Spark :
    spark.version

    Exemple de sortie :

    '3.0.2'