Instalación de Jupyter

Instale Jupyter en el mismo nodo que configuró para la integración de PySpark.

  1. Instale Jupyter.
    sudo python3 -m pip install jupyter
  2. Actualice el paquete Pygments.
    $ pip3 install --upgrade Pygments
  3. Compruebe la ubicación de instalación de Jupyter.
    $ which jupyter
    /usr/local/bin/jupyter
  4. Compruebe los núcleos disponibles.
    $ /usr/local/bin/jupyter kernelspec list
    Available kernels:
      python3    /usr/local/share/jupyter/kernels/python3
  5. Compruebe las versiones del paquete Jupyter.
    $ /usr/local/bin/jupyter --version
    Selected Jupyter core packages...
    IPython          : 7.16.2
    ipykernel        : 5.5.6
    ipywidgets       : 7.6.5
    jupyter_client   : 7.1.0
    jupyter_core     : 4.9.1
    jupyter_server   : not installed
    jupyterlab       : not installed
    nbclient         : 0.5.9
    nbconvert        : 6.0.7
    nbformat         : 5.1.3
    notebook         : 6.4.6
    qtconsole        : 5.2.2
    traitlets        : 4.3.3
  6. Solicite un ticket de Kerberos.
    kinit -kt <spark-user-keytabfile> <principle>
    keyTab File Location: /etc/security/keytabs/**.keytab
    Ejemplo
    $ kinit -kt /etc/security/keytabs/spark.headless.keytab spark-trainingcl@BDACLOUDSERVICE.ORACLE.COM

    El ticket de Kerberos solo se aplica a clusters de alta disponibilidad. Debe solicitar un ticket de Kerberos con el usuario adecuado que tenga permisos de Ranger en HDFS, yarn, etc. Este ticket es válido solo durante 24 horas.

    Para los clusters no de alta disponibles, no se requieren permisos de ranger ni tickets de kerberos.

  7. Inicie Jupyter desde el nodo de utilidad.
    <jupyter-location> notebook --ip=0.0.0.0 --allow-root

    Ejemplo:

    /usr/local/bin/jupyter notebook --ip=0.0.0.0 --allow-root

    Salida de ejemplo:

    [xxxx NotebookApp] To access the notebook, open this file in a browser:
    file:////xxxx
    Or copy and paste one of these URLs:
    xxxx
    or http://<some link>
    or http://127.0.0.1:8888/?token=<your-token>
  8. En la salida, copie la URL del bloc de notas y sustituya 127.0.0.1 por la dirección IP pública del nodo de utilidad.
    http://<utility-node-public-ip-address>:8888/?token=<your-token>
  9. Ejecute los siguientes comandos en el bloc de notas.
    import findspark
    findspark.init()
    import pyspark
    from pyspark.sql import SparkSession
    spark = SparkSession \
        .builder \
        .enableHiveSupport() \
        .appName("ODH-ML-WorkBench") \
        .getOrCreate()
  10. Realice una prueba obteniendo la versión de Spark:
    spark.version

    Salida de ejemplo:

    '3.0.2'