Conda-Umgebungen in einer Notizbuchsession installieren

Um Conda-Umgebungen in Notizbuchsessions zu verwenden, müssen Sie sie installieren.

Sie können eine Data Science- oder veröffentlichte Conda-Umgebung installieren, indem Sie auf der Umgebungskarte auf Installieren klicken. Sie können das Code-Snippet kopieren und in einem Terminalfenster ausführen. Die neue Umgebung wird in einem Block-Volume im Ordner /home/datascience/conda installiert. Die Ordner in /home/datascience/conda entsprechen den Slugs der Conda-Umgebungen.

Nachdem die Umgebung als Notizbuchkernel verwendet werden kann, wird der neue Umgebungseintrag auf der Registerkarte Umgebungs-Explorer unter Installierte Conda-Umgebungen aufgeführt. Dann ist auf der Registerkarte JupyterLab Launcher in der Kategorie Hinweisbuch ein neuer Kernel für diese Conda-Umgebung verfügbar. Sie können in dieser Conda-Umgebung arbeiten, indem Sie auf das Kernelsymbol der Umgebung klicken, um eine neue Registerkarte und somit eine neue Notizbuchdatei zu öffnen.

Sie können auch ein neues Notizbuch öffnen, indem Sie auf Datei klicken, Neu auswählen und dann einen Kernel für die Notizbuchsession auswählen.

Wichtig

Da alle installierten Conda-Umgebungen auf dem Block-Volume in /home/datascience gespeichert werden, sind diese Umgebungen nach der Aktivierung der Session verfügbar. Sie müssen die Conda-Umgebungen nicht neu installieren, nachdem Sie die Notebook-Session deaktiviert haben.

Installieren Sie eine Conda-Umgebung mit dem Befehl odsc conda auf einer Registerkarte im JupyterLab-Terminalfenster:

odsc conda install --slug <slug>

<slug> ist der Slug der zu installierenden Umgebung. Der Slug wird in der Umgebungskarte auf der Registerkarte "Umgebungs-Explorer" aufgeführt. Sie werden aufgefordert, die Version der Umgebung zu ändern (optional). Es kann einige Sekunden dauern, bis der neue Kernel auf der Registerkarte JupyterLab Launcher angezeigt wird.

Standardmäßig sucht odsc conda nach Data Science-Conda-Umgebungen mit Übereinstimmungen beim <slug>-Wert oder bei <name> und <version>. Sie können einen Objektspeicher-Bucket als Ziel verwenden, in dem eine veröffentlichte Conda-Umgebung gehostet wird, indem Sie die Option --override hinzufügen. Er sucht nach der Ziel-Conda-Umgebung im Bucket, der in der benutzerdefinierten Datei config.yaml definiert ist, die von odsc conda init erstellt wurde. Beispiel:

odsc conda install --override --slug <slug>

Listen Sie alle unterstützten Installationsoptionen mit odsc conda install -h auf.

Conda-Umgebungen können auch mit tar-Dateien installiert werden. Geben Sie die URI der tar-Dateien an, indem Sie sie mit der Option --uri angeben. Dabei kann es sich um einen lokalen Pfad, PAR-Links oder einen OCI-Link handeln.

Installation aus einer lokalen Datei:
odsc conda install --uri <path_to_the_local_environment_tar_file>
Installation mit einem PAR-Link:
odsc conda install --uri <http_link_to_the_environment_tar_file>
Installation mit einem OCI-Link mit Resource-Principal-Authentifizierung:
odsc conda install --uri <oci://my-bucket@my-namespace/path_to_tar_file>
Wichtig

Die Installation von Librarys in der Basisumgebung (Python 3) wird nicht empfohlen, weil sie nach der erneuten Aktivierung des Notizbuchs nicht persistiert werden. Als Best Practice wird empfohlen, die Basisumgebung zu klonen und dann die Librarys dort zu installieren.

PySpark-Conda-Umgebung upgraden

Diese Schritte sind nur erforderlich, wenn Sie die ältere Version der Conda-Umgebung PySpark installiert haben und sie für eine potenzielle zukünftige Verwendung beibehalten möchten. Wenn Sie die alte Umgebung nicht benötigen und keine spezifischen Konfigurationen für Spark vorgenommen haben, wird empfohlen, die alte Umgebung zu löschen, bevor Sie mit der Installation der neuen Version fortfahren.

  1. Aktualisierung der Conda-Umgebung PySpark wird vorbereitet:
    • Öffnen Sie die Data Science-Notizbuchsession.
    • Suchen Sie das Verzeichnis spark_conf_dir in Ihrem Home-Verzeichnis, und benennen Sie es dann in spark_conf_dir_v2 um. Durch die Umbenennungsaktion wird die pyspark32_p38_cpu_v2-Umgebung vorübergehend deaktiviert.

      Sie können den Vorgang rückgängig machen, indem Sie spark_conf_dir_v2 wieder in spark_conf_dir umbenennen. Anschließend ist pyspark32_p38_cpu_v2 wieder betriebsbereit.

  2. Conda-Umgebung "Pyspark" aktualisieren:
    • Öffnen Sie ein Terminal, und führen Sie den folgenden Befehl aus:

      odsc conda install -s pyspark32_p38_cpu_v3

      Der Befehl installiert eine V3-Conda-Umgebung und erstellt ein neues spark_conf_dir-Verzeichnis.

  3. Konfigurationsänderungen überprüfen:
    • Wenn Sie benutzerdefinierte Änderungen an der alten spark_conf_dir_v2-Konfiguration vorgenommen haben, z.B. Änderungen an core-site.xml oder spark-defaults.conf, stellen Sie sicher, dass diese Änderungen in die entsprechenden Dateien im neuen spark_conf_dir_v2-Verzeichnis kopiert werden.