Data Science-Mandanten manuell konfigurieren

In diesem Tutorial richten Sie Ihren Mandanten für Data Science ein und testen ihn, indem Sie eine Notizbuchsession erstellen.

Dieses Tutorial richtet sich an Admin-Benutzer, da ihnen die erforderlichen Zugriffsberechtigungen erteilt wurden.

In diesem Tutorial werden Sie:

1. Data-Scientist-Benutzergruppe erstellen.

2. Compartment für Ihre Arbeit erstellen.

3. (Optional) VCN und Subnetz erstellen

4. Policys erstellen.

5. Eine dynamische Gruppe mit Policys erstellen

6. Notizbuchsession erstellen.

Bevor Sie beginnen

Voraussetzungen für dieses Tutorial:

  • Ein kostenloser Oracle Cloud Infrastructure-(OCI-)Account oder ein neuer Account mit Oracle Cloud-Promotions. Siehe Kostenlose Oracle Cloud-Promotions anfordern und verwalten.

  • Administratorberechtigung für den OCI-Account.
  • Mindestens einen Benutzer in Ihrem Mandanten, der auf den Data-Science-Service zugreifen möchte. Dieser Benutzer muss in IAM erstellt werden.

1. Data-Scientist-Benutzergruppe erstellen

Erstellen Sie eine Benutzergruppe für die Data Scientists.

  1. Öffnen Sie einen unterstützten Browser, und geben Sie die Konsolen-URL ein:
    https://cloud.oracle.com
  2. Geben Sie Ihren Cloud-Accountnamen, auch als Mandantenname bezeichnet, ein, und wählen Sie Weiter aus.
  3. Melden Sie sich mit Ihrem Benutzernamen und Kennwort an.
  4. Öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Klicken Sie unter Identität auf Domains.

    Eine Liste der Domains in Ihrem Mandanten wird angezeigt.

  5. Wählen Sie den Namen der Domain aus, in der Sie arbeiten möchten.
  6. Führen Sie die Schritte unter Gruppe erstellen aus, um eine Gruppe zu erstellen.
  7. Geben Sie der neuen Gruppe den Namen data-scientists, und geben Sie eine Beschreibung ein.
  8. Führen Sie die Schritte unter Benutzer zu einer Gruppe hinzufügen aus, um der erstellten Gruppe einen Benutzer hinzuzufügen.
  9. Wiederholen Sie das Hinzufügen aller Data Scientist-Benutzer zur Data Science-Gruppe.

2. Compartment für Ihre Arbeit erstellen

Erstellen Sie ein Compartment für Ihre Data Science-Ressourcen.

  1. Führen Sie die Schritte unter Compartment erstellen aus, um ein Compartment zu erstellen.
  2. Geben Sie dem neuen Compartment den Namen data-science-work und eine Beschreibung ein.
  3. Vergewissern Sie sich, dass das Compartment in der Compartment-Liste angezeigt wird.

3 (Optional) VCN und Subnetz erstellen

Dieser Schritt ist optional. Wenn Sie in Schritt 6 eine Notizbuchsession erstellen. Beim Erstellen einer Notizbuchsession können Sie ein Standardnetzwerk mit dem richtigen Setup für Notizbuchsessions erstellen.

Wichtig

Sie können das Erstellen eines Netzwerks und das Einrichten von Subnetzen und Gateways überspringen, wenn Sie beim Erstellen eines Notizbuchs das Standardnetzwerk auswählen. Wenn das Standardnetzwerk in einem Notizbuch konfiguriert ist, können Sie es beim erneuten Aktivieren des Notizbuchs nicht ändern.

In diesem Abschnitt wird Benutzern gezeigt, die Zugriff auf ihre VCNs benötigen, wie Sie ein VCN erstellen und später das empfohlene Subnetz für Notizbuchsessions auswählen. Beispiel: Wenn Sie das Tutorial Data Science-Jobläufe planen ausführen, erstellen Sie dieses Netzwerk und verwenden es sowohl für die Notizbuchsession in Data Science als auch für den Workspace im Data Integration-Service.

  1. Führen Sie die Schritte unter VCN erstellen aus, um ein VCN zu erstellen.
  2. Geben Sie unter VCN-Name datascience-vcn ein.
  3. Wählen Sie das Compartment data-science-work aus. Dieses Compartment hostet das VCN, das Sie in diesem Abschnitt erstellen. Es dauert einige Zeit, bis dieses neue Compartment in der Compartment-Liste angezeigt wird. Aktualisieren Sie daher die Seite, bis sie angezeigt wird.
  4. Behalten Sie unter VCN und Subnetze konfigurieren die Standardwerte bei:
    • VCN-CIDR-Block: 10.0.0.0/16
    • Public Subnet CIDR Block: 10.0.0.0/24
    • CIDR-Block des privaten Subnetzes: 10.0.1.0/24
    • DNS-Hostnamen in diesem VCN verwenden: ausgewählt

    Sie verwenden dieses VCN und das zugehörige private Subnetz Private Subnet-datascience-vcn, wenn Sie eine Notizbuchsession erstellen.

  5. Wählen Sie Virtuelles Cloud-Netzwerk anzeigen aus, um das VCN und die Subnetze zu prüfen.
Hinweis

Für den Egress-Zugriff auf das öffentliche Internet wird empfohlen, ein privates Subnetz mit einer Route zu einem NAT-Gateway zu verwenden. Ein NAT-Gateway ermöglicht Instanzen in einem privaten Subnetz Zugriff auf das Internet. Das in diesem Schritt erstellte VCN erstellt ein privates Subnetz mit Egress-Zugriff auf das Internet über das NAT-Gateway des VCN.

4. Policys erstellen

Bevor Benutzer ihre Notizbuchsessions starten, müssen Sie die Data Science-Policys konfigurieren.

  1. Öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Klicken Sie unter Identität auf Policys.
  2. Wählen Sie Policy erstellen aus.
  3. Geben Sie unter Name den Namen data-science-policy ein.
  4. Geben Sie die Policy für Data Science-Benutzer und -Service als Beschreibung ein.
  5. Wählen Sie das Compartment data-science-work aus.
  6. Wählen Sie Manuellen Editor anzeigen aus.
  7. Geben Sie die folgenden fünf Policy-Anweisungen in das Feld Policy Builder ein:
    allow service datascience to use virtual-network-family in compartment data-science-work
    allow group data-scientists to manage data-science-family in compartment data-science-work
    allow group data-scientists to use virtual-network-family in compartment data-science-work 
    allow group data-scientists to manage buckets in compartment data-science-work 
    allow group data-scientists to manage objects in compartment data-science-work 
  8. Wählen Sie Erstellen aus, um die Policy zu erstellen.

Erläuterung zu den Richtlinien:

  • Um zu ermöglichen, dass der Data Science-Service das VCN an die Notebook-Session anhängen und Egress-Traffic aus der Notebook-Umgebung weiterleiten kann, fügen Sie Folgendes hinzu:

    allow service datascience to use virtual-network-family in compartment data-science-work
  • Damit die Gruppe data-scientists Vorgänge für alle Data Science-Ressourcen im Compartment data-science-work ausführen kann (Projekte, Notizbuchsessions, Modelle, Modell-Deployments, Arbeitsanforderungen, Jobs und Jobläufe), fügen Sie Folgendes hinzu:

    allow group data-scientists to manage data-science-family in compartment data-science-work
  • Um zuzulassen, dass diese Data Scientists das von Ihnen erstellte VCN verwenden und an ihre Notebook-Session anschließen, fügen Sie Folgendes hinzu:

    allow group data-scientists to use virtual-network-family in compartment data-science-work 
  • Um diesen Data Scientists das Erstellen und Verwalten von Buckets zu ermöglichen, wie das Hinzufügen von Artefakten und Conda-Umgebungen zu Buckets, fügen Sie Folgendes hinzu:

    allow group data-scientists to manage buckets in compartment data-science-work
    allow group data-scientists to manage objects in compartment data-science-work 
Tipp

Anstatt anzugeben, welche Ressourcen wie Buckets, Objekte oder virtuelle Netzwerkfamilie verwaltet werden sollen, um Data Scientists administrative Rechte für ihr Compartment zu erteilen, in denen sie alle Ressourcen von OCI-Services verwalten können, ersetzen Sie die vorhergehenden fünf Policys durch die folgenden beiden Policys:
allow group data-scientists to manage all-resources in compartment data-science-work
allow service datascience to use virtual-network-family in compartment data-science-work 

5. Eine dynamische Gruppe mit Policys erstellen

Erstellen Sie eine dynamische Gruppe für Data Science-Ressourcen, und ermöglichen Sie dieser dynamischen Gruppe den Zugriff auf andere OCI-Ressourcen, wie Object Storage und Logging.

Um OCI-Ressourcen den Zugriff auf andere OCI-Ressourcen zu erteilen, fügen Sie zunächst die Ressourcen einer dynamischen Gruppe anstelle einer Benutzergruppe hinzu. Anschließend schreiben Sie Policys, damit die dynamische Gruppe auf angegebene Ressourcen zugreifen kann. Hier umfasst Ihre dynamische Gruppe drei Data Science-Ressourcen: Notebook-Sessions, Modell-Deployments und Jobläufe.

  1. Öffnen Sie das Navigationsmenü, und wählen Sie Identität und Sicherheit aus. Klicken Sie unter Identität auf Compartments.
  2. Wählen Sie das Compartment data-science-work aus.
  3. Klicken Sie für das Attribut OCID auf Kopieren, um die gesamte OCID im Notepad zu speichern.
  4. Klicken Sie im Trail, der die aktuelle Seite anzeigt, auf Compartments, um zur Liste der Compartments zurückzukehren.
  5. Führen Sie die Schritte unter Dynamische Gruppe erstellen aus, um eine dynamische Gruppe zu erstellen.
  6. Geben Sie Folgendes ein:
    • Name: Data Science-Dynamic-Gruppe
    • Beschreibung: Dynamische Data Science-Gruppe
  7. Wählen Sie im Abschnitt Übereinstimmungsregeln die Option Übereinstimmung mit unten definierten Regeln aus.
  8. Geben Sie die folgenden drei Vergleichsregeln ein. <compartment-ocid> durch die Compartment-OCID ersetzen, die Sie kopiert haben.
    Regel 1:
    ALL {resource.type='datasciencenotebooksession', resource.compartment.id='<compartment-ocid>'}

    Die vorhergehende Übereinstimmungsregel bedeutet, dass alle Notebooksessions, die in Ihrem Compartment erstellt werden, Mitglieder von data-science-dynamic-group sind.

    Klicken Sie auf Zusätzliche Regel, und fügen Sie die folgende Regel hinzu:

    Regel 2:

    ALL {resource.type='datasciencemodeldeployment', resource.compartment.id='<compartment-ocid>'}

    Die vorherige übereinstimmende Regel bedeutet, dass alle Modell-Deployments, die in Ihrem Compartment erstellt werden, Mitglieder von data-science-dynamic-group sind.

    Klicken Sie auf Zusätzliche Regel, und fügen Sie die folgende Regel hinzu:

    Regel 3:

    ALL {resource.type='datasciencejobrun', resource.compartment.id='<compartment-ocid>'}

    Die vorherige Vergleichsregel bedeutet, dass alle Jobläufe, die in Ihrem Compartment erstellt werden, Mitglieder der data-science-dynamic-group sind.

  9. Klicken Sie auf Erstellen.

    Schreiben Sie als Nächstes Policys, damit Ressourcen dieser dynamischen Gruppe auf andere OCI-Services zugreifen können.

  10. Klicken Sie im Trail, in dem die aktuelle Seite angezeigt wird, auf Identität.
  11. Wählen Sie Policys aus.
  12. Wählen Sie Policy erstellen aus.
  13. Geben Sie Folgendes ein:
    • Name: data-science-dynamic-group-policy
    • Beschreibung: Policy für die Data Science-Dynamikgruppe
  14. Wählen Sie anstelle des Compartments data-science-work das oberste Compartment aus (Ihr Mieter).
    Wichtig

    Ihre Policy kann nicht erstellt werden, wenn Sie den Mandanten nicht verwenden.
  15. Wählen Sie Manuellen Editor anzeigen aus.
  16. Geben Sie die folgenden Policy-Anweisungen in das Feld Policy Builder ein:
    allow dynamic-group data-science-dynamic-group to manage data-science-family in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to manage dataflow-family in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to read compartments in tenancy
    allow dynamic-group data-science-dynamic-group to read users in tenancy
    allow dynamic-group data-science-dynamic-group to use log-content in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to use log-groups in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to manage object-family in compartment data-science-work
  17. Wählen Sie Erstellen aus, um die Policy zu erstellen.

Mit dieser dynamischen Gruppe können Sie Notizbuchsessions und Modell-Deployments im Compartment data-science-work Zugriff auf andere OCI-Ressourcen im Mandanten gewähren.

Erläuterung zu den Richtlinien:

  • Um zuzulassen, dass Notizbuchsessions CRUD-Vorgänge für Einträge im Modellkatalog, in Projekten und Notizbuchsession-Ressourcen ausführen, fügen Sie Folgendes hinzu:

    allow dynamic-group data-science-dynamic-group to manage data-science-family in compartment data-science-work
    
  • Um die Ausführung von CRUD-Vorgängen an Datenflussanwendungen zu ermöglichen und diese auszuführen, fügen Sie Folgendes hinzu:

    allow dynamic-group data-science-dynamic-group to manage dataflow-family in compartment data-science-work
  • Um zu ermöglichen, dass Notizbuchsessions Compartments und Benutzernamen im Mandanten auflisten und lesen können, fügen Sie Folgendes hinzu:

    allow dynamic-group data-science-dynamic-group to read compartments in tenancy
    allow dynamic-group data-science-dynamic-group to read users in tenancy
  • Um zuzulassen, dass Modellbereitstellungen Logs an den Logging-Service senden, fügen Sie Folgendes hinzu:

    allow dynamic-group data-science-dynamic-group to use log-content in compartment data-science-work
  • Um die Erstellung von Logs zu ermöglichen und Joblaufdetails im Logging-Service aufzuzeichnen, fügen Sie Folgendes hinzu:

    allow dynamic-group data-science-dynamic-group to use log-groups in compartment data-science-work
  • Um zuzulassen, dass Notizbuchsessions und Modell-Deployments Dateien in Objektspeicher-Buckets lesen und schreiben, fügen Sie Folgendes im Compartment data-science-work hinzu:

    allow dynamic-group data-science-dynamic-group to manage object-family in compartment data-science-work
Tipp

  • Die vorherige Policy lässt zu, dass Modell-Deployments auf einen beliebigen Bucket im Compartment data-science-work zugreifen.
  • Um Modell-Deployments Lesezugriff auf bestimmte Buckets außerhalb des Compartments data-science-work zu erteilen, geben Sie die Bucket-Namen und die Compartments in Ihrer Policy an.
  • Beispiel: Um Modellbereitstellungen den Zugriff auf veröffentlichte Conda-Umgebungen aus dem Bucket published-conda-env und Modellartefakte aus dem Bucket model-artifacts zu ermöglichen, fügen Sie Folgendes hinzu:
    allow dynamic-group data-science-dynamic-group to read objects in compartment <another-compartment> where ANY {target.bucket.name='published-conda-envs', target.bucket.name='model-artifacts'}
  • Wenn Ihre Policy-Anweisungen den Mandanten erwähnen oder Compartments außerhalb des Compartments data-science-work einschließen, wählen Sie im Dialogfeld Policy erstellen für die Option Compartment die Option <your-tenancy> (root) aus. Auf diese Weise kann die Policy neben Ihrem Compartment Regeln für andere Compartments im Mandanten enthalten.

6. Notizbuchsession erstellen

Erstellen Sie schließlich eine Notizbuchsession, und testen Sie deren Zugriff auf das öffentliche Internet.

  1. Öffnen Sie das Navigationsmenü, und wählen Sie Analysen und KI aus. Wählen Sie unter Maschinelles Lernen die Option Data Science aus.
  2. Wählen Sie Projekt erstellen aus.
  3. Wählen Sie das Compartment data-science-work aus.
  4. (Optional) Geben Sie unter Name Initial Project ein.
  5. (Optional) Geben Sie als Beschreibung Mein erstes Projekt ein.
  6. Wählen Sie Erstellen.
  7. Wählen Sie Notizbuchsession erstellen aus.
  8. Wählen Sie unter Compartment die Option data-science-work aus.
  9. (Optional) Geben Sie unter Name my-first-notebook-session ein.
  10. Klicken Sie unter Compute-Ausprägung auf Auswählen.
  11. Wählen Sie die folgenden Optionen:
    • Instanztyp: Virtuelle Maschine
    • Ausprägungsreihe: Intel
    • Ausprägungsname: VM.Standard3. FlexFeld
  12. Für VM.Standard3. Flex: Behalten Sie die Standardzuordnungen bei:
    • Anzahl OCPUs: 1
    • Arbeitsspeicher (GB): 16
  13. Wählen Sie Ausprägung auswählen aus.
  14. Geben Sie unter Blockspeichergröße 100 GB zum Anhängen an die virtuelle Maschine ein.
  15. Wählen Sie Benutzerdefiniertes Networking aus, und wählen Sie das VCN datascience-vcn und das Private Subnet-datascience-vcn-Subnetz aus, um Egress-Traffics aus Ihrer Notizbuchsession zu leiten.
    Anstelle von Benutzerdefiniertes Networking können Sie die Option Standardnetzwerk auswählen, mit der das Networking für Sie erstellt wird. Mit Standardnetzwerk können Sie Schritt 3 überspringen. Abschnitt "VCN und Subnetz erstellen" in diesem Tutorial. In diesem Tutorial werden benutzerdefinierte Netzwerke für Benutzer mit benutzerdefinierten Einstellungen angezeigt, sodass sie die Schritte anzeigen können.
  16. Wählen Sie beim Klicken auf "Erstellen" die Option Detailseite anzeigen.
  17. Wählen Sie Erstellen aus, um die erste Notebook-Session zu erstellen.

    Die Erstellung der Notizbuchsession dauert einige Minuten. Wenn der Status der Notizbuchsession auf Aktiv gesetzt wird, können Sie die Notizbuchsession öffnen.

  18. Wählen Sie Öffnen aus.
  19. Geben Sie Ihre Oracle Cloud Infrastructure-Zugangsdaten ein, um auf die JupyterLab-UI zuzugreifen.
  20. Wenn keine Registerkarte mit dem Namen "Starter" vorhanden ist, wählen Sie Datei, Neuer Starter aus.
  21. Wählen Sie im Launcher unter Andere das Symbol Terminal aus, um eine neue Terminalsession zu starten.
  22. Um einen einfachen Test durchzuführen, prüfen Sie, ob Sie von Ihrer Notizbuchsession aus auf das öffentliche Internet zugreifen können, indem Sie den folgenden Befehl ausführen:

    Es sollte in etwa folgende Antwort angezeigt werden:

    (base) bash-4.2$ wget --spider https://www.oracle.com
    Spider mode enabled. Check if remote file exists.
    --<date>--  https://www.oracle.com/
    Resolving www.oracle.com (www.oracle.com)... 
    Connecting to www.oracle.com (www.oracle.com)... connected.
    HTTP request sent, awaiting response... 200 OK
    Length: unspecified [text/html]
    Remote file exists and could contain further links,
    but recursion is disabled -- not retrieving.

    HTTP request sent, awaiting response... 200 OK gibt einen erfolgreichen Test an. Sie können also in Ihrer Notizbuchsession auf das öffentliche Internet zugreifen.