Configuration manuelle d'une location Data Science

Dans ce tutoriel, vous allez configurer votre location pour Data Science et la tester en créant une session de bloc-notes.

Ce tutoriel est destiné aux administrateurs car ils disposent des droits d'accès requis.

Dans ce tutoriel, vous allez effectuer les opérations suivantes :

1. Création d'un groupe d'analystes de données.

2. Création d'un compartiment pour votre travail.

3. (Facultatif) Création d'un VCN et d'un sous-réseau.

4. Création de stratégies.

5. Création d'un groupe dynamique avec des stratégies.

6. Création d'une session de bloc-notes.

Avant de commencer

Pour effectuer ce tutoriel, vous devez disposer des éléments suivants :

  • Un compte Oracle Cloud Infrastructure (OCI) a payé ou un nouveau compte avec promotions Oracle Cloud. Reportez-vous à Demande et gestion des promotions Oracle Cloud gratuites.

  • Des privilèges administrateur pour le compte OCI.
  • Au moins un utilisateur dans la location qui a besoin d'accéder au service Data Science. Cet utilisateur doit être créé dans IAM.

1. Création d'un groupe d'analystes de données

Créez un groupe d'utilisateurs pour les analystes de données.

  1. Ouvrez un navigateur pris en charge et saisissez l'URL de la console :
    https://cloud.oracle.com
  2. Saisissez votre nom de compte cloud, également appelé nom de location, puis sélectionnez Suivant.
  3. Connectez-vous avec votre nom utilisateur et votre mot de passe.
  4. Ouvrez le menu de navigation et sélectionnez Identité et sécurité. Sous Identité, cliquez sur Domaines.

    La liste des domaines de votre location apparaît.

  5. Sélectionnez le nom du domaine dans lequel vous souhaitez travailler.
  6. Suivez les étapes de la section Création d'un groupe pour créer un groupe.
  7. Nommez le nouveau groupe data-scientists et entrez une description.
  8. Suivez les étapes de la rubrique Ajout d'utilisateurs à un groupe pour ajouter un utilisateur au groupe que vous avez créé.
  9. Répétez l'ajout de tous vos utilisateurs de data scientist au groupe data scientists.

2. Création d'un compartiment pour votre travail

Créez un compartiment pour les ressources de science des données.

  1. Suivez les étapes décrites dans Création d'un compartiment pour créer un compartiment.
  2. Donnez un nom au nouveau compartiment data-science-work et entrez une description.
  3. Vérifiez que le compartiment apparaît dans la liste des compartiments.

3 (Facultatif) Création d'un VCN et d'un sous-réseau

Cette opération est facultative. Lorsque vous créez une session de bloc-notes à l'étape 6. Création d'une session de bloc-notes, vous pouvez choisir de créer un réseau par défaut avec la configuration appropriée pour les sessions de bloc-notes.

Important

Vous pouvez ignorer la création d'un réseau et la configuration de sous-réseaux et de passerelles si vous sélectionnez la mise en réseau par défaut lors de la création d'un bloc-notes. Si la mise en réseau par défaut est configurée dans un bloc-notes, vous ne pouvez pas la modifier lors de la réactivation du bloc-notes.

Cette section indique aux utilisateurs qui ont besoin d'accéder à leurs réseaux cloud virtuels, comment créer un VCN et versions ultérieures, comment sélectionner le sous-réseau recommandé pour les sessions de bloc-notes. Par exemple, si vous exécutez le tutoriel Programmation des exécutions de travail Data Science, créez ce réseau et utilisez-le à la fois pour la session de bloc-notes dans Data Science et pour l'espace de travail dans le service Data Integration.

  1. Suivez les étapes décrites dans Création d'un VCN pour créer un VCN.
  2. Entrez datascience-vcn pour le nom du VCN.
  3. Sélectionnez le compartiment data-science-work. Ce compartiment héberge le VCN que vous créez dans cette section. Il faut du temps pour que ce nouveau compartiment apparaisse dans la liste des compartiments. Actualisez la page jusqu'à ce qu'elle apparaisse.
  4. Pour Configurer le VCN et les sous-réseaux, conservez les valeurs par défaut :
    • Bloc CIDR VCN : 10.0.0.0/16
    • Bloc CIDR de sous-réseau public : 10.0.0.0/24
    • Bloc CIDR de sous-réseau privé : 10.0.1.0/24
    • Utiliser les noms d'hôte DNS dans ce VCN : sélectionné

    Vous utilisez ce VCN et son sous-réseau privé, Private Subnet-datascience-vcn lorsque vous créez une session de bloc-notes.

  5. Sélectionnez Afficher le réseau cloud virtuel pour vérifier le VCN et les sous-réseaux.
Remarque

Pour l'accès sortant au réseau Internet public, nous vous recommandons d'utiliser un sous-réseau privé doté d'un routage vers une passerelle NAT. La passerelle NAT fournit l'accès à Internet aux instances d'un sous-réseau privé. Le VCN que vous créez à cette étape crée un sous-réseau privé avec un accès sortant à Internet via la passerelle NAT du VCN.

4. Création de stratégies

Avant que les utilisateurs démarrent leurs sessions de bloc-notes, vous devez configurer les stratégies Data Science.

  1. Ouvrez le menu de navigation et sélectionnez Identité et sécurité. Sous Identité, cliquez sur Stratégies.
  2. Sélectionnez Créer une stratégie.
  3. Entrez data-science-policy comme nom.
  4. Saisissez Stratégie pour les utilisateurs et services de science des données comme description.
  5. Sélectionnez le compartiment data-science-work.
  6. Sélectionnez Afficher l'éditeur manuel.
  7. Entrez les cinq instructions de stratégie suivantes dans le champ Générateur de stratégies :
    allow service datascience to use virtual-network-family in compartment data-science-work
    allow group data-scientists to manage data-science-family in compartment data-science-work
    allow group data-scientists to use virtual-network-family in compartment data-science-work 
    allow group data-scientists to manage buckets in compartment data-science-work 
    allow group data-scientists to manage objects in compartment data-science-work 
  8. Sélectionnez Créer afin de créer la stratégie.

Explication des stratégies :

  • Pour permettre au service Data Science d'attacher votre VCN à votre session de bloc-notes et d'acheminer le trafic sortant à partir de l'environnement de bloc-notes, ajoutez :

    allow service datascience to use virtual-network-family in compartment data-science-work
  • Pour autoriser le groupe data-scientists à effectuer des opérations sur toutes les ressources Data Science du compartiment data-science-work (projets, sessions de bloc-notes, modèles, déploiements de modèle, demandes de travail, travaux et traitements de travail), ajoutez :

    allow group data-scientists to manage data-science-family in compartment data-science-work
  • Pour permettre à ces data scientists d'utiliser le VCN, vous l'avez créé et attaché à leur session de bloc-notes, ajoutez :

    allow group data-scientists to use virtual-network-family in compartment data-science-work 
  • Pour permettre à ces analystes de créer et de gérer des compartiments, par exemple en ajoutant des artefacts et des environnements conda aux compartiments, ajoutez :

    allow group data-scientists to manage buckets in compartment data-science-work
    allow group data-scientists to manage objects in compartment data-science-work 
Conseil

Au lieu de spécifier les ressources à gérer, telles que les buckets, les objets ou la famille de réseaux virtuels, afin d'autoriser les droits d'administration des analystes de données sur leur compartiment, dans lequel ils peuvent gérer toutes les ressources des services OCI, remplacez les cinq stratégies précédentes par les deux stratégies suivantes :
allow group data-scientists to manage all-resources in compartment data-science-work
allow service datascience to use virtual-network-family in compartment data-science-work 

5. Création d'un groupe dynamique avec des stratégies

Créez un groupe dynamique pour les ressources Data Science et autorisez-le à accéder à d'autres ressources OCI, telles qu'Object Storage et Logging.

Pour accorder des droits d'accès à d'autres ressources OCI, vous devez d'abord ajouter les ressources à un groupe dynamique plutôt qu'à un groupe d'utilisateurs. Ecrivez ensuite des stratégies pour permettre au groupe dynamique d'accéder aux ressources indiquées. Ici, le groupe dynamique dispose de trois ressources Data Science : des sessions de bloc-notes, des déploiements de modèle et des traitements de travail.

  1. Ouvrez le menu de navigation et sélectionnez Identité et sécurité. Sous Identité, cliquez sur Compartiments. .
  2. Sélectionnez le compartiment data-science-work.
  3. Pour l'attribut OCID, cliquez sur Copier afin d'enregistrer l'OCID complet dans le bloc-notes.
  4. Dans la trace qui affiche la page en cours, cliquez sur Compartiments pour revenir à la liste des compartiments.
  5. Suivez les étapes de la section Création d'un groupe dynamique pour créer un groupe dynamique.
  6. Entrez les informations suivantes :
    • Nom : data-science-dynamic-group
    • Description : Groupe dynamique Data Science
  7. Dans la section Règles de mise en correspondance, sélectionnez Mettre en correspondance toutes les règles définies ci-dessous.
  8. Entrez les trois règles de mise en correspondance suivantes. remplacez <compartment-ocid> par l'OCID de compartiment copié.
    Règle 1 :
    ALL {resource.type='datasciencenotebooksession', resource.compartment.id='<compartment-ocid>'}

    La règle de mise en correspondance précédente signifie que toutes les sessions de bloc-notes créées dans le compartiment sont membres de data-science-dynamic-group.

    Cliquez sur Règle supplémentaire et ajoutez la règle suivante :

    Règle 2 :

    ALL {resource.type='datasciencemodeldeployment', resource.compartment.id='<compartment-ocid>'}

    La règle de mise en correspondance précédente signifie que tous les déploiement de modèle créés dans le compartiment sont membres de data-science-dynamic-group.

    Cliquez sur Règle supplémentaire et ajoutez la règle suivante :

    Règle 3 :

    ALL {resource.type='datasciencejobrun', resource.compartment.id='<compartment-ocid>'}

    La règle de mise en correspondance précédente signifie que tous les exécutions de travail créées dans le compartiment sont membres de data-science-dynamic-group.

  9. Sélectionnez Créer.

    Ensuite, écrivez des stratégies pour autoriser les ressources de ce groupe dynamique à accéder à d'autres services OCI.

  10. Dans la trace qui affiche la page en cours, cliquez sur Identité.
  11. Sélectionnez Stratégies.
  12. Sélectionnez Créer une stratégie.
  13. Entrez les informations suivantes :
    • Nom : data-science-dynamic-group-policy
    • Description : Stratégie pour le groupe dynamique Data Science
  14. Au lieu du compartiment data-science-work, sélectionnez le compartiment le plus haut, qui est votre location.
    Important

    La création de votre stratégie échoue si vous n'utilisez pas de location.
  15. Sélectionnez Afficher l'éditeur manuel.
  16. Entrez les instructions de stratégie suivantes dans le champ Générateur de stratégies :
    allow dynamic-group data-science-dynamic-group to manage data-science-family in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to manage dataflow-family in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to read compartments in tenancy
    allow dynamic-group data-science-dynamic-group to read users in tenancy
    allow dynamic-group data-science-dynamic-group to use log-content in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to use log-groups in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to manage object-family in compartment data-science-work
  17. Sélectionnez Créer pour créer la stratégie.

Vous pouvez utiliser ce groupe dynamique pour accorder aux sessions de bloc-notes et aux déploiements de modèle qui se trouvent dans le compartiment data-science-work un accès à d'autres ressources OCI dans la location.

Explication des stratégies :

  • Pour permettre aux sessions de bloc-notes d'effectuer des opérations CRUD sur les entrées des ressources de session de bloc-notes, de projet et de catalogue de modèles, ajoutez les éléments suivants :

    allow dynamic-group data-science-dynamic-group to manage data-science-family in compartment data-science-work
    
  • Pour permettre aux sessions de bloc-notes d'effectuer des opérations CRUD sur les applications et les exécutions Data Flow, ajoutez :

    allow dynamic-group data-science-dynamic-group to manage dataflow-family in compartment data-science-work
  • Pour permettre aux sessions de bloc-notes de répertorier et de lire les compartiments et les noms utilisateur qui sont dans la location, ajoutez les éléments suivants :

    allow dynamic-group data-science-dynamic-group to read compartments in tenancy
    allow dynamic-group data-science-dynamic-group to read users in tenancy
  • Pour permettre aux déploiements de modèle d'envoyer des journaux au service Logging, ajoutez :

    allow dynamic-group data-science-dynamic-group to use log-content in compartment data-science-work
  • Pour permettre aux exécutions de travail de créer des journaux et d'enregistrer les détails de traitement de travail dans le service Logging, ajoutez :

    allow dynamic-group data-science-dynamic-group to use log-groups in compartment data-science-work
  • Pour permettre aux sessions de bloc-notes et aux déploiements de modèle de lire et d'écrire des fichiers dans les buckets Object Storage, dans le compartiment data-science-work, ajoutez ce qui suit :

    allow dynamic-group data-science-dynamic-group to manage object-family in compartment data-science-work
Conseil

  • La stratégie précédente permet aux Déploiements de modèle d'accéder à n'importe quel bucket du compartiment data-science-work.
  • Pour accorder aux déploiements de modèle un accès en lecture à des buckets spécifiques en dehors au compartiment data-science-work, indiquez les noms des buckets et leurs compartiments dans la stratégie.
  • Par exemple, pour permettre aux déploiements de modèle d'accéder aux environnements conda publiés du bucket published-conda-env et aux artefacts de modèle du bucket model-artifacts, ajoutez :
    allow dynamic-group data-science-dynamic-group to read objects in compartment <another-compartment> where ANY {target.bucket.name='published-conda-envs', target.bucket.name='model-artifacts'}
  • Si vos instructions de stratégie mentionnent la location ou incluent des compartiments en dehors du compartiment data-science-work, sélectionnez <your-tenancy> (root) dans la boîte de dialogue Créer une stratégie pour l'option Compartiment. De cette façon, en plus de votre compartiment, la stratégie peut inclure des règles pour d'autres compartiments dans la location.

6. Création d'une session de bloc-notes

Enfin, créez une session de bloc-notes et testez son accès au réseau Internet public.

  1. Ouvrez le menu de navigation et sélectionnez Analytics et IA. Sous Machine Learning, sélectionnez Data Science.
  2. Sélectionnez Créer un projet.
  3. Sélectionnez le compartiment data-science-work.
  4. (Facultatif) Saisissez Projet initial dans le champ Nom.
  5. (Facultatif) Entrez mon premier projet dans le champ Description.
  6. Sélectionnez Créer.
  7. Sélectionnez Créer une session de bloc-notes.
  8. Pour Compartiment, sélectionnez data-science-work.
  9. (Facultatif) Saisissez my-first-notebook-session dans le champ Nom.
  10. Pour Forme de calcul, cliquez sur Sélectionner.
  11. Choisissez les options suivantes :
    • Type d'instance : machine virtuelle
    • Série de formes : Intel
    • Nom de forme : VM.Standard3. Champ flexible
  12. Pour VM.Standard3. Flex, conservez les allocations par défaut :
    • Nombre d'OCPU : 1
    • Quantité de mémoire (Go): 16
  13. Sélectionnez Sélectionner une forme.
  14. Pour Taille de stockage de blocs, entrez 100 Go à attacher à la machine virtuelle.
  15. Sélectionnez Réseau de réseau personnalisé, puis le VCN datascience-vcn et le sous-réseau Private Subnet-datascience-vcn pour acheminer le trafic sortant de votre session de bloc-notes.
    Au lieu de la mise en réseau personnalisée, vous pouvez choisir l'option Mise en réseau par défaut qui crée la mise en réseau pour vous. Avec Default networking, vous pouvez ignorer l'Step 3. Création d'une section VCN et sous-réseau de ce tutoriel. Ce tutoriel présente les fonctions de réseau personnalisées pour les utilisateurs avec des paramètres personnalisés, afin qu'ils puissent voir les étapes.
  16. Sélectionnez Afficher la page de détails en cliquant sur Créer.
  17. Sélectionnez Créer pour créer votre première session de bloc-notes.

    La création de la session de bloc-notes prend quelques minutes. Lorsque le statut de la session de bloc-notes devient Actif, vous pouvez ouvrir la session de bloc-notes.

  18. Sélectionnez Open.
  19. Saisissez vos informations d'identification Oracle Cloud Infrastructure pour accéder à l'interface utilisateur JupyterLab.
  20. Si vous ne disposez pas de l'onglet nommé Lanceur, sélectionnez Fichier, puis Nouveau lanceur.
  21. Dans le lanceur, sous Autre, sélectionnez l'icône Terminal pour démarrer une nouvelle session de terminal.
  22. Pour effectuer un test simple, vérifiez que vous pouvez accéder au réseau Internet public à partir de votre session de bloc-notes en exécutant la commande suivante :

    Vous devez voir apparaître une réponse identique à la suivante :

    (base) bash-4.2$ wget --spider https://www.oracle.com
    Spider mode enabled. Check if remote file exists.
    --<date>--  https://www.oracle.com/
    Resolving www.oracle.com (www.oracle.com)... 
    Connecting to www.oracle.com (www.oracle.com)... connected.
    HTTP request sent, awaiting response... 200 OK
    Length: unspecified [text/html]
    Remote file exists and could contain further links,
    but recursion is disabled -- not retrieving.

    L'élément HTTP request sent, awaiting response... 200 OK indique la réussite du test et l'accès au réseau Internet public dans votre session de bloc-notes.