Configuration manuelle d'une location du service de science des données

Dans ce tutoriel, vous allez configurer votre location pour le service de science des données et la tester en créant une session de carnet.

Ce tutoriel est destiné aux administrateurs car ils disposent des autorisations d'accès requises.

Ce tutoriel décrit comment effectuer les opérations suivantes :

1. Création d'un groupe d'utilisateurs experts en science des données.

2. Création d'un compartiment pour votre travail.

3. (Facultatif) Création d'un VCN et d'un sous-réseau.

4. Création de politiques.

5. Création d'un groupe dynamique avec des politiques.

6. Création d'une session de carnet.

Avant de commencer

Pour suivre ce tutoriel, vous devez disposer des éléments suivants :

  • Un compte Oracle Cloud Infrastructure (OCI) payant ou un nouveau compte avec des promotions Oracle Cloud. Voir Demander et gérer des promotions pour un essai gratuit d'Oracle Cloud.

  • Privilège d'administrateur pour le compte OCI.
  • Au moins un utilisateur de votre location qui souhaite accéder au service de science des données. Cet utilisateur doit être créé dans IAM.

1. Création d'un groupe d'utilisateurs experts en science des données

Créez un groupe d'utilisateurs dans lequel les experts en science des données pourront travailler.

  1. Ouvrez un navigateur pris en charge et entrez l'URL de la console :
    https://cloud.oracle.com
  2. Entrez le nom de votre compte en nuage, également appelé nom de votre location, et sélectionnez Suivant.
  3. Connectez-vous avec vos nom d'utilisateur et mot de passe.
  4. Ouvrez le menu de navigation et sélectionnez Identité et sécurité. Sous Identity, cliquez sur Domains.

    Une liste des domaines de votre location s'affiche.

  5. Sélectionnez le nom du domaine dans lequel vous souhaitez travailler.
  6. Suivez les étapes sous Création d'un groupe pour créer un groupe.
  7. Nommez le nouveau groupe data-scientists et entrez une description.
  8. Suivez les étapes sous Ajout d'utilisateurs à un groupe pour ajouter un utilisateur au groupe que vous avez créé.
  9. Répétez l'ajout de tous vos utilisateurs spécialistes des données au groupe Data-scientists.

2. Création d'un compartiment pour votre travail

Créez un compartiment pour vos ressources de science des données.

  1. Suivez les étapes sous Création d'un compartiment pour créer un compartiment.
  2. Nommez le nouveau compartiment data-science-work et entrez une description.
  3. Vérifiez que le compartiment apparaît dans la liste des compartiments.

3 (Facultatif) Création d'un VCN et d'un sous-réseau

Cette étape est facultative. Lorsque vous créez une session de carnet à l'étape 6. Création d'une session de carnet, vous pouvez choisir de créer un réseau par défaut avec la configuration appropriée pour les sessions de carnet.

Important

Vous pouvez ignorer la création d'un réseau et la configuration de sous-réseaux et de passerelles si vous sélectionnez le réseau par défaut lors de la création d'un carnet. Si le réseau par défaut est configuré dans un carnet, vous ne pouvez pas le modifier lors de la réactivation du carnet.

Cette section présente les utilisateurs qui ont besoin d'accéder à leurs réseaux en nuage virtuels, comment créer un VCN et versions ultérieures, comment sélectionner le sous-réseau recommandé pour les sessions de carnet. Par exemple, si vous exécutez le tutoriel Programmation des exécutions de travail du service de science des données, vous créez ce réseau et vous l'utilisez à la fois pour la session de carnet dans le service de science des données et pour l'espace de travail dans le service d'intégration de données.

  1. Suivez les étapes sous Création d'un VCN pour créer un VCN.
  2. Entrez datascience-vcn dans le champ Nom du VCN.
  3. Sélectionnez le compartiment data-science-work. Ce compartiment héberge le VCN que vous créez dans cette section. Il faut du temps pour que ce nouveau compartiment apparaisse dans la liste des compartiments. Actualisez la page jusqu'à ce qu'elle apparaisse.
  4. Pour Configurer le VCN et les sous-réseaux, conservez les valeurs par défaut :
    • Bloc CIDR du VCN : 10.0.0.0/16
    • Bloc CIDR de sous-réseau public : 10.0.0.0/24
    • Bloc CIDR de sous-réseau privé : 10.0.1.0/24
    • Utiliser les noms d'hôte DNS dans ce VCN : sélectionné

    Vous utilisez ce VCN et son sous-réseau privé, Private Subnet-datascience-vcn lorsque vous créez une session de carnet.

  5. Sélectionnez Voir le réseau en nuage virtuel pour vérifier le VCN et les sous-réseaux.
Note

Pour l'accès sortant à l'Internet public, nous recommandons d'utiliser un sous-réseau privé avec une route vers une passerelle NAT. Une passerelle NAT permet aux instances d'un sous-réseau privé d'accéder à Internet. Le VCN que vous créez à cette étape crée un sous-réseau privé avec accès sortant à Internet au moyen de la passerelle NAT du VCN.

4. Création de politiques

Avant que les utilisateurs démarrent leurs sessions de carnet, vous devez configurer les politiques du service de science des données.

  1. Ouvrez le menu de navigation et sélectionnez Identité et sécurité. Sous identité, cliquez sur Politiques.
  2. Sélectionnez Créer une politique.
  3. Entrez data-science-policy dans le champ Nom.
  4. Entrez la Policy for Data Science users and serviceDescription.
  5. Sélectionnez le compartiment data-science-work.
  6. Sélectionnez Show manual editor.
  7. Entrez les cinq énoncés suivants dans le champ Générateur de politiques :
    allow service datascience to use virtual-network-family in compartment data-science-work
    allow group data-scientists to manage data-science-family in compartment data-science-work
    allow group data-scientists to use virtual-network-family in compartment data-science-work 
    allow group data-scientists to manage buckets in compartment data-science-work 
    allow group data-scientists to manage objects in compartment data-science-work 
  8. Sélectionnez Créer pour créer votre politique.

Explication des politiques :

  • Pour autoriser le service de science des données à attacher votre VCN à votre session de carnet et à acheminer le trafic sortant depuis l'environnement du carnet, ajoutez :

    allow service datascience to use virtual-network-family in compartment data-science-work
  • Pour permettre au groupe data-scientists d'effectuer des opérations sur toutes les ressources du service de science des données dans le compartiment data-science-work (projets, sessions de carnet, modèles, déploiements de modèle, demandes de travail, tâches et exécutions de travail), ajoutez :

    allow group data-scientists to manage data-science-family in compartment data-science-work
  • Pour permettre aux scientifiques de données d'utiliser le VCN que vous avez créé et de l'attacher à leur session de carnet, ajoutez :

    allow group data-scientists to use virtual-network-family in compartment data-science-work 
  • Pour permettre à ces scientifiques de créer et de gérer des seaux, tels que leur ajouter des artefacts et des environnements Conda, ajoutez :

    allow group data-scientists to manage buckets in compartment data-science-work
    allow group data-scientists to manage objects in compartment data-science-work 
Conseil

Au lieu de spécifier les ressources à gérer telles que les seaux, les objets ou la famille de réseau virtuel, pour autoriser les droits d'administration des experts en science des données à leur compartiment, dans lesquels ils peuvent gérer toutes les ressources des services OCI, remplacez les cinq politiques précédentes par les deux politiques suivantes :
allow group data-scientists to manage all-resources in compartment data-science-work
allow service datascience to use virtual-network-family in compartment data-science-work 

5. Création d'un groupe dynamique avec des politiques

Créez un groupe dynamique pour les ressources du service de science des données et autorisez ce groupe à accéder à d'autres ressources OCI, telles que les services de stockage d'objets et de journalisation.

Pour autoriser les ressources OCI à accéder à d'autres, vous devez d'abord les ajouter à un groupe dynamique au lieu d'un groupe d'utilisateurs. Ensuite, vous écrivez des politiques pour permettre au groupe dynamique d'accéder aux ressources spécifiées. Ici, votre groupe dynamique dispose de trois ressources pour le service de science des données : sessions de carnet, d déploiements de modèle et exécutions de travail.

  1. Ouvrez le menu de navigation et sélectionnez Identité et sécurité. Sous Identity, cliquez sur Compartments.
  2. Sélectionnez le compartiment data-science-work.
  3. Pour l'attribut OCID, cliquez sur Copier pour enregistrer l'OCID dans votre bloc-notes.
  4. Dans la piste qui affiche la page courante, cliquez sur Compartiments pour retourner à la liste des compartiments.
  5. Suivez les étapes sous Création d'un groupe dynamique pour créer un groupe dynamique.
  6. Entrez les informations suivantes :
    • Name (Nom) : data-science-dynamic-group
    • Description : Data Science dynamic group
  7. Dans la section Règles de correspondance, sélectionnez Correspondance avec les règles définies ci-dessous.
  8. Entrez les trois règles de correspondance suivantes. Remplacer <compartment-ocid> par l'OCID du compartiment que vous avez copié.
    Règle 1 :
    ALL {resource.type='datasciencenotebooksession', resource.compartment.id='<compartment-ocid>'}

    La règle de correspondance précédente signifie que toutes les sessions de carnet créées dans votre compartiment sont membres de data-science-dynamic-group.

    Cliquez sur Règle supplémentaire et ajoutez la règle suivante :

    Règle 2 :

    ALL {resource.type='datasciencemodeldeployment', resource.compartment.id='<compartment-ocid>'}

    La règle de correspondance précédente signifie que tous les déploiements de modèle créés dans votre compartiment sont membres de data-science-dynamic-group.

    Cliquez sur Règle supplémentaire et ajoutez la règle suivante :

    Règle 3 :

    ALL {resource.type='datasciencejobrun', resource.compartment.id='<compartment-ocid>'}

    La règle de correspondance précédente signifie que toutes les exécutions de travail créées dans votre compartiment sont membres de data-science-dynamic-group.

  9. Sélectionnez Créer.

    Ensuite, écrivez des politiques pour permettre aux ressources de ce groupe dynamique d'accéder à d'autres services OCI.

  10. Dans la piste qui affiche la page courante, cliquez sur Identité.
  11. Sélectionnez des politiques.
  12. Sélectionnez Créer une politique.
  13. Entrez les informations suivantes :
    • Name (Nom) : data-science-dynamic-group-policy
    • Description : Politique pour le groupe dynamique du service de science des données
  14. Au lieu du compartiment data-science-work, sélectionnez celui de niveau supérieur, soit votre location.
    Important

    La création de votre politique échoue si vous n'utilisez pas de location.
  15. Sélectionnez Show manual editor.
  16. Entrez les énoncés suivants dans le champ Générateur de politiques :
    allow dynamic-group data-science-dynamic-group to manage data-science-family in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to manage dataflow-family in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to read compartments in tenancy
    allow dynamic-group data-science-dynamic-group to read users in tenancy
    allow dynamic-group data-science-dynamic-group to use log-content in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to use log-groups in compartment data-science-work
    allow dynamic-group data-science-dynamic-group to manage object-family in compartment data-science-work
  17. Sélectionnez Créer pour créer la politique.

Vous pouvez utiliser ce groupe dynamique pour donner aux sessions de carnet et aux déploiements de modèle qui se trouvent dans le compartiment data-science-work, l'accès à d'autres ressources OCI de la location.

Explication des politiques :

  • Pour permettre aux sessions de carnet d'effectuer des opérations de CRUD sur les entrées du catalogue de modèles, les projets et les ressources de session de carnet, ajoutez :

    allow dynamic-group data-science-dynamic-group to manage data-science-family in compartment data-science-work
    
  • Pour permettre aux sessions de carnet d'effectuer des opérations de CRUD sur les applications et les exécutions du service de flux de données, ajoutez :

    allow dynamic-group data-science-dynamic-group to manage dataflow-family in compartment data-science-work
  • Pour permettre aux sessions de carnet de répertorier et de lire les compartiments et les noms d'utilisateur qui se trouvent dans la location, ajoutez :

    allow dynamic-group data-science-dynamic-group to read compartments in tenancy
    allow dynamic-group data-science-dynamic-group to read users in tenancy
  • Pour permettre aux déploiements de modèle d'envoyer des journaux au service de journalisation, ajoutez :

    allow dynamic-group data-science-dynamic-group to use log-content in compartment data-science-work
  • Pour permettre aux exécutions de travail de créer des journaux et d'enregistrer leurs détails dans le service de journalisation, ajoutez :

    allow dynamic-group data-science-dynamic-group to use log-groups in compartment data-science-work
  • Pour permettre aux sessions de carnet et aux déploiements de modèle de lire et d'écrire des fichiers dans les seaux de stockage d'objets, dans le compartiment data-science-work, ajoutez :

    allow dynamic-group data-science-dynamic-group to manage object-family in compartment data-science-work
Conseil

  • La politique précédente permet aux déploiements de modèle d'accéder à n'importe quel seau du compartiment data-science-work.
  • Pour accorder aux déploiements de modèle l'accès en lecture à des seaux spécifiques à l'extérieur du compartiment data-science-work, indiquez le nom de ces derniers et leurs compartiments dans votre politique.
  • Exemple : Pour permettre aux déploiements de modèle d'accéder aux environnements Conda publiés à partir du seau published-conda-env et aux artefacts de modèle à partir du seau model-artifacts, ajoutez :
    allow dynamic-group data-science-dynamic-group to read objects in compartment <another-compartment> where ANY {target.bucket.name='published-conda-envs', target.bucket.name='model-artifacts'}
  • Si vos énoncés de politique mentionnent une location ou incluent des compartiments en dehors du compartiment data-science-work, dans la boîte de dialogue Créer une politique, pour l'option Compartiment, sélectionnez <your-tenancy> (root). De cette façon, en plus de votre compartiment, la politique peut inclure des règles pour les autres compartiments de la location.

6. Création d'une session de carnet

En dernier lieu, créez une session de carnet et testez l'accès au réseau Internet public.

  1. Ouvrez le menu de navigation et sélectionnez Analyse et intelligence artificielle. Sous Apprentissage automatique, sélectionnez Science des données.
  2. Sélectionnez Créer un projet.
  3. Sélectionnez le compartiment data-science-work.
  4. (Facultatif) Entrez Projet initial dans le champ Nom.
  5. (Facultatif) Entrez my first projet dans le champ Description.
  6. Sélectionnez Créer.
  7. Sélectionnez Créer une session de carnet.
  8. Pour Compartiment, sélectionnez data-science-work.
  9. (Facultatif) Entrez my-first-notebook-session dans le champ Nom.
  10. Pour Forme de calcul, cliquez sur Sélectionner.
  11. Choisissez les options suivantes :
    • Type d'instance : Machine virtuelle :
    • Série de formes : Intel
    • Nom de la forme : VM.Standard3. Champ flexible
  12. Pour VM.Standard3. Flex, conservez les allocations par défaut :
    • Nombre d'OCPU : 1
    • Quantité de mémoire (Go) : 16
  13. Sélectionnez Sélectionner une forme.
  14. Pour Taille du stockage par blocs, entrez 100 Go à attacher à votre machine virtuelle.
  15. Sélectionnez Réseau personnalisé, puis sélectionnez le VCN datascience-vcn et le sous-réseau Private Subnet-datascience-vcn pour acheminer le trafic sortant depuis votre session de carnet.
    Au lieu de Réseau personnalisé, vous pouvez sélectionner l'option Réseau par défaut qui crée le réseau pour vous. Avec le réseau par défaut, vous pouvez ignorer l'étape 3. Création d'une section VCN et d'un sous-réseau de ce tutoriel. Ce tutoriel présente la mise en réseau personnalisée pour les utilisateurs ayant des paramètres personnalisés, afin qu'ils puissent voir les étapes.
  16. SélectionnezVoir la page des détails en cliquant sur Créer.
  17. Sélectionnez Créer pour créer votre première session de carnet.

    La création de la session de carnet prend quelques minutes. Lorsque le statut de la session de carnet passe à Actif, vous pouvez ouvrir la session de carnet.

  18. Sélectionnez Ouvrir.
  19. Entrez vos données d'Oracle Cloud Infrastructure pour accéder à l'interface JupyterLab.
  20. Si vous n'avez pas d'onglet nommé Lanceur, sélectionnez Fichier, puis Nouveau lanceur.
  21. Dans le lanceur, sous Autre, sélectionnez l'icône Terminal pour démarrer une nouvelle session de terminal.
  22. Pour effectuer un test simple, vérifiez que vous pouvez accéder à l'Internet public à partir de votre session de carnet en exécutant cette commande :

    Une réponse semblable à la suivante doit s'afficher :

    (base) bash-4.2$ wget --spider https://www.oracle.com
    Spider mode enabled. Check if remote file exists.
    --<date>--  https://www.oracle.com/
    Resolving www.oracle.com (www.oracle.com)... 
    Connecting to www.oracle.com (www.oracle.com)... connected.
    HTTP request sent, awaiting response... 200 OK
    Length: unspecified [text/html]
    Remote file exists and could contain further links,
    but recursion is disabled -- not retrieving.

    HTTP request sent, awaiting response... 200 OK indique que le test a abouti et que vous avez accès à l'Internet public à partir de votre session de carnet.