Création d'un travail

Créez et exécutez un travail dans Data Science.

Avant de commencer

Assurez-vous que vous avez créé les stratégies, l'authentification et l'autorisation nécessaires pour vos travaux.
Créez un fichier d'artefact de travail ou créez un conteneur personnalisé.
Pour stocker et gérer les journaux des travaux, apprenez-en plus sur la journalisation.
Pour utiliser les montages de stockage, vous devez disposer d'un bucket Object Storage ou d'une cible de montage et d'un chemin d'export OCI File Storage Service (FSS).
Pour les montages de stockage, assurez-vous que vous disposez de l'autorisation d'utilisation des montages de stockage.
Pour utiliser FSS, vous devez d'abord créer le système de fichiers et le point de montage. Utilisez l'option de mise en réseau personnalisée et vérifiez que la cible de montage et le bloc-notes sont configurés avec le même sous-réseau. Configurez les règles de liste de sécurité pour le sous-réseau avec les ports et protocoles spécifiques.

Assurez-vous que les limites de service sont allouées à file-system-count et à mount-target-count.

1. Dans la page de liste Projets, sélectionnez le projet contenant les travaux à utiliser. Si vous avez besoin d'aide pour trouver la page de liste ou le projet, reportez-vous à la rubrique Liste des projets.
2. Sur la page de détails du projet, sélectionnez Travaux.
3. Sélectionnez Créer un travail.
  La page Créer un job s'ouvre.
Informations de base
Sélectionnez un ou plusieurs noeuds et fournissez des informations d'identification.
- Type de travail : sélectionnez l'option appropriée.
  
  Noeud unique : une machine pour le travail.
  
  Noeuds multiples : plusieurs noeuds pour un travail exigeant.
- Compartiment (facultatif) : sélectionnez un autre compartiment pour le travail.
- Nom (facultatif) : entrez le nom du travail (255 caractères maximum). Si vous n'indiquez aucun nom, un nom est automatiquement généré. Exemple : job20210808222435
Configuration
Saisissez les informations suivantes.
- Ajouter un groupe de noeuds (travaux multinoeuds uniquement) : sélectionnez cette option pour ajouter une configuration de groupe de noeuds. Ajoutez jusqu'à 5 groupes de noeuds.
  
  Nom : entrez un nom unique pour le groupe de noeuds.
  
  Répliques : entrez le nombre de répliques.
  
  Nombre minimal de répliques réussies : entrez le nombre minimal de répliques devant réussir.
  
  Champs astérisqués (*)
  
  (Facultatif) Si vous avez plusieurs groupes de noeuds, indiquez l'ordre de démarrage du groupe de noeuds, en parallèle ou en séquence.
- Clé de variable d'environnement personnalisée* (facultatif) : variables d'environnement qui contrôlent le travail.
  Remarque
  
  Si vous avez téléchargé le fichier ZIP ou le fichier TAR compressé, ajoutez JOB_RUN_ENTRYPOINT en tant que variable d'environnement personnalisée pour pointer vers le fichier.
- Valeur* (facultatif) : valeur de la clé de variable d'environnement personnalisée.
- Arguments de ligne de commande* (facultatif) : arguments de ligne de commande à utiliser pour exécuter le travail.
- Exécution maximale (en minutes) (facultatif) : nombre maximal de minutes durant lesquelles le travail peut être exécuté. Le service annule le traitement de travail si sa durée dépasse la valeur indiquée. La durée d'exécution maximale est de 30 jours (43 200 minutes). Nous vous recommandons de configurer une durée d'exécution maximale pour tous les traitements de travail afin d'éviter les blocages.
- Modifier la forme* (facultatif) : modifiez la forme de calcul en sélectionnant Modifier la forme. Ensuite, suivez ces étapes dans le panneau Sélectionner une forme de calcul.
  
  Sélectionner un type d'instance.
  
  Sélectionnez une série de formes.
  
  Sélectionnez l'une des formes de calcul prises en charge de la série. Sélectionnez la forme qui convient Le mieux à l'utilisation de la ressource.
  
  Développez la forme sélectionnée pour configurer les OCPU et la mémoire.
  
  Nombre d'OCPU
  
  Montant de mémoire (Go) : pour chaque OCPU, sélectionnez jusqu'à 64 Go de mémoire et un total maximal de 512 Go. La quantité minimale de mémoire autorisée est 1 Go ou une valeur correspondant au nombre d'OCPU, la valeur la plus élevée étant retenue.
  
  Activer la forme éclatable : sélectionnez cette option si vous utilisez des machines virtuelles éclatables, puis, pour Utilisation de référence par OCPU, sélectionnez le pourcentage d'OCPU que vous souhaitez généralement utiliser. Les valeurs prises en charge sont 12,5 % et 50 %. (Pour les déploiements de modèle, seule la valeur de 50 % est prise en charge.)
  
  Sélectionnez Sélectionner une forme.
- Stockage : entrez la quantité de stockage de blocs à utiliser entre 50 Go et 10, 240 Go (10 To). Vous pouvez modifier cette valeur par incrément de 1 Go.
- Ressources réseau : sélectionnez l'option appropriée.
  
  Mise en réseau par défaut : limite le trafic aux services Oracle uniquement. Le système utilise le réseau géré par le service existant. La charge globale est attachée à l'aide d'une carte d'interface réseau virtuelle secondaire à un VCN et à un sous-réseau préconfigurés et gérés par le service. Ce sous-réseau fourni permet d'accéder au réseau Internet public via une passerelle NAT et d'accéder à d'autres services Oracle Cloud via une passerelle de service.
  Si vous avez besoin d'accéder uniquement au réseau Internet public et aux services OCI, nous vous recommandons d'utiliser cette option. Il n'est pas nécessaire de créer des ressources réseau ni d'écrire des stratégies pour les droits d'accès réseau.
  
  Mise en réseau par défaut avec Internet : autorise l'accès Internet sortant via la passerelle NAT Data Science.
  Remarque
  
  Vous ne pouvez pas utiliser la mise en réseau par défaut avec Internet dans les domaines déconnectés et les locations de développement Oracle. Si votre location ou votre compartiment dispose d'une stratégie de zone de sécurité Data Science qui refuse l'accès au réseau public (par exemple, deny model_deploy_public_network - Reportez-vous à Stratégie de zone de sécurité Data Science), l'option d'accès Internet public géré par le service est désactivée. Si vous essayez d'utiliser cette option, vous recevez une erreur 404 NotAuthorizedOrNotFound.
  
  Mise en réseau personnalisée : sélectionnez le VCN et le sous-réseau (par compartiment) à utiliser.
  Pour l'accès sortant au réseau Internet public, utilisez un sous-réseau privé doté d'un routage vers une passerelle NAT.
  Remarque
  
  La mise en réseau personnalisée doit être utilisée pour utiliser un montage de stockage de fichiers.
  
  Le passage d'un réseau personnalisé à un réseau géré n'est pas pris en charge après sa création.
  
  Si la bannière The specified subnet is not accessible. Select a different subnet. apparaît, créez une stratégie qui permet à Data Science d'utiliser des fonctions de réseau personnalisées. Reportez-vous à Stratégies.
- Télécharger l'artefact de travail vers le serveur (facultatif si BYOC est configuré) : téléchargez l'artefact de travail vers le serveur en faisant glisser le fichier d'artefact de travail requis vers la zone.
Remarque

Un astérisque (*) pour un champ indique un placement différent pour les travaux à plusieurs noeuds. Si vous créez un travail à plusieurs noeuds, recherchez le champ en ajoutant un groupe de noeuds : sous Configuration, sélectionnez Ajouter un groupe de noeuds. Le champ apparaît dans le panneau Ajouter un groupe de noeuds.
Configuration supplémentaire
Saisissez les informations suivantes.
- Activer la journalisation (facultatif) : configurez la journalisation.
  
  Compartiment du groupe de journaux : sélectionnez le compartiment qui contient le groupe de journaux.
  
  Groupes de journaux : sélectionnez le groupe de fichiers journaux.
  
  Activer la création automatique de journal : sélectionnez cette option pour créer automatiquement un journal au démarrage du travail. Le journal créé stocke tous les messages stdout et stderr.
  
  Sélectionner un journal : sélectionnez cette option (et sélectionnez un journal existant) pour stocker tous les messages stdout et stderr.
- Activer BYOC / Configuration d'environnement > Sélectionner* (requis pour les travaux à plusieurs noeuds) : configurez un environnement pour utiliser votre propre conteneur (BYOC).
  
  Compartiment : sélectionnez le compartiment qui contient le référentiel.
  
  Référentiel : sélectionnez un référentiel dans l'arborescence.
  
  Image : sélectionnez l'image que vous voulez utiliser.
  
  Point d'entrée : entrez un point d'entrée.
  
  CMD : entrez une commande.
  Remarque
  
  Utilisez CMD comme arguments pour ENTRYPOINT ou comme seule commande à exécuter en l'absence de ENTRYPOINT.
  
  Condensé d'image : entrez un condensé d'image.
  
  ID de signature : si vous utilisez la vérification de signature, entrez l'OCID de la signature d'image. Exemple : ocid1.containerimagesignature.oc1.iad.aaaaaaaaab...
- Montages de stockage de fichiers (facultatif) : sélectionnez Ajouter un montage de stockage de fichiers et entrez les informations suivantes.
  
  Compartiment : sélectionnez le compartiment qui contient la cible à monter.
  
  Cible de montage : cible de montage à utiliser.
  
  Chemin d'export : chemin d'export à utiliser.
  
  Chemin et répertoire de destination : entrez le chemin à utiliser pour le montage du stockage.
  Le chemin doit commencer par un caractère alphanumérique. Le répertoire de destination doit être unique dans les montages de stockage fournis. Les caractères autorisés sont les caractères alphanumériques, le tiret ( - ) et le trait de soulignement ( _ ).
  Vous pouvez indiquer le chemin d'accès complet, par exemple /opc/storage-directory. Si seul un répertoire est spécifié, tel que /storage-directory, il est monté sous le répertoire /mnt par défaut. Vous ne pouvez pas indiquer de répertoires propres au système d'exploitation, tels que /bin ou /etc.
- Montages de stockage d'objet (facultatif) : sélectionnez Ajouter un montage de stockage d'objet et entrez les informations suivantes.
  
  Compartiment : sélectionnez le compartiment qui contient le bucket à monter.
  
  Bucket : sélectionnez le bucket à utiliser.
  
  Préfixe de nom d'objet (facultatif) : préfixe de nom d'objet. Le préfixe doit commencer par un caractère alphanumérique. Les caractères autorisés sont les caractères alphanumériques, la barre oblique ( / ), le trait d'union ( - ) et le trait de soulignement ( _ ).
  
  Chemin et répertoire de destination : entrez le chemin à utiliser pour le montage du stockage.
  Le chemin doit commencer par un caractère alphanumérique. Le répertoire de destination doit être unique dans les montages de stockage fournis. Les caractères autorisés sont les caractères alphanumériques, le tiret ( - ) et le trait de soulignement ( _ ).
  Vous pouvez indiquer le chemin complet, tel que /opc/storage-directory. Si seul un répertoire est indiqué, tel que /storage-directory, il est monté sous le répertoire /mnt par défaut. Vous ne pouvez pas indiquer de répertoires spécifiques au système d'exploitation, tels que /bin ou /etc.
  
  Remarque
  
  Si vous utilisez des fonctions de réseau personnalisées :
  
  Créez la passerelle de service dans le VCN.
  
  Pour les configurations de table de routage dans le sous-réseau privé, ajoutez la passerelle de service.
  
  Modifiez les règles sortantes de la liste de sécurité du sous-réseau requis pour autoriser le trafic vers tous les services du réseau.
- Sonde* (requis pour les travaux multinoeuds) : configurez la sonde de démarrage.
  
  Sélectionnez Sélectionner.
  
  Dans le panneau Sondes, entrez les informations suivantes.
  
  Commande
  
  Délai initial (en secondes)
  
  Période
  
  Seuil d'échec
  
  Sélectionnez Save (Enregistrer).
- Balises (sous Options avancées) : ajoutez des balises au travail. Si vous disposez des droits d'accès nécessaires pour créer une ressource, vous disposez également de droits d'accès permettant d'appliquer des balises à format libre à cette ressource. Pour appliquer une balise définie, vous devez disposer des droits d'accès permettant d'utiliser l'espace de noms de la balise. Pour plus d'informations sur le balisage, reportez-vous à Balises de ressource. Si vous n'êtes pas certain d'appliquer des balises, ignorez cette option ou demandez à un administrateur. Vous pouvez appliquer des balises ultérieurement.
Remarque

Un astérisque (*) pour un champ indique un placement différent pour les travaux à plusieurs noeuds. Si vous créez un travail à plusieurs noeuds, recherchez le champ en ajoutant un groupe de noeuds : sous Configuration, sélectionnez Ajouter un groupe de noeuds. Le champ apparaît dans le panneau Ajouter un groupe de noeuds.
Vérifier et créer

Vérifiez la configuration, puis sélectionnez Créer.

Une fois que le travail est actif, vous pouvez utiliser des traitements de travail pour le lancer de façon répétée.

Ces variables d'environnement contrôlent le travail.

Utilisez l'interface de ligne de commande Data Science pour créer un travail, comme dans l'exemple suivant :

Créez un travail :

oci data-science job create \
--display-name <job_name>\
--compartment-id <compartment_ocid>\
--project-id <project_ocid> \
--configuration-details file://<jobs_configuration_json_file> \
--infrastructure-configuration-details file://<jobs_infrastructure_configuration_json_file> \
--log-configuration-details file://<optional_jobs_infrastructure_configuration_json_file>

Utilisez le fichier JSON de configuration des travaux suivant :

{
  "jobType": "DEFAULT",
  "maximumRuntimeInMinutes": 240,
  "commandLineArguments" : "test-arg",
  "environmentVariables": {
    "SOME_ENV_KEY": "some_env_value" 
  }
}

Utilisez le fichier JSON de configuration d'infrastructure des travaux suivant :

{
  "jobInfrastructureType": "STANDALONE",
  "shapeName": "VM.Standard2.1",
  "blockStorageSizeInGBs": "50",
  "subnetId": "<subnet_ocid>"
}

(Facultatif) Utilisez le fichier JSON de configuration de journalisation des travaux suivant :

{
  "enableLogging": true,
  "enableAutoLogCreation": true,
  "logGroupId": "<log_group_ocid>"
}

Téléchargez vers le serveur un fichier d'artefact pour le travail que vous avez créé :

oci data-science job create-job-artifact \
--job-id <job_ocid> \
--job-artifact-file <job_artifact_file_path> \
--content-disposition "attachment; filename=<job_artifact_file_name>"

Le kit SDK ADS est également une bibliothèque Python publique que vous pouvez installer avec la commande suivante :
```
pip install oracle-ads
```
Il fournit le wrapper qui facilite la création et l'exécution de travaux à partir de blocs-notes ou sur l'ordinateur client.

Utilisez le SDK ADS pour créer et exécuter des travaux.

Documentation Oracle Cloud Infrastructure

Création d'un travail

Avant de commencer

Informations de base

Configuration

Configuration supplémentaire

Vérifier et créer