Pipelines

Un pipeline d'apprentissage automatique Data Science est une ressource qui définit un workflow de tâches, appelé étapes.

Le machine learning est souvent un processus complexe, impliquant plusieurs étapes de travail ensemble dans un workflow, pour créer et servir un modèle d'apprentissage automatique. Ces étapes comprennent généralement : l'acquisition et l'extraction de données, la préparation de données pour le machine learning, la featurisation, l'entraînement d'un modèle (y compris la sélection d'algorithmes et le réglage des hyperparamètres), l'évaluation du modèle et le déploiement du modèle.

Les étapes de pipeline peuvent dépendre d'autres étapes pour créer le workflow. Chaque étape est discrète, ce qui vous donne la flexibilité de mélanger différents environnements et même différents langages de codage dans le même pipeline.

Un pipeline standard (workflow) comprend les étapes suivantes :

Affiche les étapes du cycle de vie de l'apprentissage automatique sous forme de diagramme.

Ce cycle de vie d'apprentissage automatique s'exécute en tant que pipeline d'apprentissage automatique répétable et continu.

Concepts relatifs aux pipelines

Un pipeline peut ressembler au workflow suivant :

Affichez le flux de travail du pipeline en tant qu'étapes distinctes.

Dans un contexte d'apprentissage automatique, les pipelines fournissent généralement un workflow pour l'importation de données, la transformation de données, l'entraînement de modèles et l'évaluation de modèles. Les étapes du pipeline peuvent être exécutées en séquence ou en parallèle, à condition qu'elles créent un graphe acyclique dirigé (DAG).

Pipeline

Ressource qui contient toutes les étapes et leurs dépendances (workflow DAG). Vous pouvez définir des configurations par défaut pour l'infrastructure, les journaux et d'autres paramètres à utiliser dans les ressources de pipeline. Ces paramètres par défaut sont utilisés lorsqu'ils ne sont pas définis dans les étapes de pipeline.

Vous pouvez également modifier une partie de la configuration du pipeline après sa création, telle que le nom, le journal et les variables d'environnement personnalisées.

Etape de pipeline

Tâche à exécuter dans un pipeline. L'étape contient l'artefact d'étape, l'infrastructure (forme de calcul, volume de blocs) à utiliser lors de l'exécution, les paramètres de journal, les variables d'environnement, etc.

Une étape de pipeline peut être de l'un des types suivants :

  1. Un script (fichiers de code). Python, Bash et Java sont pris en charge), ainsi qu'une configuration pour l'exécuter.
  2. Travail existant dans Data Science identifié par son OCID.

Artefact d'étape

Obligatoire lorsque vous utilisez un type d'étape de script. Un artefact est tout le code à utiliser pour exécuter l'étape. L'artefact lui-même doit être un fichier unique. Cependant, il peut s'agir d'un fichier compressé (zip) qui inclut plusieurs fichiers. Vous pouvez définir le fichier spécifique à exécuter lors de l'exécution de l'étape.

Toutes les étapes de script d'un pipeline doivent comporter un artefact pour que le pipeline soit à l'état ACTIVE afin de pouvoir être exécuté.

DAG

Workflow d'étapes, défini par les dépendances de chaque étape par rapport aux autres étapes du pipeline. Les dépendances créent un workflow logique ou un graphique (doit être acyclique). Le pipeline s'efforce d'exécuter des étapes en parallèle pour optimiser le temps d'exécution du pipeline, sauf si les dépendances forcent les étapes à s'exécuter de manière séquentielle. Par exemple, la formation doit être terminée avant d'évaluer le modèle, mais plusieurs modèles peuvent être entraînés en parallèle pour rivaliser avec le meilleur modèle.

Exécution de pipeline

Instance d'exécution d'un pipeline. Chaque exécution de pipeline inclut ses exécutions d'étape. Une exécution de pipeline peut être configurée pour remplacer certaines valeurs par défaut du pipeline avant de démarrer l'exécution.

Exécution d'étape de pipeline

Instance d'exécution d'une étape de pipeline. La configuration de l'exécution d'étape provient d'abord de l'exécution de pipeline lorsqu'elle est définie, ou de la définition de pipeline ultérieurement.

Etat du cycle de vie du pipeline

Au fur et à mesure que le pipeline est créé, construit et même supprimé, il peut se trouver dans différents états. Une fois le pipeline créé, il est à l'état CREATING et ne peut pas être exécuté tant que toutes les étapes n'ont pas d'artefact ou de travail à exécuter, puis le pipeline passe à l'état ACTIVE.

Accès aux ressources OCI

Les étapes de pipeline peuvent accéder à toutes les ressources OCI d'une location dès lors qu'une stratégie l'autorise. Vous pouvez exécuter des pipelines sur les données dans ADW ou Object Storage. Vous pouvez également utiliser des coffres pour fournir un moyen d'authentification sécurisé auprès des ressources tierces. Les étapes de pipeline peuvent accéder à des sources externes si vous avez configuré le VCN approprié.