Pipelines

Eine Data Science-Pipeline für maschinelles Lernen (ML) ist eine Ressource, die einen Workflow von Aufgaben definiert, die als Schritte bezeichnet werden.

ML ist oft ein komplexer Prozess, der mehrere Schritte umfasst, die in einem Workflow zusammenarbeiten, um ein Modell für maschinelles Lernen zu erstellen und bereitzustellen. Diese Schritte umfassen in der Regel: Datenerfassung und -extraktion, Datenvorbereitung für ML, Featurisierung, Training eines Modells (einschließlich Algorithmusauswahl und Hyperparameteroptimierung), Modellauswertung und Modellbereitstellung.

Pipeleschritte können von anderen Schritten zum Erstellen des Workflows abhängig sein. Jeder Schritt ist diskret, sodass Sie die Flexibilität haben, verschiedene Umgebungen und sogar verschiedene Codierungssprachen in derselben Pipeline zu mischen.

Eine typische Pipeline (Workflow) umfasst die folgenden Schritte:

Zeigt die Lebenszyklusschritte für maschinelles Lernen als Diagramm an.

Dieser ML-Lebenszyklus wird als wiederholbare und kontinuierliche ML-Pipeline ausgeführt.

Pipelinekonzepte

Eine Pipeline könnte wie der folgende Workflow aussehen:

In einem ML-Kontext stellen Pipelines in der Regel einen Workflow für den Datenimport, die Datentransformation, das Modelltraining und die Modellbewertung bereit. Schritte in der Pipeline können nacheinander oder parallel ausgeführt werden, solange sie ein gerichtetes azyklisches Diagramm (DAG) erstellen.

Pipeline

Eine Ressource, die alle Schritte und ihre Abhängigkeiten enthält (der DAG-Workflow). Sie können Standardkonfigurationen für Infrastruktur, Logs und andere Einstellungen definieren, die in Pipelineressourcen verwendet werden sollen. Diese Standardeinstellungen werden verwendet, wenn sie nicht in den Pipelineschritten definiert sind.

Sie können auch einige der Pipelinekonfiguration nach der Erstellung bearbeiten, wie Name, Log und benutzerdefinierte Umgebungsvariablen.

Pipelineschritt

Eine Aufgabe, die in einer Pipeline ausgeführt werden soll. Der Schritt enthält das Schrittartefakt, die Infrastruktur (Compute-Ausprägung, Block-Volume), die bei der Ausführung verwendet werden soll, Logeinstellungen, Umgebungsvariablen und andere.

Ein Pipelineschritt kann einer der folgenden sein:

Ein Skript (Codedateien). Python, Bash und Java werden unterstützt) sowie eine Konfiguration zur Ausführung.
Ein vorhandener Job in Data Science, der durch seine OCID identifiziert wird.

Schrittartefakt

Erforderlich bei der Arbeit mit einem Skriptschritttyp. Ein Artefakt ist der gesamte Code, mit dem der Schritt ausgeführt werden soll. Das Artefakt selbst muss eine einzelne Datei sein. Es kann sich jedoch um eine komprimierte (ZIP-)Datei handeln, die mehrere Dateien enthält. Sie können die spezifische Datei definieren, die bei der Ausführung des Schritts ausgeführt werden soll.

Alle Skriptschritte in einer Pipeline müssen ein Artefakt aufweisen, damit die Pipeline den Status ACTIVE aufweist, damit sie ausgeführt werden kann.

Tage

Der Schrittworkflow, der durch Abhängigkeiten der einzelnen Schritte bei anderen Schritten in der Pipeline definiert wird. Die Abhängigkeiten erstellen einen logischen Workflow oder ein Diagramm (muss azyklisch sein). Die Pipeline ist bestrebt, Schritte parallel auszuführen, um die Pipeline-Abschlusszeit zu optimieren, es sei denn, die Abhängigkeiten erzwingen die sequenzielle Ausführung der Schritte. Zum Beispiel muss das Training vor der Bewertung des Modells abgeschlossen werden, aber mehrere Modelle können parallel trainiert werden, um um das beste Modell zu konkurrieren.

Pipelineausführung

Die Ausführungsinstanz einer Pipeline. Jede Pipelineausführung enthält die zugehörigen Schrittausführungen. Eine Pipelineausführung kann so konfiguriert werden, dass einige der Standardwerte der Pipeline außer Kraft gesetzt werden, bevor die Ausführung gestartet wird.

Pipelineschrittausführung

Die Ausführungsinstanz eines Pipelineschritts. Die Konfiguration für die Schrittausführung erfolgt zuerst aus der Pipelineausführung, wenn sie definiert wird, oder zweitens aus der Pipelinedefinition.

Pipeline-Lebenszyklusstatus

Während die Pipeline erstellt, erstellt und sogar gelöscht wird, kann sie sich in verschiedenen Status befinden. Nach der Pipelineerstellung befindet sich die Pipeline im Status Wird erstellt. Sie kann erst ausgeführt werden, wenn alle Schritte ein Artefakt oder einen Job zur Ausführung aufweisen. Dann ändert sich der Status der Pipeline in ACTIVE.

Zugriff auf OCI-Ressourcen

Pipeleschritte können auf alle OCI-Ressourcen in einem Mandanten zugreifen, solange eine Policy das zulässt. Sie können Pipelines für Daten in ADW oder Object Storage ausführen. Darüber hinaus können Sie Vaults zur sicheren Authentifizierung bei Drittanbieterressourcen verwenden. Pipeleschritte können auf externe Quellen zugreifen, wenn Sie das entsprechende VCN konfiguriert haben.

Oracle Cloud Infrastructure - Dokumentation

Pipelines

Pipelinekonzepte