Pipelines
Eine Data Science-Pipeline für maschinelles Lernen (ML) ist eine Ressource, die einen Workflow von Aufgaben definiert, die als Schritte bezeichnet werden.
ML ist oft ein komplexer Prozess, der mehrere Schritte umfasst, die in einem Workflow zusammenarbeiten, um ein Modell für maschinelles Lernen zu erstellen und bereitzustellen. Diese Schritte umfassen in der Regel: Datenerfassung und -extraktion, Datenvorbereitung für ML, Featurisierung, Training eines Modells (einschließlich Algorithmusauswahl und Hyperparameteroptimierung), Modellauswertung und Modellbereitstellung.
Pipeleschritte können von anderen Schritten zum Erstellen des Workflows abhängig sein. Jeder Schritt ist diskret, sodass Sie die Flexibilität haben, verschiedene Umgebungen und sogar verschiedene Codierungssprachen in derselben Pipeline zu mischen.
Eine typische Pipeline (Workflow) umfasst die folgenden Schritte:

Dieser ML-Lebenszyklus wird als wiederholbare und kontinuierliche ML-Pipeline ausgeführt.
Pipelinekonzepte
Eine Pipeline könnte wie der folgende Workflow aussehen:

In einem ML-Kontext stellen Pipelines in der Regel einen Workflow für den Datenimport, die Datentransformation, das Modelltraining und die Modellbewertung bereit. Schritte in der Pipeline können nacheinander oder parallel ausgeführt werden, solange sie ein gerichtetes azyklisches Diagramm (DAG) erstellen.
- Pipeline
-
Eine Ressource, die alle Schritte und ihre Abhängigkeiten enthält (der DAG-Workflow). Sie können Standardkonfigurationen für Infrastruktur, Logs und andere Einstellungen definieren, die in Pipelineressourcen verwendet werden sollen. Diese Standardeinstellungen werden verwendet, wenn sie nicht in den Pipelineschritten definiert sind.
Sie können auch einige der Konfigurationen der Pipeline nach ihrer Erstellung bearbeiten, wie den Namen, das Log und die benutzerdefinierten Umgebungsvariablen.
- Pipelineschritt
-
Eine Aufgabe, die in einer Pipeline ausgeführt werden soll. Der Schritt enthält das Schrittartefakt, die Infrastruktur (Compute-Ausprägung, Block-Volume), die bei der Ausführung verwendet werden soll, Logeinstellungen, Umgebungsvariablen und andere.
Ein Pipelineschritt kann einer der folgenden sein:
- Ein Skript (Codedateien). Python, Bash und Java werden unterstützt) sowie eine Konfiguration zur Ausführung.
-
Ein vorhandener Job in Data Science, der durch seine OCID identifiziert wird.
- Schrittartefakt
-
Erforderlich bei der Arbeit mit einem Skriptschritttyp. Ein Artefakt ist der gesamte Code, mit dem der Schritt ausgeführt werden soll. Das Artefakt selbst muss eine einzelne Datei sein. Es kann sich jedoch um eine komprimierte (ZIP-)Datei handeln, die mehrere Dateien enthält. Sie können die spezifische Datei definieren, die bei der Ausführung des Schritts ausgeführt werden soll.
Alle Skriptschritte in einer Pipeline müssen ein Artefakt aufweisen, damit die Pipeline den Status ACTIVE aufweist, damit sie ausgeführt werden kann.
- Tage
-
Der Schrittworkflow, der durch Abhängigkeiten der einzelnen Schritte bei anderen Schritten in der Pipeline definiert wird. Die Abhängigkeiten erstellen einen logischen Workflow oder ein Diagramm (muss azyklisch sein). Die Pipeline ist bestrebt, Schritte parallel auszuführen, um die Pipeline-Abschlusszeit zu optimieren, es sei denn, die Abhängigkeiten erzwingen die sequenzielle Ausführung der Schritte. Zum Beispiel muss das Training vor der Bewertung des Modells abgeschlossen werden, aber mehrere Modelle können parallel trainiert werden, um um das beste Modell zu konkurrieren.
- Pipelineausführung
-
Die Ausführungsinstanz einer Pipeline. Jede Pipelineausführung enthält die zugehörigen Schrittausführungen. Eine Pipelineausführung kann so konfiguriert werden, dass einige der Standardwerte der Pipeline außer Kraft gesetzt werden, bevor die Ausführung gestartet wird.
- Pipelineschrittausführung
-
Die Ausführungsinstanz eines Pipelineschritts. Die Konfiguration für die Schrittausführung erfolgt zuerst aus der Pipelineausführung, wenn sie definiert wird, oder zweitens aus der Pipelinedefinition.
- Pipeline-Lebenszyklusstatus
-
Während die Pipeline erstellt, erstellt und sogar gelöscht wird, kann sie sich in verschiedenen Status befinden. Nach der Pipelineerstellung befindet sich die Pipeline im Status Wird erstellt. Sie kann erst ausgeführt werden, wenn alle Schritte ein Artefakt oder einen Job zur Ausführung aufweisen. Dann ändert sich der Status der Pipeline in ACTIVE.
- Zugriff auf OCI-Ressourcen
-
Pipeleschritte können auf alle OCI-Ressourcen in einem Mandanten zugreifen, solange eine Policy das zulässt. Sie können Pipelines für Daten in ADW oder Object Storage ausführen. Darüber hinaus können Sie Vaults zur sicheren Authentifizierung bei Drittanbieterressourcen verwenden. Pipeleschritte können auf externe Quellen zugreifen, wenn Sie das entsprechende VCN konfiguriert haben.