Data Flow-Integration
Mit dem Data Flow-Supportfeature in ML-Pipelines können Benutzer Data Flow-Anwendungen als Schritte innerhalb einer Pipeline integrieren.
Mit dieser neuen Funktionalität können Benutzer die Ausführungen von Datenflussanwendungen (Apache Spark as a Service) neben anderen Schritten in einer ML-Pipeline orchestrieren und so umfangreiche Datenverarbeitungsaufgaben optimieren.
Wenn eine Pipeline mit einem Datenflussschritt ausgeführt wird, erstellt und verwaltet sie automatisch eine neue Ausführung der mit diesem Schritt verknüpften Datenflussanwendung. Die Datenflussausführung wird wie jeder andere Schritt in der Pipeline behandelt. Nach erfolgreichem Abschluss setzt die Pipeline ihre Ausführung fort und startet spätere Schritte als Teil der Orchestrierung der Pipeline.
Die Verwendung von Data Flow-Anwendungen in ML-Pipelines ist einfach:
- 1. Datenflussschritt hinzufügen
- Wählen Sie den Schritttyp "Datenfluss" in Ihrer ML-Pipeline aus.
- 2. Datenflussanwendung auswählen
- Wählen Sie die Datenflussanwendung aus, die Sie als Schritt ausführen möchten, und konfigurieren Sie Optionen wie Clustergröße und Umgebungsvariablen.
- 3. Pipeline ausführen
- Starten Sie eine Ausführung der Pipeline. Wenn der Data Flow-Schritt erreicht ist, wird die zugehörige Anwendung ausgeführt. Nach Abschluss werden die Ergebnisse in der Schrittausführung wiedergegeben, und die Pipeline fährt nahtlos mit den nächsten Schritten fort.
Policys
- Integration von Data Flow und Pipelines.
- Pipelineausführungszugriff auf OCI-Services.
- (Optional) Benutzerdefinierte Networking-Policys, jedoch nur bei Verwendung benutzerdefinierter Netzwerke.
Wenn eine Datenflussausführung von einer Pipelineausführung ausgelöst wird, erbt sie den Resource Principal
datasciencepipelinerun. Daher erteilt das Erteilen von Berechtigungen für datasciencepipelinerun auch Berechtigungen für den Code, der in der von der Pipelineausführung gestarteten Data Flow-Ausführung ausgeführt wird.Data Flow mit Pipelines konfigurieren
Stellen Sie sicher, dass die entsprechenden Policys angewendet werden.
Kurzanleitung
In dieser Schritt-für-Schritt-Anleitung können Sie eine Datenfluss-Pipeline erstellen.