Plattform für maschinelles Lernen auf Autonomous Data Warehouse
Um mit den sich schnell ändernden Informationsanforderungen Schritt zu halten, suchen Unternehmen nach jeder Möglichkeit, Modelle für maschinelles Lernen (ML) schnell zu trainieren, bereitzustellen und zu verwalten.
Mit Oracle Autonomous Data Warehouse (ADW) verfügen Sie über alle erforderlichen integrierten Tools zum Laden und Vorbereiten von Daten sowie zum Trainieren, Bereitstellen und Verwalten von Modellen für maschinelles Lernen. Diese Services sind in Autonomous Data Warehouse enthalten. Sie können aber auch andere Tools mischen und abgleichen, um die Anforderungen Ihrer Organisation bestmöglich zu erfüllen.
Diese Referenzarchitektur positioniert die Technologielösung im gesamten Geschäftskontext:

Beschreibung der Abbildung data-driven-business-context.png
Wenn Unternehmen ein Data Warehouse oder einen Data Mart in Verbindung mit einer Plattform für maschinelles Lernen in der Cloud implementieren, müssen sie in der Regel mehrere Services zusammenfassen, um eine End-to-End-Lösung zu implementieren. Für einige Unternehmen ist dies zwar erreichbar, für andere, die keine Erfahrung oder Ressourcen hierfür haben, aber eine gewaltige Aufgabe sein können.
Eine umfassende Plattform für maschinelles Lernen sollte mindestens Folgendes umfassen:
- Einfacher Zugriff auf strukturierte und unstrukturierte Daten
- Fähigkeit, Datenentwicklungs-Pipelines zu erstellen und zu verwalten
- Fähigkeit, Modelle zu erstellen und Daten skalierbar zu bewerten, um Geschäftsziele zu erreichen
- Kollaborative Plattform zum Erstellen von Modellen für maschinelles Lernen
- Einfacher Prozess zur Verwaltung und Bereitstellung von Modellen
- Verwenden Sie AutoML, um die Reichweite derjenigen zu erweitern, die Modelle für maschinelles Lernen erstellen können, und um die Arbeit von Data Scientists zu beschleunigen.
Die in Autonomous Data Warehouse enthaltene Plattform für maschinelles Lernen bietet Abteilungen und Organisationen eine effektive Möglichkeit, die Vorteile des maschinellen Lernens zu nutzen, ohne sich stark auf IT-Ressourcen und Verfügbarkeit zu verlassen. Außerdem werden Produktupdates und Sicherheitspatches automatisch über Autonomous Data Warehouse verarbeitet.
Architektur
Diese Architektur verwendet in Oracle Autonomous Data Warehouse eingebettete Data-Science- und Machine-Learning-Features, um Daten aus einer Vielzahl von Unternehmensdatenressourcen für Geschäftsanalysen und maschinelles Lernen zu analysieren.
Das folgende Diagramm zeigt mehrere Pfade, denen ein Benutzer je nach Anwendungsfall folgen kann. Der einfachste Pfad (feste Linien) bietet eine einfache Methode zum Ausführen von Data Engineering-Aufgaben, zum Erstellen von Modellen für maschinelles Lernen und zum Verwalten und Bereitstellen von Modellen mit in Autonomous Data Warehouse (ADW) eingebetteten Tools. Für fortgeschrittenere Anwendungsfälle (gestrichelte Linien) wurden andere Oracle Cloud Infrastructure-(OCI-)Services aufgenommen, die sich nahtlos in die in ADW enthaltenen Services integrieren lassen (im grauen Feld geschlossen).

Beschreibung der Abbildung ml-adw-architecture.png
ml-adw-architecture-oracle.zip
Die Architektur konzentriert sich auf die folgenden logischen Bereiche:
- Aufnahme, Transformieren
Erfasst und verfeinert die Daten für jede der Datenschichten in der Architektur.
- Beibehalten, Kurieren, Erstellen
Erleichtert den Zugriff auf und die Navigation der Daten, um die aktuelle Geschäftsansicht anzuzeigen. Bei relationalen Technologien können Daten logisch oder physisch in einfachen relationalen, longitudinalen, dimensionalen oder OLAP-Formularen strukturiert sein. Bei nicht relationalen Daten enthält dieser Layer einen oder mehrere Datenpools, entweder aus einem Analyseprozess oder aus Daten, die für eine bestimmte analytische Aufgabe optimiert sind.
- Analysieren, Lernen, vorhersagen
Abstrahiert die logische Geschäftsansicht der Daten für die Verbraucher. Diese Abstraktion erleichtert agile Entwicklungsansätze, die Migration zur Zielarchitektur und das Provisioning einer einzelnen Berichtsschicht aus mehreren föderierten Quellen.
Das folgende Diagramm zeigt eine Zuordnung der Architektur zu Services, die in Oracle Cloud Infrastructure mit Best Practices für die Sicherheit bereitgestellt werden.
OCI-adb-oac-arch-gw-oracle.zip
Die Architektur umfasst folgende Komponenten:
- Datenintegration
Autonomous Data Warehouse umfasst die eingebetteten Tools, die zum Erfassen, Laden und Transformieren von Daten für zahlreiche Abteilungsszenarios und spezielle erweiterte Anwendungsfälle erforderlich sind. Autonomous Data Warehouse ist eine Ladefunktion, mit der Sie Daten schnell aus dem lokalen oder Objektspeicher laden können. Außerdem sind autonome Datentransformationen enthalten, mit denen Sie eine Verbindung zu Daten aus vielen verschiedenen Quelltypen herstellen und auf die ELT-Typfunktionalität zugreifen können.
Für erweiterte Anwendungsfälle gibt es Oracle Cloud Infrastructure Data Integration. Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, nativer Cloud-Service, mit dem Sie gängige ETL-Aufgaben (Extrahieren, Laden und Transformieren) wie das Aufnehmen von Daten aus verschiedenen Quellen, das Bereinigen, Transformieren und Umformen dieser Daten sowie das effiziente Laden dieser Daten in Zieldatenquellen auf Oracle Cloud Infrastructure ausführen können.
- Autonomous Data Warehouse
Oracle Autonomous Data Warehouse ist ein selbststeuernder, selbstsichernder und selbstreparierender Datenbankservice, der für Data Warehousing-Workloads optimiert ist. Sie müssen keine Hardware konfigurieren und installieren. Oracle Cloud Infrastructure verarbeitet das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.
Mit Autonomous Data Warehouse haben Sie die Flexibilität, Daten in mehrere Formate wie strukturiert, JSON, XML, Diagramm und räumlich zu laden. In diesem Service sind die autonomen Tools integriert, mit denen Sie Daten einfach in Tabellen laden und ETL-Aufgaben ausführen können.
Oracle Machine Learning ist in Autonomous Data Warehouse integriert. Dadurch können datenbankinterne Algorithmen im Kernel der Datenbank ausgeführt und Datenbankobjekte der ersten Klasse für das sofortige Deployment erstellt werden.
-
Objektspeicher
Oracle Cloud Infrastructure Object Storage ist eine internetbasierte, leistungsstarke Speicherplattform, die zuverlässige und kostengünstige Dauerhaftigkeit von Daten bietet. Oracle Cloud Infrastructure Object Storage kann eine unbegrenzte Menge an unstrukturierten Daten eines beliebigen Inhaltstyps speichern, einschließlich Analysedaten. Sie können Daten sicher und sicher direkt aus dem Internet oder aus der Cloud-Plattform speichern oder abrufen. Mit mehreren Managementschnittstellen können Sie ganz einfach klein anfangen und nahtlos skalieren, ohne dass es zu einer Beeinträchtigung der Performance oder Servicezuverlässigkeit kommt.
- Vorhersagen
Oracle Machine Learning-Services erweitern die Oracle Machine Learning-(OML-)Funktionalität, um Modellbereitstellungen und Modelllebenszyklusmanagement für datenbankinterne Oracle Machine Learning-Modelle und Open Neural Networks Exchange (ONNX) Machine Learning-Modelle von Drittanbietern über REST-APIs zu unterstützen. Oracle Machine Learning-Services unterstützen das Echtzeit- und Batch-Scoring für Anwendungen und Dashboards.
Die REST-API für Oracle Machine Learning-Services stellt REST-Endpunkte mit Authentifizierung über Autonomous Data Warehouse bereit. Diese Endpunkte ermöglichen die Speicherung und Verwaltung von Modellen für maschinelles Lernen und deren Metadaten. Diese Endpunkte ermöglichen auch die Erstellung von Scoringendpunkten für Modelle.
Oracle Machine Learning-Services unterstützen Klassifizierungs- oder Regressionsmodelle von Drittanbietern, die unter anderem mit Packages wie Scikit-learn und TensorFlow erstellt und dann im ONNX-Format exportiert werden können. Oracle Machine Learning-Services unterstützen integrierte kognitive Textanalysen für Themenerkennung, Schlüsselwörter, Zusammenfassung, Stimmung und Ähnlichkeit. Oracle Machine Learning-Services unterstützen auch die Imageklassifizierung über das Deployment von ONNX-Formatmodellen von Drittanbietern und unterstützen das Scoring mit Bildern oder Zehnern.
Benutzer können mit datenbankinternen Modellen aus SQL, R und Python auch direkt in der Datenbank vorhersagen, um Singleton, kleine Batches und groß angelegte Batchbewertung zu ermöglichen. Benutzer können die eingebettete Python-Ausführung von OML4Py nutzen, um benutzerdefinierte Python-Funktionen mit Modellen aufzurufen, die aus Packages von Drittanbietern erstellt wurden, und Vorhersagen über Python- und REST-Schnittstellen treffen.
- Lernen
Oracle Machine Learning Notebooks bieten eine kollaborative Benutzeroberfläche, mit der Data Scientists und Business- und Data Analysts mit SQL- und Python-Interpretern arbeiten und gleichzeitig maschinelles Lernen in Oracle Autonomous Database ausführen können. Dazu gehören Autonomous Data Warehouse (ADW), Autonomous Transaction Processing (ATP) und Autonomous JSON Database (AJD). Mit Oracle Machine Learning Notebooks kann das breitere Data-Science-Team (Data Scientists, Citizen Data Scientists, Data Analysts, Data Engineers, DBAs) zusammenarbeiten, um ihre Daten visuell zu untersuchen und analytische Methoden mit OML4SQL und OML4Py zu entwickeln. Die Notizbuchoberfläche bietet Zugriff auf die leistungsstarken, parallelen und skalierbaren datenbankinternen Implementierungen von Algorithmen für maschinelles Lernen über Python, SQL und PL/SQL von Oracle. Der Zugriff auf die datenbankinterne Funktionalität erfolgt auch über eine Verbindung zu Autonomous Database über externe Schnittstellen, wie SQL Developer, Open-Source-Notizbuchumgebungen und IDEs von Drittanbietern.
OML4Py stellt außerdem eine Python-API für automatisiertes maschinelles Lernen (AutoML) zur automatischen Algorithmus- und Featureauswahl sowie zur automatischen Modelloptimierung und -auswahl bereit.
Die Benutzeroberfläche von Oracle Machine Learning AutoML (UI OML AutoML) ist eine Benutzeroberfläche ohne Code, die automatisiertes maschinelles Lernen mit einfachem Deployment in Oracle Machine Learning Services bereitstellt. Geschäftsbenutzer ohne umfangreichen Data-Science-Hintergrund können mit der OML-UI AutoML Modelle für maschinelles Lernen erstellen und bereitstellen sowie ein OML-Notizbuch mit dem entsprechenden OML4Py-Code generieren, um das Modell neu zu erstellen und Daten programmgesteuert zu bewerten.
Erfahrene Data Scientists können die OML-UI AutoML als Produktivitätsbeschleuniger verwenden, um die Modelluntersuchung zu beschleunigen, das Deployment zu vereinfachen und die Generierung von Notebooks für Starter zu ermöglichen.
- Analysen
Oracle Analytics Cloud ist ein skalierbarer und sicherer Public-Cloud-Service, mit dem Sie umfassende Funktionen zum Erkunden und Ausführen von gemeinsamen Analysen für sich, Ihre Arbeitsgruppe und Ihr Unternehmen bereitstellen können.
Oracle Analytics Cloud ist in Oracle Machine Learning mit Zugriff auf datenbankinterne Modelle integriert, die in Oracle Analytics Cloud-Workflows und -Dashboards durchsucht, visualisiert und bereitgestellt werden können.
Mit Oracle Analytics Cloud erhalten Sie außerdem flexible Servicemanagementfunktionen, wie schnelles Setup, einfache Skalierung und Patching sowie automatisiertes Lebenszyklusmanagement.
Empfehlungen
Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt für die Erstellung einer Plattform sowohl für ein erweitertes Cloud-Data Warehouse als auch für ein Framework für maschinelles Lernen.
Ihre Anforderungen können sich von der hier beschriebenen Architektur unterscheiden.
- Aufnahme, Transformieren
Autonomous Database-Tools sind in Oracle Autonomous Data Warehouse integrierte Funktionen, mit denen Sie Geschäftsmodelle auf einfache Weise laden, transformieren, katalogisieren, Erkenntnisse gewinnen und sogar entwickeln können.
- Analysieren, Lernen, vorhersagen
Stellen Sie vor der Verbindung von Oracle Analytics Cloud mit Oracle Autonomous Data Warehouse einen Datenbankadministrator bereit, der die IP-Adresse (oder den Adressbereich) für Ihre Oracle Analytics Cloud-Instanz zulässt. Der Datenbankadministrator muss eine Sicherheitsregel hinzufügen, die TCP/IP-Traffic von Oracle Analytics Cloud zu der Datenbank zulässt.
Überlegungen
Berücksichtigen Sie diese Implementierungsoptionen beim Erstellen eines Frameworks für maschinelles Lernen in Verbindung mit Ihrem Cloud-Data Warehouse.
- Datenschwerpunkt: Halten Sie das Framework für maschinelles Lernen nah an Ihren Daten, um die hohen Kosten für die Datenverschiebung sowohl monetär als auch im Hinblick auf die Entwicklungszeit von Modellen für maschinelles Lernen zu begrenzen (selbst bei Datenbewertung mit Modellen für maschinelles Lernen).
- Schnellere Amortisierung: Die Empfehlungen in der folgenden Tabelle helfen Ihnen, schneller zu beginnen und die Zeit zu verkürzen, die benötigt wird, um den Wert Ihrer Lösung zu realisieren.
Richtlinien | Empfohlen | Andere Optionen | Begründung |
---|---|---|---|
Aufnahme, Transformieren | Autonomous Database-Tools | Oracle Cloud Infrastructure Data Integration | Dies ist von Anwendungsfällen abhängig. Um Daten einfach aus Dateien in Object Storage oder lokalem Datenspeicher zu laden, verwenden Sie Autonomous Database Tools. Wie bereits erwähnt, können Autonomous Data Warehouse-Datentransformationen auch je nach Anwendungsfall verwendet werden. Für weiterführende Fälle verwenden Sie Oracle Cloud Infrastructure Data Integration, einen On-Demand-Service. |
Dauer | Oracle Autonomous Data Warehouse | Autonomous Data Warehouse ist ein Cloud-Data Warehouse, das nicht nur die Analyseanforderungen eines Data Warehouse liefert, sondern auch die Funktionalität für das Deployment eines erweiterten Oracle Machine Learning-Vorgangs-Frameworks umfasst. Sie können über externe Tabellen, die in beliebig vielen Formaten und Typen gespeichert sind, auch direkt auf die Daten aus dem Objektspeicher zugreifen. | |
Lernen | Oracle Machine Learning Notebooks mit OML4SQL, OML4Py und OML4R |
Oracle Machine Learning AutoML UI Dritte OCI Data Science |
OML-Notizbücher sind eine gemeinschaftliche Notizbuchumgebung, die in der Autonomous Data Warehouse-Plattform enthalten ist. Mit OML4SQL, OML4Py und OML4R kann ein Benutzer Modelle direkt in der Datenbank erstellen. Datenbankinterne Modelle können zwischen Oracle Database und Autonomous Data Warehouse exportiert und importiert werden. Benutzer können Python- und R-Modelle mit Drittanbietertools mit benutzerdefinierten Conda-Umgebungen in Autonomous Database erstellen oder sie außerhalb des Oracle Machine Learning-Frameworks erstellen und diese nativen Modelle zur Verwendung mit der Ausführung OML4Py-embedded und OML4R-embedded im Datenbankdatenspeicher speichern. |
Prognostizieren |
Oracle Machine Learning-Services Oracle Machine Learning Notebooks mit OML4SQL, OML4Py und OML4R |
Oracle Cloud Infrastructure Data Science Datenbankinterne Modelle mit SQL-Abfragen und OML4R/OML4Py-Schnittstellen |
Möglichkeit, das Modell über die REST-API mit der von Oracle Machine Learning Services verwalteten Modellbereitstellung zu bewerten. Oracle Machine Learning Services ermöglicht auch den Import von Modellen, die außerhalb des Oracle Machine Learning-Frameworks erstellt wurden, über das ONNX-Format. Dies kann Modelle enthalten, die in Oracle Cloud Infrastructure Data Science erstellt wurden. |
Zugang und Interpretation | Oracle Analytics Cloud | Tools von Drittanbietern | Oracle Analytics Cloud wird vollständig verwaltet und eng in das Oracle Machine Learning-Framework integriert. Eine der Hauptfunktionen ist die Möglichkeit, Modelle bereitzustellen, die in Oracle Machine Learning für Oracle Analytics Cloud für skalierbares maschinelles Lernen und Dashboards erstellt wurden. |
Bereitstellen
Der für das Deployment dieser Referenzarchitektur erforderliche Code ist in GitHub verfügbar. Sie können den Code mit nur einem Klick in Oracle Cloud Infrastructure Resource Manager abrufen, den Stack erstellen und bereitstellen. Alternativ können Sie den Code von GitHub auf Ihren Computer herunterladen, den Code anpassen und die Architektur mit der Terraform-CLI bereitstellen.
- Mit Oracle Cloud Infrastructure Resource Manager bereitstellen:
- Klicken Sie auf
Wenn Sie noch nicht angemeldet sind, geben Sie den Mandanten und die Benutzerzugangsdaten ein.
- Prüfen und akzeptieren Sie die Vertragsbedingungen.
- Wählen Sie die Region aus, in der Sie den Stack bereitstellen möchten.
- Befolgen Sie die Prompts und Anweisungen zum Erstellen des Stacks auf dem Bildschirm.
- Nachdem Sie den Stack erstellt haben, klicken Sie auf Terraform-Aktionen, und wählen Sie Planen aus.
- Warten Sie, bis der Job abgeschlossen ist, und prüfen Sie den Plan.
Um Änderungen vorzunehmen, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Stack bearbeiten, und nehmen Sie die erforderlichen Änderungen vor. Führen Sie anschließend die Aktion Planen erneut aus.
- Wenn keine weiteren Änderungen erforderlich sind, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Terraform-Aktionen, und wählen Sie Anwenden.
- Klicken Sie auf
- Mit dem Terraform-Code in GitHub bereitstellen:
- Gehen Sie zu GitHub.
- Klonen Sie das Repository, oder laden Sie es auf Ihren lokalen Computer herunter.
- Befolgen Sie die Anweisungen im Dokument
README
.
Änderungslog
In diesem Log werden wichtige Änderungen aufgeführt:
9. März 2023 |
|
3. Februar 2022 |
|