Data Science-Service: Anwendungsfälle im Gesundheitswesen

Oracle Cloud Infrastructure Data Science (OCI) Data Science ist eine vollständig verwaltete, serverlose Plattform, auf der Data Science-Teams Modelle für maschinelles Lernen erstellen, trainieren und verwalten können.

Data Science lässt sich mit dem restlichen OCI-Stack integrieren, einschließlich Oracle Functions, Data Flow, Autonomous Data Warehouse und Object Storage. Oracle Accelerated Data Science-(ADS-)Softwareentwicklerkit (SDK) ist eine Python-Library, die als Teil des Data Science-Service enthalten ist. Dieser umfasst zahlreiche Funktionen und Objekte, mit denen die Schritte im Data Science-Workflow automatisiert oder vereinfacht werden. Dazu gehören das Herstellen von Verbindungen zu Daten, das Explorieren und Visualisieren von Daten, das Trainieren eines Modells mit AutoML, das Auswerten von Modellen und das Erklären von Modellen. ADS bietet außerdem eine einfache Schnittstelle für den Zugriff auf den Modellkatalog des Data Science-Service und auf andere OCI-Services, einschließlich Object Storage.

Architektur

Diese flexible Architektur unterstützt mehrere Szenarios in integrierten Zustandsnetzwerken, die auf dem Oracle Machine Learning-Service basieren, und kombiniert Autonomous Data Warehouse- und Data Science-Plattformen.

Neben Data Science und Autonomous Data Warehouse verwendet diese Architektur auch Data Catalog, Oracle APEX Application Development und Oracle Analytics Cloud. Außerdem werden OCI-Compute-Instanzen verwendet, um Anwendungen zu hosten, die tragbare Gerätedaten dynamisch in Autonomous Data Warehouse oder Object Storage streamen können. Diese Architektur dient mehreren Zwecken, einschließlich der Speicherung wichtiger Daten in einer sicheren, zuverlässigen und schnellen Datenspeicherung sowie dem Erstellen und Bereitstellen der Anwendungen und Machine Learning-Module in kurzen Zeiträumen.

Das folgende Diagramm veranschaulicht diese Referenzarchitektur.

Beschreibung von architecture-datascience-use-cases.png folgt
Beschreibung der Abbildung architecture-datascience-use-cases.png

Die Architektur umfasst folgende Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der mindestens ein Data Center, sogenannte Availability-Domains, enthält. Regionen sind unabhängig von anderen Regionen, und große Entfernungen können sie (über Länder oder sogar Kontinente) trennen.

  • Availability-Domains

    Availability-Domains sind eigenständige, unabhängige Data Center in einer Region. Die physischen Ressourcen in jeder Availability-Domain sind von den Ressourcen in den anderen Availability-Domains isoliert, was eine Fehlertoleranz bietet. Availability-Domains haben keine gemeinsame Infrastruktur wie Stromversorgung oder Kühlung oder das interne Availability-Domainnetzwerk. Daher ist es wahrscheinlich, dass sich ein Fehler in einer Availability-Domain auf die anderen Availability-Domains in der Region auswirkt.

  • Faultdomains

    Eine Fehlerdomain ist eine Gruppierung aus Hardware und Infrastruktur innerhalb einer Availability-Domain. Jede Availability-Domain hat drei Faultdomains mit unabhängiger Stromversorgung und Hardware. Wenn Sie Ressourcen auf mehrere Faultdomains verteilen, können Ihre Anwendungen physische Serverfehler, Systemwartung und Stromausfälle innerhalb einer Faultdomain tolerieren.

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetze

    Ein VCN ist ein anpassbares, softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten. Wie herkömmliche Data Center-Netzwerke erhalten VCNs vollständige Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere nicht überlappende CIDR-Blöcke haben, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die für eine Region oder eine Availability-Domain gelten können. Jedes Subnetz besteht aus einem fortlaufenden Adressbereich, der sich nicht mit den anderen Subnetzen im VCN überschneidet. Sie können die Größe eines Subnetzes nach dem Erstellen ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Data Science-Service

    Eine vollständig verwaltete, serverlose Plattform, auf der Datenanalyseteams Modelle für maschinelles Lernen erstellen, trainieren und verwalten können. Sie kann problemlos mit anderen OCI-Services wie Autonomous Data Warehouse, Object Storage und mehr integriert werden.

  • Autonomous Data Warehouse

    Eine autonome Oracle-Datenbank, die Oracle Machine Learning enthält. Data Scientists können Modelle für maschinelles Lernen mit datenbankinternen Oracle Machine Learning-Features und der zugehörigen Notebooks erstellen, bewerten, bewerten und bereitstellen. Sie können Autonomous Transaction Processing auch verwenden.

  • Anwendungs-VM

    Eine OCI Compute-Instanz mit Oracle Linux installiert und zur Installation von Tools und Anwendungen bereit, die Zugriff auf die Datenbank benötigen.

  • Datenkatalog

    OCI Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Daten-Discovery und Governance für Ihre Unternehmensdaten. Data Catalog bietet eine einheitliche Zusammenarbeitsumgebung zur Verwaltung von technischen, Geschäfts- und Betriebsmetadaten.

  • Oracle Analytics Cloud

    Mit Oracle Analytics Cloud können Business Analysts moderne, KI-gesteuerte Selfserviceanalysefunktionen für Datenvorbereitung, Visualisierung, Unternehmensberichte, erweiterte Analysen sowie Verarbeitung und Generierung natürlicher Sprache erhalten.

    Oracle Analytics Cloud ist in Oracle Machine Learning integriert. Mit dieser Integration können Analysten verfügbare datenbankinterne Modelle auflisten und diese Modelle in Oracle Analytics Cloud-Analysen und -Dashboards verwenden.

  • APEX

    Oracle APEX Application Development ist eine Low-Code-Entwicklungsplattform, mit der Sie skalierbare und sichere Unternehmensanwendungen erstellen können, die Sie überall bereitstellen können. Er ist in Autonomous Database enthalten und erfordert keine Installation. APEX-Benutzer können über Oracle Machine Learning auf Modelle und Ergebnisse zugreifen.

Empfehlungen

Ihre Anforderungen können sich von der hier beschriebenen Architektur unterscheiden. Verwenden Sie die folgenden Empfehlungen als Ausgangspunkt.

  • VCN

    Wenn Sie ein VCN erstellen, bestimmen Sie die Anzahl der erforderlichen CIDR-Blöcke und die Größe jedes Blocks basierend auf der Anzahl der Ressourcen, die Sie an Subnetze im VCN anhängen möchten. Verwenden Sie CIDR-Blöcke, die sich im standardmäßigen privaten IP-Adressbereich befinden.

    Wählen Sie CIDR-Blöcke, die sich nicht mit einem anderen Netzwerk überschneiden (in Oracle Cloud Infrastructure, Ihrem On-Premise-Data Center oder einem anderen Cloud-Provider), in dem Sie private Verbindungen einrichten möchten.

    Nachdem Sie ein VCN erstellt haben, können Sie die zugehörigen CIDR-Blöcke ändern, hinzufügen und entfernen.

    Berücksichtigen Sie beim Entwerfen der Subnetze den Verkehrsfluss und die Sicherheitsanforderungen. Hängen Sie alle Ressourcen innerhalb einer bestimmten Ebene oder Rolle an dasselbe Subnetz an, das als Sicherheitsgrenze dienen kann.

  • Sicherheit

    Mit Oracle Cloud Guard können Sie die Sicherheit Ihrer Ressourcen in OCI proaktiv überwachen und verwalten. Cloud Guard verwendet Detektorrezepte, die Sie definieren können, um Ihre Ressourcen auf Sicherheitsschwächen zu untersuchen und Operatoren und Benutzer auf riskante Aktivitäten zu überwachen. Wenn eine fehlerhafte oder unsichere Aktivität erkannt wird, empfiehlt Cloud Guard Korrekturmaßnahmen und unterstützt diese Aktionen basierend auf von Ihnen definierten Antworten.

    Für Ressourcen, für die eine maximale Sicherheit erforderlich ist, empfiehlt Oracle, Sicherheitszonen zu verwenden. Eine Sicherheitszone ist ein Compartment, das mit einem von Oracle definierten Rezept von Sicherheits-Policys verknüpft ist, die auf Best Practices basieren. Beispiel: Die Ressourcen in einer Sicherheitszone dürfen nicht aus dem öffentlichen Internet zugänglich sein und müssen mit vom Kunden verwalteten Schlüsseln verschlüsselt werden. Wenn Sie Ressourcen in einer Sicherheitszone erstellen und aktualisieren, validiert OCI die Vorgänge anhand der Policys im Rezept der Sicherheitszone und verweigert Vorgänge, die eine der Policys verletzen.

  • Autonomous Data Warehouse

    Erstellen Sie ein separates Schema für die ausschließliche Verwendung durch Data Scientists. Erteilen Sie dem Schema schreibgeschützten Zugriff auf das Haupt-Data Warehouse-Schema. Mit dieser Anordnung können Datenanalysten lokale Ansichten von Daten für die Exploration, Analyse und Modellerstellung erstellen. Bei Bedarf können gemeinsam genutzte Daten in ein eigenes Schema kopiert werden, in dem sie lokal geändert werden können.

  • Virtual Machines

    Die VMs werden für High Availability auf mehrere Faultdomains verteilt. Wir empfehlen die Verwendung einer flexiblen VM-Ausprägung für die Compute-Instanz. Dadurch können Sie die Kapazität der VMs in Minuten erhöhen oder verringern.

  • Objektspeicher

    Object Storage bietet zuverlässige und kostengünstige Dauerhaftigkeit von Daten. Sie ermöglicht einen schnellen Zugriff auf große Mengen strukturierter und unstrukturierter Daten eines beliebigen Inhaltstyps, einschließlich Datenbankdaten, Analysedaten, Bildern, Videos und mehr. Wir empfehlen die Verwendung von Standardspeicher zur Aufnahme von Daten aus externen Quellen, da Anwendungen und Benutzer schnell darauf zugreifen können. Sie können eine Lebenszyklus-Policy erstellen, um die Daten aus dem Standardspeicher in den Archivspeicher zu verschieben, wenn nicht mehr häufig darauf zugegriffen werden muss.

Überlegungen

Beachten Sie beim Deployment dieser Referenzarchitektur die folgenden Punkte.

  • Sicherheit

    Mit Policys können Sie einschränken, wer auf die OCI-Ressourcen in Ihrem Unternehmen zugreifen kann und wie sie darauf zugreifen können.

  • Verfügbarkeit der Anwendung

    Faultdomains bieten die beste Resilienz innerhalb einer einzelnen Availability-Domain. Sie können Compute-Instanzen bereitstellen, die dieselben Aufgaben in mehreren Faultdomains ausführen. Dieses Design entfernt einen einzelnen Fehlerpunkt durch Einführung von Redundanz.

  • Kostenfaktor

    Bewerten Sie Ihre Anforderungen, um die entsprechenden Compute-Ausprägungen auszuwählen.

  • Überwachung und Warnungen

    Richten Sie Monitoring und Alerts zur CPU- und Speicherauslastung für die Knoten ein, damit Sie die Ausprägung nach Bedarf vertikal oder horizontal skalieren können.

Bereitstellen

Der für das Deployment dieser Referenzarchitektur erforderliche Code ist in GitHub verfügbar. Sie können den Code mit nur einem Klick in Oracle Cloud Infrastructure Resource Manager abrufen, den Stack erstellen und bereitstellen. Alternativ können Sie den Code von GitHub auf Ihren Computer herunterladen, den Code anpassen und die Architektur mit der Terraform-CLI bereitstellen.

  • Mit Oracle Cloud Infrastructure Resource Manager bereitstellen:
    1. Klicken Sie auf In Oracle Cloud bereitstellen

      Wenn Sie noch nicht angemeldet sind, geben Sie den Mandanten und die Benutzerzugangsdaten ein.

    2. Prüfen und akzeptieren Sie die Vertragsbedingungen.
    3. Wählen Sie die Region aus, in der Sie den Stack bereitstellen möchten.
    4. Befolgen Sie die Prompts und Anweisungen zum Erstellen des Stacks auf dem Bildschirm.
    5. Nachdem Sie den Stack erstellt haben, klicken Sie auf Terraform-Aktionen, und wählen Sie Planen aus.
    6. Warten Sie, bis der Job abgeschlossen ist, und prüfen Sie den Plan.

      Um Änderungen vorzunehmen, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Stack bearbeiten, und nehmen Sie die erforderlichen Änderungen vor. Führen Sie anschließend die Aktion Planen erneut aus.

    7. Wenn keine weiteren Änderungen erforderlich sind, kehren Sie zur Seite "Stackdetails" zurück, klicken Sie auf Terraform-Aktionen, und wählen Sie Anwenden.
  • Mit dem Terraform-Code in GitHub bereitstellen:
    1. Gehen Sie zu GitHub.
    2. Klonen Sie das Repository, oder laden Sie es auf Ihren lokalen Computer herunter.
    3. Befolgen Sie die Anweisungen im Dokument README.

Weitere Informationen

Weitere Informationen zu Oracle Cloud Infrastructure Data Science finden Sie in den folgenden Ressourcen: