Modelle für maschinelles Lernen für Anwendungsfälle im Gesundheitswesen trainieren

Mit dem Oracle Cloud Infrastructure Data Science-Service können Sie Modelle für maschinelles Lernen für Anwendungsfälle im Gesundheitswesen untersuchen und trainieren.

Architektur

Diese Architektur zeigt ein typisches Oracle Cloud Infrastructure Data Science-Deployment in Oracle Cloud Infrastructure (OCI).

Das folgende Diagramm zeigt die Kernservices und einige der optionalen Services, die Sie nach Bedarf integrieren können.

Beschreibung von Healthcare-ml-design-pattern.png folgt
Beschreibung der Abbildung Healthcare-ml-design-pattern.png

Healthcare-ml-Design-Muster-oracle.zip

Im Folgenden werden die wichtigsten Komponenten der Architektur aufgeführt:

  • Object Storage oder Oracle Autonomous Database als Speicherort.
  • Data Science-Notizbuchsession zur Exploration und Entwicklung der Modelle
  • Modellieren Sie das Deployment, um Modelle zu konsolidieren und über eine REST-API verfügbar zu machen.

Diese Architektur unterstützt die folgenden Komponenten:

  • Region

    Eine Oracle Cloud Infrastructure-Region ist ein lokalisierter geografischer Bereich, der ein oder mehrere Data Center, so genannte Availability-Domains, enthält. Regionen sind nicht von anderen Regionen abhängig, und große Distanzen können sie trennen (über Länder oder sogar Kontinente).

  • Virtuelles Cloud-Netzwerk (VCN) und Subnetz

    Ein VCN ist ein anpassbares, Softwaredefiniertes Netzwerk, das Sie in einer Oracle Cloud Infrastructure-Region einrichten können. Wie bei traditionellen Data Center-Netzwerken haben VCNs die vollständige Kontrolle über Ihre Netzwerkumgebung. Ein VCN kann mehrere sich nicht überschneidende CIDR-Blöcke aufweisen, die Sie nach dem Erstellen des VCN ändern können. Sie können ein VCN in Subnetze segmentieren, die sich auf eine Region oder eine Availability-Domain skalieren lassen. Jedes Subnetz besteht aus einem nachfolgenden Adressbereich, der sich nicht mit den anderen Subnetzen im VCN überschneidet. Sie können die Größe eines Subnetzes nach der Erstellung ändern. Ein Subnetz kann öffentlich oder privat sein.

  • Internetgateway

    Das Internetgateway ermöglicht Traffic zwischen den öffentlichen Subnetzen in einem VCN und dem öffentlichen Internet.

  • API Gateway

    Mit Oracle API Gateway können Sie APIs mit privaten Endpunkten veröffentlichen, auf die über Ihr Netzwerk zugegriffen werden kann und die Sie gegebenenfalls im öffentlichen Internet bereitstellen können. Die Endpunkte unterstützen API-Validierung, Anforderungs- und Reaktionstransformation, CORS, Authentifizierung und Autorisierung sowie Anforderungsbegrenzung.

  • Data Integration

    Oracle Cloud Infrastructure Data Integration ist ein vollständig verwalteter, serverloser, cloud-nativer Service, der Daten aus einer Vielzahl von Datenquellen in Oracle Cloud Infrastructure-Zielservices wie Autonomous Data Warehouse und Oracle Cloud Infrastructure Object Storage extrahiert, lädt, transformiert, reinigt und umformt. ETL (Extract Transform Load) nutzt vollständig verwaltete Scale-out-Verarbeitung auf Spark und ELT (Extract Load Transform) nutzt vollständige SQL Push-Down-Funktionen von Autonomous Data Warehouse, um Datenbewegungen zu minimieren und die Amortisierungszeit für neu aufgenommene Daten zu verbessern. Benutzer entwerfen Datenintegrationsprozesse mit einer intuitiven, codlosen Benutzeroberfläche, die Integrationsabläufe optimiert, um die effizienteste Engine und Orchestrierung zu generieren. Die Ausführungsumgebung wird automatisch zugewiesen und skaliert. Oracle Cloud Infrastructure Data Integration bietet interaktive Explorations- und Datenvorbereitung und schützt Data Engineers vor Schemaabweichung, indem Regeln zur Verarbeitung von Schemaänderungen definiert werden.

  • Datenkatalog

    Oracle Cloud Infrastructure Data Catalog ist eine vollständig verwaltete Selfservice-Lösung für Daten-Discovery und Governance für Ihre Unternehmensdaten. Sie stellt Data Engineers, Data Scientists, Data Stewards und Chief Data Officers eine einzelne kooperative Umgebung zur Verwaltung der technischen, geschäftlichen und betrieblichen Metadaten der Organisation bereit.

  • Object Storage

    Mit Object Storage können Sie schnell auf große Mengen an strukturierten und unstrukturierten Daten eines beliebigen Inhaltstyps zugreifen, darunter Datenbankbackups, Analysedaten und umfangreiche Inhalte, wie Bilder und Videos. Sie können Daten sicher und geschützt speichern und dann direkt aus dem Internet oder aus der Cloud-Plattform abrufen. Sie können den Speicher nahtlos skalieren, ohne dass die Performance oder Servicezuverlässigkeit beeinträchtigt wird. Verwenden Sie Standardspeicher für "Hot Storage", auf den Sie schnell, sofort und häufig zugreifen müssen. Verwenden Sie Archivspeicher für "Cold Storage", den Sie über lange Zeiträume beibehalten haben, und auf den Sie nur selten zugreifen.

  • Autonomous Database

    Oracle Cloud Infrastructure Autonomous Database ist eine vollständig verwaltete, vorkonfigurierte Datenbankumgebungen, die Sie zur Transaktionsverarbeitung und Data Warehousing-Workloads verwenden können. Sie müssen keine Hardware konfigurieren oder verwalten und keine Software installieren. Oracle Cloud Infrastructure verarbeitet das Erstellen der Datenbank sowie das Backup, Patching, Upgrade und Tuning der Datenbank.

  • Data Science

    Oracle Cloud Infrastructure Data Science ist ein End-to-End-Service für maschinelles Lernen (ML), der JupyterLab Notizbuchumgebungen und Zugriff auf Hunderte von gängigen Open-Source-Tools und -Frameworks bietet. Erstellen und trainieren Sie ML-Modelle mit NVIDIA-GPUs, AutoML-Features und automatisierter Hyperparameteroptimierung. Stellen Sie Modelle als HTTP-Endpunkte bereit, oder verwenden Sie Oracle Functions. Verwalten Sie Modelle mit Versionskontrolle, wiederholbaren Jobs und Modellkatalogen.

Überlegungen zum maschinellen Lernen

Wenn Sie mit maschinellem Lernen im Oracle Cloud Infrastructure Data Science-Service beginnen, beachten Sie Folgendes:

  • Daten

    Daten sind die wichtigste und wichtigste Komponente jedes maschinellen Lernprojekts. Veröffentlichte Datasets wurden in der Regel kuratiert, und Features wurden möglicherweise bereits für Sie extrahiert, sodass sie eine gute Wahl für das Erlernen des Service sind.

    Die Arbeit mit neuen Daten erfordert mehr Arbeit, um Artefakte zu bereinigen, fehlende Werte zu berechnen und das Dataset mit zusätzlichen Features zu transformieren, zu codieren oder zu erweitern.

    Dieser Teil des Data-Scientist-Workflows ist in der Regel der zeitaufwendigste und kann auf einfache Weise 80% bis 90% der Zeitausgaben für ein maschinelles Lernen ausmachen.

  • Jupyter Notebook-Syntax kennenlernen

    Der Oracle Cloud Infrastructure Data Science-Service baut auf dem weit verbreiteten Jupyter Notebook-Framework auf. Es bietet eine umfassende visuelle Umgebung zum Experimentieren von Daten in der Python-Sprache. Python ist eine der beliebtesten Sprachen für Data Science, und Jupyter Notebook erweitert die Sprache mit spezifischer Syntax (sogenannte Magic), die dazu beiträgt, einige umständliche Vorgänge zu reduzieren und gleichzeitig das visuelle Rendering der Daten zu verbessern. Nehmen Sie sich Zeit, um mehr über die für Jupyter Notebook spezifische Syntax zu erfahren, um diese Funktionen nutzen zu können.

  • Jobs für teure Vorgänge verwenden

    Während die Exploration eine sehr interaktive Aktivität ist, die für die Jupyter Notebook-Schnittstelle gut geeignet ist, können kostspielige Vorgänge wie Modelltraining und Hyperparameter-Tuning längere Zeit in Anspruch nehmen und in die Funktion "Jobs" ausgelagert werden, mit der Benutzer Skripte mit langer Ausführungszeit auf dedizierten Rechnern ausführen können.