Überblick über Data Science
Oracle Cloud Infrastructure (OCI) Data Science ist eine vollständig verwaltete serverlose Plattform, auf der Data Science-Teams Modelle für maschinelles Lernen erstellen, trainieren und verwalten können.
Der Data Science Service:
-
bietet Data Scientists einen kooperativen, projektorientierten Arbeitsbereich.
-
ermöglicht Selfservice- und serverlosen Zugriff auf die Infrastruktur für Data Science-Workloads.
-
enthält Python-orientierte Tools, Librarys und Packages, die von der Open-Source-Community und der Oracle Accelerated Data Science Library entwickelt wurden und den End-to-End-Lebenszyklus von Vorhersagemodellen unterstützen:
-
Datenerfassung, Profilerstellung, Vorbereitung und Visualisierung.
-
Featureentwicklung.
-
Modelltraining (einschließlich Oracle AutoML).
-
Modellauswertung, Erläuterung und Interpretation (einschließlich Oracle MLX).
-
-
ist mit dem übrigen Oracle Cloud Infrastructure-Stack integrierbar, einschließlich Functions, Data Flow, Autonomous Data Warehouse und Object Storage.
-
bietet Modell-Deployments als Ressourcen, um Modelle als Webanwendungen (HTTP-API-Endpunkte) bereitzustellen.
-
Data Science-Jobs ermöglichen es Ihnen, wiederholbare Aufgaben für maschinelles Lernen zu definieren und in einer vollständig verwalteten Infrastruktur auszuführen.
-
Mit Pipelines können Sie End-to-End-Workflows für maschinelles Lernen ausführen.
-
enthält Policys und Vaults zur Kontrolle des Zugriffs auf Compartments und Ressourcen.
- Enthält Metriken, die Einblicke in Zustand, Verfügbarkeit, Performance und Verwendung Ihrer Data Science-Ressourcen bieten.
-
Hilft Data Scientists, sich auf Methoden- und Domänenkompetenz zu konzentrieren, um Modelle in die Produktion zu bringen.
Data Science-Konzepte
Die folgenden Konzepte und Begriffe erleichtern Ihnen die ersten Schritte mit Data Science.
- Accelerated Data Science-SDK
-
Das Oracle Accelerated Data Science-(ADS-)SDK ist eine Python-Library, die im OCI Data Science-Service enthalten ist. ADS umfasst viele Funktionen und Objekte zur Automatisierung oder Vereinfachung der Schritte im Data Science-Workflow, einschließlich der Verbindung zu Daten, des Explorierens und Visualisierens von Daten, des Trainings eines Modells mit AutoML, des Evaluierens und des Erklärens von Modellen. Darüber hinaus bietet ADS eine Schnittstelle für den Zugriff auf den Modellkatalog des Data Science-Service und auf andere OCI-Services, einschließlich Object Storage. Unter Accelerated Data Science Library finden Sie weitere Informationen, um sich mit ADS vertraut zu machen.
- Projekte
-
Projekte sind kollaborative Workspaces zum Organisieren und Dokumentieren von Data Science-Assets, wie Notizbuchsessions und Modelle.
- Notizbuchsessions
-
Data-Science-Notebook-Sessions sind interaktive Codierungsumgebungen für das Erstellen und Trainieren von Modellen. Notizbuchsessions beinhalten viele vorinstallierte Open-Source- und von Oracle entwickelte Packages für maschinelles Lernen und Data Science.
- Conda-Umgebungen
-
Conda ist ein Open-Source-Umgebungs- und Packageverwaltungssystem und wurde für Python-Programme entwickelt. Damit werden Packages und ihre Abhängigkeiten installiert, ausgeführt und aktualisiert. Conda kann ganz einfach Umgebungen auf Ihrem lokalen Rechner erstellen, speichern und laden sowie dazwischen wechseln.
- Modelle
-
Modelle definieren eine mathematische Darstellung Ihrer Daten und Geschäftsprozesse. Der Modellkatalog dient zum Speichern, Verfolgen, Freigeben und Verwalten von Modellen.
- Modell-Deployments
-
Modell-Deployment sind eine verwaltete Ressource im Data Science-Service, mit der Sie im Modellkatalog gespeicherte Modelle als HTTP-Endpunkte bereitstellen können. Die Bereitstellung von Modellen für maschinelles Lernen als Webanwendungen (HTTP-API-Endpunkte) für Vorhersagen in Echtzeit ist die gängigste Methode, mit der Modelle in der Produktion eingesetzt werden. HTTP-Endpunkte sind flexibel und können Anforderungen für Modellvorhersagen verarbeiten.
- Jobs
-
Data Science-Jobs ermöglichen es Ihnen, wiederholbare Aufgaben für maschinelles Lernen zu definieren und in einer vollständig verwalteten Infrastruktur auszuführen.
- Pipelines
-
Eine Data Science-Pipeline ist ein ausführbares Konstrukt, das eine End-to-End-Orchestrierung des maschinellen Lernens beschreibt, die auf wiederholbare Weise ausgeführt werden kann.
- Logs
-
Integrieren Sie den Logging-Service in Data Science, um benutzerdefinierte Logs zu erstellen und zu verwalten.
- Metriken
-
Überwachen Sie Zustand, Kapazität und Performance einiger Data Science-Ressourcen mit Metriken, Alarmen und Benachrichtigungen.
Lesen Sie die OCI-Schlüsselkonzepte.
Möglichkeiten für den Zugriff auf Data Science
Der Zugriff auf Data Science erfolgt über die Konsole, die REST-API, über SDKs oder die CLI.
Verwenden Sie je nach Präferenz und je nach der auszuführenden Aufgabe eine der folgenden Optionen:
- Die OCI-Konsole ist eine einfache, browserbasierte Schnittstelle. Um auf die Konsole zuzugreifen, müssen Sie einen unterstützten Browser verwenden.
- Die REST-APIs stellen die meisten Funktionen bereit, erfordern jedoch Programmierkenntnisse. API-Referenz und Endpunkte enthalten Endpunktdetails und Links zu den verfügbaren API-Referenzdokumenten, einschließlich der Data Science-REST-API.
- OCI stellt SDKs bereit, die mit Data Science interagieren, ohne dass ein Framework erstellt werden muss.
- Die CLI bietet sowohl Schnellzugriff als auch vollständige Funktionen ohne Programmierung.
Regionen und Availability-Domains
OCI-Services werden in Regionen und Availability-Domains gehostet. Eine Region ist ein bestimmter geografischer Bereich. Eine Availability-Domain umfasst mindestens ein Data Center in dieser Region.
Data Science wird in allen Regionen gehostet, in denen OCI verfügbar ist.
Limits für Data Science-Ressourcen
Wenn Sie sich für OCI registrieren, wird ein Set von Servicelimits für Ihren Mandanten konfiguriert. Das Servicelimit ist die Quota oder die zulässige Nutzung für die Ressourcen.
Die Option Limits nach Service umfasst Data Science-Limits und andere OCI-Services. Sie können die Erhöhung eines Servicelimits beantragen, um die Standardwerte zu ändern.
Beachten Sie zusätzlich zu diesen Servicelimits folgende Hinweise:
-
Nicht erfolgreiche und inaktive Notizbuchsessions und Modelle werden auf Ihre Servicelimits angerechnet. Nur wenn Sie Instanzen vollständig stoppen oder Modelle löschen, werden diese nicht auf Ihre Quota angerechnet.
-
GPU-Limits sind standardmäßig auf Null gesetzt. Bitten Sie den Systemadministrator, die Limits zu erhöhen, damit Sie GPUs verwenden können.
-
Die Höchstanzahl von Jobs beträgt 1000. Standardmäßig kann jeder Mandant bis zu 1000 Jobs erstellen. Sie können dieses Limit mit einem CAM-Serviceanfrageticket erhöhen.
-
Die Anzahl der gleichzeitigen Jobläufe ist durch das Limit der Data Science-Hauptanzahl begrenzt.
Ressourcen-IDs
Die meisten OCI-Ressourcentypen verfügen über eine von Oracle zugewiesene eindeutige ID, die als OCID (Oracle Cloud-ID) bezeichnet wird.
Die OCID ist Teil der Ressourceninformationen in der Konsole und API. Informationen zum OCID-Format und zu weiteren Möglichkeiten zur Identifizierung Ihrer Ressourcen finden Sie unter Ressourcen-IDs.
Authentifizierung und Autorisierung
Jeder Service in OCI kann über alle Schnittstellen (OCI-Konsole, SDKs, REST-APIs oder CLI) mit Identity and Access Management auf Cloud-Ressourcen zugreifen.
Ein Administrator in Ihrer Organisation muss Mandanten, Gruppen, Compartments und Policys einrichten, die kontrollieren, wer welchen Zugriff auf welche Services und Ressourcen hat. Der Administrator bestätigt, welche Compartments Sie verwenden sollten.
Unter Policys finden Sie weitere Informationen zum Erstellen und Verwalten von Data Science-Projekten oder zum Starten von Notizbuchsessions.
Provisioning und Preise
Der Data Science-Service bietet eine serverlose Erfahrung für Modellentwicklung und Deployment. Wenn Sie Data Science-Ressourcen wie Notebooksessions, Modelle, Modell-Deployments und Jobs erstellen, wird die zugrunde liegende Compute- und Speicherinfrastruktur für Sie bereitgestellt und verwaltet.
Sie zahlen für die Verwendung der zugrunde liegenden Infrastruktur (Block Storage, Compute und Object Storage). Sehen Sie sich die ausführliche Preisliste für Data Science-Ressourcen an.
Sie bezahlen nur für die Infrastruktur, solange Sie sie mit Data Science-Ressourcen verwenden:
- Notizbuchsessions
-
-
Notizbuchsessions sind serverlos, und alle zugrunde liegenden Infrastrukturen werden vom Service verwaltet.
-
Wenn Sie eine Notizbuchsession erstellen, wählen Sie die VM-Ausprägung (Rechnertyp, wie CPU oder GPU, Anzahl OCPUs oder GPUs) und die Blockspeichermenge (mindestens 50 GB) aus.
- Während eine Notizbuchsession aktiv ist, bezahlen Sie für Compute und Block Storage die Standardtarife für Oracle Cloud Infrastructure (siehe Notizbuchsessions deaktivieren).
-
Sie können die Notebook-Session deaktivieren. Dadurch wird Compute heruntergefahren, Block Storage bleibt jedoch aktiv. In diesem Fall wird Ihnen Compute nicht mehr berechnet, für Block Storage zahlen Sie jedoch weiterhin. Das gilt für Notizbuchsessions mit einer GPU-Instanz. Bei Notizbuchsessions mit einer GPU-Instanz wird die Compute-Nutzung nicht abgerechnet, wenn sie deaktiviert sind.
Sie können Ihre Notebook-Session aktivieren, um Block Storage erneut an Compute anzuhängen. Siehe Notebook-Session deaktivieren und aktivieren.
-
Wenn Sie eine Notebook-Session löschen, fallen keine Gebühren mehr für Compute oder Block Storage an. Siehe Notizbuch-Session löschen.
-
- Modelle
-
-
Wenn Sie ein Modell im Modellkatalog speichern, wird Ihnen die Speicherung des Modellartefakts zu den Standardtarifen für Object Storage in Höhe von GB pro Monat in Rechnung gestellt.
-
Wenn Sie ein Modell löschen, fallen keine Gebühren mehr an. Informationen hierzu finden Sie unter Modell löschen.
-
- Modell-Deployments
-
-
Wenn Sie ein Modell bereitstellen, wählen Sie den Ausprägungstyp und die Anzahl der Replikate aus, die die Modellserver hosten. Sie können auch die mit dem Deployment verknüpfte Load Balancer-Bandbreite auswählen.
-
Wenn ein Modell-Deployment aktiv ist, bezahlen Sie die Standard-OCI-Tarife für die VMs, die die Modellserver hosten, und den Load Balancer.
-
Wenn Sie ein Modell-Deployment deaktivieren, fallen keine Gebühren für die VMs oder den Load Balancer mehr an. Sie können ein Modell-Deployment erneut aktivieren, und die Abrechnung wird sowohl für die VM als auch für den Load Balancer fortgesetzt.
-
Wenn Sie ein Modell-Deployment löschen, fallen keine Gebühren für die mit dem Modell-Deployment verknüpfte Infrastruktur mehr an.
-
- Jobs
-
-
Jobs führen nicht zu höheren Kosten für die Nutzung des Service. Sie zahlen lediglich für die zugrunde liegende verwendete Infrastruktur und nur während der Ausführungsdauer des Jobartefakts.
-
Die Abrechnung beginnt ab dem Zeitpunkt, an dem das Jobartefakt ausgeführt wird, und wird beim Beenden des Codes gestoppt. Sie bezahlen weder für die Zeit des Infrastruktur-Provisionings noch für das Deprovisioning der Infrastruktur.
Die Abrechnung umfasst den CPU- oder GPU-Verbrauch pro OCPU während der Ausführung des Jobartefakts und die für den Job verwendete Blockspeichergröße.
-
Die Verwendung des Logging-Service mit Jobs verursacht keine zusätzlichen Kosten.
-
- Pipelines
-
-
Pipelines werden durch die Verwendung des zugrunde liegenden Compute- und Blockspeichers abgerechnet, mit dem die Pipeline den Pipelineschrittcode ausführt.
-
Für die Orchestrierung oder den Artefaktspeicher fallen keine zusätzlichen Kosten an.
-
Unter Saldo und Nutzung prüfen können Sie die Kosten für den Account prüfen. Außerdem können Sie mit den Abrechnungs- und Zahlungstools von Oracle Cloud Infrastructure die Data-Science-Nutzung analysieren und Kosten verwalten.
Compliance
Prüfen Sie die Standards, mit denen der Data Science-Service kompatibel ist.
Der Service erfüllt die folgenden Standards:
HIPAA (wird von Gesundheitsunternehmen zum Schutz von Patientendaten verwendet)
PCI-DSS (wird von der Kreditkartenbranche verwendet, um Verbraucher vor Betrug zu schützen)