Aperçu du service de science des données

Le service de science des données d'Oracle Cloud Infrastructure (OCI) est une plate-forme sans serveur entièrement gérée, utilisée par les équipes d'experts en science des données pour créer, entraîner et gérer des modèles d'apprentissage automatique.

Le service de science des données :

Fournit aux experts en science des données un espace de travail collaboratif axé sur les projets.
Permet un accès en libre-service et sans serveur à l'infrastructure pour le traitement des charges de travail de science des données.
Comprend des outils, bibliothèques et ensembles Python développés par la communauté des logiciels à source libre et la bibliothèque Oracle Accelerated Data Science, qui prend en charge le cycle de vie de bout en bout des modèles prédictifs :
- Acquisition, profilage, préparation et visualisation de données.
- Ingénierie de fonctions.
- Entraînement de modèles (y compris Oracle AutoML).
- Évaluation, explication et interprétation de modèles (y compris Oracle MLX).
S'intègre avec le reste de la pile Oracle Cloud Infrastructure, y compris les services Fonctions, Flux de données, Entrepôt avec lac de données IA autonome et Stockage d'objets.
Le déploiement de modèles en tant que ressources permet de déployer des modèles comme applications Web (points d'extrémité d'API HTTP).
Les travaux du service Science des données vous permettent de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.
Les pipelines vous permettent d'exécuter des flux de travail d'apprentissage automatique de bout en bout.
Comprend les politiques et les chambres fortes permettant de contrôler l'accès aux compartiments et aux ressources.
Inclut des mesures qui fournissent des données clés sur l'état, la disponibilité, la performance et l'utilisation de vos ressources du service de science des données.
Aide les spécialistes des données à se concentrer sur l'expertise en matière de méthode et de domaine pour fournir des modèles à la production.

Conseil

Vous pouvez utiliser le guide de l'expert en science des données pour OCI pour démarrer.

Concepts relatifs au service de science des données

Consultez les concepts et termes suivants pour commencer à utiliser le service de science des données.

SDK Accelerated Data Science: La trousse SDK Oracle Accelerated Data Science (ADS) est une bibliothèque Python fournie avec le service de science des données pour OCI. ADS propose plusieurs fonctions et objets qui automatisent ou simplifient les étapes du flux de travail du service de science des données, notamment la connexion aux données, l'exploration et la visualisation des données, l'entraînement d'un modèle avec AutoML, l'évaluation des modèles et l'explication des modèles. En outre, ADS fournit une interface pour accéder au catalogue de modèles du service de science des données et aux autres services d'OCI, y compris le service de stockage d'objets. Pour vous familiariser avec ADS, voir Bibliothèque Accelerated Data Science.
Projets: Les projets sont des espaces de travail collaboratifs permettant d'organiser et de documenter les ressources du service de science des données, telles que les sessions de carnet et les modèles.
Sessions de carnet: Les sessions de carnet du service de science des données sont des environnements interactifs de codage pour la création et l'entraînement de modèles. Les sessions de carnet sont fournies avec de nombreux ensembles d'apprentissage automatique et de science des données préinstallés, à code source libre ou développés par Oracle.
Environnements Conda: Conda est un environnement à source ouverte et un système de gestion d'ensembles, qui a été créé pour les programmes Python. Il installe, exécute et met à jour les ensembles et leurs dépendances. Conda crée, enregistre, charge et permute facilement entre des environnements sur votre ordinateur local.
Modèles: Les modèles définissent une représentation mathématique de vos données et de vos processus d'affaires. Le catalogue de modèles est un emplacement de stockage, de suivi, de partage et de gestion des modèles.
Déploiements de modèle: Les déploiements de modèle sont une ressource gérée du service Science de données qui vous permet de déployer des modèles stockés dans le catalogue de modèles en tant que points d'extrémité HTTP. Le déploiement de modèles d'apprentissage automatique en tant qu'applications Web (points d'extrémité d'API HTTP) produisant des prédictions en temps réel est le moyen le plus couramment utilisé pour réaliser des modèles. Les points d'extrémité HTTP sont flexibles et peuvent servir des demandes de prédictions de modèle.
Tâches: Les travaux du service Science des données vous permettent de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.
Pipelines: Un pipeline du service de science des données est une construction exécutable qui décrit une orchestration d'apprentissage automatique de bout en bout pouvant être exécutée de manière répétable.
Journaux: Intégrez le service de journalisation au service de science des données pour créer et gérer des journaux personnalisés.
Mesures: Surveillez l'état, la capacité et la performance de certaines ressources du service de science des données à l'aide de mesures, d'alarme et d'avis.

Consultez les concepts clés OCI.

Méthodes d'accès au service de science des données

L'accès au service de science des données se fait à l'aide de la console, de l'API REST, des SDK ou de l'interface de ligne de commande.

Utilisez les options suivantes, en fonction de vos préférences et de leur adéquation pour la tâche à effectuer :

La console OCI est une interface basée sur un navigateur facile à utiliser. Pour accéder à la console, vous devez utiliser un navigateur pris en charge.
The REST APIs provide the most functionality, but require programming expertise. API reference and endpoints provide endpoint details and links to the available API reference documents including the Data Science REST API.
OCI fournit des trousses SDK qui interagissent avec le service Science des données sans qu'il soit nécessaire de créer un cadre.
L'interface de ligne de commande fournit un accès rapide et des fonctionnalités complètes, sans programmation.

Régions et domaines de disponibilité

Les services OCI sont hébergés dans des régions et des domaines de disponibilité. Une région est une zone géographique précise, tandis qu'un domaine de disponibilité comprend un ou plusieurs centres de données à l'intérieur d'une région.

Le service de science des données est hébergé dans toutes les régions où OCI est disponible.

Limites des ressources du service de science des données

Lorsque vous vous inscrivez à OCI, des limites de service sont configurées pour votre location. La limite de service correspond au quota défini pour les ressources.

Les Limites par service incluent les limites du service Science des données et d'autres services OCI. Vous pouvez demander une augmentation des limites de service pour modifier les valeurs par défaut.

Conseil

Regardez la vidéo sur l'augmentation des limites du service Science des données pour obtenir des informations spécifiques.

En plus de ces limites de service, notez que :

Les sessions de carnet et les modèles qui ont échoué et sont inactifs sont pris en compte pour les limites de service. Ce n'est que lorsque vous mettez fin à une instance ou supprimez un modèle que cela n'est pas comptabilisé dans votre quota.
Les limites de GPU sont réglées à zéro par défaut. Demandez à l'administrateur de système d'augmenter les limites afin que vous puissiez utiliser des GPU.
Le nombre maximal de travaux est de 1 000. Par défaut, chaque location peut créer jusqu'à 1 000 travaux. Vous pouvez augmenter cette limite à l'aide d'un ticket de demande de service CAM.
Le nombre d'exécutions de travail simultanées est limité par les limites de nombre de coeurs du service Science des données.

Identificateurs de ressource

La plupart des types de ressource OCI possèdent un ID unique affecté par Oracle, appelé OCID (identificateur Oracle Cloud).

L'OCID est inclus dans les informations de la ressource, à la fois dans la console et l'API. Pour plus d'informations sur le format des OCID et sur les autres moyens d'identifier les ressources, voir Identificateurs de ressource.

Authentification et autorisation

Chaque service OCI est intégré avec le service de gestion des identités et des accès pour permettre l'accès aux ressources en nuage au moyen de toutes les interfaces ( console OCI, trousses SDK, API REST ou interface de ligne de commande).

Un administrateur de votre organisation doit configurer des locations, des groupes, des compartiments et des politiques qui contrôlent quels utilisateurs peuvent accéder à quels services et ressources, ainsi que le type d'accès. L'administrateur confirme les compartiments que vous devez utiliser.

Utilisez Politiques pour créer et gérer des projets du service de science des données, ou lancer des sessions de carnet.

Provisionnement et tarification

Le service Science des données offre une expérience sans serveur pour le développement et le déploiement de modèles. Lorsque vous créez des ressources du service Science des données, telles que des sessions de carnet, des modèles, des déploiements de modèle, des travaux, l'infrastructure de calcul et de stockage sous-jacente est provisionnée et mise à jour pour vous.

Vous payez pour utiliser l'infrastructure sous-jacente (services de stockage par blocs, de calcul et de stockage d'objets). Consultez la liste de tarifs détaillée pour les ressources du service Science des données.

Vous payez uniquement l'infrastructure lorsque vous l'utilisez avec les ressources du service de science des données :

Sessions de carnet

Les sessions de carnet sont sans serveur et toute l'infrastructure sous-jacente est gérée par le service.
Lors de la création d'une session de carnet, vous sélectionnez la forme de la machine virtuelle (type d'UC ou de GPU de machine et nombre d'OCPU ou de GPU) et la quantité de stockage par blocs (50 Go au minimum).
Tant qu'une session de carnet est active, vous payez pour les services de calcul et de stockage par blocs au tarif Oracle Cloud Infrastructure standard. Voir Désactivation des sessions de carnet.
Vous pouvez désactiver la session de carnet, ce qui arrête le service de calcul, mais pas le service de stockage par blocs. Dans ce cas, vous n'êtes plus facturé pour le service de calcul, mais vous payez le service de stockage par blocs. Cela s'applique aux sessions de carnet avec une instance GPU. Les sessions de carnet avec une instance GPU ne sont pas comptées pour le service de calcul lorsqu'elles sont désactivées.

Vous pouvez activer votre session de carnet pour rattacher ce stockage par blocs à un nouveau service de calcul. Voir Désactivation et activation d'une session de carnet.
Lorsque vous supprimez une session de carnet, les services de calcul et de stockage par blocs ne sont plus facturés. Voir Suppression d'une session de carnet.

Modèles

Lorsque vous enregistrez un modèle dans le catalogue de modèles, le stockage de l'artefact du modèle est facturé selon les taux standard du service de stockage d'objets, en Go par mois.
Lorsque vous supprimez un modèle, vous n'êtes plus facturé, voir Suppression d'un modèle.

Déploiements de modèle

Lorsque vous déployez un modèle, vous sélectionnez le type de forme et le nombre de répliques hébergeant les serveurs de modèles. Vous pouvez également sélectionner la bande passante de l'équilibreur de charge associée au déploiement.
Lorsqu'un déploiement de modèle est actif, vous payez pour les machines virtuelles qui hébergent les serveurs de modèle et l'équilibreur de charge aux tarifs OCI standard.
Lors de la désactivation d'un déploiement de modèle, vous n'êtes plus facturé pour les machines virtuelles ou l'équilibreur de charge. Vous pouvez réactiver un déploiement de modèle et la facturation reprend pour les machines virtuelles et l'équilibreur de charge.
Lorsque vous supprimez un déploiement de modèle, vous n'êtes plus facturé pour l'infrastructure associée au déploiement de modèle.

Travaux

Les travaux ne donnent pas lieu à un coût supplémentaire pour l'utilisation du service. Vous ne payez que pour l'infrastructure sous-jacente utilisée et uniquement pendant la durée d'exécution de l'artefact de travail.
La comptabilisation commence au moment de l'exécution de l'artefact de travail et s'arrête après la sortie du code. Vous ne payez pas pour le temps de provisionnement de l'infrastructure ni pour son déprovisionnement.

La comptabilisation inclut la consommation d'UC ou de GPU par OCPU pendant la durée de l'exécution de l'artefact de travail et la taille du stockage par blocs utilisée pour le travail.
L'utilisation du service de journalisation avec des travaux n'entraîne pas de coût supplémentaire.

Pipelines

Les pipelines sont facturés en fonction de l'utilisation des services de calcul et de stockage par blocs sous-jacents que le pipeline utilise pour exécuter le code d'étape du pipeline.
Il n'y a pas de frais supplémentaires pour l'orchestration ou le stockage d'artefacts.

Conseil

Vous pouvez utiliser Vérification du solde et de l'utilisation pour passer en revue les coûts associés au compte. Vous pouvez également utiliser les outils de facturation et de paiement d'Oracle Cloud Infrastructure pour analyser l'utilisation du service de science des données et gérer les coûts.

Conformité

Vérifiez les normes de conformité du service Science des données.

Le service est conforme à ces normes :

HIPAA, utilisée par les entreprises de soins de santé pour protéger la confidentialité des patients.

PCI-DSS, utilisée par le secteur des cartes de crédit pour protéger les consommateurs contre la fraude.

Documentation sur Oracle Cloud Infrastructure