Présentation de Data Science

Oracle Cloud Infrastructure (OCI) Data Science est une plateforme entièrement gérée et sans serveur qui permet aux équipes de science des données de créer, d'entraîner et de gérer des modèles d'apprentissage automatique.

Le service Data Science :

offre aux analystes de données un espace de travail collaboratif et orienté projet,
permet un accès en libre-service et sans serveur à l'infrastructure pour les charges globales de science des données,
inclut des outils, des bibliothèques et des packages centrés sur Python développés par la communauté open source, ainsi que la bibliothèque Oracle Accelerated Data Science, qui prend en charge le cycle de vie de bout en bout des modèles prédictifs :
- Acquisition, profilage, préparation et visualisation des données.
- Ingénierie des fonctionnalités.
- Entraînement de modèles (y compris Oracle AutoML).
- Evaluation, explication et interprétation de modèles (y compris Oracle MLX).
Il s'intègre au reste de la pile Oracle Cloud Infrastructure, y compris Functions, Data Flow, Autonomous AI Lakehouse et Object Storage.
utilise les déploiements de modèle en tant que ressources pour déployer les modèles en tant qu'applications Web (adresses d'API HTTP),
Les travaux Data Science permettent de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.
Les pipelines vous permettent d'exécuter des workflows d'apprentissage automatique de bout en bout.
inclut des stratégies et des coffres pour contrôler l'accès aux compartiments et aux ressources,
Comprend des mesures qui donnent un aperçu de l'état, de la disponibilité, des performances et de l'utilisation de vos ressources Data Science.
Aide les data scientists à se concentrer sur l'expertise des méthodes et des domaines pour fournir des modèles en production.

Conseil

Pour commencer, vous pouvez utiliser le guide d'un expert en données sur OCI.

Concepts relatifs à Data Science

Consultez les concepts et termes suivants pour vous aider à commencer Data Science.

Kit SDK Accelerated Data Science: Le kit SDK Oracle Accelerated Data Science (ADS) est une bibliothèque Python incluse dans le service OCI Data Science. ADS comporte de nombreux objets et fonctions qui automatisent ou simplifient les étapes du workflow Data Science, notamment la connexion aux données, l'exploration et la visualisation des données, l'entraînement d'un modèle avec AutoML, l'évaluation des modèles et l'explication des modèles. ADS fournit également une interface permettant d'accéder au catalogue de modèles du service Data Science et à d'autres services OCI, notamment Object Storage. Pour vous familiariser avec ADS, reportez-vous à la bibliothèque Accelerated Data Science.
Projets: Les projets sont des espaces de travail collaboratifs permettant d'organiser et de documenter les ressources Data Science, telles que les sessions de bloc-notes et les modèles.
Sessions de bloc-notes: Les sessions de bloc-notes Data Science sont des environnements de code interactifs pour l'élaboration et l'entraînement des modèles. Les sessions de bloc-notes sont fournies avec de nombreux packages d'apprentissage automatique et de science des données open source et développés par Oracle.
Environnements conda: Conda est un environnement open source et un système de gestion de packages qui a été créé pour les programmes Python. Il installe, exécute et met à jour les packages et leurs dépendances. Conda crée, enregistre, charge et change facilement les environnements sur l'ordinateur local.
Modèles: Les modèles définissent une représentation mathématique de vos données et processus métier. Le catalogue de modèles est un emplacement de stockage, de suivi, de partage et de gestion des modèles.
Déploiements de modèle: Les déploiements de modèle sont des ressources gérées dans le service Data Science permettant de déployer des modèles stockés dans le catalogue de modèles en tant qu'adresses HTTP. Le déploiement de modèles d'apprentissage automatique en tant qu'applications Web (adresses d'API HTTP) traitant les prédictions en temps réel est la manière la plus courante de mettre des modèles en production. Les adresses HTTP sont flexibles et peuvent traiter les demandes pour les prédictions de modèle.
Travaux: Les travaux Data Science permettent de définir et d'exécuter des tâches d'apprentissage automatique pouvant être répétées sur une infrastructure entièrement gérée.
Pipelines: Un pipeline Data Science est une construction exécutable qui décrit une orchestration d'apprentissage automatique de bout en bout qui peut être exécutée de manière reproductible.
Journaux: Intégrez le service Logging à Data Science pour créer et gérer des journaux personnalisés.
Métriques: Surveiller l'état, la capacité et les performances de certaines ressources Data Science à l'aide de mesures, d'alarmes et de notifications.

Consultez les concepts clés OCI.

Méthodes d'accès à Data Science

Vous accédez à Data Science à l'aide de la console, de l'API REST, des SDK ou de l'interface de ligne de commande.

Utilisez l'une des options suivantes, en fonction de vos préférences et de l'adéquation par rapport à la tâche à réaliser :

La console OCI est une interface conviviale basée sur le navigateur. Pour accéder à la console, vous devez utiliser un navigateur pris en charge.
Les API REST fournissent le plus de fonctionnalités, mais nécessitent une expertise en programmation. Les adresses et les références d'API fournissent des détails sur les adresse et des liens vers les documents d'API disponibles, y compris l'API REST Data Science.
OCI fournit des kits SDK qui interagissent avec Data Science sans avoir à créer de structure.
L'interface de ligne de commande offre un accès rapide et des fonctionnalités complètes sans avoir besoin de programmation.

Régions et domaines de disponibilité

Les services OCI sont hébergés dans des régions et domaines de disponibilité. Une région est une zone géographique précise, tandis qu'un domaine de disponibilité désigne des centres de données trouvés dans cette région.

Data Science est hébergé dans toutes les régions où OCI est disponible.

Limites relatives aux ressources Data Science

Lorsque vous vous inscrivez à OCI, un ensemble de limites de service est configuré pour votre location. La limite de service est l'allocation ou le quota défini sur les ressources.

Les limites par service incluent les limites de Data Science et d'autres services OCI. Vous pouvez demander une augmentation de limite de service pour modifier les valeurs par défaut.

Conseil

Pour obtenir des détails, regardez la vidéo sur l'augmentation des limites du service Data Science.

En plus de ces limites de service, tenez compte des informations suivantes :

Les sessions de bloc-notes et les modèles en échec et inactifs sont pris en compte par rapport aux limites de service. Les ressources ne sont pas prises en compte dans le quota uniquement lorsque vous arrêtez entièrement une instance ou que vous supprimez un modèle.
Les limites de GPU sont définies sur zéro par défaut. Demandez à l'administrateur système d'augmenter les limites afin de pouvoir utiliser des GPU.
Le nombre maximal de travaux est de 1 000. Par défaut, chaque location peut créer jusqu'à 1 000 travaux. Vous pouvez augmenter cette limite à l'aide d'un ticket de demande de service CAM.
Le nombre de traitements de travail simultanés est restreint par les limites de nombre de coeurs Data Science.

Identificateurs de ressource

La plupart des types de ressource OCI possèdent un ID unique affecté par Oracle appelé OCID (identificateur Oracle Cloud) .

L'OCID est inclus dans les informations de la ressource à la fois dans la console et dans l'API. Pour plus d'informations sur le format OCID et les autres moyens d'identifier les ressources, reportez-vous à Identificateurs de ressource.

Authentification et autorisation

Chaque service dans OCI s'intègre à Identity and Access Management pour le contrôle d'accès aux ressources cloud via toutes les interfaces ( console OCI, kits SDK, API REST ou interface de ligne de demande).

Un administrateur de votre organisation doit configurer des locations, des groupes, des compartiments et des stratégies qui contrôlent l'accès des utilisateurs aux services et ressources, ainsi que le type d'accès. L'administrateur confirme les compartiments que vous devez utiliser.

Utilisez des stratégies pour créer et gérer des projets Data Science, ou lancez des sessions de bloc-notes.

Provisionnement et tarification

Le service Data Science offre une expérience sans serveur pour le développement et le déploiement de modèle. Lorsque vous créez des ressources Data Science, telles que des sessions de bloc-notes, des modèles, des déploiements de modèle et des travaux, l'infrastructure de calcul et de stockage sous-jacente est provisionnée et gérée pour vous.

Vous payez l'utilisation de l'infrastructure sous-jacente (Block Storage, Compute et Object Storage). Consultez la liste des tarifs détaillés pour les ressources Data Science.

Vous payez uniquement pour l'infrastructure lorsque vous l'utilisez avec des ressources Data Science :

Sessions de bloc-notes

Les sessions de bloc-notes sont sans serveur et toute l'infrastructure sous-jacente est gérée par le service.
Lors de la création d'une session de bloc-notes, vous sélectionnez la forme de machine virtuelle (type d'UC ou de GPU de machine, nombre d'OCPU ou de GPU) et la quantité de stockage de blocs (50 Go au minimum).
Lorsqu'une session de bloc-notes est active, vous payez les services Compute et Block Storage aux tarifs Oracle Cloud Infrastructure standard. Reportez-vous à Désactivation des sessions de bloc-notes.
Vous pouvez désactiver la session de bloc-notes, ce qui arrête le service Compute tout en conservant Block Storage. Dans ce cas, vous n'êtes plus facturé pour le service Compute, mais vous continuez à payer pour Block Storage. Cela s'applique aux sessions de bloc-notes avec une instance de GPU. Les sessions de bloc-notes avec une instance de GPU ne sont pas mesurées pour Compute lorsqu'elles sont désactivées.

Vous pouvez activer la session de bloc-notes pour rattacher ce service Block Storage au nouveau service Compute. Reportez-vous à Désactivation et activation d'une session de bloc-notes.
Lorsque vous supprimez une session de Bloc-notes, vous n'êtes plus facturé pour Compute ou Block Storage. reportez-vous à Suppression d'une session de Bloc-notes.

Modèles

Lorsque vous enregistrez un modèle dans le catalogue de modèles, vous êtes facturé pour le stockage de l'artefact de modèle aux tarifs Object Storage standard, sous forme de Go par mois.
Lorsque vous supprimez un modèle, vous n'êtes plus facturé. Reportez-vous à la rubrique Suppression d'un modèle.

Déploiements de modèle

Lorsque vous déployez un modèle, vous sélectionnez le type de forme et le nombre de répliques hébergeant les serveurs de modèle. Vous pouvez également sélectionner la bande passante d'équilibreur de charge associée au déploiement.
Lorsqu'un déploiement de modèle est actif, vous payez pour les machines virtuelles qui hébergent les serveurs de modèle et l'équilibreur de charge selon les tarifs OCI standard.
Lorsque vous désactivez un déploiement de modèle, vous n'êtes plus facturé pour les machines virtuelles ou l'équilibreur de charge. Vous pouvez réactiver un déploiement de modèle et la facturation reprend pour les machines virtuelles et l'équilibreur de charge.
Lorsque vous supprimez un déploiement de modèle, vous n'êtes plus facturé pour l'infrastructure associée.

Travaux

Les travaux n'entraînent pas de coût supplémentaire pour l'utilisation du service. Vous payez uniquement pour l'infrastructure sous-jacente utilisée pendant la durée d'exécution de l'artefact de travail.
La mesure commence à partir du début de l'exécution de l'artefact de travail et s'arrête avec la sortie de code. Vous ne payez pas pour le temps de provisionnement de l'infrastructure ni pour le dé-provisionnement de l'infrastructure.

La mesure inclut la consommation d'UC ou de GPU par OCPU pendant la durée d'exécution de l'artefact de travail et la taille de stockage Block Storage utilisée pour le travail.
L'utilisation du service Logging avec les travaux n'entraîne aucun coût supplémentaire.

Pipelines

Les pipelines sont facturés en fonction de l'utilisation du stockage de blocs et du calcul sous-jacents que le pipeline utilise pour exécuter le code d'étape de pipeline.
Il n'y a pas de frais supplémentaires pour l'orchestration ou le stockage d'artefact.

Conseil

Vous pouvez vous reporter à Vérification du solde et de l'utilisation pour vérifier les coûts associés au compte. Vous pouvez également utiliser les outils de paiement et de facturation Oracle Cloud Infrastructure pour analyser l'utilisation de Data Science et gérer les coûts.

Conformité

Examinez les normes auxquelles le service Data Science se conforme.

Le service est conforme aux normes suivantes :

HIPAA (appliquée par les entreprises du secteur de la santé pour protéger la vie privée des patients)

PCI-DSS (appliquée par le secteur des cartes de crédit pour protéger les consommateurs des fraudes)

Documentation Oracle Cloud Infrastructure