Data Science Service : Cas d’utilisation des soins de santé

Oracle Cloud Infrastructure Data Science (OCI) Data Science est une plate-forme complète et sans serveur qui permet aux équipes de science des données de créer, d'entraîner et de gérer des modèles d'apprentissage automatique.

Data Science s'intègre au reste de la pile OCI, notamment Oracle Functions, Data Flow, Autonomous Data Warehouse et Object Storage. Le kit de développement logiciel (SDK) Oracle Accelerated Data Science (ADS) est une bibliothèque Python incluse dans le service Data Science, qui comporte de nombreux objets et fonctions permettant d'automatiser ou de simplifier les étapes du workflow de data science, notamment la connexion aux données, l'exploration et la visualisation des données, l'entraînement d'un modèle avec AutoML, l'évaluation des modèles et l'explication des modèles. ADS fournit également une interface simple permettant d'accéder au catalogue de modèles du service Data Science et à d'autres services OCI, notamment Object Storage.

Architecture

Cette architecture flexible prend en charge plusieurs scénarios sur les réseaux de santé intégrés basés sur le service Oracle Machine Learning, combinant des plates-formes Autonomous Data Warehouse et Data Science.

Outre Data Science et Autonomous Data Warehouse, cette architecture utilise également Data Catalog, Oracle APEX Application Development et Oracle Analytics Cloud. Il utilise également des instances de calcul OCI pour héberger des applications capables de transmettre de manière dynamique des données de périphérique portable à Autonomous Data Warehouse ou Object Storage. Cette architecture remplit plusieurs fonctions, notamment le stockage de données importantes dans un stockage sécurisé, fiable et rapide, ainsi que la création et le déploiement d'applications et de modules d'apprentissage automatique dans de courtes périodes.

Le diagramme suivant illustre cette architecture de référence.

Description de l'image architecture-datascience-use-cases.png
Description de l'illustration architecture-datascience-use-cases.png

L'architecture comporte les composants suivants :

  • Région

    Une région Oracle Cloud Infrastructure est une zone géographique localisée qui contient des centres de données, appelés domaines de disponibilité. Les régions sont indépendantes d'autres régions et de grandes distances peuvent les séparer (dans les pays voire les continents).

  • Domaines de disponibilité

    Les domaines de disponibilité sont des centres de données autonomes et indépendants au sein d'une région. Les ressources physiques de chaque domaine de disponibilité sont isolées des ressources des autres domaines de disponibilité, ce qui assure la tolérance de pannes. Les domaines de disponibilité ne partagent ni infrastructure telle que l'alimentation ou le refroidissement, ni réseau interne. Par conséquent, il est improbable qu'un problème affecte les autres domaines de disponibilité de la région.

  • Domaines de pannes

    Un domaine de pannes est un regroupement de matériel et d'infrastructures au sein d'un domaine de disponibilité. Chaque domaine de disponibilité comporte trois domaines de pannes avec une alimentation et un matériel indépendants. Lorsque vous distribuez des ressources entre plusieurs domaines de pannes, vos applications peuvent tolérer les pannes de serveur physique, la maintenance du système et les pannes d'alimentation au sein d'un domaine de pannes.

  • Réseau cloud virtuel (VCN) et sous-réseaux

    Un VCN est un réseau personnalisable et défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux cloud virtuels traditionnels, vous bénéficiez d'un contrôle total sur votre environnement réseau. Un VCN peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, qui peuvent être ciblés vers une région ou un domaine de disponibilité. Chaque sous-réseau se compose d'une plage contiguë d'adresses qui ne chevauchent pas les autres sous-réseaux du VCN. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Service Data Science

    Une plate-forme complète et sans serveur qui permet aux équipes de science des données de créer, d'entraîner et de gérer des modèles d'apprentissage automatique. Elle peut facilement s'intégrer à d'autres services OCI tels qu'Autonomous Data Warehouse, Object Storage, etc.

  • Autonomous Data Warehouse

    Une base de données autonome Oracle qui inclut Oracle Machine Learning. Les analystes de données peuvent créer, évaluer, noter et déployer des modèles d'apprentissage automatique à l'aide des fonctionnalités Oracle Machine Learning dans la base de données et de l'interface des blocs-notes associée. Vous pouvez également utiliser Autonomous Transaction Processing.

  • Machine virtuelle d'application

    Instance de calcul OCI avec Oracle Linux installée et prête à l’installation d’outils et d’applications qui ont besoin d’accéder à la base de données.

  • Catalogue de données

    OCI Data Catalog est une solution de repérage et de gouvernance de données en libre-service entièrement gérée pour vos données d'entreprise. Data Catalog fournit un environnement collaboratif unique pour gérer les métadonnées métier, techniques et opérationnelles.

  • Oracle Analytics Cloud

    Oracle Analytics Cloud permet aux analystes d'entreprise de bénéficier de fonctions d'analyse modernes en libre-service basées sur l'IA, à des fins de préparation des données, de visualisation, de reporting d'entreprise, d'analyse augmentée, de traitement et de génération du langage naturel.

    Oracle Analytics Cloud est intégré à Oracle Machine Learning. Cette intégration permet aux analystes de répertorier les modèles de base de données disponibles et d'utiliser ces modèles dans les analyses et les tableaux de bord Oracle Analytics Cloud.

  • APEX

    Oracle APEX Application Development est une plate-forme de développement low-code qui vous permet de construire des applications d'entreprise évolutives et sécurisées que vous pouvez déployer n'importe où. Il est inclus avec Autonomous Database et ne nécessite aucune installation. Les utilisateurs APEX ont accès aux modèles et aux résultats d'Oracle Machine Learning.

Recommandations

Vos besoins peuvent être différents de ceux de l'architecture décrite ici. Utilisez les recommandations suivantes comme point de départ.

  • VCN

    Lorsque vous créez un VCN, déterminez le nombre de blocs CIDR requis et la taille de chaque bloc en fonction du nombre de ressources que vous prévoyez d'attacher aux sous-réseaux du VCN. Utilisez des blocs CIDR compris dans l'espace d'adresse IP privée standard.

    Sélectionnez des blocs CIDR qui ne chevauchent aucun autre réseau (dans Oracle Cloud Infrastructure, votre centre de données on-premise ou un autre fournisseur cloud) auquel vous souhaitez configurer des connexions privées.

    Après avoir créé un VCN, vous pouvez modifier, ajouter et supprimer ses blocs CIDR.

    Lorsque vous concevez les sous-réseaux, tenez compte de vos exigences en matière de flux de trafic et de sécurité. Associez toutes les ressources d'un niveau ou d'un rôle spécifique au même sous-réseau, ce qui peut servir de limite de sécurité.

  • Sécurité

    Utilisez Oracle Cloud Guard pour surveiller et maintenir la sécurité de vos ressources dans OCI de manière proactive. Cloud Guard utilise des recettes de détection que vous pouvez définir pour examiner vos ressources afin de détecter les failles de sécurité et pour surveiller les opérateurs et les utilisateurs pour les activités risquées. Lorsque des erreurs de configuration ou des activités non sécurisées sont détectées, Cloud Guard recommande des actions correctives et aide ces actions, en fonction des recettes de répondeur que vous pouvez définir.

    Pour les ressources nécessitant une sécurité maximale, Oracle recommande d'utiliser des zones de sécurité. Une zone de sécurité est un compartiment associé à une recette définie par Oracle de stratégies de sécurité basées sur les meilleures pratiques. Par exemple, les ressources d'une zone de sécurité ne doivent pas être accessibles à partir du réseau Internet public et doivent être chiffrées à l'aide de clés gérées par le client. Lorsque vous créez et mettez à jour des ressources dans une zone de sécurité, OCI valide les opérations par rapport aux stratégies de la recette de zone de sécurité et refuse les opérations qui violent les stratégies.

  • Autonomous Data Warehouse

    Créez un schéma distinct pour une utilisation exclusive par les data scientists. Accordez au schéma un accès en lecture seule au schéma Data Warehouse principal. Cet arrangement permet aux data scientists de créer des vues locales des données pour l’exploration, l’analyse et la création de modèles. Si nécessaire, les données partagées peuvent être copiées dans leur propre schéma, où elles peuvent les modifier localement.

  • Machines virtuelles

    Les machines virtuelles sont réparties sur plusieurs domaines de pannes pour assurer une haute disponibilité. Nous vous recommandons d'utiliser une forme de machine virtuelle flexible pour l'instance de calcul. Cela vous permettra d'augmenter ou de réduire la capacité des machines virtuelles en quelques minutes.

  • Stockage d'objet

    Object Storage offre une durabilité fiable et rentable des données. Il permet d'accéder rapidement à de grandes quantités de données structurées et non structurées de tout type de contenu, y compris des données de base de données, des données analytiques, des images, des vidéos, etc. Nous vous recommandons d’utiliser le stockage standard pour intégrer des données provenant de sources externes, car les applications et les utilisateurs peuvent y accéder rapidement. Vous pouvez créer une stratégie de cycle de vie pour déplacer les données du stockage standard vers le stockage d'archive lorsqu'il n'est plus nécessaire d'y accéder fréquemment.

Remarques

Tenez compte des points suivants lors du déploiement de cette architecture de référence.

  • Sécurité

    Utilisez des stratégies pour limiter les personnes autorisées à accéder aux ressources OCI de votre entreprise et leur mode d'accès.

  • Disponibilité de l'application

    Les domaines de pannes offrent la meilleure résilience au sein d'un seul domaine de disponibilité. Vous pouvez déployer des instances Compute qui effectuent les mêmes tâches dans plusieurs domaines de pannes. Cette conception supprime un point de défaillance unique en introduisant la redondance.

  • Coût

    Evaluez vos besoins afin de choisir les formes de calcul appropriées.

  • Surveillance et alertes

    Configurez la surveillance et des alertes sur l'utilisation de l'UC et de la mémoire pour vos noeuds afin de pouvoir augmenter ou réduire la forme selon vos besoins.

déploiement

Le code requis pour déployer cette architecture de référence est disponible dans GitHub. Vous pouvez extraire le code dans Oracle Cloud Infrastructure Resource Manager en un seul clic, créer la pile et la déployer. Vous pouvez également télécharger le code à partir de GitHub sur votre ordinateur, le personnaliser et déployer l'architecture à l'aide de la CLI Terraform.

  • Déployer à l'aide d'Oracle Cloud Infrastructure Resource Manager :
    1. Cliquez sur Déploiement sur Oracle Cloud.

      Si vous n'êtes pas déjà connecté, entrez les informations d'identification de la location et de l'utilisateur.

    2. Consulter et accepter les conditions générales.
    3. Sélectionnez la région de déploiement de la pile.
    4. Suivez les invites affichées à l'écran et les instructions pour créer la pile.
    5. Après avoir créé la pile, cliquez sur Actions Terraform et sélectionnez Plan.
    6. Attendez que le travail soit terminé et vérifiez le plan.

      Pour apporter des modifications, revenez à la page Détails de la pile, cliquez sur Modifier la pile et apportez les modifications requises. Exécutez ensuite à nouveau l'action Plan.

    7. Si aucune autre modification n'est nécessaire, revenez à la page Détails de la pile, cliquez sur Actions Terraform et sélectionnez Appliquer.
  • Effectuez un déploiement en utilisant le code Terraform dans GitHub :
    1. Accédez à GitHub.
    2. Clonez ou téléchargez le référentiel sur votre ordinateur local.
    3. Suivez les instructions du document README.

Plus d'informations

Pour en savoir plus sur Oracle Cloud Infrastructure Data Science, reportez-vous aux ressources suivantes :