Plate-forme d'apprentissage automatique sur Autonomous Data Warehouse

Pour répondre à l’évolution rapide des besoins en matière d’informations, les entreprises cherchent chaque opportunité de former, déployer et gérer rapidement des modèles d’apprentissage automatique (ML).

Avec Oracle Autonomous Data Warehouse (ADW), vous disposez de tous les outils intégrés nécessaires pour charger et préparer les données, et pour entraîner, déployer et gérer les modèles d'apprentissage automatique. Ces services sont inclus dans Autonomous Data Warehouse, mais vous avez également la possibilité de combiner et de mettre en correspondance d'autres outils pour répondre au mieux aux besoins de votre organisation.

Cette architecture de référence positionne la solution technologique dans le contexte commercial global :

Description de l'image data-based-business-context.png
Description de l'illustration data-based-business-context.png

Lorsque les entreprises implémentent un data warehouse ou un data mart en association avec une plate-forme de machine learning dans le cloud, elles doivent généralement regrouper plusieurs services pour implémenter une solution de bout en bout. Bien que pour certaines organisations, cela soit réalisable, pour d'autres qui n'ont pas l'expérience ou les ressources nécessaires pour le faire, cela peut être une tâche ardue.

Une plate-forme complète d'apprentissage automatique doit au minimum inclure les éléments suivants :

  • Accès facile aux données structurées et non structurées
  • Possibilité de créer et de gérer des pipelines d'ingénierie des données
  • Possibilité de créer des modèles et de noter des données à grande échelle pour atteindre les objectifs de l'entreprise
  • Plate-forme collaborative pour la création de modèles d’apprentissage automatique
  • Processus simple de gestion et de déploiement de modèles
  • Utilisez AutoML pour étendre la portée des personnes capables de créer des modèles d’apprentissage automatique et d’accélérer le travail des data scientists

La plate-forme d'apprentissage automatique des outils inclus dans Autonomous Data Warehouse fournit aux services et aux organisations un moyen efficace de fournir les avantages de l'apprentissage automatique sans dépendre fortement des ressources informatiques et de la disponibilité. En outre, les mises à jour de produit et les patches de sécurité sont automatiquement gérés via Autonomous Data Warehouse.

Architecture

Cette architecture utilise la science des données et les fonctionnalités d'apprentissage automatique intégrées à Oracle Autonomous Data Warehouse pour analyser les données d'une large gamme de ressources de données d'entreprise pour l'analyse métier et l'apprentissage automatique.

Le diagramme suivant présente plusieurs chemins qu'un utilisateur peut suivre, en fonction du cas d'emploi. Le chemin le plus simple (lignes pleines) fournit une méthode simple pour effectuer des tâches d'ingénierie des données, créer des modèles d'apprentissage automatique, et gérer et déployer des modèles avec des outils intégrés à Autonomous Data Warehouse (ADW). Pour des cas d'emploi plus avancés (lignes en pointillés), nous avons inclus d'autres services Oracle Cloud Infrastructure (OCI) qui s'intègrent de manière transparente aux services inclus dans ADW (fermés dans la zone grise).

Description de l'image ml-adw-architecture.png
Description de l'illustration ml-adw-architecture.png

ml-adw-architecture-oracle.zip

L'architecture se concentre sur les divisions logiques suivantes :

  • Assimilation, transformation

    Ingère et affine les données à utiliser dans chacune des couches de données de l'architecture.

  • Persister, Curer, Créer

    Facilite l'accès aux données et leur navigation pour afficher la vue métier en cours. Pour les technologies relationnelles, les données peuvent être logiquement ou physiquement structurées sous forme relationnelle, longitudinale, dimensionnelle ou OLAP simple. Pour les données non relationnelles, cette couche contient un ou plusieurs pools de données, soit la sortie d'un processus analytique, soit les données optimisées pour une tâche analytique spécifique.

  • Analyser, apprendre, prédire

    Abstrait la vue logique des données pour les consommateurs. Cette abstraction facilite les approches agiles du développement, de la migration vers l'architecture cible et de la fourniture d'une seule couche de reporting à partir de plusieurs sources fédérées.

Le diagramme suivant présente une mise en correspondance de l'architecture avec les services fournis sur Oracle Cloud Infrastructure à l'aide des meilleures pratiques de sécurité.



oci-adb-oac-arch-gw-oracle.zip

L'architecture comporte les composants suivants :

  • Intégration de données

    Autonomous Data Warehouse est fourni avec les outils intégrés nécessaires à l'acquisition, au chargement et à la transformation de vos données pour de nombreux scénarios ministériels et cas d'utilisation avancés spécifiques. Autonomous Data Warehouse inclut une fonctionnalité de chargement qui vous permet de charger rapidement des données à partir d'un stockage local ou d'objets. Les transformations de données autonomes vous permettent également de vous connecter à des données issues de différents types de source et d'accéder à la fonctionnalité de type ELT.

    Pour des cas d'emploi plus avancés, Oracle Cloud Infrastructure Data Integration est disponible. Oracle Cloud Infrastructure Data Integration est un service cloud natif, sans serveur et entièrement géré qui vous aide à effectuer des tâches ETL (extraction, chargement et transformation) courantes telles que l'inclusion de données de différentes sources, le nettoyage, la transformation et la remise en forme de ces données, puis leur chargement efficace vers des sources de données cible sur Oracle Cloud Infrastructure.

  • Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse est un service de base de données autonome, auto-sécurisé et auto-réparateur optimisé pour les charges de travail d'entreposage de données. Vous n'avez pas besoin de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

    Avec Autonomous Data Warehouse, vous avez la possibilité de charger des données dans plusieurs formats, notamment structurés, JSON, XML, graphiques et spatiaux. Ce service est fourni avec les outils autonomes qui vous permettent de charger facilement des données dans des tables et d'effectuer un travail ETL léger.

    Oracle Machine Learning est intégré au coeur d'Autonomous Data Warehouse. Cela permet d'exécuter des algorithmes dans la base de données dans le noyau de la base de données et produit des objets de base de données de première classe pour un déploiement immédiat.

  • Object Storage

    Oracle Cloud Infrastructure Object Storage est une plate-forme de stockage hautes performances, basée sur Internet, qui offre une durabilité fiable et rentable en matière de données. Oracle Cloud Infrastructure Object Storage peut stocker une quantité illimitée de données non structurées de tout type de contenu, y compris des données analytiques. Vous pouvez stocker et récupérer des données en toute sécurité directement à partir d'Internet ou de la plate-forme cloud. Plusieurs interfaces de gestion vous permettent de démarrer facilement et de vous adapter en toute transparence, sans subir de dégradation des performances ni de fiabilité du service.

  • Prévision

    Les services Oracle Machine Learning étendent la fonctionnalité Oracle Machine Learning (OML) pour prendre en charge le déploiement de modèles et la gestion du cycle de vie des modèles pour les modèles Oracle Machine Learning de base de données et les modèles d'apprentissage automatique Open Neural Networks Exchange (ONNX) tiers via les API REST. Oracle Machine Learning Services prend en charge l'évaluation par score en temps réel et par petits lots pour les applications et les tableaux de bord.

    L'API REST pour les services Oracle Machine Learning fournit aux adresses REST une authentification via Autonomous Data Warehouse. Ces adresses permettent le stockage et la gestion de modèles d'apprentissage automatique et de leurs métadonnées. Ces adresses permettent également la création d'adresses d'évaluation pour les modèles.

    Oracle Machine Learning Services prend en charge les modèles de classification ou de régression tiers qui peuvent être créés à l'aide de packages tels que Scikit-learn et TensorFlow, entre autres, puis exportés au format ONNX. Oracle Machine Learning Services prend en charge l'analyse de texte cognitif intégrée pour la découverte de sujets, les mots-clés, le récapitulatif, le sentiment et la similitude. Les services Oracle Machine Learning prennent également en charge la classification des images via un déploiement de modèle au format ONNX tiers et prennent en charge l'évaluation par score à l'aide d'images ou de capteurs.

    Les utilisateurs peuvent également prédire directement dans la base de données à l'aide de modèles dans la base de données à partir de SQL, R et Python pour le scoring singleton, en petits lots et à grande échelle par lots. Les utilisateurs peuvent tirer parti de l'exécution Python intégrée OML4Py pour appeler une fonction Python définie par l'utilisateur avec des modèles produits à partir de packages tiers et effectuer des prédictions à partir d'interfaces Python et REST.

  • Apprendre

    Oracle Machine Learning Notebooks fournit une interface utilisateur collaborative permettant aux analystes de données et aux analystes métier et de données de travailler avec des interpréteurs SQL et Python tout en effectuant un apprentissage automatique dans Oracle Autonomous Database, qui inclut Autonomous Data Warehouse (ADW), Autonomous Transaction Processing (ATP) et Autonomous JSON Database (AJD). Oracle Machine Learning Notebooks permet à l'équipe plus large de data science (analystes de données, scientifiques de données citoyens, analystes de données, ingénieurs de données, administrateurs de base de données) de travailler ensemble pour explorer leurs données visuellement et développer des méthodologies analytiques à l'aide de OML4SQL et OML4Py. L'interface de bloc-notes permet d'accéder aux implémentations hautes performances, parallèles et évolutives dans la base de données d'Oracle des algorithmes d'apprentissage automatique via Python, SQL et PL/SQL. Vous pouvez également accéder aux fonctionnalités de la base de données via une connexion à Autonomous Database via des interfaces externes telles que SQL Developer, des environnements de bloc-notes open source et des IDE tiers.

    OML4Py fournit également une API Python pour l'apprentissage automatique automatisé (AutoML) pour la sélection automatisée des algorithmes et des fonctionnalités, ainsi que pour le réglage et la sélection automatisés des modèles.

    L'interface utilisateur Oracle Machine Learning AutoML (interface utilisateur OML AutoML) est une interface utilisateur sans code qui facilite le déploiement vers les services Oracle Machine Learning. Les utilisateurs professionnels sans arrière-plan de data science complet peuvent utiliser l'interface utilisateur OML AutoML pour créer et déployer des modèles d'apprentissage automatique, ainsi que générer un bloc-notes OML contenant le code OML4Py correspondant pour reconstruire le modèle et évaluer les données par programmation.

    Les experts en données peuvent utiliser l’interface utilisateur OML AutoML comme accélérateur de productivité pour accélérer l’exploration des modèles, faciliter le déploiement et générer des blocs-notes de départ.

  • Analyses

    Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui offre un ensemble complet de fonctionnalités d'exploration et d'analyse collaborative pour vous, votre groupe de travail et votre entreprise.

    Oracle Analytics Cloud est intégré à Oracle Machine Learning avec un accès aux modèles dans la base de données qui peuvent être recherchés, visualisés et déployés dans les workflows et les tableaux de bord Oracle Analytics Cloud.

    Avec Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités flexibles de gestion des services, notamment une configuration rapide, une évolutivité et des correctifs faciles, ainsi qu'une gestion automatisée du cycle de vie.

Recommandations

Utilisez les recommandations suivantes comme point de départ pour créer une plate-forme à la fois pour un entrepôt de données cloud avancé et pour une structure d'opérations d'apprentissage automatique.

Vos besoins peuvent être différents de ceux de l'architecture décrite ici.

  • Assimilation, transformation

    Les outils Autonomous Database sont des fonctionnalités intégrées à Oracle Autonomous Data Warehouse qui permettent de charger, de transformer, de cataloguer, d'obtenir des informations, voire de développer des modèles de gestion de manière simple.

  • Analyser, apprendre, prédire

    Avant de vous connecter à Oracle Analytics Cloud à Oracle Autonomous Data Warehouse, demandez à un administrateur de base de données d'autoriser l'adresse IP (ou la plage d'adresses) de votre instance Oracle Analytics Cloud. L'administrateur de base de données doit ajouter une règle de sécurité qui autorise le trafic TCP/IP à partir d'Oracle Analytics Cloud vers la base de données.

Remarques

Lorsque vous créez une structure d'opérations d'apprentissage automatique en conjonction avec votre data warehouse cloud, envisagez ces options d'implémentation.

  • Gravité des données : Conservez votre structure d'opérations d'apprentissage automatique à proximité de vos données pour limiter le coût élevé des mouvements de données, à la fois de manière monétique et en termes de temps de développement du modèle d'apprentissage automatique (même pour l'évaluation des données à l'aide de modèles d'apprentissage automatique).
  • Délai de rentabilité plus rapide : Les recommandations du tableau ci-dessous vous aideront à démarrer plus rapidement et à réduire le temps nécessaire pour commencer à exploiter la valeur de votre solution.
Conseil Recommandé Autres options Raisonnement
Assimilation, transformation Outils Autonomous Database Oracle Cloud Infrastructure Data Integration Cela dépend du cas d'utilisation. Pour faciliter le chargement de données à partir de fichiers dans Object Storage ou le stockage de données local, utilisez les outils Autonomous Database. Comme indiqué précédemment, les transformations de données Autonomous Data Warehouse peuvent également être utilisées en fonction du cas d'utilisation. Pour les cas plus avancés, utilisez Oracle Cloud Infrastructure Data Integration, qui est un service à la demande.
Persister Oracle Autonomous Data Warehouse Autonomous Data Warehouse est un data warehouse cloud qui fournit non seulement les besoins d'analyse d'un data warehouse, mais inclut également la fonctionnalité permettant de déployer une structure d'opérations Oracle Machine Learning avancée. Vous pouvez également accéder directement aux données à partir du stockage d'objets via des tables externes stockées dans un certain nombre de formats et de types.
Apprendre Oracle Machine Learning Notebooks avec OML4SQL, OML4Py et OML4R

Interface utilisateur d'Oracle Machine Learning AutoML

tiers

Science des données OCI

Les blocs-notes OML sont un environnement de bloc-notes collaboratif inclus dans la plate-forme Autonomous Data Warehouse. A l'aide de OML4SQL, OML4Py et OML4R, un utilisateur peut créer des modèles directement dans la base de données. Les modèles dans la base de données peuvent être exportés et importés entre Oracle Database et Autonomous Data Warehouse. Les utilisateurs peuvent créer des modèles Python et R à l'aide d'outils tiers avec des environnements conda personnalisés dans Autonomous Database, ou les créer en dehors de la structure Oracle Machine Learning et stocker ces modèles natifs dans la banque de données de la base de données pour une utilisation avec l'exécution OML4Py-embedded et OML4R-embedded.
Prévoir

Services Oracle Machine Learning

Oracle Machine Learning Notebooks avec OML4SQL, OML4Py et OML4R

Oracle Cloud Infrastructure Data Science

Modèles dans la base de données utilisant des requêtes SQL et des interfaces OML4R/OML4Py

Possibilité de noter le modèle via l'API REST avec un déploiement de modèle géré par les services Oracle Machine Learning. Les services Oracle Machine Learning permettent également l'importation de modèles créés en dehors de la structure Oracle Machine Learning via le format ONNX. Cela peut inclure des modèles produits dans Oracle Cloud Infrastructure Data Science.
Accès et interprétation Oracle Analytics Cloud Outils tiers Oracle Analytics Cloud est entièrement géré et étroitement intégré à la structure Oracle Machine Learning. L'une des fonctionnalités clés est la possibilité de déployer des modèles intégrés à Oracle Machine Learning vers Oracle Analytics Cloud pour l'apprentissage automatique et les tableaux de bord évolutifs.

déploiement

Le code requis pour déployer cette architecture de référence est disponible dans GitHub. Vous pouvez extraire le code dans Oracle Cloud Infrastructure Resource Manager en un seul clic, créer la pile et la déployer. Vous pouvez également télécharger le code à partir de GitHub sur votre ordinateur, le personnaliser et déployer l'architecture à l'aide de la CLI Terraform.

  • Déployer à l'aide d'Oracle Cloud Infrastructure Resource Manager :
    1. Cliquez sur Déploiement sur Oracle Cloud.

      Si vous n'êtes pas déjà connecté, entrez les informations d'identification de la location et de l'utilisateur.

    2. Consulter et accepter les conditions générales.
    3. Sélectionnez la région de déploiement de la pile.
    4. Suivez les invites affichées à l'écran et les instructions pour créer la pile.
    5. Après avoir créé la pile, cliquez sur Actions Terraform et sélectionnez Plan.
    6. Attendez que le travail soit terminé et vérifiez le plan.

      Pour apporter des modifications, revenez à la page Détails de la pile, cliquez sur Modifier la pile et apportez les modifications requises. Exécutez ensuite à nouveau l'action Plan.

    7. Si aucune autre modification n'est nécessaire, revenez à la page Détails de la pile, cliquez sur Actions Terraform et sélectionnez Appliquer.
  • Effectuez un déploiement en utilisant le code Terraform dans GitHub :
    1. Accédez à GitHub.
    2. Clonez ou téléchargez le référentiel sur votre ordinateur local.
    3. Suivez les instructions du document README.

Journal des modifications

Ce journal répertorie les modifications importantes :