Développement d’applications innovantes - Big Data et analyses

Le Big Data est un ensemble de fonctionnalités et de modèles qui vous permettent de gérer, de collecter, de stocker, de cataloguer, de préparer, de traiter et d'analyser tous les types de données (non structurés, semi-structurés et structurés) qu'ils proviennent de sources telles que des bases de données, des vidéos, des formulaires, des documents, des fichiers journaux, des pages Web ou des images. Les fonctionnalités Big Data d’Oracle couvrent divers services et outils afin que vous puissiez commencer votre transition vers le Big Data en fonction de vos compétences et préférences.

Principes de conception

Lors de l'implémentation d'un modèle Big Data et d'analyse, utilisez les principes de conception suivants pour le développement d'applications innovantes.

  • Utiliser des services entièrement gérés pour éliminer la complexité lors du développement d’applications, des runtimes et de la gestion des données

    Vos données sont tout aussi précieuses que votre capacité à les utiliser. Les outils Big Data sont populaires dans la communauté open source et la plupart des fonctionnalités ont été adoptées sur site via des projets open source comme Hadoop, Spark et Hive.

    Utilisez Oracle Big Data Service, qui offre tous les composants Hadoop open source populaires en tant que service géré dans Oracle Cloud. Pour les applications Spark, utilisez Oracle Cloud Infrastructure Data Flow, qui offre une plate-forme Spark native, sans serveur et cloud entièrement gérée. L'utilisation de ces services vous permet de tirer parti des dernières innovations de la communauté open source et des compétences existantes de votre équipe sans vous soucier de la dépendance vis-à-vis des fournisseurs. Continuez à utiliser la vitesse et la valeur de l'open source avec les fonctionnalités haut de gamme natives d'Oracle, telles que les tables externes Oracle Autonomous Data Warehouse et Oracle Cloud SQL.

    Le déploiement et l’exploitation de services Big Data, en particulier de composants open source, peuvent avoir un impact exponentiel sur les dépenses d’exploitation (OpEx). Commencez par nos offres Hadoop gérées, ou services PaaS comme Data Flow, avant d'adopter une approche personnelle. Souvent, les services open source gérés sont beaucoup moins chers au fil du temps lors de la prise en compte dans OpEx.

  • Automatisation de la création, des tests et du déploiement

    DataOps est important pour vous assurer que vous pouvez tirer le meilleur parti de vos pipelines Big Data. Utilisez le service Oracle Cloud Infrastructure Data Integration pour intégrer des données, implémenter le traitement ETL et la propagation ELT, et créer des pipelines pour connecter des tâches dans une séquence ou en parallèle afin de faciliter un processus. Les pipelines peuvent inclure diverses sources de données populaires dans et en dehors d'Oracle Cloud. Utilisez les fonctions de programmation Data Integration pour définir à quel moment et à quelle fréquence exécuter chaque tâche. Pour les lacs de données HDFS (Hadoop Distributed File System) dans le service Big Data Service, utilisez des outils tels qu'Oozie et Airflow pour orchestrer vos pipelines de données de bout en bout. Utilisez Oracle Database Cloud Service Management pour définir des travaux de base de données exécutés sur un ensemble de bases de données selon une programmation.

  • Utilisation de bases de données convergées avec prise en charge complète des données

    Utilisez les meilleurs outils pour simplifier, automatiser et accélérer la consolidation des données afin d’optimiser la valeur commerciale. Lors de la création de lacs de données pour Oracle Cloud Infrastructure Data Science avec des données non structurées, semi-structurées et structurées, utilisez le service Object Storage pour votre lac de données. Pour exploiter HDFS et les outils Hadoop open source, utilisez le service Big Data pour créer votre lac de données. Pour les entrepôts de données, les datamarts des services et les couches de présentation avec des données structurées, utilisez Autonomous Data Warehouse, optimisé pour ces scénarios. Autonomous Data Warehouse fournit également une connectivité aux outils d'analyse, de Business Intelligence et de reporting tels qu'Oracle Analytics Cloud.

  • Surveillance et traçage de bout en bout des instruments

    Les applications Big Data comprennent généralement plusieurs services appartenant à différentes équipes d'application et d'entreprise. Les outils d'observabilité sont importants pour obtenir une visibilité sur le comportement de ces systèmes distribués par nature.

    Surveiller l'état opérationnel des pipelines de données de bout en bout en faisant en sorte que toutes vos charges de travail émettent des mesures d'état vers Oracle Cloud Infrastructure Monitoring. Définissez des seuils de mesure personnalisés pour les alarmes, et recevez une notification ou prenez des mesures chaque fois qu'un seuil donné est atteint. Utilisez la journalisation OCI pour tous les journaux de service OCI dans votre location et les journaux personnalisés que vous soumettez à partir de vos applications de données. Pour résoudre les problèmes et optimiser les performances, utilisez OCI Database Management pour Autonomous Data Warehouse afin d'afficher le statut de la base de données, les sessions actives moyennes, les alarmes, l'utilisation de l'UC, l'utilisation du stockage, les diagnostics de flotte et le réglage.

  • Implémenter une approche de défense en profondeur pour sécuriser le cycle de vie des applications

    Planifiez la sécurité de vos données. Suivez tous les travaux qui introduisent et extraient des données de votre lac de données, conservez les métadonnées de lignage de données et assurez-vous que les stratégies de contrôle d'accès sont mises à jour. Utilisez Data Catalog pour faciliter la gouvernance.

    Suivez le principe du moindre privilège et assurez-vous que les utilisateurs et les comptes de service ne disposent que du privilège minimal nécessaire pour effectuer leurs tâches. Contrôler qui a accès aux composants de plate-forme de données à l'aide d'Oracle Cloud Infrastructure Identity and Access Management. Utilisez l'authentification à plusieurs facteurs dans Oracle Cloud Infrastructure Identity and Access Management pour appliquer une authentification forte aux administrateurs. Stockez des informations sensibles telles que les mots de passe et les jetons d'authentification dans le service Oracle Cloud Infrastructure Vault.

    Pour Big Data Service, configurez uniquement les règles de sécurité nécessaires pour contrôler le réseau et utilisez Apache Ranger pour gérer la sécurité des données dans votre cluster Hadoop. Utilisez Oracle Data Safe pour protéger vos données dans Autonomous Data Warehouse. Utilisez des mots de passe forts pour vos bases de données. Créez des ressources de base de données dans des sous-réseaux privés et utilisez des groupes de sécurité ou des listes de sécurité de réseau cloud virtuel (VCN) pour appliquer le contrôle d'accès réseau aux instances de base de données. Attribuez des autorisations de suppression de base de données à un nombre minimal possible d'utilisateurs et de groupes Oracle Cloud Infrastructure Identity and Access Management.

    Pour protéger vos sources de données contre toute faille de sécurité, fournissez uniquement des informations d'identification aux comptes en lecture seule pour les services Data Catalog et Data Integration.

Architecture

Vous pouvez utiliser les choix suivants en termes d'architecture et de technologie pour implémenter les principes de conception. Les services de données et d'analyse Oracle Cloud Infrastructure (OCI) vous permettent d'ingérer, de stocker, de cataloguer, de préparer, de traiter et d'analyser le Big Data.
Description de l'image big-data-and-analytics.png
Description de l'illustration big-data-and-analytics.png

Cette architecture utilise les sources de données suivantes :

  • Applications Enterprise
  • Périphériques
  • Utilisateur final
  • Evénements
  • Capteurs
  • Tous les actifs numériques

Cette architecture comporte les composants suivants au sein du VCN :

  • Réseau cloud virtuel

    Un VCN est un réseau personnalisable et défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux cloud virtuels traditionnels, vous bénéficiez d'un contrôle total sur votre environnement réseau. Un VCN peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, qui peuvent être ciblés vers une région ou un domaine de disponibilité. Chaque sous-réseau se compose d'une plage contiguë d'adresses qui ne chevauchent pas les autres sous-réseaux du VCN. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Intégration de données

    Oracle Cloud Infrastructure Data Integration est un service cloud sans serveur entièrement géré qui ingère et transforme les données pour la science et l'analyse des données. Elle simplifie les processus ETL et ELT complexes dans les lacs de données et les entrepôts de données avec le concepteur de flux de données moderne et sans code d’Oracle. Vous pouvez utiliser l'un des opérateurs prêts à l'emploi, tels qu'une jointure, un regroupement ou une expression pour formater vos données.

  • Transmission en continu

    Le service Oracle Cloud Infrastructure Streaming offre une solution complète, évolutive et durable adaptée à l'ingestion et à l'utilisation de flux de données volumineux en temps réel. Utilisez Streaming pour tout cas d'utilisation dans lequel les données sont produites et traitées de manière continue et séquentielle dans un modèle de messagerie publication/abonnement. Par exemple, la messagerie, l'ingestion de mesures et de journaux, l'assimilation des données d'activité Web ou mobiles et le traitement des événements d'infrastructure et d'applications.

  • Oracle Big Data Service

    Oracle Big Data Service est un service cloud automatisé entièrement géré qui fournit aux clusters un environnement Hadoop. Big Data Service permet aux clients de déployer facilement des clusters Hadoop de toutes tailles et simplifie le processus de création de clusters Hadoop à la fois hautement disponibles et sécurisés.

  • Oracle Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse est un service de base de données autonome, auto-sécurisé et auto-réparateur optimisé pour les charges de travail d'entreposage de données. Vous n'avez pas besoin de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

  • Stockage d'objet

    Object Storage fournit un accès rapide à de grandes quantités de données structurées et non structurées de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi, comme des images et des vidéos. Vous pouvez stocker des données en toute sécurité, puis les extraire directement à partir d'Internet ou de la plate-forme cloud. Vous pouvez faire évoluer le stockage de manière transparente sans subir de dégradation des performances ou de la fiabilité du service. Utilisez le stockage standard pour le stockage à chaud auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour un stockage "à froid" que vous conservez pendant de longues périodes et rarement ou rarement accès.

  • Flux de données

    Oracle Cloud Infrastructure Data Flow est une plate-forme d'analyse Spark de niveau PaaS entièrement gérée qui vous permet de créer, de modifier et d'exécuter des travaux Spark à toute échelle sans avoir besoin de clusters, d'une équipe des opérations ou de connaissances Spark hautement spécialisées. Comme il est sans serveur, il n'existe aucune infrastructure à déployer ou à gérer. Il est entièrement basé sur les API REST, ce qui vous permet d'intégrer facilement les applications et les workflows.

  • Oracle Analytics Cloud

    Cette plate-forme haut de gamme pour des analyses modernes dans le cloud donne aux analystes de l’entreprise et aux consommateurs les moyens d’agir. Oracle Analytics Cloud offre des fonctionnalités modernes d'analyse en libre-service basées sur l'IA pour la préparation, la découverte et la visualisation des données, le reporting intelligent d'entreprise et à la demande, ainsi que l'analyse augmentée, et le traitement et la génération du langage naturel. Que vous soyez un analyste d’entreprise, un ingénieur de données, un data scientist citoyen, un responsable de département, un expert de domaine ou un cadre exécutif, Oracle Analytics Cloud peut vous aider à transformer les données en informations exploitables.

  • Analytique, ML et applications personnalisées

    Services d'analyse, Oracle Machine Learning et applications personnalisées qui vont cataloguer, préparer, traiter et analyser le Big Data.

  • Catalogue de données

    Oracle Cloud Infrastructure Data Catalog est une solution de repérage et de gouvernance de données en libre-service entièrement gérée pour vos données d'entreprise. Il fournit aux ingénieurs données, aux experts en données, aux architectes de données et aux directeurs des systèmes de données un environnement collaboratif unique pour gérer les métadonnées techniques, commerciales et opérationnelles de l'organisation.

Avec ce modèle d’architecture, vous pouvez gérer tous les types de données non structurées, semi-structurées et non structurées selon un modèle moderne de structure de lac de données. Ingérez tous les types de données dans un lac de données basé sur le stockage d'objets à l'aide des services d'intégration de données et de diffusion en continu. Utilisez Oracle Cloud Infrastructure Data Flow et Oracle Big Data Service pour le traitement, Oracle Cloud Infrastructure Data Catalog pour le catalogage, l'utilisation d'Oracle Autonomous Data Warehouse en tant que magasin de service et l'utilisation d'Oracle Analytics Cloud pour l'analyse et la Business Intelligence.

Le processus suivant décrit le flux illustré dans le diagramme :

  • Intégration de données Oracle Cloud Infrastructure et Oracle Cloud Infrastructure Streaming : données ingérées provenant de différents types de source. Le service utilisé varie selon que les données sont des enregistrements de base de données par lots, en continu ou synchronisés, et selon que les données sont sur site ou dans le cloud.
  • Les données peuvent être fournies à Object Storage pour un accès partagé par les services cloud et pour traitement avant d'être stockées dans Oracle Autonomous Data Warehouse ou Big Data Service.
  • Les données peuvent également être fournies directement à Oracle Autonomous Data Warehouse, puis transformées à l'aide de fonctionnalités ELT, ou les enregistrements d'autres bases de données peuvent être directement ingérés. Les données peuvent également être fournies directement en l'état à Big Data Service.
  • Oracle Autonomous Data Warehouse peut interroger des données à partir d'Object Storage ou les données ingérées à partir d'Object Storage via une API ou à l'aide de Data Integration. Big Data Service peut inclure ou interroger des données dans Object Storage.
  • Oracle Analytics Cloud peut accéder aux données d'Oracle Autonomous Data Warehouse pour toutes les fonctionnalités de visualisation et d'analyse décisionnelle fournies par le service.
  • Oracle Cloud Infrastructure Data Catalog collecte les métadonnées des sources de données Hive Oracle Autonomous Data Warehouse, Object Storage et Big Data Service. Vous interagissez avec Data Catalog pour collecter, rechercher et gérer les données.
  • Vous pouvez implémenter des applications personnalisées pour les charges de travail d'analyse et d'apprentissage automatique à l'aide des données d'Oracle Autonomous Data Warehouse, de Big Data Service et d'Object Storage.
  • Les analystes métier peuvent utiliser Oracle Analytics Cloud pour utiliser des données à la fois d'Oracle Autonomous Data Warehouse et de Big Data Service.
  • Les analystes de données peuvent utiliser Oracle Machine Learning Notebooks dans Oracle Autonomous Data Warehouse et Oracle Machine Learning pour Spark dans Oracle Big Data Service pour former des modèles d'apprentissage automatique et utiliser des données spatiales et graphiques.

Autres architectures

Examinez les alternatives à l'architecture décrite dans ce modèle.

Utilisez une seule base de données ou un seul data warehouse pour stocker et analyser tous les types de données. Dans cette architecture alternative, différentes sources de données (utilisateurs finaux, périphériques, événements, capteurs et applications) transmettent des données à la base de données via l'intégration de données (Oracle GoldenGate) et les files d'attente d'événements transactionnels Oracle pour la transmission en continu de données. Les données sont stockées dans Oracle Autonomous Database (Oracle Autonomous Transaction Processing et Oracle Autonomous Data Warehouse) avec la prise en charge de la banque d'objets pour le Big Data à l'aide de Cloud SQL. Utilisez Oracle Machine Learning pour créer et déployer des modèles, et utilisez Oracle Analytics Cloud et Oracle Data Cloud pour obtenir des informations sur les données.

Le diagramme suivant illustre cette architecture alternative.

Description de l'image alt-architecture-big-data.png
Description de l'illustration alt-architecture-big-data.png

Cette architecture utilise les sources de données suivantes :

  • Applications Enterprise
  • Périphériques
  • Utilisateur final
  • Evénements
  • Capteurs
  • Tous les actifs numériques

Cette architecture comporte les composants suivants au sein du VCN :

  • Réseau cloud virtuel

    Un VCN est un réseau personnalisable et défini par logiciel que vous configurez dans une région Oracle Cloud Infrastructure. Comme les réseaux cloud virtuels traditionnels, vous bénéficiez d'un contrôle total sur votre environnement réseau. Un VCN peut comporter plusieurs blocs CIDR qui ne se chevauchent pas et que vous pouvez modifier après avoir créé le VCN. Vous pouvez segmenter un VCN en sous-réseaux, qui peuvent être ciblés vers une région ou un domaine de disponibilité. Chaque sous-réseau se compose d'une plage contiguë d'adresses qui ne chevauchent pas les autres sous-réseaux du VCN. Vous pouvez modifier la taille d'un sous-réseau après sa création. Un sous-réseau peut être public ou privé.

  • Intégration de données

    Oracle Cloud Infrastructure Data Integration est un service cloud sans serveur entièrement géré qui ingère et transforme les données pour la science et l'analyse des données. Elle simplifie les processus ETL et ELT complexes dans les lacs de données et les entrepôts de données avec le concepteur de flux de données moderne et sans code d’Oracle. Vous pouvez utiliser l'un des opérateurs prêts à l'emploi, tels qu'une jointure, un regroupement ou une expression pour formater vos données.

  • Oracle Cloud Infrastructure Transactional Event Queues (TEQ) dans ADB

    Les files d'attente des événements transactionnels d'Oracle dans une base de données autonome offrent une fonctionnalité de mise en file d'attente des messages intégrée à la base de données. Cette implémentation hautement optimisée et partitionnée tire parti des fonctions de la base de données Oracle pour permettre aux émetteurs et aux consommateurs d'échanger des messages avec un débit élevé, en stockant les messages de façon permanente et en propageant les messages entre les files d'attente sur différentes bases de données. Oracle Transactional Event Queues est une implémentation partitionnée hautes performances avec plusieurs flux d'événements par file d'attente

  • Oracle Autonomous Data Warehouse

    Oracle Autonomous Data Warehouse est un service de base de données autonome, auto-sécurisé et auto-réparateur optimisé pour les charges de travail d'entreposage de données. Vous n'avez pas besoin de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

    Ce service de data warehouse dans le cloud élimine toutes les complexités liées à l'exploitation d'un entrepôt de données, à la sécurisation des données et au développement d'applications orientées données. Il automatise le provisionnement, la configuration, la sécurisation, le réglage, la mise à l’échelle et la sauvegarde du data warehouse. Elle inclut des outils pour le chargement des données en libre-service, les transformations de données, les modèles commerciaux, les informations automatiques et les fonctionnalités de base de données convergées intégrées qui permettent des requêtes plus simples sur plusieurs types de données et des analyses d'apprentissage automatique.

  • Stockage d'objet

    Object Storage fournit un accès rapide à de grandes quantités de données structurées et non structurées de tout type de contenu, y compris des sauvegardes de base de données, des données analytiques et du contenu enrichi, comme des images et des vidéos. Vous pouvez stocker des données en toute sécurité, puis les extraire directement à partir d'Internet ou de la plate-forme cloud. Vous pouvez faire évoluer le stockage de manière transparente sans subir de dégradation des performances ou de la fiabilité du service. Utilisez le stockage standard pour le stockage à chaud auquel vous devez accéder rapidement, immédiatement et fréquemment. Utilisez le stockage d'archive pour un stockage "à froid" que vous conservez pendant de longues périodes et rarement ou rarement accès.

    Cette plate-forme de stockage hautes performances, à l'échelle d'Internet, offre une durabilité fiable et rentable en matière de données. Le service Object Storage peut stocker une quantité illimitée de données non structurées de tout type de contenu, y compris des données analytiques et du contenu riche, comme des images et des vidéos.

  • Base de données autonome

    Les bases de données autonomes Oracle Cloud Infrastructure sont des environnements de base de données préconfigurés entièrement gérés que vous pouvez utiliser pour le traitement des transactions et les charges de travail d'entreposage de données. Vous n'avez pas besoin de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

  • Oracle Machine Learning dans une base de données autonome

    Oracle Machine Learning dans Oracle Autonomous Database (Autonomous Transaction Processing et Autonomous Data Warehouse).

  • Oracle Analytics Cloud

    Cette plate-forme haut de gamme pour des analyses modernes dans le cloud donne aux analystes de l’entreprise et aux consommateurs les moyens d’agir. Oracle Analytics Cloud offre des fonctionnalités modernes d'analyse en libre-service basées sur l'IA pour la préparation, la découverte et la visualisation des données, le reporting intelligent d'entreprise et à la demande, ainsi que l'analyse augmentée, et le traitement et la génération du langage naturel. Que vous soyez analyste, ingénieur de données, data scientist citoyen, responsable du département, expert du domaine ou cadre, Oracle Analytics Cloud peut vous aider à transformer les données en informations exploitables.

  • Analytique, ML et applications personnalisées

    Services d'analyse, Oracle Machine Learning et applications personnalisées qui vont cataloguer, préparer, traiter et analyser le Big Data.

  • Catalogue de données

    Oracle Cloud Infrastructure Data Catalog est une solution de repérage et de gouvernance de données en libre-service entièrement gérée pour vos données d'entreprise. Il fournit aux ingénieurs données, aux experts en données, aux architectes de données et aux directeurs des systèmes de données un environnement collaboratif unique pour gérer les métadonnées techniques, commerciales et opérationnelles de l'organisation.

    Oracle Cloud Infrastructure Data Catalog est un service de gestion des métadonnées qui aide les professionnels des données à découvrir les données et à prendre en charge la gouvernance des données.

  • Oracle GoldenGate

    Ce service entièrement géré offre une plate-forme logicielle de réplication et de capture de données de modification basée sur les journaux en temps réel pour répondre aux besoins des applications orientées transactions actuelles. Le logiciel permet la capture, le routage, la transformation et la livraison de données transactionnelles dans des environnements hétérogènes en temps réel.

Vous pouvez également créer et exécuter vos propres plates-formes open source sur Oracle Cloud Infrastructure Compute. Cependant, cette option peut entraîner une valeur OpEx élevée.

Considérations et anti-modèles

Prenez en compte les points suivants pour le Big Data et l’analytique.

  • Réduction des copies et du mouvement des données

    Le déplacement des données est coûteux, consomme des ressources et du temps, et peut réduire la fidélité des données. Choisissez le bon service pour stocker et traiter vos données, en fonction des types de données, de la qualité des données et des transformations requises. Utilisez Object Storage pour le stockage de votre lac de données, pour tous les types de données brutes. Utilisez Oracle Big Data Service pour exploiter les outils des écosystèmes HDFS et Hadoop. Utilisez Oracle Autonomous Data Warehouse pour stocker les données transformées à des fins de présentation. L'utilisation du magasin de droite vous permet d'éviter de copier et de déplacer des données, et de réduire les doublons de données, ce qui peut s'avérer difficile à maintenir et à maintenir synchronisées.

  • Fournissez à vos utilisateurs l’interface de données dont ils ont besoin

    Les plates-formes de données et d’analyse d’entreprise sont dotées de nombreux types d’utilisateur : ingénieurs de données, analystes de données, développeurs d’applications, ingénieurs en Big Data, administrateurs de base de données, analystes métier, data scientists, gestionnaires de données et autres consommateurs. Tous ont des besoins et des préférences différents en matière de consommation de données. Il est important de comprendre tous vos cas d’utilisation et les besoins des consommateurs de données. Pour les outils de l'écosystème Hadoop, utilisez le Big Data. Pour les requêtes SQL et l'interface avec les outils décisionnels, utilisez Autonomous Data Warehouse. Pour les applications Spark, utilisez le service Oracle Cloud Infrastructure Data Flow.

  • Cataloguer vos ressources de données et établir un vocabulaire commun

    Les données des entreprises sont généralement des ressources partagées entre plusieurs équipes. Utilisez Data Catalog pour collecter des métadonnées à partir de sources de données sur OCI et sur site afin de créer un inventaire des ressources de données. Cela permet aux consommateurs de données de trouver facilement les données dont ils ont besoin pour les analyses. Utilisez Data Catalog pour créer et gérer des glossaires d'entreprise avec des catégories, des sous-catégories et des termes métier afin de créer une taxonomie de concepts métier avec des balises ajoutées par l'utilisateur afin de rendre la recherche plus productive.

  • Être conscient des coûts et des performances

    Les coûts pour les plates-formes de données et d’analyse peuvent augmenter rapidement, à moins que les plates-formes ne soient correctement conçues et exploitées. Toutes les données présentent certaines exigences de performances liées à la latence et au débit. Dimensionner correctement vos environnements en utilisant la plus petite forme de calcul et la moins grande quantité de stockage du service qui répond toujours à vos exigences en matière de performances. Mettez fin aux ressources non utilisées. Utilisez Data Flow pour les applications Spark car vous pouvez choisir le nombre de coeurs à utiliser pour votre travail, ce qui vous permet d'obtenir les performances dont vous avez besoin tout en réduisant les coûts. Pour Autonomous Data Warehouse, redimensionnez le nombre de coeurs de processeur ou la capacité de stockage de la base de données en fonction de vos besoins. Utilisez également sa fonctionnalité de redimensionnement automatique, qui permet à votre base de données d'utiliser automatiquement jusqu'à trois fois le nombre de coeurs de processeur en cours à tout moment et réduit automatiquement le nombre de coeurs lorsqu'ils ne sont pas nécessaires.

Antipatterns

Lors de la conception d'une implémentation, tenez compte des points suivants :

  • Le manque de catalogage et de gouvernance des données peut transformer les lacs de données en tampons de données.
  • Le stockage des données du lac de données dans des volumes de blocs plutôt que dans le stockage d’objets permet d’aboutir à une solution à moindre coût.

Modèle Big Data et analyses

Ce modèle d'architecture fournit des conseils sur l'utilisation des services de données et d'analyse Oracle Cloud Infrastructure (OCI) pour intégrer, stocker, cataloguer, préparer, traiter et analyser le Big Data afin d'implémenter plusieurs cas d'emploi.

Ces cas d’utilisation incluent l’entreposage de données, l’analytique, la Business Intelligence et le reporting, l’extraction, la transformation et le chargement (ETL) et les modèles d’extraction, de chargement et de transformation (ELT), les modèles de lac et de lactivité et les modèles d’apprentissage automatique pour la formation.

Le schéma suivant présente les services Oracle liés aux données et aux analyses.

Description de l'image big-data-and-analytics-pattern.png
Description de l'illustration big-data-and-analytics-pattern.png
  • Utilisez Oracle Autonomous Data Warehouse pour écrire des requêtes SQL pour les données structurées, ainsi que sur des tables externes de données non structurées et semi-structurées.
  • Utilisez Oracle Big Data Service pour utiliser les outils de l'écosystème Apache Hadoop tels que Hive, Spark, Kafka et HBase pour intégrer, stocker et traiter tous les types de données non structurées et semi-structurées.
  • Utilisez Oracle Cloud Infrastructure Object Storage pour stocker le Big Data et créer des lacs de données pour tous les types de données.
  • Utilisez Oracle Cloud Infrastructure Data Flow pour les travaux natifs Apache Spark.
  • Utilisez Intégration de données Oracle Cloud Infrastructure pour assimiler des données provenant de différentes sources et simplifier le traitement ETL (Extract, Transform, Load) et ELT (Extract, Load, Transform).
  • Utilisez Oracle Cloud Infrastructure Data Catalog pour collecter des métadonnées à partir de différentes sources de données afin de créer un inventaire des ressources, un glossaire métier et un métastore commun pour les lacs de données.
  • Utiliser la diffusion en continu pour assimiler des flux de données en temps réel à des API compatibles avec Kafka.

Exemples de cas d'utilisation

Voici des exemples d'implémentations qui utilisent les services de données et d'analyse d'Oracle Cloud Infrastructure (OCI) pour ingérer, stocker, cataloguer, préparer, traiter et analyser le Big Data.

  • Stockage de données et analyse décisionnelle

    Utilisez Oracle Autonomous Data Warehouse en tant qu'entrepôt de données ou data mart avec Oracle Analytics Cloud.

    • Data Integration ingère des données à partir de sources envisagées. Le type d'intégration de données utilisé varie selon que les données sont des enregistrements de base de données batch, de transmission en continu ou synchronisés, et selon que les données sont sur site ou dans le cloud.
    • Les données peuvent être fournies à Object Storage pour un accès partagé par les services cloud et pour traitement avant d'être stockées dans Autonomous Data Warehouse ou Big Data. Les données peuvent également être fournies directement à Autonomous Data Warehouse, puis transformées à l'aide de fonctionnalités ELT, ou les enregistrements d'autres bases de données peuvent être directement ingérés.
    • Oracle Analytics Cloud permet de visualiser les données de la base de données, y compris les résultats de l'apprentissage automatique. Oracle Analytics Cloud transmet autant de traitement que possible à Autonomous Data Warehouse pour le traitement du flux de données.
    • Object Storage est facultatif pour l'archivage actif ou le partage de données. Une archive active est l'emplacement où les données les moins utilisées sont déplacées d'ADW vers un niveau de stockage à moindre coût (Object Storage). Les données peuvent toujours être interrogées à partir d'Object Storage, mais les performances sont plus lentes. Object Storage peut également être utilisé pour stocker des données partagées entre les services cloud.
    • Oracle Cloud Infrastructure Data Catalog collecte les métadonnées des sources de données Autonomous Data Warehouse et Object Storage. Vous interagissez avec Data Catalog pour utiliser et gérer le catalogue.
  • Gérez tous les types de données avec un lac de données et un entrepôt de données pour un modèle de maison de lac

    Gérez les données à la fois dans Autonomous Data Warehouse et Big Data, et utilisez Oracle Analytics Cloud pour la visualisation des données.

    • Data Integration ingère des données à partir de sources envisagées. Le type d'intégration de données utilisé varie selon que les données sont des enregistrements de base de données batch, de transmission en continu ou synchronisés, et selon que les données sont sur site ou dans le cloud.
    • Les données peuvent être fournies à Object Storage pour un accès partagé par les services cloud et pour traitement avant d'être stockées dans Autonomous Data Warehouse ou Oracle Big Data Service. Les données peuvent également être fournies directement à Autonomous Data Warehouse, puis transformées à l'aide de fonctionnalités ELT, ou les enregistrements d'autres bases de données peuvent être directement ingérés. Les données peuvent également être fournies directement en l'état au Big Data.
    • Autonomous Data Warehouse peut interroger des données à partir d'Object Storage ou les données ingérées à partir d'Object Storage via une API ou à l'aide d'Oracle Cloud Infrastructure Data Integration. Le Big Data peut ingérer ou interroger des données dans Object Storage.
    • Les données peuvent être transférées à partir du Big Data vers Autonomous Data Warehouse à l'aide des connecteurs Big Data.
    • Oracle Analytics Cloud peut accéder aux données provenant de plusieurs sources, dont Autonomous Data Warehouse et Big Data, pour fournir des analyses augmentées, des visualisations de données et des fonctions d'analyse décisionnelle en libre-service.
    • Les analystes d'entreprise peuvent utiliser Oracle Analytics Cloud pour utiliser des données à la fois d'Autonomous Data Warehouse et de Big Data.
    • Data Catalog collecte les métadonnées des sources de données Autonomous Data Warehouse, Object Storage et Big Data Hive. Vous interagissez avec Data Catalog pour collecter, rechercher et gérer les données.
  • Créez un lac de données avec des services natifs du Cloud OCI

    Créez un lac de données dans Object Storage et utilisez des services cloud natifs de données et d’IA pour moderniser et exploiter les dernières innovations techniques.

    • Utilisez Data Flow pour les processus par lots Spark et les clusters Spark éphémères.
    • Utilisez Object Storage avec le connecteur HDFS (Hadoop Distributed File System) en tant que magasin HDFS, à la place de HDFS dans le cluster Apache Hadoop ou Spark.
    • Utilisez Intégration de données Oracle Cloud Infrastructure pour assimiler des données et des travaux ETL.
    • Utilisez Oracle Cloud Infrastructure Data Catalog pour le repérage et la gouvernance des données.
    • Utilisez Oracle Cloud Infrastructure Data Science pour répondre aux exigences en matière d'apprentissage automatique.
    • Utilisez Oracle Cloud Infrastructure Streaming pour gérer l'ingestion des flux et l'intégration de données pour un service d'intégration gérée. Ces services peuvent remplacer Kafka ou Flume gérés automatiquement.
    • Pour les autres composants de la pile pour lesquels il n'est pas facile d'utiliser un service natif OCI géré, utilisez Oracle Cloud Infrastructure Compute et le service de stockage.
  • Créer un lac de données HDFS à l'aide d'Oracle Big Data Service

    Utilisez Oracle Big Data Service pour créer votre lac de données dans HDFS. Tous les composants Apache Hadoop, y compris Hive, HBase, Spark et Oozie, sont mis à disposition par les clusters Hadoop gérés fournis par Oracle Big Data Service. Vous pouvez les utiliser en fonction de vos besoins. Utilisez des services natifs de cloud géré lorsque cela est possible.

    • Utilisez Big Data pour HDFS et d'autres composants Hadoop, notamment Hive, HBase et Oozie.
    • Utilisez Data Flow pour les processus en batch Spark et les clusters Spark éphémères afin de réduire la taille du cluster Big Data si possible.
    • Utilisez Data Catalog pour le repérage et la gouvernance des données.
    • Utilisez Data Science pour répondre aux exigences en matière d'apprentissage automatique.
  • Laboratoire de données avec Oracle Big Data Service

    Explorez et testez les données. Oracle Big Data Service fournit les principaux outils de gestion des données et de science des données dans ce cas d'utilisation.

    • Oracle Analytics Cloud fournit des fonctionnalités supplémentaires pour visualiser les données utiles pour comprendre les données source et les résultats de l'apprentissage automatique.
    • Object Storage fournit un stockage supplémentaire à faible coût pour le partage de données avec d'autres services cloud et la persistance des données dans Oracle Big Data lorsque le laboratoire de données est suspendu.
    • Si nécessaire, vous pouvez ajouter l'intégration de données à l'inclusion de données dans Object Storage.
    • Data Catalog récupère les métadonnées à partir d'Object Storage et de Big Data Hive. Vous interagissez avec Data Catalog pour utiliser et gérer le catalogue.
    • Les experts en données utilisent Oracle Machine Learning pour Spark dans Oracle Big Data afin de créer des modèles d'apprentissage automatique.
  • Découverte et gouvernance de données en libre-service avec Oracle Cloud Infrastructure Data Catalog

    Data Catalog collecte les métadonnées de différents types de source de données afin de créer un catalogue d'entités de données et leurs attributs. Les analystes commerciaux, les data scientists, les ingénieurs de données et les gestionnaires de données peuvent rechercher des attributs dans le catalogue et créer un glossaire métier.

  • Traitement Spark avec Oracle Cloud Infrastructure Data Flow

    Les travaux Spark sont soumis à Data Flow. Lorsque le travail est exécuté, les données sont lues à partir d'Object Storage et traitées en fonction du code de travail. Le résultat est réécrit dans Object Storage. D'autres services peuvent extraire les résultats d'Object Storage en fonction de leurs besoins.

  • Formation des modèles d'apprentissage automatique directement dans Oracle Autonomous Data Warehouse et Oracle Big Data Service

    Pour plus d'informations sur la formation des modèles d'apprentissage automatique à l'aide d'Oracle Cloud Infrastructure Data Science, reportez-vous au modèle d'apprentissage automatique basé sur Data Science. L'objectif de ce cas d'utilisation est de gérer les données dans Oracle Autonomous Data Warehouse et Oracle Big Data Service. Oracle Analytics Cloud permet de visualiser les données, y compris les résultats de l'apprentissage automatique. Les fonctionnalités sont limitées aux fonctionnalités d'Oracle Machine Learning.

    • Oracle Cloud Infrastructure Data Integration intègre des données provenant de sources envisagées. Le type d'intégration de données utilisé varie selon que les données sont des enregistrements de base de données batch, de transmission en continu ou synchronisés, et selon que les données sont sur site ou dans le cloud.

    • Les données peuvent être fournies à Object Storage pour un accès partagé par les services cloud et pour traitement avant d'être stockées dans Oracle Autonomous Data Warehouse ou Oracle Big Data Service. Les données peuvent être fournies directement à Oracle Autonomous Data Warehouse, puis transformées à l'aide de fonctionnalités ELT, ou les enregistrements d'autres bases de données peuvent être directement ingérés. Les données peuvent également être fournies directement en l'état à Oracle Big Data Service.
    • Oracle Autonomous Data Warehouse peut interroger des données à partir d'Object Storage ou les données ingérées à partir d'Object Storage via une API ou à l'aide de Data Integration. Oracle Big Data Service peut inclure ou interroger des données dans Object Storage.
    • Les données peuvent être transférées d'Oracle Big Data Service vers Oracle Autonomous Data Warehouse à l'aide des connecteurs Big Data.
    • Oracle Analytics Cloud peut accéder aux données provenant de plusieurs sources, notamment Oracle Autonomous Data Warehouse et Oracle Big Data Service, pour fournir des analyses augmentées, des visualisations de données et des fonctions d'analyse décisionnelle en libre-service.
    • Les analystes d'entreprise et les data scientists peuvent utiliser Oracle Analytics Cloud pour utiliser des données à la fois d'Oracle Autonomous Data Warehouse et d'Oracle Big Data Service.
    • Les analystes de données peuvent utiliser Oracle Machine Learning Notebooks dans Oracle Autonomous Data Warehouse pour créer des modèles d'apprentissage automatique et utiliser les données spatiales. Ils peuvent également utiliser Oracle Machine Learning pour Spark dans le Big Data afin de créer des modèles d'apprentissage automatique et d'utiliser les données spatiales et graphiques.
    • Oracle Cloud Infrastructure Data Catalog collecte les métadonnées des sources de données Oracle Autonomous Data Warehouse, Big Data Hive et Object Storage. Vous interagissez avec Data Catalog pour utiliser et gérer le catalogue.