En savoir plus sur les lacs de données basés sur Hadoop

Oracle Big Data Service fournit une pile Hadoop qui inclut Apache Ambari, Apache Hadoop, Apache HBase, Apache Hive, Apache Spark et d'autres services pour utiliser et sécuriser le Big Data.

Big Data Service simplifie la migration de charges de travail vers le cloud, et garantit la compatibilité avec les solutions on-premise. Il permet de déplacer des données vers Object Storage pour économiser sur les coûts et découpler les ressources de calcul du stockage. Vous pouvez accéder à BDS à l'aide de la console OCI, de l'interface de ligne de commande OCI, des API REST ou des kits SDK. Vous disposez d'un accès complet pour personnaliser ce qui est déployé sur vos clusters BDS.

Oracle Cloud SQL est un service d'extension disponible qui vous permet de lancer des requêtes Oracle SQL sur des données dans HDFS, Kafka et Object Storage. Tous les utilisateurs, applications ou outils d'analyse peuvent utiliser des banques de données pour limiter les déplacements de données et accélérer les requêtes. BDS fonctionne avec Data Integration, Data Science et d'autres services d'analyse. Les développeurs peuvent accéder aux données à l'aide d'Oracle SQL. Les entreprises peuvent éliminer les silos de données et s'assurer que les lacs de données ne sont pas isolés d'autres sources de données d'entreprise.

A propos de Data Lakehouse

Le modèle Oracle Lakehouse combine les meilleurs éléments des entrepôts de données et des lacs de données. Elle offre une plate-forme intégrée de plusieurs services cloud Oracle fonctionnant ensemble avec une déplacement facile des données, une gouvernance unifiée et permet d'utiliser les meilleurs outils commerciaux et open source en fonction de vos cas d'utilisation et de vos préférences.

Description de l'image data-lake-house.png ci-après

Description de l'illustration data-lake-house.png ci-après

Eléments clés du modèle Oracle Lakehouse :

Intégration des modèles d'entrepôt de données et de lac de données.
Elimination des silos de données - déplacement facile des données entre l'entrepôt et le lac si nécessaire.
Métadonnées et gouvernance unifiées.
Prise en charge d'outils commerciaux et open source populaires.
Prise en charge d'une grande variété de sources de données, de formats de données et de types de données (structurés, semi-structurés et non structurés)
Prise en charge de divers clients et charges de travail liés aux données, notamment l'analyse du Big Data, SQL et BI, la science des données et l'apprentissage automatique dans tous les secteurs.

Les services clés de la plate-forme utilisés dans ce livre de jeux sont les suivants :

Big Data

Oracle Big Data fournit des clusters avec un environnement Hadoop. Le Big Data simplifie le processus de mise à disposition de clusters Hadoop à la fois hautement disponibles et sécurisés. Basé sur les meilleures pratiques d'Oracle, le Big Data implémente une haute disponibilité et une sécurité, et réduit le besoin de compétences avancées dans Hadoop. Le Big Data offre les composants Hadoop les plus couramment utilisés, ce qui facilite le déplacement des charges de travail vers le cloud et garantit la compatibilité avec les solutions sur site.

Catalogue de données

Oracle Cloud Infrastructure Data Catalog est une solution de repérage et de gouvernance de données en libre-service entièrement gérée pour vos données d'entreprise. Les catalogues de données sont essentiels pour permettre à une organisation de rechercher et d'analyser des données. Ils aident les professionnels des données à repérer des données et à prendre en charge la gouvernance des données.

Utiliser Data Catalog en tant qu'environnement collaboratif unique pour gérer les métadonnées métier, techniques et opérationnelles. Vous pouvez collecter des métadonnées techniques à partir d'un grand nombre de sources de données prises en charge accessibles à l'aide d'adresses IP publiques ou privées. Vous avez la possibilité d'organiser, de rechercher, d'accéder, de comprendre, d'enrichir et d'activer ces métadonnées. Utilisez la collecte automatique à la demande ou selon une programmation pour vous assurer que le catalogue de données dispose toujours d'informations à jour. Vous bénéficiez de toutes les fonctionnalités de sécurité, de fiabilité, de performances et d'évolutivité d'Oracle Cloud.

Flux de données

Oracle Cloud Infrastructure Data Flow est un service entièrement géré permettant d'exécuter les applications Apache Spark. Les applications Data Flow sont des modèles réutilisables comportant une application Spark, ses dépendances, ses paramètres par défaut et une spécification de ressource d'exécution par défaut. Vous pouvez gérer tous les aspects de Data Flow et du cycle de développement d'applications, suivre et exécuter des travaux Apache Spark à l'aide des API REST via API Gateway et les fonctions disponibles.

Data Flow permet de distribuer rapidement des applications en permettant aux développeurs de se concentrer sur le développement de leurs applications. Il fournit une gestion des journaux et un environnement d'exécution pour l'exécution des applications. Vous pouvez intégrer les applications et les workflows, et accéder aux API via l'interface utilisateur. Il élimine la nécessité de configurer l'infrastructure, le provisionnement de cluster, l'installation logicielle, le stockage et la sécurité.

Autonomous Data Warehouse

Oracle Autonomous Data Warehouse est un service de base de données doté de fonctions d'autopilotage, d'autosécurisation et d'autoréparation optimisé pour les charges de travail d'entreposage de données. Il n'est pas nécessaire de configurer ou de gérer du matériel, ni d'installer un logiciel. Oracle Cloud Infrastructure gère la création de la base de données, ainsi que la sauvegarde, l'application de patches, la mise à niveau et le réglage de la base de données.

Data Integration

Oracle Cloud Infrastructure Data Integration est un service cloud sans serveur entièrement géré permettant d'assimiler et de transformer les données pour la science et l'analyse des données. L'intégration des données simplifie vos processus complexes d'extraction, de transformation et de chargement de données (ETL/E-LT) en lacs et entrepôts de données pour la science et l'analyse des données avec le concepteur Data Flow d'Oracle. Elle offre une protection automatisée contre les dérives de schéma grâce au flux d'intégration basé sur des règles, qui permet d'éviter les flux d'intégration rompus et de réduire la maintenance au fur et à mesure de l'évolution des schémas de données.

Science des données

Oracle Cloud Infrastructure Data Science est une plate-forme entièrement gérée et sans serveur qui permet aux experts des données de créer, d'entraîner, de déployer et de gérer des modèles d'apprentissage automatique dans Oracle Cloud Infrastructure. Les experts en données peuvent utiliser la bibliothèque Accelerated Data Science (ADS) d'Oracle améliorée par Oracle pour l'apprentissage automatique (AutoML), l'évaluation de modèle et l'explication de modèle.

Analyses

Oracle Analytics Cloud est un service cloud public évolutif et sécurisé qui offre un ensemble complet de fonctionnalités d'exploration et d'analyse collaborative pour vous, votre groupe de travail et votre entreprise. Grâce à Oracle Analytics Cloud, vous bénéficiez également de fonctionnalités de gestion des services flexibles, notamment d'une configuration rapide, d'une mise à l'échelle et d'applications de patches simples, ainsi que d'une gestion automatisée du cycle de vie.