Plan
Il existe un workflow en plusieurs étapes pour implémenter des lacs de données dans OCI à l'aide de Big Data Service.
-
Exigences : répertoriez les exigences pour les nouveaux environnements dans OCI
-
Evaluation : évaluez les services et outils OCI requis.
-
Conception : concevez l'architecture et le dimensionnement de votre solution pour OCI
-
Plan : Créez un plan détaillé correspondant à vos temps et ressources.
-
Provisionnement : provisionnez et configurez les ressources requises dans OCI
-
Implémentation : implémentez les charges globales de données et d'application.
-
Automatiser le pipeline : orchestrer et planifier les pipelines de workflow pour l'automatisation
-
Test et validation : effectuez des tests de validation, de fonctionnement et de performances de bout en bout pour la solution.
Déterminer les besoins
La première chose à faire est de dresser un catalogue des exigences du système et de l'application.
Le tableau suivant fournit un exemple de modèle et peut servir de point de départ pour s'adapter à votre cas d'emploi.
Sujet de découverte | Configuration actuelle | Exigences OCI | Notes et commentaires |
---|---|---|---|
Taille des données | - | - | - |
Taux de croissance | - | - | - |
Format de fichier | - | - | - |
Formats de compression des données | - | - | - |
Détails du centre de données (pour les architectures hybrides) | - | - | - |
Détails de connectivité réseau pour la configuration VPN/FastConnect | - | - | - |
DR (RTO, RPO) | - | - | - |
SLA HA | - | - | - |
Stratégie de sauvegarde | - | - | - |
Gestion et surveillance de l'infrastructure | - | - | - |
Notifications et alertes | - | - | - |
Processus de maintenance et de mise à niveau | - | - | - |
Service Desk/Gestion des incidents | - | - | - |
Méthodes d'authentification | - | - | - |
Méthodes d'autorisation | - | - | - |
Détails de chiffrement (au repos et en mouvement) | - | - | - |
Processus de clés et de certificats | - | - | - |
Détails Kerberos | - | - | - |
Exigences de conformité | - | - | - |
Sources de données et techniques d'assimilation pour chaque source | - | - | - |
Exigences ETL | - | - | - |
Exigences en matière d'analyses | - | - | - |
Exigences en matière d'interrogation des données | - | - | - |
BI/visualisation, exigences de reporting | - | - | - |
Intégrations avec d'autres solutions | - | - | - |
Détails des charges de travail de bloc-notes et de science des données | - | - | - |
Besoins en matière de workflow, d'orchestration et de planification | - | - | - |
Charges de travail par lots : détails de chaque travail et de chaque application | - | - | - |
Charges de travail interactives : nombre d'utilisateurs, détails de chaque travail et de chaque application | - | - | - |
Charges de travail de diffusion en continu : détails de chaque travail et de chaque application | - | - | - |
Détails de chaque application intégrée au lac de données | - | - | - |
Détails de l'équipe (administrateurs système, développeurs, propriétaires d'application, utilisateurs finaux) | - | - | - |
Evaluation
Dans cette phase, analysez toutes les données et informations que vous avez collectées au cours de la phase de besoins.
Vous utiliserez ensuite ces informations pour déterminer les services et outils dont vous avez besoin dans OCI. A la fin de l'évaluation, vous devez disposer d'une architecture de haut niveau qui montre chaque service de données OCI à utiliser et les fonctionnalités qui seront implémentées.
Le diagramme suivant illustre le type d'architecture que vous créez dans cette phase.

Description de l'illustration architecture-hadoop-datalake.png
Concevoir
Dans cette phase, déterminez l'architecture de la solution et le dimensionnement initial pour Oracle Cloud Infrastructure (OCI).
Utilisez l'architecture de référence que vous avez créée lors de la phase d'évaluation comme point de départ.
Il est nécessaire de bien comprendre la plate-forme OCI et la façon de créer des applications dans OCI. Vous devez également configurer des stratégies réseau et IAM dans OCI.
Plan
Dans cette phase, créez un plan de projet détaillé avec une mise en correspondance des temps et des ressources.
Pour chacune des activités, il convient de déterminer les détails sur les tâches, le RACI des parties prenantes et le calendrier.
Plan du projet
Créez un plan de projet avec toutes les activités, leurs lignes de temps et leurs dépendances.
L'illustration suivante présente un exemple de plan de projet de haut niveau.

Description de l'illustration project-plan.png ci-après
nomenclature
En fonction de votre évaluation et de votre conception, créez un BOM pour l'environnement cible dans OCI
Répertoriez chaque service à utiliser, ainsi que ses informations de dimensionnement et de configuration. Le tableau suivant est un exemple des articles que vous pouvez inclure dans la nomenclature.
Service OCI | Dimensionnement et configuration |
---|---|
Service Big Data | - |
Science des données | - |
Catalogue de données | - |
Machines virtuelles | - |
Stockage de blocs | - |
Stockage d'objet | - |
Autonomous Data Warehouse | - |
Réseau cloud virtuel | - |
Identity and Access Management | - |
Planification de Big Data Service
Cette section présente les choix importants à faire pour lancer un cluster dans Big Data Service (BDS)
Les clusters Hadoop BDS sont exécutés sur des instances de calcul OCI. Vous devez déterminer les types d'instance à utiliser. Ces instances sont exécutées dans des sous-réseaux de réseau cloud virtuel (VCN). Ils doivent être configurés avant de lancer des clusters. Vous devez également définir les conditions de stockage requises pour les volumes de blocs attachés aux noeuds de cluster. En outre, les stratégies IAM doivent être configurées.
Il existe deux types de noeud :
-
Noeuds maître et utilitaire. Ces noeuds incluent les services requis pour le fonctionnement et la gestion du cluster. Ils ne stockent ni ne traitent les données.
-
Noeuds de processeur Ces noeuds stockent et traitent les données. La perte d'un noeud de processus actif n'a pas d'incidence sur le fonctionnement du cluster, bien qu'elle puisse avoir un impact sur ses performances.
Les clusters peuvent être déployés en mode sécurisé et hautement disponible ou minimal (non HA). Vous devez également créer un plan pour les composants Hadoop à configurer et leur dimensionnement. Pour en savoir plus sur la configuration et le dimensionnement des clusters, consultez le lien de documentation BDS de la section Explorer plus.
Vous pouvez utiliser le tableau suivant pour créer un plan pour les clusters BDS.
Sujet | Dimensionnement et configuration |
---|---|
Configuration sécurisée et hautement disponible ou minimale (non hautement disponible) | - |
Nombre de noeuds de processus actifs | - |
Stockage par noeud | - |
Type et forme d'instance de calcul des noeuds maîtres | - |
Forme et type d'instance de calcul des noeuds de processus actif | - |
Configuration des services Hadoop du noeud maître 1 | - |
Configuration des services Hadoop du noeud maître 2 (le cas échéant) | - |
Configuration des services Hadoop du noeud utilitaire 1 | - |
Configuration des services Hadoop du noeud utilitaire 2 (le cas échéant) | - |
Configuration des services Hadoop du noeud utilitaire 3 (le cas échéant) | - |
Configuration des services Hadoop des noeuds de processus actif | - |
Détails du réseau cloud virtuel | - |
Stratégies Identity and Access Management appliquées | - |
Configuration d'Ambari | - |
Configuration HDFS | - |
Configuration Hive | - |
Configuration de HBase | - |
Configuration Spark | - |
Configuration Oozie | - |
Configuration de la boucle | - |
Configuration Tez | - |
Configuration Zookeeper | - |
Vous pouvez utiliser des tables similaires lors de la planification de la composition et de la taille des autres services de votre architecture.
Provisionner
En fonction des informations de conception et de dimensionnement de l'architecture d'état finale dans BOM, provisionnez et configurez les ressources requises dans OCI en fonction des tâches répertoriées dans le plan de projet.
Workflow de déploiement Big Data Service
Pour pouvoir configurer un cluster BDS, vous devez configurer les droits d'accès dans IAM, puis configurer le VCN pour le cluster.
Configurer IAM
Créez des groupes IAM supplémentaires avec des privilèges d'accès pour le cluster BDS.
Vous devez déléguer les tâches d'administration du cluster BDS à un ou plusieurs administrateurs BDS.
Si le nom de groupe est bds-admin-group et que le nouveau cluster se trouve dans le compartiment Cluster, vous devez créer les stratégies suivantes :
allow group bds-admin-group to manage virtual-network-family in compartment Cluster
allow group bds-admin-group to manage bds-instance in compartment Cluster
Créez également une stratégie avec l'instruction de stratégie suivante :
allow service bdsprod to
{VNIC_READ, VNIC_ATTACH, VNIC_DETACH, VNIC_CREATE, VNIC_DELETE,VNIC_ATTACHMENT_READ,
SUBNET_READ, VCN_READ, SUBNET_ATTACH, SUBNET_DETACH, INSTANCE_ATTACH_SECONDARY_VNIC,
INSTANCE_DETACH_SECONDARY_VNIC} in compartment Cluster
Configurer le VCN
Au minimum, vous avez besoin d'un réseau cloud virtuel unique avec un seul sous-réseau dans une seule région et un accès au réseau Internet public.
Pour un environnement de production complexe, vous pouvez disposer de plusieurs sous-réseaux et de règles de sécurité différentes. Vous pouvez connecter votre VCN à un réseau sur site ou à d'autres réseaux cloud virtuels d'autres régions. Pour plus de détails sur la mise en réseau OCI, reportez-vous à la documentation OCI.
Créer un cluster BDS
Choisissez le nom du cluster, le mot de passe d'administrateur de cluster et les tailles des noeuds maître, utilitaire et de processus actif.
Lorsque vous créez le cluster, vous choisissez un nom, un mot de passe d'administrateur de cluster et des tailles pour les noeuds maître, utilitaire et de processus actif. Une case à cocher permet également de sélectionner une configuration de cluster sécurisée et hautement disponible. HA fournit quatre noeuds maître et utilitaire au lieu de deux dans la configuration non HA minimale.
Veillez à créer le cluster dans le compartiment dans lequel vous le souhaitez, et dans le VCN dans lequel vous le souhaitez. Assurez-vous également que le bloc CIDR du réseau privé de cluster ne chevauche pas la plage de blocs CIDR du sous-réseau qui contient le cluster.
Accéder au cluster BDS
Les noeuds Big Data Service reçoivent par défaut des adresses IP privées qui ne sont pas accessibles à partir du réseau Internet public.
Vous pouvez rendre les noeuds du cluster disponibles à l'aide de l'une des méthodes suivantes :
- Vous pouvez mettre en correspondance les adresses IP privées des noeuds sélectionnés dans le cluster avec des adresses IP publiques pour les rendre accessibles publiquement sur Internet.
- Vous pouvez configurer un tunnel SSH à l'aide d'un bastion. Seul le bastion est exposé au réseau Internet public. Un bastion fournit l'accès au réseau privé du cluster à partir du réseau Internet public.
- Vous pouvez utiliser VPN Connect qui fournit un VPN IPSec (Internet Protocol Security) site à site entre votre réseau sur site et votre VCN. Vous pouvez également utiliser OCI FastConnect pour accéder aux services dans OCI sans passer par le réseau Internet public. Avec FastConnect, le trafic passe par une connexion physique privée.
Gérer le cluster BDS
Pour BDS avec distribution Oracle incluant Apache Hadoop (ODH), vous pouvez utiliser Apache Ambari pour gérer votre cluster.
Il s'exécute sur le noeud utilitaire du cluster. Vous devez ouvrir le port 7183 sur le noeud en configurant les règles entrantes dans la liste de sécurité réseau.
Pour accéder à Ambari, ouvrez une fenêtre de navigateur et entrez l'URL avec l'adresse IP du noeud utilitaire. Par exemple : https://<ip_address_or_hostname>:7183
Utilisez l'administrateur de cluster (administrateur par défaut) et le mot de passe que vous avez saisis lors de la création du cluster.

Description de l'illustration ambari-dashboard-metrics.png ci-après
Implémenter
Commencez à implémenter des applications et des services pour chaque phase. Il existe plusieurs critères à prendre en compte avant de sélectionner un service particulier.
Certains services peuvent être utilisés dans plusieurs phases. Par exemple, Big Data Service possède des composants qui peuvent être utilisés dans la phase d'inclusion, la phase de stockage et la phase de transformation.
Ingestion
-
Data Transfer Appliance : si vous effectuez une migration vers OCI, vous pouvez utiliser Data Transfer Service pour migrer des données, hors ligne et vers Object Storage.
-
Big Data Service : Big Data Service fournit des composants Hadoop populaires pour l'assimilation des données, notamment Kafka, Flume et Sqoop. Les utilisateurs peuvent configurer ces outils en fonction de leurs besoins. Kafka peut être utilisé pour l'assimilation en temps réel des événements et des données. Par exemple, si des utilisateurs ont des événements provenant de leurs applications ou de leur serveur et souhaitent assimiler des événements en temps réel, ils peuvent utiliser Kafka et écrire des données dans HDFS ou Object Storage. Flume peut être utilisé pour assimiler des données de diffusion en continu dans des rubriques HDFS ou Kafka. Sqoop est l'un des outils Hadoop les plus courants utilisés pour l'assimilation des données des banques de données structurées telles que les bases de données relationnelles et les entrepôts de données.
Stocker
-
Big Data Service : BDS fournit des composants Hadoop standard, y compris HDFS et HBase. Les données peuvent être écrites dans HDFS à partir de la diffusion en continu Spark, du batch Spark ou de tout autre travail. HBase fournit une base de données distribuée non relationnelle exécutée sur HDFS. Il peut être utilisé pour stocker des jeux de données de grande taille qui sont stockés en tant que paires clé-valeur. Les données peuvent être lues et écrites dans HBase à partir de travaux Spark dans le cadre de l'assimilation ou de la transformation.
-
Object Storage : le service OCI Object Storage est une plate-forme de stockage hautes performances, à l'échelle d'Internet, qui offre une durabilité fiable et rentable en matière de données. Il peut stocker une quantité illimitée de données de tout type de contenu, y compris des données analytiques et du contenu enrichi comme des images et des vidéos. Dans ce modèle, Object Storage peut être utilisé en tant qu'espace de stockage BLOB à usage général. Big Data Service et d'autres services peuvent lire et écrire des données à partir d'Object Storage.
Transformation et service
-
Big Data Service (BDS) : BDS propose des composants Hadoop comme Spark et Hive pouvant être utilisés pour traiter les données. Hive et Spark SQL peuvent être utilisés pour exécuter des requêtes SQL sur des données HDFS et Object Storage. Une fois les données stockées dans HDFS ou Object Storage, les tables peuvent être créées en pointant vers les données, puis tout outil BI (Business Intelligence) ou application personnalisée peut se connecter à ces interfaces pour exécuter des requêtes sur les données. Les utilisateurs peuvent écrire un traitement batch complexe dans l'étincelle, qui peut traiter des données de grande taille ou avoir une transformation très complexe avec plusieurs étapes. Spark peut être utilisé pour implémenter des travaux de lecture et d'écriture à partir de plusieurs sources, notamment HDFS, HBase et Object Storage. Oracle Cloud SQL est un service d'extension disponible qui vous permet de lancer des requêtes Oracle SQL sur des données dans HDFS, Kafka et Oracle Object Storage.
BI, ML, visualisation et gouvernance
-
Data Catalog : utilisez le service OCI Data Catalog pour collecter des métadonnées à partir de sources de données dans l'écosystème Oracle Cloud Infrastructure et sur site afin de créer un inventaire de ressources de données. Vous pouvez l'utiliser pour créer et gérer des glossaires d'entreprise avec des catégories, des sous-catégories et des termes métier afin de créer une taxonomie de concepts métier avec des balises ajoutées par l'utilisateur afin de rendre la recherche plus productive. Cela facilite la gouvernance et permet aux consommateurs de données de trouver plus facilement les données dont ils ont besoin pour les analyses.
-
Data Science : Data Science est une plate-forme entièrement gérée et sans serveur qui permet aux équipes de science des données de créer, d'entraîner, de déployer et de gérer des modèles d'apprentissage automatique dans l'infrastructure possible Oracle. Il fournit aux experts en données un espace de travail collaboratif basé sur les projets, avec des blocs-notes Jupyter et des outils, bibliothèques et packages centrés sur python développés par la communauté open source ainsi que la bibliothèque Oracle Accelerated Data Science. Il s'intègre au reste de la pile, y compris Data Flow, Autonomous Data Warehouse et Object Storage.
-
Oracle Analytics Cloud (OAC) : OAC propose des fonctions d'analyse en libre-service basées sur l'intelligence artificielle, à des fins de préparation, de découverte et de visualisation des données, de génération de rapports ad hoc et d'entreprise intelligents, et d'analyse augmentée, ainsi que de traitement/génération du langage naturel.
Automatiser
Une fois le système implémenté, vous ajoutez l'automatisation en planifiant des travaux individuels ou en configurant un ou plusieurs pipelines.
Vous pouvez configurer un outil de gestion du workflow tel que Airflow ou Oozie. Oozie est inclus et préconfiguré lors de la configuration d'un cluster Big Data Service.