Aperçu

Le service de mégadonnées fournit un environnement Hadoop de niveau entreprise, sécurisé de bout en bout, haute performance, et facile à gérer et à mettre à niveau.

Le service de mégadonnées est un service Oracle Cloud Infrastructure conçu pour un ensemble diversifié de cas d'utilisation et de charges de travail de mégadonnées. Le service de mégadonnées s'adapte à tous les besoins d'une organisation, avec un coût faible et des niveaux de sécurité extrêmes, qu'il s'agisse de grappes à durée de vie courte utilisées pour des tâches spécifiques ou de grappes à durée de vie longue qui gèrent de grands lacs de données.

Note

Les données au repos dans les volumes par blocs utilisés par le service de mégadonnées sont chiffrées par défaut.

Le service de mégadonnées comprend :

  • Une pile Hadoop comprenant une installation de la distribution Oracle avec Apache Hadoop (ODH). ODH inclut Apache Ambari, Apache Hadoop, Apache HBase, Apache Hive, Apache Spark et d'autres services pour utiliser et sécuriser les mégadonnées.

    Pour obtenir la liste détaillée de ce qui se trouve dans ODH, voir À propos de la distribution Oracle avec Apache Hadoop.

  • Des fonctionnalités et ressources Oracle Cloud Infrastructure, notamment les services de gestion des identités, de réseau, de calcul, de stockage et de surveillance.
  • Une API REST permettant de créer et de gérer des grappes.
  • La possibilité de créer des grappes de toute taille, basée sur des formes Oracle Cloud Infrastructure natives. Par exemple, vous pouvez créer de petites grappes à durée de vie courte dans des environnements virtuels flexibles, des grappes très volumineuses de longue durée sur du matériel dédié, ou une combinaison des deux.
  • Des grappes sécurisées haute disponibilité facultatives.
  • L'intégration d'Oracle Cloud SQL, pour analyser les données provenant d'Apache Hadoop, d'Apache Kafka, de NoSQL et des magasins d'objets utilisant le langage d'interrogation Oracle SQL.
  • Un accès complet pour personnaliser ce qui est déployé dans les grappes du service de mégadonnées.
  • Le service de mégadonnées publie des mises à jour visibles dans la console OCI. Ces mises à jour doivent être appliquées pour que vos grappes du service de mégadonnées soient à jour et prises en charge. Voir Mise à jour des grappes du service de mégadonnées pour plus de détails sur la mise à jour de la version du service de mégadonnées.

À propos de la distribution Oracle avec Apache Hadoop (ODH)

Conçu de bout en bout, le service ODH est intégré de façon native à la plate-forme de données d'Oracle. ODH est entièrement géré et comprend les composants Hadoop que vous connaissez et utilisez aujourd'hui. ODH est disponible en versions ODH 2.x et ODH 1.x.

Pour plus d'informations, voir :

Note

Apache Hive prend en charge des fonctions de masquage de données qui peuvent inclure des algorithmes faibles. Pour un algorithme de cryptage fort, des fonctions personnalisées peuvent être écrites. Pour plus d'informations, voir Informations de référence sur le CDU Apache Hive à l'adresse : hive/languagemanual+UDF.

Voir À propos de la distribution Oracle incluant Apache Hadoop (ODH) pour plus de détails sur les composants inclus dans chaque version d'ODH.

Version et mise à jour du service de mégadonnées

Le service de mégadonnées publie les mises à jour de fonctions logicielles à une fréquence trimestrielle. Les mises à jour des fonctionnalités logicielles peuvent inclure une ou plusieurs mises à jour d'ODH (Oracle Distribution for Hadoop), notamment les mises à jour de version de composant et les correctifs de bogues, les correctifs CVE (Common Vulnerabilities and Exposures), les mises à jour de système d'exploitation, les mises à niveau de système d'exploitation et les correctifs de bogues de système d'exploitation.

Pour les dernières versions, reportez-vous aux notes de version du service Big Data.

Les utilisateurs du service de mégadonnées sont pris en charge si leur version du logiciel du service de mégadonnées est la dernière version (N), ou une version antérieure à la dernière version du service de mégadonnées (N-1) ou deux versions antérieures à la dernière version du service de mégadonnées (N-2).

Le tableau suivant répertorie la version du service de mégadonnées et les versions de mise à jour pour chaque version.

Version du service de mégadonnées Version ODH Version du JDK Version du système exploitation Version de Linux
3.1 ODH 2.2.0.31 JDK 1.8.0_451 Système d'exploitation 2.2.0 OL8.10
3.1 ODH 2.1.0.22 JDK 1.8.0_431 Système d'exploitation 2.1.0 OL8.10
3

ODH 2.0.10.22

JDK 1.8.0_411

Système d'exploitation 1.29.0

OL7.9
3

ODH 2.0.9.41

ODH 1.1.13.21

JDK 1.8.0_411

OS 1.28.0

OL7.9
3

ODH 2.0.8.45

ODH 1.1.12.16

ODH 0.9.10.6

JDK 1.8.0_411

OS 1.27.0

OL7.9
3

ODH 2.0.7.11

ODH 1.1.11.7

ODH 0.9.9.7

JDK 1.8.0_381

OS 1.26.0

OL7.9
3

ODH 2.0.6.5

ODH 1.1.10.4

ODH 0.9.8.3

JDK 1.8.0_381

OS 1.25.0

OL7.9

ODH 2.2.x basé sur Apache Hadoop 3.4.1

Le tableau suivant liste les composants inclus dans ODH et leurs versions.

Composant Version
Apache Ambari 2.7.5
Apache Flink 1.15
Flume Apache 1.1
Apache Hadoop (HDFS, YARN, MR) 3.4
Apache HBase 2.4
Apache Hive 3.1
Apache Hue 4.10.0
Apache JupyterHub 2.1.1
Apache Kafka 3.2
Apache Livy 0.7.1
Apache Oozie 5.2
Apache Parquet MR 1.10
Apache Ranger1 et InfrSolr 2.5.0 et 0.1.0
Apache Spark2 3.2
Apache Sqoop 1.4.7
Apache Tez 0.1
Apache Zookeeper 3.8
Kerberos 1.1-15
Utilitaires ODH 1
Registre de schéma 1
Trino 389
Service à valeur ajoutée supplémentaire
ORAAH inclus

1 Ranger 2.5.0 ne permet pas aux utilisateurs d'importer des politiques avec des utilisateurs qui ne sont pas disponibles dans le système et qui échouent à l'importation de la politique. Pour plus d'informations, voir Configurations d'importation et d'exportation de versions.

2 Si vous exécutez des tâches Spark, vous devez appliquer le correctif ARU et relancer les applications Spark avant d'appliquer le correctif ODH 2.2.0.

ODH 2.x basé sur Apache Hadoop 3.3.3

Le tableau suivant répertorie les composants inclus dans ODH et leurs versions.

Composant Version
Apache Ambari 2.7.5
Apache Flink 1.15
Flume Apache 1.1
Apache Hadoop (HDFS, YARN, MR) 3.3
Apache HBase 2.4
Apache Hive 3.1
Apache Hue 4.10.0
Apache JupyterHub 2.1.1
Apache Kafka 3.2
Apache Livy 0.7.1
Apache Oozie 5.2
Apache Parquet MR 1.10
Apache Ranger et InfrSolr 2.3.0 et 0.1.0
Apache Spark 3.2
Apache Sqoop 1.4.7
Apache Tez 0.1
Apache Zookeeper 3.7
Kerberos 1.1-15
Utilitaires ODH 1
Registre de schéma 1
Trino 389
Service à valeur ajoutée supplémentaire
ORAAH inclus

ODH 1.x basé sur Apache Hadoop 3.1

Le tableau suivant liste les composants inclus dans ODH 1.x et leurs versions.

Composant Version
Apache Ambari 2.7.5
Apache Flink 1.15
Apache Flume 1.1
Apache Hadoop (HDFS, YARN, MR) 3.1.2
Apache HBase 2.2.6
Apache Hive 3.1.2
Apache Hue 4.10.0
Apache JupyterHub 2.1.1
Apache Kafka 3.2
Apache Livy 0.7.1
Apache Oozie 5.2.0
Apache Parquet MR 1.10
Apache Ranger et InfrSolr 2.1.0 et 0.1.0
Apache Spark 3.0.2
Apache Sqoop 1.4.7
Apache Tez 0.10.0
Apache Zookeeper 3.5.9
Kerberos 1.1-15
Utilitaires ODH 1
Registre de schéma 1
Trino 360
Service à valeur ajoutée supplémentaire
ORAAH inclus

Accès au service de mégadonnées

Vous pouvez accéder au service de mégadonnées à l'aide de la console, de l'interface de ligne de commande OCI, des API REST ou des trousses SDK.

Identificateurs de ressource

Les ressources du service de mégadonnées, comme la plupart des types de ressources d'Oracle Cloud Infrastructure , ont un identificateur unique affecté par Oracle, appelé identificateur Oracle Cloud (OCID).

Pour plus d'informations sur le format des OCID et sur les autres moyens d'identifier vos ressources, voir Identificateurs de ressource.

Régions et domaines de disponibilité

Les régions et domaines de disponibilité indiquent l'organisation physique et logique de vos ressources de service de mégadonnées. Une région est une zone géographique précise, tandis qu'un domaine de disponibilité comprend un ou plusieurs centres de données à l'intérieur d'une région.

Pour obtenir les informations les plus récentes sur les régions où le service de mégadonnées, Oracle Cloud SQL et les services connexes sont disponibles, voir Régions de données pour Oracle Cloud Infrastructure et les services de plate-forme.

Limites de service

Lors de l'inscription à Oracle Cloud Infrastructure (OCI), un jeu de limites de service est configuré pour votre location. La limite de service correspond au quota défini pour une ressource. Il est possible d'augmenter ces limites automatiquement en fonction de votre utilisation des ressources OCI et de l'état de votre compte. Voir limites de service.

Limites de service par défaut

Parmi les limites définies pour votre location figurent des limites sur le nombre de noeuds de grappe du service de mégadonnées que vous pouvez créer. Plus précisément, vous êtes limité à un certain nombre de noeuds d'une certaine forme.

Le tableau suivant montre les limites par défaut des diverses formes de grappe. Ce sont vos limites si vous n'avez pas pris d'autres dispositions lorsque vous avez acheté votre abonnement et si vous n'avez pas encore demandé d'augmentation.

Ressource Crédit universel mensuel Pay-as-you-go
VM.Standard2.1 12 instances (12 OCPU) 8 instances (8 OCPU)
VM.Standard2.2 12 instances (24 OCPU) 8 instances (16 OCPU)
VM.Standard2.4 12 instances (48 OCPU) 8 instances (32 OCPU)
VM.Standard2.8 8 instances (64 OCPU) Communiquer avec nous
VM.Standard2.16 8 instances (128 OCPU) Communiquer avec nous
VM.Standard2.24 8 instances (192 OCPU) Communiquer avec nous

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

VM.DenseIO.E4

BM.HPC2.36

BM.DenseIO2.52

BM.DenseIO.E4

BM.Optimized3

BM.Standard2.52

BM.Standard3.64

BM.Standard.E4

Communiquer avec nous Communiquer avec nous

Unités affichées

En pratique, vous augmentez le nombre de noeuds ou d'instances dans une grappe. ("Noeuds" et "instances" sont synonymes dans ce contexte. Les services OCI utilisent généralement le terme "instance", mais le service de mégadonnées suit la convention Hadoop qui utilise le terme "node".)

Toutefois, les limites sont généralement exprimées en un certain nombre d'unités centrales Oracle (OCPU). Chaque type de noeud du service de mégadonnées a un nombre défini d'OCPU. Le nombre suivant le point dans le nom de forme du noeud indique le nombre d'OCPU d'un seul noeud de cette forme. Par exemple, un noeud VM.Standard2.1 a une OCPU, un noeud VM.Standard2.4 en comporte quatre et un noeud BM.DenseIO2.52, 52.

Par exemple, si votre abonnement utilise des crédits universels mensuels, la limite par défaut pour la forme de noeud VM.Standard2.4 est 48 OCPU, ce qui équivaut à 12 noeuds. Le calcul est le suivant : limite de service de 48 OCPU divisée par 4 OCPU par noeud égale 12 noeuds.

Quotas de service

Les administrateurs du service de mégadonnées peuvent définir des politiques de quotas pour imposer des restrictions aux utilisateurs en limitant les ressources qu'ils peuvent créer.

Pour des informations sur la gestion des quotas par Oracle Cloud Infrastructure, voir Aperçu des quotas de compartiment.

Utilisez les informations suivantes pour créer des quotas :

Nom du service : big-data

Quotas :
Nom du quota Portée Description
vm-standard-2-1-ocpu-count Régionale Nombre d'OCPU VM.Standard2.1
vm-standard-2-2-ocpu-count Régionale Nombre d'OCPU VM.Standard2.2
vm-standard-2-4-ocpu-count Régionale Nombre d'OCPU VM.Standard2.4
vm-standard-2-8-ocpu-count Régionale Nombre d'OCPU VM.Standard2.8
vm-standard-2-16-ocpu-count Régionale Nombre d'OCPU VM.Standard2.16
vm-standard-2-24-ocpu-count Régionale Nombre d'OCPU VM.Standard2.24
vm-dense-io-2-8-ocpu-count Régionale Nombre d'OCPU VM.DenseIO2.8
vm-dense-io-2-16-ocpu-count Régionale Nombre d'OCPU VM.DenseIO2.16
vm-dense-io-2-24-ocpu-count Régionale Nombre d'OCPU VM.DenseIO2.24
bm-hpc2-36-ocpu-count Régionale Nombre d'OCPU BM.HPC2.36
bm-dense-io-2-52-ocpu-count Régionale Nombre d'OCPU BM.DenseIO2.52
bm-standard-2-52-ocpu-count Régionale Nombre d'OCPU BM.Standard2.52

Exemples de politique de quotas du service de mégadonnées :

  • Limitez à 40 le nombre d'OCPU VM.Standard2.4 que les utilisateurs peuvent affecter aux services qu'ils créent dans le compartiment mycompartment.

    Set big-data quota vm-standard-2-4-ocpu-count to 40in Compartment mycompartment

  • Limitez à 20 le nombre d'OCPU BM.DenseIO2.52 que les utilisateurs peuvent affecter aux services qu'ils créent dans le compartiment testcompartment.

    Set big-data quota bm-dense-io-2-52-ocpu-count to 20 in Compartment testcompartment

  • N'autorisez pas les utilisateurs à créer des OCPU VM.Standard2.4 dans le compartiment examplecompart.

    Zero big-data quota vm-standard-2-4-ocpu-count in Compartment examplecompart

Services OCI intégrés

Le service de mégadonnées est intégré à divers services et fonctionnalités d'OCI.

Événements de service

Certaines actions effectuées sur les grappes du service de mégadonnées émettent des événements.

Vous pouvez définir des règles qui déclenchent une action particulière lorsqu'un événement se produit. Par exemple, vous pouvez définir une règle qui envoie un avis aux administrateurs lorsqu'une ressource est supprimée. Voir Aperçu des événements et Introduction aux événements.

Le tableau suivant répertorie les types d'événement du service de mégadonnées.

Nom convivial Type d'événement
Créer une instance - Début com.oraclecloud.bds.cp.createinstance.begin
Créer une instance - Fin com.oraclecloud.bds.cp.createinstance.end
Mettre fin à l'instance - Début com.oraclecloud.bds.cp.terminateinstance.begin
Mettre fin à l'instance - Fin com.oraclecloud.bds.cp.terminateinstance.end
Ajouter un noeud de travail - Début com.oraclecloud.bds.cp.addnode.begin
Ajouter un noeud de travail - Fin com.oraclecloud.bds.cp.addnode.end
Ajouter du stockage par blocs - Début com.oraclecloud.bds.cp.addblockstorage.begin
Ajouter du stockage par blocs - Fin com.oraclecloud.bds.cp.addblockstorage.end
Configurer Cloud SQL - Début com.oraclecloud.bds.cp.addcloudsql.begin
Configurer Cloud SQL - Fin com.oraclecloud.bds.cp.addcloudsql.end
Désactiver Cloud SQL - Début com.oraclecloud.bds.cp.removecloudsql.begin
Désactiver Cloud SQL - Fin com.oraclecloud.bds.cp.removecloudsql.end
Désactiver le certificat de service ODH - Début com.oraclecloud.bds.cp.disableodhservicecertificate.begin
Désactiver le certificat de service ODH - Fin com.oraclecloud.bds.cp.disableodhservicecertificate.end
Activer le certificat de service ODH - Début com.oraclecloud.bds.cp.enableodhservicecertificate.begin
Activer le certificat de service ODH - Fin com.oraclecloud.bds.cp.enableodhservicecertificate.end
Renouveler le certificat de service ODH - Début com.oraclecloud.bds.cp.renewodhservicecertificate.begin
Renouveler le certificat de service ODH - Fin com.oraclecloud.bds.cp.renewodhservicecertificate.end
Demandes de travail asynchrones

Les opérations de service de mégadonnées suivantes créent des demandes de travail. Vous pouvez consulter ces demandes de travail dans la page de détails d'une grappe du service de mégadonnées.

API du service de mégadonnées Opération de demande de travail Options de statut de demande de travail

CreateBdsInstance

UpdateBdsInstance

DeleteBdsInstance

AddBlockStorage

AddWorkerNodes

AddCloudSql

RemoveCloudSql

ChangeBdsInstanceCompartment

ChangeShape

RestartNode

AddAutoScalingConfiguration

UpdateAutoScalingConfiguration

RemoveAutoScalingConfiguration

CREATE_BDS

UPDATE_BDS

DELETE_BDS

ADD_BLOCK_STORAGE

ADD_WORKER_NODES

ADD_CLOUD_SQL

REMOVE_CLOUD_SQL

CHANGE_COMPARTMENT_FOR_BDS

CHANGE_SHAPE

RESTART_NODE

UPDATE_INFRA

UPDATE_INFRA

UPDATE_INFRA

ACCEPTED

IN_PROGRESS

FAILED

SUCCEEDED

CANCELING

CANCELED

Références :