Aperçu
Le service de mégadonnées fournit un environnement Hadoop de niveau entreprise, sécurisé de bout en bout, haute performance, et facile à gérer et à mettre à niveau.
Le service de mégadonnées est un service Oracle Cloud Infrastructure conçu pour un ensemble diversifié de cas d'utilisation et de charges de travail de mégadonnées. Le service de mégadonnées s'adapte à tous les besoins d'une organisation, avec un coût faible et des niveaux de sécurité extrêmes, qu'il s'agisse de grappes à durée de vie courte utilisées pour des tâches spécifiques ou de grappes à durée de vie longue qui gèrent de grands lacs de données.
Les données au repos dans les volumes par blocs utilisés par le service de mégadonnées sont chiffrées par défaut.
Le service de mégadonnées comprend :
-
Une pile Hadoop comprenant une installation de la distribution Oracle avec Apache Hadoop (ODH). ODH inclut Apache Ambari, Apache Hadoop, Apache HBase, Apache Hive, Apache Spark et d'autres services pour utiliser et sécuriser les mégadonnées.
Pour obtenir la liste détaillée de ce qui se trouve dans ODH, voir À propos de la distribution Oracle avec Apache Hadoop.
- Des fonctionnalités et ressources Oracle Cloud Infrastructure, notamment les services de gestion des identités, de réseau, de calcul, de stockage et de surveillance.
- Une API REST permettant de créer et de gérer des grappes.
- La possibilité de créer des grappes de toute taille, basée sur des formes Oracle Cloud Infrastructure natives. Par exemple, vous pouvez créer de petites grappes à durée de vie courte dans des environnements virtuels flexibles, des grappes très volumineuses de longue durée sur du matériel dédié, ou une combinaison des deux.
- Des grappes sécurisées haute disponibilité facultatives.
- L'intégration d'Oracle Cloud SQL, pour analyser les données provenant d'Apache Hadoop, d'Apache Kafka, de NoSQL et des magasins d'objets utilisant le langage d'interrogation Oracle SQL.
- Un accès complet pour personnaliser ce qui est déployé dans les grappes du service de mégadonnées.
-
Le service de mégadonnées publie des mises à jour visibles dans la console OCI. Ces mises à jour doivent être appliquées pour que vos grappes du service de mégadonnées soient à jour et prises en charge. Voir Mise à jour des grappes du service de mégadonnées pour plus de détails sur la mise à jour de la version du service de mégadonnées.
À propos de la distribution Oracle avec Apache Hadoop (ODH)
Conçu de bout en bout, le service ODH est intégré de façon native à la plate-forme de données d'Oracle. ODH est entièrement géré et comprend les composants Hadoop que vous connaissez et utilisez aujourd'hui. ODH est disponible en versions ODH 2.x et ODH 1.x.
Pour plus d'informations, voir :
- Version et mise à jour du service de mégadonnées
- ODH 2.x basé sur Apache Hadoop 3.3.3
- ODH 1.x basé sur Apache Hadoop 3.1
Apache Hive prend en charge des fonctions de masquage de données qui peuvent inclure des algorithmes faibles. Pour un algorithme de cryptage fort, des fonctions personnalisées peuvent être écrites. Pour plus d'informations, voir Informations de référence sur le CDU Apache Hive à l'adresse : hive/languagemanual+UDF.
Voir À propos de la distribution Oracle incluant Apache Hadoop (ODH) pour plus de détails sur les composants inclus dans chaque version d'ODH.
Version et mise à jour du service de mégadonnées
Le service de mégadonnées publie les mises à jour de fonctions logicielles à une fréquence trimestrielle. Les mises à jour des fonctionnalités logicielles peuvent inclure une ou plusieurs mises à jour d'ODH (Oracle Distribution for Hadoop), notamment les mises à jour de version de composant et les correctifs de bogues, les correctifs CVE (Common Vulnerabilities and Exposures), les mises à jour de système d'exploitation, les mises à niveau de système d'exploitation et les correctifs de bogues de système d'exploitation.
Pour les dernières versions, reportez-vous aux notes de version du service Big Data.
Les utilisateurs du service de mégadonnées sont pris en charge si leur version du logiciel du service de mégadonnées est la dernière version (N), ou une version antérieure à la dernière version du service de mégadonnées (N-1) ou deux versions antérieures à la dernière version du service de mégadonnées (N-2).
Le tableau suivant répertorie la version du service de mégadonnées et les versions de mise à jour pour chaque version.
Version du service de mégadonnées | Version ODH | Version du JDK | Version du système exploitation | Version de Linux |
---|---|---|---|---|
3.1 | ODH 2.2.0.31 | JDK 1.8.0_451 | Système d'exploitation 2.2.0 | OL8.10 |
3.1 | ODH 2.1.0.22 | JDK 1.8.0_431 | Système d'exploitation 2.1.0 | OL8.10 |
3 |
ODH 2.0.10.22 |
JDK 1.8.0_411 |
Système d'exploitation 1.29.0 |
OL7.9 |
3 |
ODH 2.0.9.41 ODH 1.1.13.21 |
JDK 1.8.0_411 |
OS 1.28.0 |
OL7.9 |
3 |
ODH 2.0.8.45 ODH 1.1.12.16 ODH 0.9.10.6 |
JDK 1.8.0_411 |
OS 1.27.0 |
OL7.9 |
3 |
ODH 2.0.7.11 ODH 1.1.11.7 ODH 0.9.9.7 |
JDK 1.8.0_381 |
OS 1.26.0 |
OL7.9 |
3 |
ODH 2.0.6.5 ODH 1.1.10.4 ODH 0.9.8.3 |
JDK 1.8.0_381 |
OS 1.25.0 |
OL7.9 |
ODH 2.2.x basé sur Apache Hadoop 3.4.1
Le tableau suivant liste les composants inclus dans ODH et leurs versions.
Composant | Version |
---|---|
Apache Ambari | 2.7.5 |
Apache Flink | 1.15 |
Flume Apache | 1.1 |
Apache Hadoop (HDFS, YARN, MR) | 3.4 |
Apache HBase | 2.4 |
Apache Hive | 3.1 |
Apache Hue | 4.10.0 |
Apache JupyterHub | 2.1.1 |
Apache Kafka | 3.2 |
Apache Livy | 0.7.1 |
Apache Oozie | 5.2 |
Apache Parquet MR | 1.10 |
Apache Ranger1 et InfrSolr | 2.5.0 et 0.1.0 |
Apache Spark2 | 3.2 |
Apache Sqoop | 1.4.7 |
Apache Tez | 0.1 |
Apache Zookeeper | 3.8 |
Kerberos | 1.1-15 |
Utilitaires ODH | 1 |
Registre de schéma | 1 |
Trino | 389 |
Service à valeur ajoutée supplémentaire | |
ORAAH | inclus |
1 Ranger 2.5.0 ne permet pas aux utilisateurs d'importer des politiques avec des utilisateurs qui ne sont pas disponibles dans le système et qui échouent à l'importation de la politique. Pour plus d'informations, voir Configurations d'importation et d'exportation de versions.
2 Si vous exécutez des tâches Spark, vous devez appliquer le correctif ARU et relancer les applications Spark avant d'appliquer le correctif ODH 2.2.0.
ODH 2.x basé sur Apache Hadoop 3.3.3
Le tableau suivant répertorie les composants inclus dans ODH et leurs versions.
Composant | Version |
---|---|
Apache Ambari | 2.7.5 |
Apache Flink | 1.15 |
Flume Apache | 1.1 |
Apache Hadoop (HDFS, YARN, MR) | 3.3 |
Apache HBase | 2.4 |
Apache Hive | 3.1 |
Apache Hue | 4.10.0 |
Apache JupyterHub | 2.1.1 |
Apache Kafka | 3.2 |
Apache Livy | 0.7.1 |
Apache Oozie | 5.2 |
Apache Parquet MR | 1.10 |
Apache Ranger et InfrSolr | 2.3.0 et 0.1.0 |
Apache Spark | 3.2 |
Apache Sqoop | 1.4.7 |
Apache Tez | 0.1 |
Apache Zookeeper | 3.7 |
Kerberos | 1.1-15 |
Utilitaires ODH | 1 |
Registre de schéma | 1 |
Trino | 389 |
Service à valeur ajoutée supplémentaire | |
ORAAH | inclus |
ODH 1.x basé sur Apache Hadoop 3.1
Le tableau suivant liste les composants inclus dans ODH 1.x et leurs versions.
Composant | Version |
---|---|
Apache Ambari | 2.7.5 |
Apache Flink | 1.15 |
Apache Flume | 1.1 |
Apache Hadoop (HDFS, YARN, MR) | 3.1.2 |
Apache HBase | 2.2.6 |
Apache Hive | 3.1.2 |
Apache Hue | 4.10.0 |
Apache JupyterHub | 2.1.1 |
Apache Kafka | 3.2 |
Apache Livy | 0.7.1 |
Apache Oozie | 5.2.0 |
Apache Parquet MR | 1.10 |
Apache Ranger et InfrSolr | 2.1.0 et 0.1.0 |
Apache Spark | 3.0.2 |
Apache Sqoop | 1.4.7 |
Apache Tez | 0.10.0 |
Apache Zookeeper | 3.5.9 |
Kerberos | 1.1-15 |
Utilitaires ODH | 1 |
Registre de schéma | 1 |
Trino | 360 |
Service à valeur ajoutée supplémentaire | |
ORAAH | inclus |
Accès au service de mégadonnées
Vous pouvez accéder au service de mégadonnées à l'aide de la console, de l'interface de ligne de commande OCI, des API REST ou des trousses SDK.
- La console OCI est une interface basée sur un navigateur facile à utiliser. Pour accéder à la console, vous devez utiliser un navigateur pris en charge.
- L'interface de ligne de commande OCI fournit un accès rapide et des fonctionnalités complètes, sans programmation. Utilisez l'environnement Cloud Shell pour exécuter vos interfaces de ligne de commande.
- La documentation sur les API REST offre le plus de fonctionnalités, mais nécessite des connaissances en programmation. La rubrique Informations de référence sur les API et points d'extrémité d'API fournit des détails sur les points d'extrémité et des liens vers les documents de référence sur les API, y compris l'API du service de mégadonnées.
- OCI fournit des trousses SDK qui interagissent avec le service de mégadonnées sans que vous ayez à créer un cadre.
Identificateurs de ressource
Les ressources du service de mégadonnées, comme la plupart des types de ressources d'Oracle Cloud Infrastructure , ont un identificateur unique affecté par Oracle, appelé identificateur Oracle Cloud (OCID).
Pour plus d'informations sur le format des OCID et sur les autres moyens d'identifier vos ressources, voir Identificateurs de ressource.
Régions et domaines de disponibilité
Les régions et domaines de disponibilité indiquent l'organisation physique et logique de vos ressources de service de mégadonnées. Une région est une zone géographique précise, tandis qu'un domaine de disponibilité comprend un ou plusieurs centres de données à l'intérieur d'une région.
Pour obtenir les informations les plus récentes sur les régions où le service de mégadonnées, Oracle Cloud SQL et les services connexes sont disponibles, voir Régions de données pour Oracle Cloud Infrastructure et les services de plate-forme.
Limites de service
Lors de l'inscription à Oracle Cloud Infrastructure (OCI), un jeu de limites de service est configuré pour votre location. La limite de service correspond au quota défini pour une ressource. Il est possible d'augmenter ces limites automatiquement en fonction de votre utilisation des ressources OCI et de l'état de votre compte. Voir limites de service.
Limites de service par défaut
Parmi les limites définies pour votre location figurent des limites sur le nombre de noeuds de grappe du service de mégadonnées que vous pouvez créer. Plus précisément, vous êtes limité à un certain nombre de noeuds d'une certaine forme.
Le tableau suivant montre les limites par défaut des diverses formes de grappe. Ce sont vos limites si vous n'avez pas pris d'autres dispositions lorsque vous avez acheté votre abonnement et si vous n'avez pas encore demandé d'augmentation.
Ressource | Crédit universel mensuel | Pay-as-you-go |
---|---|---|
VM.Standard2.1 | 12 instances (12 OCPU) | 8 instances (8 OCPU) |
VM.Standard2.2 | 12 instances (24 OCPU) | 8 instances (16 OCPU) |
VM.Standard2.4 | 12 instances (48 OCPU) | 8 instances (32 OCPU) |
VM.Standard2.8 | 8 instances (64 OCPU) | Communiquer avec nous |
VM.Standard2.16 | 8 instances (128 OCPU) | Communiquer avec nous |
VM.Standard2.24 | 8 instances (192 OCPU) | Communiquer avec nous |
VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 VM.DenseIO.E4 BM.HPC2.36 BM.DenseIO2.52 BM.DenseIO.E4 BM.Optimized3 BM.Standard2.52 BM.Standard3.64 BM.Standard.E4 |
Communiquer avec nous | Communiquer avec nous |
Unités affichées
En pratique, vous augmentez le nombre de noeuds ou d'instances dans une grappe. ("Noeuds" et "instances" sont synonymes dans ce contexte. Les services OCI utilisent généralement le terme "instance", mais le service de mégadonnées suit la convention Hadoop qui utilise le terme "node".)
Toutefois, les limites sont généralement exprimées en un certain nombre d'unités centrales Oracle (OCPU). Chaque type de noeud du service de mégadonnées a un nombre défini d'OCPU. Le nombre suivant le point dans le nom de forme du noeud indique le nombre d'OCPU d'un seul noeud de cette forme. Par exemple, un noeud VM.Standard2.1 a une OCPU, un noeud VM.Standard2.4 en comporte quatre et un noeud BM.DenseIO2.52, 52.
Par exemple, si votre abonnement utilise des crédits universels mensuels, la limite par défaut pour la forme de noeud VM.Standard2.4 est 48 OCPU, ce qui équivaut à 12 noeuds. Le calcul est le suivant : limite de service de 48 OCPU divisée par 4 OCPU par noeud égale 12 noeuds.
Recherche des limites de location
Vous devez disposer d'une autorisation pour consulter les limites et l'utilisation. Voir "Pour voir les limites et l'utilisation de votre location" sous Limites de service.
Pour voir les limites et l'utilisation, voir Consultation de vos limites de service, de vos quotas et de votre utilisation.
Demande d'une augmentation de limite de service
Pour demander une augmentation de limite de service, voir Demande d'une augmentation de limite de service.
Quotas de service
Les administrateurs du service de mégadonnées peuvent définir des politiques de quotas pour imposer des restrictions aux utilisateurs en limitant les ressources qu'ils peuvent créer.
Pour des informations sur la gestion des quotas par Oracle Cloud Infrastructure, voir Aperçu des quotas de compartiment.
Utilisez les informations suivantes pour créer des quotas :
Nom du service : big-data
Nom du quota | Portée | Description |
---|---|---|
vm-standard-2-1-ocpu-count | Régionale | Nombre d'OCPU VM.Standard2.1 |
vm-standard-2-2-ocpu-count | Régionale | Nombre d'OCPU VM.Standard2.2 |
vm-standard-2-4-ocpu-count | Régionale | Nombre d'OCPU VM.Standard2.4 |
vm-standard-2-8-ocpu-count | Régionale | Nombre d'OCPU VM.Standard2.8 |
vm-standard-2-16-ocpu-count | Régionale | Nombre d'OCPU VM.Standard2.16 |
vm-standard-2-24-ocpu-count | Régionale | Nombre d'OCPU VM.Standard2.24 |
vm-dense-io-2-8-ocpu-count | Régionale | Nombre d'OCPU VM.DenseIO2.8 |
vm-dense-io-2-16-ocpu-count | Régionale | Nombre d'OCPU VM.DenseIO2.16 |
vm-dense-io-2-24-ocpu-count | Régionale | Nombre d'OCPU VM.DenseIO2.24 |
bm-hpc2-36-ocpu-count | Régionale | Nombre d'OCPU BM.HPC2.36 |
bm-dense-io-2-52-ocpu-count | Régionale | Nombre d'OCPU BM.DenseIO2.52 |
bm-standard-2-52-ocpu-count | Régionale | Nombre d'OCPU BM.Standard2.52 |
Exemples de politique de quotas du service de mégadonnées :
-
Limitez à 40 le nombre d'OCPU VM.Standard2.4 que les utilisateurs peuvent affecter aux services qu'ils créent dans le compartiment
mycompartment
.Set big-data quota vm-standard-2-4-ocpu-count to 40in Compartment mycompartment
-
Limitez à 20 le nombre d'OCPU BM.DenseIO2.52 que les utilisateurs peuvent affecter aux services qu'ils créent dans le compartiment
testcompartment
.Set big-data quota bm-dense-io-2-52-ocpu-count to 20 in Compartment testcompartment
-
N'autorisez pas les utilisateurs à créer des OCPU VM.Standard2.4 dans le compartiment
examplecompart
.Zero big-data quota vm-standard-2-4-ocpu-count in Compartment examplecompart
Services OCI intégrés
Le service de mégadonnées est intégré à divers services et fonctionnalités d'OCI.
Le service de mégadonnées est intégré à la recherche OCI. La recherche vous permet de rechercher des ressources dans une location et des informations importantes sur les grappes et les objets de configuration, telles que les clés d'API, les configurations de magasin de métadonnées et les configurations de lac.
Exemples d'interrogations de recherche :
Exemple 1 : Rechercher toutes les ressources du service de mégadonnées
query bigdataservice resources
Exemple 2 : Rechercher toutes les grappes actives du service de mégadonnées
query bigdataservice resources where lifecycleState = 'ACTIVE'
Le service de mégadonnées est entièrement intégré au service de recherche OCI et prend en charge des types de ressource spécifiques.
Type de ressource | Champs pris en charge |
---|---|
BigDataService |
Consultez la documentation sur BdsInstance. |
BigDataServiceApiKey |
Consultez la documentation sur BdsApiKey. |
BigDataServiceMetastoreConfig |
Consultez la documentation sur BdsMetastoreConfiguration. |
BigDataServiceLakehouseConfig |
|
Certaines actions effectuées sur les grappes du service de mégadonnées émettent des événements.
Vous pouvez définir des règles qui déclenchent une action particulière lorsqu'un événement se produit. Par exemple, vous pouvez définir une règle qui envoie un avis aux administrateurs lorsqu'une ressource est supprimée. Voir Aperçu des événements et Introduction aux événements.
Le tableau suivant répertorie les types d'événement du service de mégadonnées.
Nom convivial | Type d'événement |
---|---|
Créer une instance - Début | com.oraclecloud.bds.cp.createinstance.begin |
Créer une instance - Fin | com.oraclecloud.bds.cp.createinstance.end |
Mettre fin à l'instance - Début | com.oraclecloud.bds.cp.terminateinstance.begin |
Mettre fin à l'instance - Fin | com.oraclecloud.bds.cp.terminateinstance.end |
Ajouter un noeud de travail - Début | com.oraclecloud.bds.cp.addnode.begin |
Ajouter un noeud de travail - Fin | com.oraclecloud.bds.cp.addnode.end |
Ajouter du stockage par blocs - Début | com.oraclecloud.bds.cp.addblockstorage.begin |
Ajouter du stockage par blocs - Fin | com.oraclecloud.bds.cp.addblockstorage.end |
Configurer Cloud SQL - Début | com.oraclecloud.bds.cp.addcloudsql.begin |
Configurer Cloud SQL - Fin | com.oraclecloud.bds.cp.addcloudsql.end |
Désactiver Cloud SQL - Début | com.oraclecloud.bds.cp.removecloudsql.begin |
Désactiver Cloud SQL - Fin | com.oraclecloud.bds.cp.removecloudsql.end |
Désactiver le certificat de service ODH - Début | com.oraclecloud.bds.cp.disableodhservicecertificate.begin |
Désactiver le certificat de service ODH - Fin | com.oraclecloud.bds.cp.disableodhservicecertificate.end |
Activer le certificat de service ODH - Début | com.oraclecloud.bds.cp.enableodhservicecertificate.begin |
Activer le certificat de service ODH - Fin | com.oraclecloud.bds.cp.enableodhservicecertificate.end |
Renouveler le certificat de service ODH - Début | com.oraclecloud.bds.cp.renewodhservicecertificate.begin |
Renouveler le certificat de service ODH - Fin | com.oraclecloud.bds.cp.renewodhservicecertificate.end |
Les opérations de service de mégadonnées suivantes créent des demandes de travail. Vous pouvez consulter ces demandes de travail dans la page de détails d'une grappe du service de mégadonnées.
API du service de mégadonnées | Opération de demande de travail | Options de statut de demande de travail |
---|---|---|
CREATE_BDS UPDATE_BDS DELETE_BDS ADD_BLOCK_STORAGE ADD_WORKER_NODES ADD_CLOUD_SQL REMOVE_CLOUD_SQL CHANGE_COMPARTMENT_FOR_BDS CHANGE_SHAPE RESTART_NODE UPDATE_INFRA UPDATE_INFRA UPDATE_INFRA |
|
Références :