Planification et présentation des grappes ODH

Avant de créer des grappes du service de mégadonnées, vous devez planifier et comprendre les grappes, les types et les formes d'instance et les profils de grappe.

Pour plus d'informations, voir les rubriques suivantes :

Planification de la disposition, de la forme et du stockage de la grappe

Avant de commencer le processus de création d'une grappe, vous devez planifier sa disposition, la forme de ses noeuds et le stockage.

Disposition de la grappe

Les noeuds et les services sont organisés différemment sur les grappes selon qu'il s'agit d'une grappe hautement disponible sécurisée, ou non.

À propos de l'utilisation des grappes hautement disponibles

Utilisez les grappes hautement disponibles pour les environnements de production. Elles sont nécessaires pour améliorer la résilience et pour réduire le temps d'arrêt.

Dans cette version, une grappe doit être à la fois hautement disponible et sécurisée, ou ni l'un ni l'autre.

Types de noeud

Les types de noeud sont les suivants :

  • Les noeuds principaux ou d'utilitaire incluent les services requis pour le fonctionnement et la gestion de la grappe. Ces noeuds ne stockent pas et ne traitent pas les données.
  • Les noeuds de travail stockent et traitent des données. La perte d'un noeud de travail n'a aucune incidence sur le fonctionnement de la grappe, mais elle peut affecter la performance.
  • Les noeuds de travail réservés au calcul traitent des données. La perte d'un noeud de travail réservé au calcul n'a aucune incidence sur le fonctionnement de la grappe, mais elle peut affecter la performance.
  • Les noeuds de périphérie de réseau sont des noeuds étendus à la grappe pour lesquels seuls des clients sont installés. Vous pouvez installer des ensembles supplémentaires et exécuter des applications supplémentaires dans ce noeud au lieu des noeuds de travail/calcul/maître pour éviter les conflits de variable classpath et les problèmes de ressources liés aux services de grappe.

Disposition de grappe hautement disponible

Une grappe hautement disponible comprend deux noeuds principaux, deux noeuds d'utilitaire, trois noeuds de travail ou plus, et aucun ou plusieurs noeuds de travail réservés au calcul.

Type de noeud Services sur ODHH
Premier noeud principal
  • Ambari Metrics Monitor
  • Client HDFS
  • HDFS JournalNode
  • HDFS NameNode
  • HDFS ZKFailoverController
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Spark3
  • Serveur d'historique Spark3
  • Client YARN
  • YARN ResourceManager
  • Serveur ZooKeeper
Deuxième noeud principal
  • Ambari Metrics Monitor
  • Client HDFS
  • HDFS JournalNode
  • HDFS NameNode
  • HDFS ZKFailoverController
  • Client Kerberos
  • Client MapReduce2
  • Serveur d'historique MapReduce2
  • Client Spark3
  • Client Tez
  • Client YARN
  • DNS de registre YARN
  • YARN ResourceManager
  • Service de chronologie YARN V1.5
  • Serveur ZooKeeper
Premier noeud d'utilitaire
  • Ambari Metrics Monitor
  • Serveur Ambari
  • Client HDFS
  • HDFS JournalNode
  • Hive Metastore
  • HiveServer2
  • Client Kerberos
  • Client MapReduce2
  • Serveur Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • Client ZooKeeper
  • Serveur ZooKeeper
Second noeud d'utilitaire
  • Ambari Metrics Collector
  • Ambari Metrics Monitor
  • Client HDFS
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Spark3
  • Client YARN
Noeuds de travail (3 minimum)
  • Ambari Metrics Monitor
  • HDFS DataNode
  • Client HDFS
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Spark3 Serveur Thrift
  • Client Tez
  • Client YARN
  • YARN NodeManager
  • Client ZooKeeper
Noeuds de travail réservés au calcul
  • Ambari Metrics Monitor
  • Client HDFS
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • YARN NodeManager
  • Client ZooKeeper
Noeuds de périphérie
  • Ambari Metrics Monitor
  • Client HDFS
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • Client ZooKeeper

Disposition de grappe minimale (nonHA)

Une grappe non haute disponibilité comprend un noeud principal, un noeud d'utilitaire, trois noeuds de travail ou plus, et zéro ou plusieurs noeuds de travail réservés au calcul.

Type de noeud Services sur ODHH
Noeud principal
  • Ambari Metrics Monitor
  • Client HDFS
  • HDFS NameNode
  • Client Hive
  • Client MapReduce2
  • Client Spark3
  • Serveur d'historique Spark3
  • Client YARN
  • DNS de registre YARN
  • YARN ResourceManager
  • Serveur ZooKeeper
Noeud d'utilitaire
  • Ambari Metrics Collector
  • Ambari Metrics Monitor
  • Serveur Ambari
  • Client HDFS
  • NameNode secondaire HDFS
  • Hive Metastore
  • HiveServer2
  • Client MapReduce2
  • Serveur d'historique MapReduce2
  • Serveur Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • Service de chronologie YARN V1.5
  • Client ZooKeeper
  • Serveur ZooKeeper
noeuds de travail
  • Ambari Metrics Monitor
  • HDFS DataNode
  • Client HDFS
  • Client Hive
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Spark3 Serveur Thrift
  • Client Tez
  • Client YARN
  • YARN NodeManager
  • Client ZooKeeper
  • Serveur ZooKeeper
Noeuds de travail réservés au calcul
  • Ambari Metrics Monitor
  • Client HDFS
  • Client Hive
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • YARN NodeManager
  • Client ZooKeeper
Noeuds de périphérie
  • Client HDFS
  • Client Hive
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • Client ZooKeeper
Formes de noeud prises en charge

La forme du noeud décrit les ressources de calcul affectées au noeud.

Les formes utilisées pour les noeuds principaux ou d'utilitaire et les noeuds de travail peuvent être différentes. Mais tous les noeuds principaux/d'utilitaire doivent avoir la même forme. Il en va de même pour tous les noeuds de travail.

Le tableau suivant présente les formes pouvant être utilisées pour les différents types de noeud. Pour plus d'informations, voir Formes du service de calcul.

Pour obtenir la liste des ressources fournies par chaque forme, voir :

Type de noeud Formes disponibles Nombre requis de cartes d'interface réseau virtuelles (vNIC)
Principal ou d'utilitaire

VM.Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Champ flexible

VM.Standard.E4. Flex *

VM.Standard3. Champ flexible*

VM.Optimized3. Flex*

VM.DenseIO.E4. Flex*

VM.DenseIO.E5. Flex*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseIO2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

3 au minimum

Utilisées pour les sous-réseaux de la grappe, d'accès au plan de données et du client

*Vous devez spécifier au moins 3 OCPU et 32 Go de mémoire.

Travail

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Champ flexible

VM.Standard.E4. Flex *

VM.Standard3. Champ flexible*

VM.Optimized3. Flex*

VM.DenseIO.E4. Flex*

VM.DenseIO.E5. Flex*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 minimum

Utilisé pour le sous-réseau de la grappe et de votre sous-réseau

Noeud de travail réservé au calcul

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Champ flexible

VM.Standard.E4. Flex *

VM.Standard3. Champ flexible*

VM.Optimized3. Flex*

VM.DenseIO.E4. Flex*

VM.DenseIO.E5. Flex*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 minimum

Utilisé pour le sous-réseau de la grappe et de votre sous-réseau

Arête

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Champ flexible

VM.Standard.E4. Flex *

VM.Standard3. Champ flexible*

VM.Optimized3. Flex*

VM.DenseIO.E4. Flex*

VM.DenseIO.E5. Flex*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 minimum

Utilisées pour le sous-réseau de la grappe et celui du client

Note : Comme le noeud de périphérie de réseau est propre aux cas d'utilisation de l'application client, sélectionnez la forme requise par l'application.

* Gardez à l'esprit que les formes VM.Standard2.1 et VM.Standard2.2 ont des ressources restreintes et n'admettent pas les charges de travail volumineuses. Pour VM.Standard.E4. Champ flexible, VM.Standard3. Flex, VM.Standard.E5. Flex et VM.Optimized3. Flex vous devez spécifier au moins 1 OCPU et 16 Go de mémoire.

Les formes ne sont pas toutes disponibles par défaut. Pour voir quelles formes sont disponibles par défaut au moyen de la console en nuage, voir Recherche de limites de location. Pour soumettre une demande d'augmentation des limites de service, voir Demande d'une augmentation de limite de service.

Formes de noeud de stockage par blocs

Les noeuds basés sur des formes de machine virtuelle standard utilisent le stockage par blocs attaché au réseau.

Note

Le stockage par blocs n'est pas pris en charge pour les noeuds basés sur les formes DenseIO et HPC.

Tous les noeuds ont un volume de démarrage de 150 Go.

Option Limites/Directives
Stockage par blocs initial minimal 150 GO
Stockage par blocs initial par défaut * 150 GO
Stockage par blocs supplémentaire minimal 150 GO
Stockage par blocs supplémentaire par défaut * 1 To
Incrément pour le stockage par blocs (initial et supplémentaire) 50 Go
Stockage par blocs maximum pour un noeud unique

48 To

Total de 48 To en raison de 12 volumes de 4 To chacun.

Si vous ajoutez un stockage par blocs plusieurs fois, le maximum demeure 48 To, mais il peut être étendu sur plus de 12 volumes.

Taille maximum de volume par blocs

4 To

Si vous précisez le maximum de 48 To, 12 lecteurs de 4 To chacun sont créés.

Si vous spécifiez une valeur inférieure, un nombre suffisant de lecteurs de 4 To sont créés pour ce volume global. D'autres lecteurs sont ensuite créés lors de l'ajout de stockage supplémentaire.

Vous ne pouvez pas ajouter de stockage par blocs aux noeuds principaux ou aux noeuds d'utilitaire. Par conséquent, les figures suivantes ne montrent que les tailles initiales.

Option Limites/Directives
Stockage par blocs initial minimal 150 GO
Stockage par blocs initial par défaut 1 To
Stockage par blocs supplémentaire minimal 150 GO
Stockage par blocs supplémentaire par défaut 1 To
Incrément pour le stockage par blocs (initial et supplémentaire) 50 Go
Stockage par blocs maximum pour un noeud unique 32 To
Taille maximum de volume par blocs 32 To
Emplacement de MySQL Pour les noeuds d'utilitaire, déplacez /var/lib/mysql vers /u01 et créez un lien symbolique. Cela évite la saturation du volume de démarrage.
Option Directives
Stockage par blocs initial par défaut 2 To
Stockage par blocs initial minimal 150 GO

Le stockage du serveur d'interrogation est utilisé comme espace-table temporaire pour les opérations JOIN et GROUP BY, qui nécessitent des ressources importantes. Une taille de 2 To est recommandée pour un traitement type. Pour les petits environnements, de développement par exemple, ce nombre peut être réduit.

Pour une performance optimale, tenez compte des facteurs suivants :

  • débit d'E/S
  • Réseaux d'interconnexion entre les unités de calcul et de stockage par blocs.

Voir Performance du volume par blocs dans la documentation sur Oracle Cloud Infrastructure.

Le tableau suivant montre comment le service de mégadonnées affecte le stockage de volume par blocs à des noeuds de taille différente.

Quoi Montant
Affectation initiale de volume pour les noeuds principaux et les noeuds d'utilitaire 1 volume important
Affectation de volume de stockage par blocs supplémentaire pour les noeuds principaux et les noeuds d'utilitaire 1 volume important
Affectation initiale de volume pour les noeuds de travail.
  • Stockage : Moins de 12 To.

    Taille du volume : 1 To Le dernier volume peut être inférieur à 1 To.

  • Stockage : 12 à 48 To.

    Taille de volume : Division de manière égale en 12 volumes, chacun d'entre eux d'au moins 1 To.

  • Stockage : Plus de 48 To.

    Taille de volume : Non autorisé.

Affectation de volume de stockage par blocs supplémentaire pour les noeuds de travail

Nombre minimal de volumes pouvant contenir la taille de stockage, avec une taille maximum de 4 To par volume. (Le dernier volume peut être inférieur à 4 To.)

Nous vous recommandons d'utiliser des noeuds de bordure pour le stockage temporaire.

Présentation des types d'instance et des formes

Les noeuds de grappe du service de mégadonnées s'exécutent sur des instances de calcul (serveurs) Oracle Cloud Infrastructure.

Lorsque vous créez une grappe, vous sélectionnez un type d'instance, qui détermine si l'instance s'exécute directement sur l'instance sans système d'exploitation du matériel ou dans un environnement virtualisé. Vous sélectionnez également une forme qui configure les ressources affectées à l'instance.

À propos des types d'instance
  • Sans système d'exploitation : Une instance de calcul sans système d'exploitation utilise un serveur physique dédié pour le noeud, pour une performance optimale et un isolement renforcé.

  • Machine virtuelle (MV) : À l'aide de la virtualisation, une instance de machine virtuelle de calcul peut héberger plusieurs noeuds isolés, exécutés sur une seule machine physique sans système d'exploitation. Les instances de machine virtuelle sont moins coûteuses que les instances sans système d'exploitation. Elles sont utiles pour créer des grappes qui ne nécessitent pas la performance et les ressources (UC, mémoire, bande passante de réseau, stockage) d'un ordinateur physique complet pour chaque noeud.

Les instances de machine virtuelle sont exécutées sur le même matériel que les instances sans système d'exploitation (micrologiciel, pile logicielle et infrastructure de réseau identiques).

Pour plus d'informations sur les instances de calcul, voir Aperçu du service de calcul.

À propos des formes

La forme détermine le nombre d'UC, la quantité de mémoire et d'autres ressources affectés à l'instance de calcul hébergeant le noeud de grappe. Voir Planification de la disposition, de la forme et du stockage de grappe dans la documentation sur Oracle Cloud Infrastructure pour connaître les formes disponibles.

Il n'est pas obligatoire que les noeuds principaux du service de mégadonnées aient la même forme que les noeuds de travail. En revanche, tous les noeuds principaux doivent avoir la même forme. Il en va de même pour les noeuds de travail.

Présentation des profils de grappe

Les profils de grappe vous permettent de créer des grappes optimales pour une charge de travail ou une technologie spécifique. Après avoir créé une grappe avec un profil de grappe spécifique, vous pouvez ajouter d'autres services Hadoop à la grappe.

Types de profil de grappe

Oracle Big Data Service vous permet de créer des grappes pour de nombreux types de profil de grappe.

Profil de grappe Composants (sécurisés et hautement disponibles) Composants
HADOOP_EXTENDED1 Hive, Spark, HDFS, Fil, ZooKeeper, MapReduce2, Mesures Ambari, Ranger, Hue, Oozie, Tez Hive, Spark, HDFS, fil, ZooKeeper, MapReduce2, mesures Ambari, teinte, Oozie, Tez
HADO HDFS, Fil, ZooKeeper, MapReduce2, Mesures Ambari, Ranger, Teinte HDFS, fil, ZooKeeper, MapReduce2, mesures Ambari, teinte
VIH Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Mesures Ambari, Ranger, Hue, Tez Hive, HDFS, Fil, ZooKeeper, MapReduce2, Mesures Ambari, Teinte, Tez
SPARK Spark, Hive2, HDFS, Yarn, ZooKeeper, MapReduce2, mesures Ambari, Ranger, Hue Spark, Hive2, HDFS, Yarn, ZooKeeper, MapReduce2, mesures Ambari, teinte 2
HBASE HBase, HDFS, fil, ZooKeeper, MapReduce2, mesures Ambari, ranger, teinte HBase, HDFS, fil, ZooKeeper, MapReduce2, mesures Ambari, teinte
TRINO Trino, Hive3, HDFS, ZooKeeper, mesures Ambari, Ranger, Hue Trino, Hive3, HDFS, ZooKeeper, mesures Ambari, teinte
KAFKA Kafka Broker, HDFS, ZooKeeper, mesures Ambari, Ranger, Hue Kafka Broker, HDFS, ZooKeeper, mesures Ambari, Hue

1 HADOOP_EXTENDED est constitué de composants que vous avez créés avant que les profils de grappe ne soient disponibles.

2Le composant de magasin de métadonnées Hive du service Hive est utilisé pour gérer les métadonnées dans Spark.

3Le composant de magasin de métadonnées Hive du service Hive est utilisé pour gérer les entités de métadonnées Hive dans Trino.

Versions d'Apache Hadoop dans les profils de grappe

Le tableau suivant répertorie les versions de composant Hadoop incluses dans les profils de grappe correspondant à la version ODH.

ODH 1.x

Profil de grappe Version
HADOOP_EXTENDED HDFS 3.1, Hive 3.1, Spark 3.0.2
HADO HDFS 3.1
VIH Hive 3.1 (en anglais)
SPARK Spark 3.0.2
HBASE HBase 2.2
TRINO Trino 360
KAFKA Kafka 2.1.0

ODH 2.x

Profil de grappe Version
HADOOP_EXTENDED HDFS 3.3, Hive 3.1, Spark 3.2
HADO HDFS 3.3
VIH Hive 3.1 (en anglais)
SPARK Spark 3.2
HBASE HBase 2.2
TRINO Trino 389