Planificación y Descripción de Clusters de ODH

Antes de crear clusters de Big Data Service, debe planificar y comprender los clusters, los tipos y unidades de instancia y los perfiles de cluster.

Para obtener más información, consulte lo siguiente:

Planificación del diseño, la unidad y el almacenamiento del cluster

Antes de iniciar el proceso para crear un cluster, debe planificar el diseño del cluster, las unidades de nodo y el almacenamiento.

Diseño del cluster

Los nodos y servicios se organizan de manera diferente en clusters, en función de si el cluster es seguro y de alta disponibilidad o no.

Acerca del uso de clusters de alta disponibilidad

Utilice clusters de alta disponibilidad para entornos de producción. Se necesitan para la resiliencia y para minimizar el tiempo de inactividad.

En esta versión, un cluster debe ser tanto seguro como de alta disponibilidad (HA), o bien no tener ninguna de estas características.

Tipos de nodos

Los tipos de nodo son los siguientes:

  • Los nodos maestros o de utilidad incluyen los servicios necesarios para el funcionamiento y la gestión del cluster. Estos nodos no almacenan ni procesan datos.
  • Los nodos de trabajador almacenan y procesan datos. La pérdida de un nodo de trabajador no afecta el funcionamiento del cluster, aunque puede afectar al rendimiento.
  • Los nodos de trabajador solo de computación procesan los datos. La pérdida de un nodo de trabajador solo de computación no afecta el funcionamiento del cluster, aunque puede afectar al rendimiento.
  • Los nodos de perímetro son nodos ampliados al cluster que sólo tienen clientes instalados. Puede instalar paquetes adicionales y ejecutar aplicaciones adicionales en este nodo en lugar de nodos de trabajador, cálculo o maestro para evitar conflictos de classpath y problemas de recursos con los servicios de cluster.

Diseño de cluster de alta disponibilidad (HA)

Un cluster de alta disponibilidad tiene dos nodos maestros, dos nodos de utilidad, tres o más nodos de trabajador y cero o más nodos de trabajador solo de computación.

Tipo de nodo Servicios en ODH
Primer nodo maestro
  • Supervisor de métricas de Ambari
  • Cliente de HDFS
  • HDFS JournalNode (en inglés)
  • HDFS NameNode
  • HDFS ZKFailoverController (en inglés)
  • Cliente de Hive
  • Cliente Kerberos
  • Cliente MapReduce2
  • Cliente Spark3
  • Spark3 Servidor de historial
  • Cliente de YARN
  • YARN ResourceManager
  • Servidor ZooKeeper
Segundo nodo maestro
  • Supervisor de métricas de Ambari
  • Cliente de HDFS
  • HDFS JournalNode (en inglés)
  • HDFS NameNode
  • HDFS ZKFailoverController (en inglés)
  • Cliente Kerberos
  • Cliente MapReduce2
  • Servidor de historial MapReduce2
  • Cliente Spark3
  • Cliente de Tez
  • Cliente de YARN
  • DNS de registro de YARN
  • YARN ResourceManager
  • YARN Timeline Service V1.5
  • Servidor ZooKeeper
Primer nodo de utilidad
  • Supervisor de métricas de Ambari
  • Servidor de Ambari
  • Cliente de HDFS
  • HDFS JournalNode (en inglés)
  • Hive Metastore
  • HiveServer2
  • Cliente Kerberos
  • Cliente MapReduce2
  • Servidor Oozie
  • Cliente Spark3
  • Cliente de Tez
  • Cliente de YARN
  • Cliente ZooKeeper
  • Servidor ZooKeeper
Segundo nodo de utilidad
  • Recopilador de métricas de Ambari
  • Supervisor de métricas de Ambari
  • Cliente de HDFS
  • Cliente de Hive
  • Cliente Kerberos
  • Cliente MapReduce2
  • Cliente Spark3
  • Cliente de YARN
Número mínimo de nodos de trabajador (3)
  • Supervisor de métricas de Ambari
  • HDFS DataNode
  • Cliente de HDFS
  • Cliente de Hive
  • Cliente Kerberos
  • Cliente MapReduce2
  • Cliente de Oozie
  • Cliente Spark3
  • Spark3 Servidor Thrift
  • Cliente de Tez
  • Cliente de YARN
  • YARN NodeManager
  • Cliente ZooKeeper
Nodos de trabajador solo de computación
  • Supervisor de métricas de Ambari
  • Cliente de HDFS
  • Cliente de Hive
  • Cliente Kerberos
  • Cliente MapReduce2
  • Cliente de Oozie
  • Cliente Spark3
  • Cliente de Tez
  • Cliente de YARN
  • YARN NodeManager
  • Cliente ZooKeeper
Nodos de límite
  • Supervisor de métricas de Ambari
  • Cliente de HDFS
  • Cliente de Hive
  • Cliente Kerberos
  • Cliente MapReduce2
  • Cliente de Oozie
  • Cliente Spark3
  • Cliente de Tez
  • Cliente de YARN
  • Cliente ZooKeeper

Diseño mínimo de cluster (nonHA)

Un cluster sin alta disponibilidad tiene un nodo maestro, un nodo de utilidad, tres o más nodos de trabajador y cero o más nodos de trabajador solo de computación.

Tipo de nodo Servicios en ODH
nodo maestro
  • Supervisor de métricas de Ambari
  • Cliente de HDFS
  • HDFS NameNode
  • Cliente de Hive
  • Cliente MapReduce2
  • Cliente Spark3
  • Spark3 Servidor de historial
  • Cliente de YARN
  • DNS de registro de YARN
  • YARN ResourceManager
  • Servidor ZooKeeper
Nodo de utilidad
  • Recopilador de métricas de Ambari
  • Supervisor de métricas de Ambari
  • Servidor de Ambari
  • Cliente de HDFS
  • HDFS secundario NameNode
  • Hive Metastore
  • HiveServer2
  • Cliente MapReduce2
  • Servidor de historial MapReduce2
  • Servidor Oozie
  • Cliente Spark3
  • Cliente de Tez
  • Cliente de YARN
  • YARN Timeline Service V1.5
  • Cliente ZooKeeper
  • Servidor ZooKeeper
nodos de trabajador
  • Supervisor de métricas de Ambari
  • HDFS DataNode
  • Cliente de HDFS
  • Cliente de Hive
  • Cliente MapReduce2
  • Cliente de Oozie
  • Cliente Spark3
  • Spark3 Servidor Thrift
  • Cliente de Tez
  • Cliente de YARN
  • YARN NodeManager
  • Cliente ZooKeeper
  • Servidor ZooKeeper
Nodos de trabajador solo de computación
  • Supervisor de métricas de Ambari
  • Cliente de HDFS
  • Cliente de Hive
  • Cliente MapReduce2
  • Cliente de Oozie
  • Cliente Spark3
  • Cliente de Tez
  • Cliente de YARN
  • YARN NodeManager
  • Cliente ZooKeeper
Nodos de límite
  • Cliente de HDFS
  • Cliente de Hive
  • Cliente MapReduce2
  • Cliente de Oozie
  • Cliente Spark3
  • Cliente de Tez
  • Cliente de YARN
  • Cliente ZooKeeper
Unidades de nodo soportadas

La unidad de computación de nodo describe los recursos informáticos asignados al nodo.

Las unidades de computación utilizadas para los nodos maestros/de utilidad y los nodos de trabajador pueden ser diferentes. Pero todos los nodos maestros/de utilidad deben ser de la misma unidad de computación, y todos los nodos de trabajador deben ser de la misma unidad de computación.

En la siguiente tabla se muestra qué unidades de computación se pueden utilizar para los distintos tipos de nodos. Consulte Unidades de computación para obtener más información.

Para obtener una lista de los recursos proporcionados por cada unidad, consulte:

Tipo de nodo Unidades disponibles Número necesario de tarjetas de interfaz de red virtual (VNIC)
Maestro o de utilidad

VM.Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Flexible

VM.Standard.E4. Flexible *

VM.Standard3. Flexible*

VM.Optimized3. Flexible*

VM.DenseIO.E4. Flexible*

VM.DenseIO.E5Flexibilidad*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseIO2.52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

3 mínimo

Se utiliza para la subred del cluster, la subred de acceso DP y la subred del cliente

* Debe especificar un mínimo de 3 OCPU y 32 GB de memoria.

De trabajador

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Flexible

VM.Standard.E4. Flexible *

VM.Standard3. Flexible*

VM.Optimized3. Flexible*

VM.DenseIO.E4. Flexible*

VM.DenseIO.E5Flexibilidad*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2-52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 mínimo

Se utiliza para la subred del cluster y la subred

Trabajador solo de computación

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Flexible

VM.Standard.E4. Flexible *

VM.Standard3. Flexible*

VM.Optimized3. Flexible*

VM.DenseIO.E4. Flexible*

VM.DenseIO.E5Flexibilidad*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2-52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 mínimo

Se utiliza para la subred del cluster y la subred

Límite

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Flexible

VM.Standard.E4. Flexible *

VM.Standard3. Flexible*

VM.Optimized3. Flexible*

VM.DenseIO.E4. Flexible*

VM.DenseIO.E5Flexibilidad*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2-52

BM.HPC2.36

BM.Standard3.64*

BM.Optimized3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 mínimo

Se utiliza para la subred del cluster y la subred del cliente

Nota: Puesto que el nodo Edge es específico de los casos de uso de la aplicación cliente, seleccione la unidad según lo necesite la aplicación.

* Tenga en cuenta que VM.Standard2.1 y VM.Standard2.2 son unidades pequeñas, por lo que no soportarán la ejecución de cargas de trabajo grandes. Para VM.Standard.E4. Flex, VM.Standard3. Flex, VM.Standard.E5. Flex y VM.Optimized3. Flex, debe especificar un mínimo de 1 OCPU y 16 GB de memoria.

No todas las unidades están disponibles por defecto. Para ver qué unidades están disponibles por defecto mediante la consola de Cloud, consulte Búsqueda de límites de arrendamiento. Para enviar una solicitud para aumentar los límites de servicio, consulte Solicitud de aumento del límite de servicio.

Unidades de nodo de almacenamiento de bloques

Los nodos basados en unidades de computación de VM estándar utilizan el almacenamiento de bloques conectado a la red.

Nota

El almacenamiento de bloques no está soportado para los nodos basados en las unidades DenseIO y HPC.

Todos los nodos tienen un volumen de inicio de 150 GB.

Opción Límites/directrices
Almacenamiento de bloques inicial mínimo 150 GB
Almacenamiento de bloques inicial por defecto * 150 GB
Almacenamiento de bloques adicional mínimo 150 GB
Almacenamiento de bloques adicional por defecto * 1 TB
Paso incremental para el almacenamiento de bloques (inicial y adicional) 50 GB
Almacenamiento de bloques máximo para un único nodo

48 TB

El total de 48 TB resulta de 12 volúmenes de 4 TB cada uno.

Si agrega almacenamiento de bloques varias veces, el máximo sigue siendo 48 TB, pero es posible que se distribuya en más de 12 volúmenes.

Tamaño de volumen en bloque máximo

4 TB

Si especifica el máximo de 48 TB, se crean 12 unidades de 4 TB cada una.

Si especifica un número menor, se crean suficientes dispositivos de 4 TB para esa cantidad, y se crean más dispositivos al agregar más almacenamiento.

No puede agregar más almacenamiento de bloques a los nodos maestros o de utilidad. Por lo tanto, las siguientes figuras muestran solo los tamaños iniciales.

Opción Límites/directrices
Almacenamiento de bloques inicial mínimo 150 GB
Almacenamiento de bloques inicial por defecto 1 TB
Almacenamiento de bloques adicional mínimo 150 GB
Almacenamiento de bloques adicional por defecto 1 TB
Paso incremental para el almacenamiento de bloques (inicial y adicional) 50 GB
Almacenamiento de bloques máximo para un único nodo 32 TB
Tamaño de volumen en bloque máximo 32 TB
Ubicación de MySQL Para los nodos de utilidad, mueva /var/lib/mysql a /u01 y cree un enlace simbólico. Esto evita que se complete el volumen de inicio.
Opción Instrucciones
Almacenamiento de bloques inicial por defecto 2 TB
Almacenamiento de bloques inicial mínimo 150 GB

El almacenamiento del servidor de consultas se utiliza para el espacio de tabla temporal a fin de realizar operaciones JOIN y GROUP BY pesadas. Se recomienda 2 TB para el procesamiento normal. Para entornos pequeños, por ejemplo, los de desarrollo, este número se puede ajustar en sentido descendente.

Para obtener un mejor rendimiento, tenga en cuenta los siguientes factores:

  • Rendimiento global de E/S
  • Las redes entre el dispositivo de los recursos informáticos y el dispositivo del almacenamiento de bloques.

Consulte Rendimiento de Block Volume en la documentación de Oracle Cloud Infrastructure.

En la siguiente tabla se describe cómo Big Data Service asigna almacenamiento de volumen en bloque para nodos de diferentes tamaños.

Qué Importe
Asignación de volumen inicial para nodos maestros y nodos de utilidad 1 volumen grande
Asignación de volumen para almacenamiento de bloques adicional para nodos maestros y nodos de utilidad 1 volumen grande
Asignación de volumen inicial para nodos de trabajador.
  • Almacenamiento: menos de 12 TB.

    Tamaño del volumen: 1 TB. El último volumen puede ser menor que 1 TB.

  • Almacenamiento: de 12 TB a 48 TB.

    Tamaño de volumen: dividir uniformemente entre 12 volúmenes, cada uno de los cuales tiene al menos 1 TB.

  • Almacenamiento: superior a 48 TB.

    Tamaño de volumen: no permitido.

Asignación de volumen para almacenamiento de bloques adicional para nodos de trabajador

Número mínimo de volúmenes que pueden incluir el tamaño de almacenamiento, con un tamaño de volumen máximo de 4 TB por volumen. (El último volumen puede ser inferior a 4 TB).

Se recomienda utilizar nodos perimetrales para la ubicación temporal.

Descripción de tipos de instancias y unidades de computación

Los nodos de cluster de Big Data Service se ejecutan en instancias informáticas (servidores) de Oracle Cloud Infrastructure.

Al crear un cluster, puede seleccionar un tipo de instancia, que determina si la instancia se ejecuta directamente en la instancia con hardware dedicado del hardware o en un entorno virtualizado. También debe seleccionar una unidad de computación, que configura los recursos asignados a la instancia.

Acerca de los tipos de instancias
  • Con hardware dedicado: una instancia informática con hardware dedicado utiliza un servidor físico dedicado para el nodo, para un mayor rendimiento y mayor aislamiento.

  • Máquina virtual (VM): mediante virtualización, una instancia informática de máquina virtual puede alojar varios nodos aislados que se ejecutan en una única máquina física con hardware dedicado. Las instancias de VM son menos costosas que las instancias con hardware dedicado, y son útiles para crear clusters menos exigentes que no requieren el rendimiento y los recursos (CPU, memoria, ancho de banda de red, almacenamiento) de una máquina física completa para cada nodo.

Las instancias de VM se ejecutan en el mismo hardware que las instancias con hardware dedicado, con el mismo firmware, la misma pila de software y la misma infraestructura de red.

Para obtener más información sobre las instancias informáticas, consulte Descripción general de Compute.

Acerca de las unidades de computación

La unidad de computación determina el número de CPU, la cantidad de memoria y otros recursos asignados a la instancia informática que aloja el nodo de cluster. Consulte Planificación del diseño, la unidad y el almacenamiento del cluster en la documentación de Oracle Cloud Infrastructure para conocer las unidades disponibles.

No es necesario que coincidan las unidades de los nodos maestros de Big Data Service y los nodos de trabajador. Pero las unidades de computación de todos los nodos maestros deben coincidir entre sí, y las de todos los nodos de trabajador deben coincidir entre sí.

Descripción de los perfiles de cluster

Los perfiles de cluster permiten crear clusters óptimos para una carga de trabajo o tecnología específicas. Después de crear un cluster con un perfil de cluster específico, se pueden agregar más servicios de Hadoop al cluster.

Tipos de perfil de cluster

Oracle Big Data Service permite crear clusters para numerosos tipos de perfiles de cluster.

Perfil de cluster Componentes (seguridad y alta disponibilidad) Componentes
HADOOP_EXTENDED1 Hive, Spark, HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Ranger, Hue, Oozie, Tez Hive, Spark, HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Hue, Oozie, Tez
HADOOP HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue
VIHE Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue, Tez Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue, Tez
ESPAÑOL Spark, Hive2, HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Ranger, Hue Spark, Hive2, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Matiz 2
HBASE HBase, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue HBase, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue
TRINO Trino, Hive3, HDFS, ZooKeeper, métricas de Ambari, Ranger, Hue Trino, Hive3, HDFS, ZooKeeper, métricas de Ambari, Hue
KAFKA Kafka Broker, HDFS, ZooKeeper, métricas de Ambari, Ranger, Hue Kafka Broker, HDFS, ZooKeeper, métricas de Ambari, Hue

1 HADOOP_EXTENDED consta de componentes que ha creado clusters antes de que estuvieran disponibles los perfiles de cluster.

2El componente de metastore de Hive del servicio Hive se utiliza para gestionar los metadatos en Spark.

3El componente de metastore de Hive del servicio Hive se utiliza para gestionar las entidades de metadatos de Hive en Trino.

Versiones de Apache Hadoop en perfiles de cluster

En la siguiente tabla se muestran las versiones de componentes de Hadoop incluidas en los perfiles de cluster correspondientes a la versión de ODH.

ODH 1.x

Perfil de cluster Versión
HADOOP_EXTENDED HDFS 3.1, Hive 3.1, Spark 3.0.2
HADOOP HDFS 3.1
VIHE Hive 3.1
ESPAÑOL Spark 3.0.2
HBASE HBase 2.2
TRINO Trino 360
KAFKA Kafka 2.1.0

ODH 2.x

Perfil de cluster Versión
HADOOP_EXTENDED HDFS 3.3, Hive 3.1, Spark 3.2
HADOOP HDFS 3.3
VIHE Hive 3.1
ESPAÑOL Spark 3.2
HBASE HBase 2.2
TRINO Trino 389