Planificación y Descripción de Clusters de ODH

Antes de crear clusters de Big Data Service, debe planificar y comprender los clusters, los tipos y unidades de instancia y los perfiles de cluster.

Para obtener más información, consulte lo siguiente:

Planificación del diseño, la unidad y el almacenamiento del cluster

Antes de iniciar el proceso para crear un cluster, debe planificar el diseño del cluster, las unidades de nodo y el almacenamiento.

Diseño del cluster

Los nodos y servicios se organizan de manera diferente en clusters, en función de si el cluster es seguro y de alta disponibilidad o no.

Acerca del uso de clusters de alta disponibilidad

Utilice clusters de alta disponibilidad para entornos de producción. Se necesitan para la resiliencia y para minimizar el tiempo de inactividad.

En esta versión, un cluster debe ser tanto seguro como de alta disponibilidad (HA), o bien no tener ninguna de estas características.

Tipos de nodos

Los tipos de nodo son los siguientes:

Los nodos maestros o de utilidad incluyen los servicios necesarios para el funcionamiento y la gestión del cluster. Estos nodos no almacenan ni procesan datos.
Los nodos de trabajador almacenan y procesan datos. La pérdida de un nodo de trabajador no afecta el funcionamiento del cluster, aunque puede afectar al rendimiento.
Los nodos de trabajador solo de computación procesan los datos. La pérdida de un nodo de trabajador solo de computación no afecta el funcionamiento del cluster, aunque puede afectar al rendimiento.
Los nodos de perímetro son nodos ampliados al cluster que sólo tienen clientes instalados. Puede instalar paquetes adicionales y ejecutar aplicaciones adicionales en este nodo en lugar de nodos de trabajador, cálculo o maestro para evitar conflictos de classpath y problemas de recursos con los servicios de cluster.

Diseño de cluster de alta disponibilidad (HA)

Un cluster de alta disponibilidad tiene dos nodos maestros, dos nodos de utilidad, tres o más nodos de trabajador y cero o más nodos de trabajador solo de computación.


Tipo de nodo	Servicios en ODH
Primer nodo maestro	Supervisor de métricas de Ambari Cliente de HDFS HDFS JournalNode (en inglés) HDFS NameNode HDFS ZKFailoverController (en inglés) Cliente de Hive Cliente Kerberos Cliente MapReduce2 Cliente Spark3 Spark3 Servidor de historial Cliente de YARN YARN ResourceManager Servidor ZooKeeper
Segundo nodo maestro	Supervisor de métricas de Ambari Cliente de HDFS HDFS JournalNode (en inglés) HDFS NameNode HDFS ZKFailoverController (en inglés) Cliente Kerberos Cliente MapReduce2 Servidor de historial MapReduce2 Cliente Spark3 Cliente de Tez Cliente de YARN DNS de registro de YARN YARN ResourceManager YARN Timeline Service V1.5 Servidor ZooKeeper
Primer nodo de utilidad	Supervisor de métricas de Ambari Servidor de Ambari Cliente de HDFS HDFS JournalNode (en inglés) Hive Metastore HiveServer2 Cliente Kerberos Cliente MapReduce2 Servidor Oozie Cliente Spark3 Cliente de Tez Cliente de YARN Cliente ZooKeeper Servidor ZooKeeper
Segundo nodo de utilidad	Recopilador de métricas de Ambari Supervisor de métricas de Ambari Cliente de HDFS Cliente de Hive Cliente Kerberos Cliente MapReduce2 Cliente Spark3 Cliente de YARN
Número mínimo de nodos de trabajador (3)	Supervisor de métricas de Ambari HDFS DataNode Cliente de HDFS Cliente de Hive Cliente Kerberos Cliente MapReduce2 Cliente de Oozie Cliente Spark3 Spark3 Servidor Thrift Cliente de Tez Cliente de YARN YARN NodeManager Cliente ZooKeeper
Nodos de trabajador solo de computación	Supervisor de métricas de Ambari Cliente de HDFS Cliente de Hive Cliente Kerberos Cliente MapReduce2 Cliente de Oozie Cliente Spark3 Cliente de Tez Cliente de YARN YARN NodeManager Cliente ZooKeeper
Nodos de límite	Supervisor de métricas de Ambari Cliente de HDFS Cliente de Hive Cliente Kerberos Cliente MapReduce2 Cliente de Oozie Cliente Spark3 Cliente de Tez Cliente de YARN Cliente ZooKeeper

Diseño mínimo de cluster (nonHA)

Un cluster sin alta disponibilidad tiene un nodo maestro, un nodo de utilidad, tres o más nodos del trabajador y cero o más nodos del trabajador solo de Compute.


Tipo de nodo	Servicios en ODH
nodo maestro	Supervisor de métricas de Ambari Cliente de HDFS HDFS NameNode Cliente de Hive Cliente MapReduce2 Cliente Spark3 Spark3 Servidor de historial Cliente de YARN DNS de registro de YARN YARN ResourceManager Servidor ZooKeeper
Nodo de utilidad	Recopilador de métricas de Ambari Supervisor de métricas de Ambari Servidor de Ambari Cliente de HDFS HDFS secundario NameNode Hive Metastore HiveServer2 Cliente MapReduce2 Servidor de historial MapReduce2 Servidor Oozie Cliente Spark3 Cliente de Tez Cliente de YARN YARN Timeline Service V1.5 Cliente ZooKeeper Servidor ZooKeeper
nodos de trabajador	Supervisor de métricas de Ambari HDFS DataNode Cliente de HDFS Cliente de Hive Cliente MapReduce2 Cliente de Oozie Cliente Spark3 Spark3 Servidor Thrift Cliente de Tez Cliente de YARN YARN NodeManager Cliente ZooKeeper Servidor ZooKeeper
Nodos de trabajador solo de computación	Supervisor de métricas de Ambari Cliente de HDFS Cliente de Hive Cliente MapReduce2 Cliente de Oozie Cliente Spark3 Cliente de Tez Cliente de YARN YARN NodeManager Cliente ZooKeeper
Nodos de límite	Cliente de HDFS Cliente de Hive Cliente MapReduce2 Cliente de Oozie Cliente Spark3 Cliente de Tez Cliente de YARN Cliente ZooKeeper

Unidades de nodo soportadas

La unidad de computación de nodo describe los recursos informáticos asignados al nodo.

Las unidades de computación utilizadas para los nodos maestros/de utilidad y los nodos de trabajador pueden ser diferentes. Pero todos los nodos maestros/de utilidad deben ser de la misma unidad de computación, y todos los nodos de trabajador deben ser de la misma unidad de computación.

En la siguiente tabla se muestra qué unidades de computación se pueden utilizar para los distintos tipos de nodos. Consulte Unidades de computación para obtener más información.

Para obtener una lista de los recursos proporcionados por cada unidad, consulte:


Tipo de nodo	Unidades disponibles	Número necesario de tarjetas de interfaz de red virtual (VNIC)
Maestro o de utilidad	VM.Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexible VM.Standard.E4. Flexible * VM.Standard3. Flexible* VM.Optimized3. Flexible* VM.DenseIO.E4. Flexible* VM.DenseIO.E5Flexibilidad* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseIO2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* VM.Standard.E6.Flex BM.Standard.E6.256	3 mínimo Se utiliza para la subred del cluster, la subred de acceso DP y la subred del cliente ^* Debe especificar un mínimo de 3 OCPU y 32 GB de memoria.
De trabajador	VM.Standard2.1^* VM.Standard2.2^* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexible VM.Standard.E4. Flexible * VM.Standard3. Flexible* VM.Optimized3. Flexible* VM.DenseIO.E4. Flexible* VM.DenseIO.E5Flexibilidad* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2-52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* VM.Standard.E6.Flex BM.Standard.E6.256	2 mínimo Se utiliza para la subred del cluster y la subred
Trabajador solo de computación	VM.Standard2.1^* VM.Standard2.2^* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexible VM.Standard.E4. Flexible * VM.Standard3. Flexible* VM.Optimized3. Flexible* VM.DenseIO.E4. Flexible* VM.DenseIO.E5Flexibilidad* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2-52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* VM.Standard.E6.Flex BM.Standard.E6.256	2 mínimo Se utiliza para la subred del cluster y la subred
Límite	VM.Standard2.1^* VM.Standard2.2^* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexible VM.Standard.E4. Flexible * VM.Standard3. Flexible* VM.Optimized3. Flexible* VM.DenseIO.E4. Flexible* VM.DenseIO.E5Flexibilidad* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2-52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* VM.Standard.E6.Flex BM.Standard.E6.256	2 mínimo Se utiliza para la subred del cluster y la subred del cliente Nota: Puesto que el nodo Edge es específico de los casos de uso de la aplicación cliente, seleccione la unidad según lo necesite la aplicación.

^*Tenga en cuenta que VM.Standard2.1 y VM.Standard2.2 son unidades pequeñas, por lo que no soportarán la ejecución de cargas de trabajo grandes. Para VM.Standard.E4. Flex, VM.Standard3. Flex, VM.Standard.E5. Flex y VM.Optimized3. Flex, debe especificar un mínimo de 1 OCPU y 16 GB de memoria.

No todas las unidades están disponibles por defecto. Para ver qué unidades están disponibles por defecto a través de la consola en la nube, consulte Solicitud de aumento del límite de servicio.

Unidades de nodo de almacenamiento de bloques

Los nodos basados en unidades de computación de VM estándar utilizan el almacenamiento de bloques conectado a la red.

Nota

El almacenamiento de bloques no está soportado para los nodos basados en las unidades DenseIO y HPC.

Todos los nodos tienen un volumen de inicio de 150 GB.


Opción	Límites/directrices
Almacenamiento de bloques inicial mínimo	150 GB
Almacenamiento de bloques inicial por defecto *	150 GB
Almacenamiento de bloques adicional mínimo	150 GB
Almacenamiento de bloques adicional por defecto *	1 TB
Paso incremental para el almacenamiento de bloques (inicial y adicional)	50 GB
Almacenamiento de bloques máximo para un único nodo	48 TB El total de 48 TB resulta de 12 volúmenes de 4 TB cada uno. Si agrega almacenamiento de bloques varias veces, el máximo sigue siendo 48 TB, pero es posible que se distribuya en más de 12 volúmenes.
Tamaño de volumen en bloque máximo	4 TB Si especifica el máximo de 48 TB, se crean 12 unidades de 4 TB cada una. Si especifica un número menor, se crean suficientes dispositivos de 4 TB para esa cantidad, y se crean más dispositivos al agregar más almacenamiento.

No puede agregar más almacenamiento de bloques a los nodos maestros o de utilidad. Por lo tanto, las siguientes figuras muestran solo los tamaños iniciales.


Opción	Límites/directrices
Almacenamiento de bloques inicial mínimo	150 GB
Almacenamiento de bloques inicial por defecto	1 TB
Almacenamiento de bloques adicional mínimo	150 GB
Almacenamiento de bloques adicional por defecto	1 TB
Paso incremental para el almacenamiento de bloques (inicial y adicional)	50 GB
Almacenamiento de bloques máximo para un único nodo	32 TB
Tamaño de volumen en bloque máximo	32 TB
Ubicación de MySQL	Para los nodos de utilidad, mueva `/var/lib/mysql` a `/u01` y cree un enlace simbólico. Esto evita que se complete el volumen de inicio.


Opción	Instrucciones
Almacenamiento de bloques inicial por defecto	2 TB
Almacenamiento de bloques inicial mínimo	150 GB

El almacenamiento del servidor de consultas se utiliza para el espacio de tabla temporal a fin de realizar operaciones JOIN y GROUP BY pesadas. Se recomienda 2 TB para el procesamiento normal. Para entornos pequeños, por ejemplo, los de desarrollo, este número se puede ajustar en sentido descendente.

Para obtener un mejor rendimiento, tenga en cuenta los siguientes factores:

Rendimiento global de E/S
Las redes entre el dispositivo de los recursos informáticos y el dispositivo del almacenamiento de bloques.

Consulte Rendimiento de Block Volume en la documentación de Oracle Cloud Infrastructure.

En la siguiente tabla se describe cómo Big Data Service asigna almacenamiento de volumen en bloque para nodos de diferentes tamaños.


Qué	Importe
Asignación de volumen inicial para nodos maestros y nodos de utilidad	1 volumen grande
Asignación de volumen para almacenamiento de bloques adicional para nodos maestros y nodos de utilidad	1 volumen grande
Asignación de volumen inicial para nodos de trabajador.	Almacenamiento: menos de 12 TB. Tamaño del volumen: 1 TB. El último volumen puede ser menor que 1 TB. Almacenamiento: de 12 TB a 48 TB. Tamaño de volumen: dividir uniformemente entre 12 volúmenes, cada uno de los cuales tiene al menos 1 TB. Almacenamiento: superior a 48 TB. Tamaño de volumen: no permitido.
Asignación de volumen para almacenamiento de bloques adicional para nodos de trabajador	Número mínimo de volúmenes que pueden incluir el tamaño de almacenamiento, con un tamaño de volumen máximo de 4 TB por volumen. (El último volumen puede ser inferior a 4 TB).

Se recomienda utilizar nodos perimetrales para la ubicación temporal.

Descripción de tipos de instancias y unidades de computación

Los nodos de cluster de Big Data Service se ejecutan en instancias informáticas (servidores) de Oracle Cloud Infrastructure.

Al crear un cluster, puede seleccionar un tipo de instancia, que determina si la instancia se ejecuta directamente en la instancia con hardware dedicado del hardware o en un entorno virtualizado. También debe seleccionar una unidad de computación, que configura los recursos asignados a la instancia.

Acerca de los tipos de instancias

Con hardware dedicado: una instancia informática con hardware dedicado utiliza un servidor físico dedicado para el nodo, para un mayor rendimiento y mayor aislamiento.
Máquina virtual (VM): mediante virtualización, una instancia informática de máquina virtual puede alojar varios nodos aislados que se ejecutan en una única máquina física con hardware dedicado. Las instancias de VM son menos costosas que las instancias con hardware dedicado, y son útiles para crear clusters menos exigentes que no requieren el rendimiento y los recursos (CPU, memoria, ancho de banda de red, almacenamiento) de una máquina física completa para cada nodo.

Las instancias de VM se ejecutan en el mismo hardware que las instancias con hardware dedicado, con el mismo firmware, la misma pila de software y la misma infraestructura de red.

Para obtener más información sobre las instancias informáticas, consulte Descripción general de Compute.

Acerca de las unidades de computación

La unidad de computación determina el número de CPU, la cantidad de memoria y otros recursos asignados a la instancia informática que aloja el nodo de cluster. Consulte Planificación del diseño, la unidad y el almacenamiento del cluster en la documentación de Oracle Cloud Infrastructure para conocer las unidades disponibles.

No es necesario que coincidan las unidades de los nodos maestros de Big Data Service y los nodos de trabajador. Pero las unidades de computación de todos los nodos maestros deben coincidir entre sí, y las de todos los nodos de trabajador deben coincidir entre sí.

Descripción de los perfiles de cluster

Los perfiles de cluster permiten crear clusters óptimos para una carga de trabajo o tecnología específicas. Después de crear un cluster con un perfil de cluster específico, se pueden agregar más servicios de Hadoop al cluster.

Tipos de perfil de cluster

Oracle Big Data Service permite crear clusters para numerosos tipos de perfiles de cluster.


Perfil de cluster	Componentes (seguridad y alta disponibilidad)	Componentes
HADOOP_EXTENDED¹	Hive, Spark, HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Ranger, Hue, Oozie, Tez	Hive, Spark, HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Hue, Oozie, Tez
HADOOP	HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue	HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue
VIHE	Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue, Tez	Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue, Tez
ESPAÑOL	Spark, Hive², HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Ranger, Hue	Spark, Hive², HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Matiz ²
HBASE	HBase, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue	HBase, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue
TRINO	Trino, Hive³, HDFS, ZooKeeper, métricas de Ambari, Ranger, Hue	Trino, Hive³, HDFS, ZooKeeper, métricas de Ambari, Hue
KAFKA	Kafka Broker, HDFS, ZooKeeper, métricas de Ambari, Ranger, Hue	Kafka Broker, HDFS, ZooKeeper, métricas de Ambari, Hue

¹ HADOOP_EXTENDED consta de componentes que ha creado clusters antes de que estuvieran disponibles los perfiles de cluster.

²El componente de metastore de Hive del servicio Hive se utiliza para gestionar los metadatos en Spark.

³El componente de metastore de Hive del servicio Hive se utiliza para gestionar las entidades de metadatos de Hive en Trino.

Versiones de Apache Hadoop en perfiles de cluster

En la siguiente tabla se muestran las versiones de componentes de Hadoop incluidas en los perfiles de cluster correspondientes a la versión de ODH.

ODH 1.x


Perfil de cluster	Versión
HADOOP_EXTENDED	HDFS 3.1, Hive 3.1, Spark 3.0.2
HADOOP	HDFS 3.1
VIHE	Hive 3.1
ESPAÑOL	Spark 3.0.2
HBASE	HBase 2.2
TRINO	Trino 360
KAFKA	Kafka 2.1.0

ODH 2.x


Perfil de cluster	Versión
HADOOP_EXTENDED	HDFS 3.3, Hive 3.1, Spark 3.2
HADOOP	HDFS 3.3
VIHE	Hive 3.1
ESPAÑOL	Spark 3.2
HBASE	HBase 2.2
TRINO	Trino 389

Documentación de Oracle Cloud Infrastructure