Planificación y Descripción de Clusters de ODH
Antes de crear clusters de Big Data Service, debe planificar y comprender los clusters, los tipos y unidades de instancia y los perfiles de cluster.
Para obtener más información, consulte lo siguiente:
Planificación del diseño, la unidad y el almacenamiento del cluster
Antes de iniciar el proceso para crear un cluster, debe planificar el diseño del cluster, las unidades de nodo y el almacenamiento.
Los nodos y servicios se organizan de manera diferente en clusters, en función de si el cluster es seguro y de alta disponibilidad o no.
Acerca del uso de clusters de alta disponibilidad
Utilice clusters de alta disponibilidad para entornos de producción. Se necesitan para la resiliencia y para minimizar el tiempo de inactividad.
En esta versión, un cluster debe ser tanto seguro como de alta disponibilidad (HA), o bien no tener ninguna de estas características.
Tipos de nodos
Los tipos de nodo son los siguientes:
- Los nodos maestros o de utilidad incluyen los servicios necesarios para el funcionamiento y la gestión del cluster. Estos nodos no almacenan ni procesan datos.
- Los nodos de trabajador almacenan y procesan datos. La pérdida de un nodo de trabajador no afecta el funcionamiento del cluster, aunque puede afectar al rendimiento.
- Los nodos de trabajador solo de computación procesan los datos. La pérdida de un nodo de trabajador solo de computación no afecta el funcionamiento del cluster, aunque puede afectar al rendimiento.
- Los nodos de perímetro son nodos ampliados al cluster que sólo tienen clientes instalados. Puede instalar paquetes adicionales y ejecutar aplicaciones adicionales en este nodo en lugar de nodos de trabajador, cálculo o maestro para evitar conflictos de classpath y problemas de recursos con los servicios de cluster.
Diseño de cluster de alta disponibilidad (HA)
Un cluster de alta disponibilidad tiene dos nodos maestros, dos nodos de utilidad, tres o más nodos de trabajador y cero o más nodos de trabajador solo de computación.
Tipo de nodo | Servicios en ODH |
---|---|
Primer nodo maestro |
|
Segundo nodo maestro |
|
Primer nodo de utilidad |
|
Segundo nodo de utilidad |
|
Número mínimo de nodos de trabajador (3) |
|
Nodos de trabajador solo de computación |
|
Nodos de límite |
|
Diseño mínimo de cluster (nonHA)
Un cluster sin alta disponibilidad tiene un nodo maestro, un nodo de utilidad, tres o más nodos de trabajador y cero o más nodos de trabajador solo de computación.
Tipo de nodo | Servicios en ODH |
---|---|
nodo maestro |
|
Nodo de utilidad |
|
nodos de trabajador |
|
Nodos de trabajador solo de computación |
|
Nodos de límite |
|
La unidad de computación de nodo describe los recursos informáticos asignados al nodo.
Las unidades de computación utilizadas para los nodos maestros/de utilidad y los nodos de trabajador pueden ser diferentes. Pero todos los nodos maestros/de utilidad deben ser de la misma unidad de computación, y todos los nodos de trabajador deben ser de la misma unidad de computación.
En la siguiente tabla se muestra qué unidades de computación se pueden utilizar para los distintos tipos de nodos. Consulte Unidades de computación para obtener más información.
Para obtener una lista de los recursos proporcionados por cada unidad, consulte:
- Unidades flexibles
- Instancias de VM de memoria extendida
- Unidades con hardware dedicado
- Unidades VM Standard
Tipo de nodo | Unidades disponibles | Número necesario de tarjetas de interfaz de red virtual (VNIC) |
---|---|---|
Maestro o de utilidad |
VM.Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexible VM.Standard.E4. Flexible * VM.Standard3. Flexible* VM.Optimized3. Flexible* VM.DenseIO.E4. Flexible* VM.DenseIO.E5Flexibilidad* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseIO2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
3 mínimo Se utiliza para la subred del cluster, la subred de acceso DP y la subred del cliente * Debe especificar un mínimo de 3 OCPU y 32 GB de memoria. |
De trabajador |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexible VM.Standard.E4. Flexible * VM.Standard3. Flexible* VM.Optimized3. Flexible* VM.DenseIO.E4. Flexible* VM.DenseIO.E5Flexibilidad* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2-52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
2 mínimo Se utiliza para la subred del cluster y la subred |
Trabajador solo de computación |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexible VM.Standard.E4. Flexible * VM.Standard3. Flexible* VM.Optimized3. Flexible* VM.DenseIO.E4. Flexible* VM.DenseIO.E5Flexibilidad* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2-52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
2 mínimo Se utiliza para la subred del cluster y la subred |
Límite |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexible VM.Standard.E4. Flexible * VM.Standard3. Flexible* VM.Optimized3. Flexible* VM.DenseIO.E4. Flexible* VM.DenseIO.E5Flexibilidad* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2-52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
2 mínimo Se utiliza para la subred del cluster y la subred del cliente Nota: Puesto que el nodo Edge es específico de los casos de uso de la aplicación cliente, seleccione la unidad según lo necesite la aplicación. |
* Tenga en cuenta que VM.Standard2.1 y VM.Standard2.2 son unidades pequeñas, por lo que no soportarán la ejecución de cargas de trabajo grandes. Para VM.Standard.E4. Flex, VM.Standard3. Flex, VM.Standard.E5. Flex y VM.Optimized3. Flex, debe especificar un mínimo de 1 OCPU y 16 GB de memoria.
No todas las unidades están disponibles por defecto. Para ver qué unidades están disponibles por defecto mediante la consola de Cloud, consulte Búsqueda de límites de arrendamiento. Para enviar una solicitud para aumentar los límites de servicio, consulte Solicitud de aumento del límite de servicio.
Los nodos basados en unidades de computación de VM estándar utilizan el almacenamiento de bloques conectado a la red.
El almacenamiento de bloques no está soportado para los nodos basados en las unidades DenseIO y HPC.
Todos los nodos tienen un volumen de inicio de 150 GB.
Opción | Límites/directrices |
---|---|
Almacenamiento de bloques inicial mínimo | 150 GB |
Almacenamiento de bloques inicial por defecto * | 150 GB |
Almacenamiento de bloques adicional mínimo | 150 GB |
Almacenamiento de bloques adicional por defecto * | 1 TB |
Paso incremental para el almacenamiento de bloques (inicial y adicional) | 50 GB |
Almacenamiento de bloques máximo para un único nodo |
48 TB El total de 48 TB resulta de 12 volúmenes de 4 TB cada uno. Si agrega almacenamiento de bloques varias veces, el máximo sigue siendo 48 TB, pero es posible que se distribuya en más de 12 volúmenes. |
Tamaño de volumen en bloque máximo |
4 TB Si especifica el máximo de 48 TB, se crean 12 unidades de 4 TB cada una. Si especifica un número menor, se crean suficientes dispositivos de 4 TB para esa cantidad, y se crean más dispositivos al agregar más almacenamiento. |
No puede agregar más almacenamiento de bloques a los nodos maestros o de utilidad. Por lo tanto, las siguientes figuras muestran solo los tamaños iniciales.
Opción | Límites/directrices |
---|---|
Almacenamiento de bloques inicial mínimo | 150 GB |
Almacenamiento de bloques inicial por defecto | 1 TB |
Almacenamiento de bloques adicional mínimo | 150 GB |
Almacenamiento de bloques adicional por defecto | 1 TB |
Paso incremental para el almacenamiento de bloques (inicial y adicional) | 50 GB |
Almacenamiento de bloques máximo para un único nodo | 32 TB |
Tamaño de volumen en bloque máximo | 32 TB |
Ubicación de MySQL | Para los nodos de utilidad, mueva /var/lib/mysql a /u01 y cree un enlace simbólico. Esto evita que se complete el volumen de inicio. |
Opción | Instrucciones |
---|---|
Almacenamiento de bloques inicial por defecto | 2 TB |
Almacenamiento de bloques inicial mínimo | 150 GB |
El almacenamiento del servidor de consultas se utiliza para el espacio de tabla temporal a fin de realizar operaciones JOIN y GROUP BY pesadas. Se recomienda 2 TB para el procesamiento normal. Para entornos pequeños, por ejemplo, los de desarrollo, este número se puede ajustar en sentido descendente.
Para obtener un mejor rendimiento, tenga en cuenta los siguientes factores:
- Rendimiento global de E/S
- Las redes entre el dispositivo de los recursos informáticos y el dispositivo del almacenamiento de bloques.
Consulte Rendimiento de Block Volume en la documentación de Oracle Cloud Infrastructure.
En la siguiente tabla se describe cómo Big Data Service asigna almacenamiento de volumen en bloque para nodos de diferentes tamaños.
Qué | Importe |
---|---|
Asignación de volumen inicial para nodos maestros y nodos de utilidad | 1 volumen grande |
Asignación de volumen para almacenamiento de bloques adicional para nodos maestros y nodos de utilidad | 1 volumen grande |
Asignación de volumen inicial para nodos de trabajador. |
|
Asignación de volumen para almacenamiento de bloques adicional para nodos de trabajador |
Número mínimo de volúmenes que pueden incluir el tamaño de almacenamiento, con un tamaño de volumen máximo de 4 TB por volumen. (El último volumen puede ser inferior a 4 TB). |
Se recomienda utilizar nodos perimetrales para la ubicación temporal.
Descripción de tipos de instancias y unidades de computación
Los nodos de cluster de Big Data Service se ejecutan en instancias informáticas (servidores) de Oracle Cloud Infrastructure.
Al crear un cluster, puede seleccionar un tipo de instancia, que determina si la instancia se ejecuta directamente en la instancia con hardware dedicado del hardware o en un entorno virtualizado. También debe seleccionar una unidad de computación, que configura los recursos asignados a la instancia.
-
Con hardware dedicado: una instancia informática con hardware dedicado utiliza un servidor físico dedicado para el nodo, para un mayor rendimiento y mayor aislamiento.
-
Máquina virtual (VM): mediante virtualización, una instancia informática de máquina virtual puede alojar varios nodos aislados que se ejecutan en una única máquina física con hardware dedicado. Las instancias de VM son menos costosas que las instancias con hardware dedicado, y son útiles para crear clusters menos exigentes que no requieren el rendimiento y los recursos (CPU, memoria, ancho de banda de red, almacenamiento) de una máquina física completa para cada nodo.
Las instancias de VM se ejecutan en el mismo hardware que las instancias con hardware dedicado, con el mismo firmware, la misma pila de software y la misma infraestructura de red.
Para obtener más información sobre las instancias informáticas, consulte Descripción general de Compute.
La unidad de computación determina el número de CPU, la cantidad de memoria y otros recursos asignados a la instancia informática que aloja el nodo de cluster. Consulte Planificación del diseño, la unidad y el almacenamiento del cluster en la documentación de Oracle Cloud Infrastructure para conocer las unidades disponibles.
No es necesario que coincidan las unidades de los nodos maestros de Big Data Service y los nodos de trabajador. Pero las unidades de computación de todos los nodos maestros deben coincidir entre sí, y las de todos los nodos de trabajador deben coincidir entre sí.
Descripción de los perfiles de cluster
Los perfiles de cluster permiten crear clusters óptimos para una carga de trabajo o tecnología específicas. Después de crear un cluster con un perfil de cluster específico, se pueden agregar más servicios de Hadoop al cluster.
Tipos de perfil de cluster
Oracle Big Data Service permite crear clusters para numerosos tipos de perfiles de cluster.
Perfil de cluster | Componentes (seguridad y alta disponibilidad) | Componentes |
---|---|---|
HADOOP_EXTENDED1 | Hive, Spark, HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Ranger, Hue, Oozie, Tez | Hive, Spark, HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Hue, Oozie, Tez |
HADOOP | HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue | HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue |
VIHE | Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue, Tez | Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue, Tez |
ESPAÑOL | Spark, Hive2, HDFS, Yarn, ZooKeeper, MapReduce2, métricas de Ambari, Ranger, Hue | Spark, Hive2, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Matiz 2 |
HBASE | HBase, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Ranger, Hue | HBase, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas de Ambari, Hue |
TRINO | Trino, Hive3, HDFS, ZooKeeper, métricas de Ambari, Ranger, Hue | Trino, Hive3, HDFS, ZooKeeper, métricas de Ambari, Hue |
KAFKA | Kafka Broker, HDFS, ZooKeeper, métricas de Ambari, Ranger, Hue | Kafka Broker, HDFS, ZooKeeper, métricas de Ambari, Hue |
1 HADOOP_EXTENDED consta de componentes que ha creado clusters antes de que estuvieran disponibles los perfiles de cluster.
2El componente de metastore de Hive del servicio Hive se utiliza para gestionar los metadatos en Spark.
3El componente de metastore de Hive del servicio Hive se utiliza para gestionar las entidades de metadatos de Hive en Trino.
Versiones de Apache Hadoop en perfiles de cluster
En la siguiente tabla se muestran las versiones de componentes de Hadoop incluidas en los perfiles de cluster correspondientes a la versión de ODH.
ODH 1.x
Perfil de cluster | Versión |
---|---|
HADOOP_EXTENDED | HDFS 3.1, Hive 3.1, Spark 3.0.2 |
HADOOP | HDFS 3.1 |
VIHE | Hive 3.1 |
ESPAÑOL | Spark 3.0.2 |
HBASE | HBase 2.2 |
TRINO | Trino 360 |
KAFKA | Kafka 2.1.0 |
ODH 2.x
Perfil de cluster | Versión |
---|---|
HADOOP_EXTENDED | HDFS 3.3, Hive 3.1, Spark 3.2 |
HADOOP | HDFS 3.3 |
VIHE | Hive 3.1 |
ESPAÑOL | Spark 3.2 |
HBASE | HBase 2.2 |
TRINO | Trino 389 |