Planejando e Entendendo Clusters ODH
Antes de criar clusters do Big Data Service, você deve planejar e entender clusters, tipos e formas de instância e perfis de cluster.
Para obter mais informações, consulte:
Planejando o Layout, a Forma e o Armazenamento do Cluster
Antes de iniciar o processo para criar um cluster, planeje o layout do cluster, as formas dos nós e o armazenamento.
Os nós e serviços são organizados de forma diferente em clusters, com base em se o cluster é altamente disponível (HA) e seguro ou não.
Sobre a utilização de clusters HA
Use clusters HA para ambientes de produção. Eles são necessários para resiliência e para minimizar a indisponibilidade.
Nesta release, um cluster deve ser HA e seguro ou nenhum deles.
Tipos de nós
Os tipos de nós são estes:
- Os nós principais ou do utilitário incluem os serviços necessários para a operação e o gerenciamento do cluster. Esses nós não armazenam nem processam dados.
- Os nós de trabalho armazenam e processam dados. A perda de um nó de trabalho não afeta a operação do cluster, embora possa afetar o desempenho.
- Dados do processo de nós de trabalho somente para computação. A perda de um nó de trabalho somente para computação não afeta a operação do cluster, embora possa afetar o desempenho.
- Os nós de borda são nós estendidos para o cluster que têm apenas clientes instalados. Você pode instalar pacotes adicionais e executar aplicativos adicionais neste nó em vez de nós worker/compute/master para evitar conflitos de classpath e problemas de recursos com serviços de cluster.
Layout do cluster de alta disponibilidade (HA)
Um cluster de alta disponibilidade tem dois nós principais, dois nós de utilitário, três ou mais nós de trabalho e zero ou mais nós de trabalho somente para computação.
Tipo de nó | Serviços no ODH |
---|---|
Primeiro nó principal |
|
Segundo nó principal |
|
Primeiro nó do utilitário |
|
Segundo nó do utilitário |
|
Nós de trabalho (no mínimo 3) |
|
Nós de trabalho somente para computação |
|
Nós de borda |
|
Layout de Cluster Mínimo (nonHA)
Um cluster sem alta disponibilidade tem um nó principal, um nó de utilitário, três ou mais nós de trabalho e zero ou mais nós de trabalho somente para computação.
Tipo de nó | Serviços no ODH |
---|---|
Nó principal |
|
Nó do utilitário |
|
Nós de trabalho |
|
Nós de trabalho somente para computação |
|
Nós de borda |
|
A forma do nó descreve os recursos de computação alocados para o nó.
As formas usadas para nós principais/do utilitário e nós de trabalho podem ser diferentes. Mas todos os nós principais/do utilitário devem ter a mesma forma e todos os nós de trabalho devem ter a mesma forma.
A tabela a seguir mostra quais formas podem ser usadas para os diferentes tipos de nó. Consulte Formas de Computação para obter informações mais detalhadas.
Para obter uma lista dos recursos fornecidos por cada forma, consulte:
- Configurações flexíveis
- Instâncias de VM com Memória Estendida
- Configurações Bare Metal
- Formas Padrão de VM
Tipo de Nó | Formas Disponíveis | Número Necessário de VNICs (Placas de Interface de Rede Virtual) |
---|---|---|
Principal ou utilitário |
VM.Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flex VM.Standard.E4. Flex * VM.Standard3. Flex* VM.Optimized3. Flex* VM.DenseIO.E4. Flex* VM.DenseIO.E5. Flexível* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseIO2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
No mínimo 3 Usadas para a sub-rede do cluster, a sub-rede de acesso DP e a sub-rede do cliente *Especifique no mínimo 3 OCPU e 32 GB de memória. |
Trabalho |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flex VM.Standard.E4. Flex * VM.Standard3. Flex* VM.Optimized3. Flex* VM.DenseIO.E4. Flex* VM.DenseIO.E5. Flexível* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
No mínimo 2 Usadas para a sub-rede do cluster e a sua sub-rede |
Trabalho somente para computação |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flex VM.Standard.E4. Flex * VM.Standard3. Flex* VM.Optimized3. Flex* VM.DenseIO.E4. Flex* VM.DenseIO.E5. Flexível* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
No mínimo 2 Usadas para a sub-rede do cluster e a sua sub-rede |
Edge |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flex VM.Standard.E4. Flex * VM.Standard3. Flex* VM.Optimized3. Flex* VM.DenseIO.E4. Flex* VM.DenseIO.E5. Flexível* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
No mínimo 2 Usadas para a sub-rede do cluster e a sub-rede do cliente Observação: Como o nó Edge é específico para casos de uso do aplicativo cliente, escolha a forma conforme exigido pelo aplicativo. |
* Lembre-se de que as formas VM.Standard2.1 e VM.Standard2.2 são pequenas e não suportam a execução de cargas de trabalho grandes. Para VM.Standard.E4. Flex, VM.Standard3. Flex, VM.Standard.E5. Flex e VM.Optimized3. No Flex, especifique no mínimo 1 OCPU e 16 GB de memória.
Nem todas as formas estão disponíveis por padrão. Para ver quais formas estão disponíveis por padrão por meio da Console do Cloud, consulte Localizando Limites de Tenancy. Para enviar uma solicitação para aumentar os limites de serviço, consulte Solicitando um Aumento do Limite de Serviço.
Os nós baseados em formas de VM padrão usam o armazenamento em blocos anexado à rede.
Não há suporte para o armazenamento em blocos em nós com base nas formas DenseIO e HPC.
Todos os nós têm um volume de inicialização de 150 GB.
Opção | Limites/Diretrizes |
---|---|
Armazenamento em blocos inicial mínimo | 150 GB |
Armazenamento em blocos inicial padrão * | 150 GB |
Armazenamento em blocos adicional mínimo | 150 GB |
Armazenamento em bloco adicional padrão * | 1 TB |
Etapa incremental para armazenamento em blocos (inicial e adicional) | 50 GB |
Armazenamento em blocos máximo para um único nó |
48 TB O total de 48 TB resulta de 12 volumes de 4 TB cada. Se você adicionar armazenamento em blocos várias vezes, o máximo permanecerá 48 TB, mas poderá ser distribuído entre mais de 12 volumes. |
Tamanho máximo do volume em blocos |
4 TB Se você especificar o máximo de 48 TB, serão criadas 12 unidades de 4 TB cada. Se você especificar um número menor, serão criados dispositivos suficientes de 4 TB para esse valor, e mais dispositivos serão criados à medida que você adicionar mais armazenamento. |
Não é possível adicionar mais armazenamento em blocos aos nós principais ou do utilitário. Portanto, os números a seguir mostram apenas tamanhos iniciais.
Opção | Limites/Diretrizes |
---|---|
Armazenamento em blocos inicial mínimo | 150 GB |
Armazenamento em blocos inicial padrão | 1 TB |
Armazenamento em blocos adicional mínimo | 150 GB |
Armazenamento de blocos adicional padrão | 1 TB |
Etapa incremental para armazenamento em blocos (inicial e adicional) | 50 GB |
Armazenamento em blocos máximo para um único nó | 32 TB |
Tamanho máximo do volume em blocos | 32 TB |
MySQL posicionamento | Para nós do utilitário, mova /var/lib/mysql para /u01 e crie um link simbólico. Isso impede o preenchimento do volume de inicialização. |
Opção | Diretrizes |
---|---|
Armazenamento em blocos inicial padrão | 2 TB |
Armazenamento em blocos inicial mínimo | 150 GB |
O armazenamento do servidor de consulta é usado para o espaço da tabela temporária para executar operações JOIN e GROUP BY. Recomenda-se 2 TB para processamento típico. Para ambientes pequenos, por exemplo, desenvolvimento, esse número pode ser ajustado para baixo.
Para obter melhor desempenho, considere estes fatores:
- Throughput de E/S
- A rede entre o dispositivo de computação e o dispositivo de armazenamento em blocos.
Consulte Desempenho do Serviço Block Volume na documentação do Oracle Cloud Infrastructure.
A tabela a seguir descreve como o Big Data Service aloca armazenamento de volumes em blocos para nós de diferentes tamanhos.
Quais | Quantidade |
---|---|
Alocação de volume inicial para nós principais e nós do utilitário | 1 volume grande |
Alocação de volume para armazenamento em blocos adicional para nós principais e do utilitário | 1 volume grande |
Alocação de volume inicial para nós de trabalho. |
|
Alocação de volume para armazenamento em blocos adicional de nós de trabalho |
O número mínimo de volumes que podem acomodar o tamanho do armazenamento, com um tamanho de volume máximo de 4 TB por volume. (O último volume pode ser menor que 4 TB.) |
Recomendamos que você use nós de borda para preparação.
Noções Básicas de Tipos e Formas de Instância
Os nós do cluster do Big Data Service são executados em instâncias de computação (servidores) do Oracle Cloud Infrastructure.
Ao criar um cluster, você escolhe um tipo de instância que determina se a instância é executada diretamente na instância bare metal do hardware ou em um ambiente virtualizado. Você também escolhe uma forma que configura os recursos designados à instância.
-
Bare metal: Uma instância de computação bare metal usa um servidor físico dedicado para o nó, para um melhor desempenho e melhor isolamento.
-
Máquina Virtual (VM): Por meio da virtualização, uma instância de computação de VM pode hospedar vários nós isolados executados em uma única máquina bare metal física. As instâncias de VM são menos dispendiosas que as instâncias bare metal e são úteis para criar clusters menos exigentes, que não exijam o desempenho e os recursos (CPU, memória, largura de banda de rede, armazenamento) de uma máquina física inteira para cada nó.
As instâncias de VM são executadas no mesmo hardware das instâncias bare metal, com o mesmo firmware, pilha de software e infraestrutura de rede.
Para obter mais informações sobre instâncias de computação, consulte Visão Geral do Serviço Compute.
A forma determina o número de CPUs, a quantidade de memória e outros recursos alocados para a instância de computação que hospeda o nó do cluster. Consulte Planejando o Layout, a Forma e o Armazenamento do Cluster na documentação do Oracle Cloud Infrastructure para obter as formas disponíveis.
As formas dos nós principais e dos nós de trabalho do Big Data Service não precisam coincidir. Mas as formas de todos os nós principais devem corresponder umas às outras e as formas de todos os nós de trabalho devem corresponder umas às outras.
Noções Básicas de Perfis de Cluster
Os perfis de cluster permitem que você crie clusters ideais para uma carga de trabalho ou tecnologia específica. Depois de criar um cluster com um perfil de cluster específico, mais serviços do Hadoop podem ser adicionados ao cluster.
Tipos de Perfil do Cluster
O Oracle Big Data Service permite que você crie clusters para vários tipos de perfil de cluster.
Perfil do cluster | Componentes (seguro e altamente disponível) | Componentes |
---|---|---|
HADOOP_EXTENDED1 | Hive, Spark, HDFS, Yarn, ZooKeeper, MapReduce2, Ambari Metrics, Ranger, Hue, Oozie, Tez | Hive, Spark, HDFS, Yarn, ZooKeeper, MapReduce2, Ambari Metrics, Hue, Oozie, Tez |
HADOOP | HDFS, Yarn, ZooKeeper, MapReduce2, Métricas do Ambari, Ranger, Hue | HDFS, Yarn, ZooKeeper, MapReduce2, Métricas do Ambari, Hue |
HIVE | Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas do Ambari, Ranger, Hue, Tez | Hive, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas do Ambari, Hue, Tez |
ESCARREGAR | Spark, Hive2, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas do Ambari, Ranger, Hue | Spark, Hive2, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas do Ambari, Hue 2 |
HBASE | HBase, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas do Ambari, Ranger, Hue | HBase, HDFS, Yarn, ZooKeeper, MapReduce2, Métricas do Ambari, Hue |
TRINO | Trino, Hive3, HDFS, ZooKeeper, Métricas do Ambari, Ranger, Hue | Trino, Hive3, HDFS, ZooKeeper, Métricas do Ambari, Hue |
KAFKA | Kafka Broker, HDFS, ZooKeeper, Métricas do Ambari, Ranger, Hue | Kafka Broker, HDFS, ZooKeeper, Métricas do Ambari, Hue |
1 HADOOP_EXTENDED consiste em componentes que você criou clusters antes que os perfis do cluster estivessem disponíveis.
2O componente de metastore do Hive do serviço Hive é usado para gerenciar os metadados no Spark.
3O componente de metastore do Hive do serviço Hive é usado para gerenciar as entidades de metadados do Hive no Trino.
Versões do Apache Hadoop em Perfis de Cluster
A tabela a seguir lista as versões do componente do Hadoop incluídas em perfis de cluster correspondentes à versão do ODH.
ODH 1.x
Perfil do cluster | Versão |
---|---|
HADOOP_EXTENDED | HDFS 3.1, Hive 3.1, Spark 3.0.2 |
HADOOP | HDFS 3.1 |
HIVE | Hive 3.1 |
ESCARREGAR | Spark 3.0.2 |
HBASE | HBase 2.2 |
TRINO | Trino 360 |
KAFKA | Kafka 2.1.0 |
ODH 2.x
Perfil do cluster | Versão |
---|---|
HADOOP_EXTENDED | HDFS 3.3, Hive 3.1, Spark 3.2 |
HADOOP | HDFS 3.3 |
HIVE | Hive 3.1 |
ESCARREGAR | Spark 3.2 |
HBASE | HBase 2.2 |
TRINO | Trino 389 |