Pianificazione e comprensione dei cluster ODH

Prima di creare i cluster Big Data Service, è necessario pianificare e comprendere i cluster, i tipi e le forme di istanza e i profili cluster.

Per ulteriori informazioni, vedere quanto segue:

Pianificazione del layout, della forma e dello storage del cluster

Prima di avviare il processo di creazione di un cluster, è necessario pianificare il layout del cluster, le forme del nodo e lo storage.

Layout cluster

I nodi e i servizi sono organizzati in modo diverso nei cluster, in base all'elevata disponibilità (HA) e alla sicurezza o meno del cluster.

Informazioni sull'uso dei cluster HA

Utilizzare i cluster HA per gli ambienti di produzione. Sono necessari per la resilienza e per ridurre al minimo i tempi di inattività.

In questa release, un cluster deve essere HA e sicuro oppure nessuno dei due.

Tipi di nodi

Di seguito sono riportati i tipi di nodi.

  • I nodi principali o di utility includono i servizi necessari per il funzionamento e la gestione del cluster. Questi nodi non memorizzano o elaborano i dati.
  • I nodi lavoratore memorizzano ed elaborano i dati. La perdita di un nodo di lavoro non influisce sul funzionamento del cluster, anche se può influire sulle prestazioni.
  • I nodi di lavoro solo calcolo elaborano i dati. La perdita di un nodo di lavoro di solo calcolo non influisce sull'operazione del cluster, sebbene possa influire sulle prestazioni.
  • I nodi edge sono nodi estesi al cluster in cui sono installati solo i client. È possibile installare package aggiuntivi ed eseguire applicazioni aggiuntive in questo nodo anziché nodi di lavoro/computazione/master per evitare conflitti di classpath e problemi di risorse con i servizi cluster.

Layout cluster High Availability (HA)

Un cluster High Availability dispone di due nodi principali, due nodi di utility, tre o più nodi di lavoro e zero o più nodi di lavoro di calcolo.

Tipo di nodo Servizi su ODH
Primo nodo principale
  • Monitoraggio metriche Ambari
  • Client HDFS
  • HDFS JournalNode
  • HDFS NameNode
  • HDFS ZKFailoverController
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Spark3
  • Spark3 Server cronologia
  • Client YARN
  • ATTENZIONE ResourceManager
  • Server ZooKeeper
Secondo nodo principale
  • Monitoraggio metriche Ambari
  • Client HDFS
  • HDFS JournalNode
  • HDFS NameNode
  • HDFS ZKFailoverController
  • Client Kerberos
  • Client MapReduce2
  • MapReduce2 Server cronologia
  • Client Spark3
  • Client Tez
  • Client YARN
  • DNS del registro YARN
  • ATTENZIONE ResourceManager
  • Servizio sequenza temporale YARN V1.5
  • Server ZooKeeper
Primo nodo dell'utility
  • Monitoraggio metriche Ambari
  • Server Ambari
  • Client HDFS
  • HDFS JournalNode
  • Hive Metastore
  • HiveServer2
  • Client Kerberos
  • Client MapReduce2
  • Server Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • Client ZooKeeper
  • Server ZooKeeper
Secondo nodo di utility
  • Collector metriche Ambari
  • Monitoraggio metriche Ambari
  • Client HDFS
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Spark3
  • Client YARN
Nodi di lavoro (minimo 3)
  • Monitoraggio metriche Ambari
  • HDFS DataNode
  • Client HDFS
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Spark3 Server Thrift
  • Client Tez
  • Client YARN
  • ATTENZIONE NodeManager
  • Client ZooKeeper
Nodi di lavoro di solo calcolo
  • Monitoraggio metriche Ambari
  • Client HDFS
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • ATTENZIONE NodeManager
  • Client ZooKeeper
Nodi perimetrali
  • Monitoraggio metriche Ambari
  • Client HDFS
  • Client Hive
  • Client Kerberos
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • Client ZooKeeper

Layout cluster minimo (nonHA)

Un cluster non High Availability ha un nodo principale, un nodo di utility, tre o più nodi di lavoro e zero o più nodi di lavoro di calcolo.

Tipo di nodo Servizi su ODH
nodo principale
  • Monitoraggio metriche Ambari
  • Client HDFS
  • HDFS NameNode
  • Client Hive
  • Client MapReduce2
  • Client Spark3
  • Spark3 Server cronologia
  • Client YARN
  • DNS del registro YARN
  • ATTENZIONE ResourceManager
  • Server ZooKeeper
Nodo utility
  • Collector metriche Ambari
  • Monitoraggio metriche Ambari
  • Server Ambari
  • Client HDFS
  • HDFS secondario NameNode
  • Hive Metastore
  • HiveServer2
  • Client MapReduce2
  • MapReduce2 Server cronologia
  • Server Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • Servizio sequenza temporale YARN V1.5
  • Client ZooKeeper
  • Server ZooKeeper
nodi di lavoro
  • Monitoraggio metriche Ambari
  • HDFS DataNode
  • Client HDFS
  • Client Hive
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Spark3 Server Thrift
  • Client Tez
  • Client YARN
  • ATTENZIONE NodeManager
  • Client ZooKeeper
  • Server ZooKeeper
Nodi di lavoro di solo calcolo
  • Monitoraggio metriche Ambari
  • Client HDFS
  • Client Hive
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • ATTENZIONE NodeManager
  • Client ZooKeeper
Nodi perimetrali
  • Client HDFS
  • Client Hive
  • Client MapReduce2
  • Client Oozie
  • Client Spark3
  • Client Tez
  • Client YARN
  • Client ZooKeeper
Forme nodo supportate

La forma del nodo descrive le risorse di calcolo allocate al nodo.

Le forme utilizzate per i nodi master/utility e i nodi di lavoro possono essere diverse. Tutti i nodi master/utility devono tuttavia avere la stessa forma e tutti i nodi di lavoro devono avere la stessa forma.

Nella tabella seguente vengono indicate le forme che è possibile utilizzare per i diversi tipi di nodo. Per informazioni più dettagliate, consulta forme di computazione.

Per un elenco delle risorse fornite da ciascuna forma, vedere:

Tipo di nodo Forme disponibili Numero richiesto di schede di interfaccia di rete virtuali (VNIC)
Master o utility

VM.Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Flexfield

VM.Standard.E4. Flex *

VM.Standard3. Flessibile*

VM.Optimized3. Flessibile*

VM.DenseIO.E4. Flessibile*

VM.DenseIO.E5. Flessibile*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseIO2.52

BMHPC2.36

BM.Standard3.64*

BM.Ottimizzato3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

3 minimo

Utilizzato per la subnet cluster, la subnet di accesso DP e la subnet del cliente

*È necessario specificare almeno 3 OCPU e 32 GB di memoria.

Fase processo operativo

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Flexfield

VM.Standard.E4. Flex *

VM.Standard3. Flessibile*

VM.Optimized3. Flessibile*

VM.DenseIO.E4. Flessibile*

VM.DenseIO.E5. Flessibile*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BMHPC2.36

BM.Standard3.64*

BM.Ottimizzato3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 minimo

Utilizzato per la subnet cluster e la subnet

Lavoratore solo calcolo

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Flexfield

VM.Standard.E4. Flex *

VM.Standard3. Flessibile*

VM.Optimized3. Flessibile*

VM.DenseIO.E4. Flessibile*

VM.DenseIO.E5. Flessibile*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BMHPC2.36

BM.Standard3.64*

BM.Ottimizzato3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 minimo

Utilizzato per la subnet cluster e la subnet

Asse

VM.Standard2.1*

VM.Standard2.2*

VM. Standard2.4

VM. Standard2.8

VM. Standard2.16

VM.Standard2.24

VM.Standard.E5. Flexfield

VM.Standard.E4. Flex *

VM.Standard3. Flessibile*

VM.Optimized3. Flessibile*

VM.DenseIO.E4. Flessibile*

VM.DenseIO.E5. Flessibile*

VM.DenseIO2.8

VM.DenseIO2.16

VM.DenseIO2.24

BM.Standard2.52

BM.DenseI2.52

BMHPC2.36

BM.Standard3.64*

BM.Ottimizzato3.36*

BM.DenseIO.E4.128*

BM.Standard.E4.128*

2 minimo

Utilizzato per la subnet cluster e la subnet del cliente

Nota: poiché il nodo Edge è specifico per i casi d'uso dell'applicazione client, scegliere la forma come richiesto dall'applicazione.

* Tenere presente che VM.Standard2.1 e VM.Standard2.2 sono forme di piccole dimensioni e non supportano l'esecuzione di carichi di lavoro di grandi dimensioni. Per VM.Standard.E4. Flexfield, VM.Standard3. Flexfield, VM.Standard.E5. Flex e VM.Optimized3. Flex è necessario specificare almeno 1 OCPU e 16 GB di memoria.

Non tutte le forme sono disponibili per impostazione predefinita. Per visualizzare le forme disponibili per impostazione predefinita tramite la console cloud, vedere Ricerca dei limiti della tenancy. Per inviare una richiesta di aumento dei limiti del servizio, vedere Richiesta di un aumento del limite del servizio.

Forme del nodo di storage a blocchi

I nodi basati su forme VM standard utilizzano lo storage a blocchi collegato alla rete.

Nota

Lo storage a blocchi non è supportato per i nodi basati su forme DenseIO e HPC.

Tutti i nodi hanno un volume di avvio di 150 GB.

Opzione Limiti/Linee guida
Storage a blocchi iniziale minimo 150 GB
Memoria a blocchi iniziale predefinita * 150 GB
Storage a blocchi aggiuntivo minimo 150 GB
Memoria a blocchi aggiuntiva predefinita * 1 TB
Passo incrementale per lo storage a blocchi (iniziale e aggiuntivo) 50 GB
Storage a blocchi massimo per un singolo nodo

48 TB

I 48 TB risultati totali da 12 volumi di 4 TB ciascuno.

Se aggiungi più volte lo storage a blocchi, il massimo rimane di 48 TB, ma potrebbe essere distribuito su più di 12 volumi.

Dimensione massima volume a blocchi

4 TB

Se si specifica il numero massimo di 48 TB, vengono create 12 unità da 4 TB ciascuna.

Se si specifica un numero inferiore, vengono creati un numero sufficiente di dispositivi da 4 TB per tale quantità e vengono creati più dispositivi durante l'aggiunta di ulteriore storage.

Impossibile aggiungere altro storage a blocchi ai nodi master o utility. Pertanto, le seguenti figure mostrano solo le dimensioni iniziali.

Opzione Limiti/Linee guida
Storage a blocchi iniziale minimo 150 GB
Memoria a blocchi iniziale predefinita 1 TB
Storage a blocchi aggiuntivo minimo 150 GB
Storage a blocchi aggiuntivo predefinito 1 TB
Passo incrementale per lo storage a blocchi (iniziale e aggiuntivo) 50 GB
Storage a blocchi massimo per un singolo nodo 32 TB
Dimensione massima volume a blocchi 32 TB
Posizionamento MySQL Per i nodi di utility spostare /var/lib/mysql in /u01 e creare un collegamento simbolico. Ciò impedisce il riempimento del volume di avvio.
Opzione Istruzioni
Memoria a blocchi iniziale predefinita 2 TB
Storage a blocchi iniziale minimo 150 GB

Lo storage del server di query viene utilizzato per lo spazio tabella temporaneo per eseguire operazioni JOIN e GROUP BY pesanti. 2 TB sono consigliati per l'elaborazione tipica. Per gli ambienti di piccole dimensioni, ad esempio lo sviluppo, questo numero può essere regolato.

Per ottenere prestazioni ottimali, considerare i seguenti fattori:

  • Throughput di I/O
  • Rete tra il dispositivo di calcolo e il dispositivo di memorizzazione a blocchi.

Consulta la sezione relativa alle prestazioni dei volumi a blocchi nella documentazione di Oracle Cloud Infrastructure.

Nella tabella riportata di seguito viene descritto come Big Data Service alloca lo storage dei volumi a blocchi per nodi di dimensioni diverse.

Cosa Numero
Allocazione iniziale del volume per nodi principali e nodi utility 1 grande volume
Allocazione dei volumi per lo storage a blocchi aggiuntivo per i nodi master e i nodi delle utility 1 grande volume
Allocazione iniziale del volume per i nodi di lavoro.
  • Storage: meno di 12 TB.

    Dimensione volume: 1 TB L'ultimo volume potrebbe essere inferiore a 1 TB.

  • Storage: da 12 TB a 48 TB.

    Dimensione volume: suddividere in modo uniforme in 12 volumi, ciascuno dei quali è di almeno 1 TB.

  • Storage: superiore a 48 TB.

    Dimensione volume: non consentita.

Allocazione dei volumi per lo storage a blocchi aggiuntivo per i nodi di lavoro

Numero minimo di volumi in grado di soddisfare le dimensioni dello storage, con una dimensione massima di 4 TB per volume. (L'ultimo volume potrebbe essere inferiore a 4 TB.)

Si consiglia di utilizzare i nodi edge per l'area intermedia.

Descrizione dei tipi e delle forme di istanza

I nodi cluster Big Data Service vengono eseguiti nelle istanze di computazione (server) di Oracle Cloud Infrastructure.

Quando crei un cluster, scegli un tipo di istanza che determina se l'istanza viene eseguita direttamente sull'istanza Bare Metal dell'hardware o in un ambiente virtualizzato. È inoltre possibile scegliere una forma che configura le risorse assegnate all'istanza.

Informazioni sui tipi di istanza
  • Bare Metal: un'istanza di calcolo bare metal utilizza un server fisico dedicato per il nodo, per le prestazioni più elevate e l'isolamento più efficace.

  • Virtual Machine (VM): tramite la virtualizzazione, un'istanza di computazione VM può ospitare più nodi isolati eseguiti su un singolo computer Bare Metal fisico. Le istanze VM sono meno costose delle istanze Bare Metal e sono utili per creare cluster meno impegnativi che non richiedono le prestazioni e le risorse (CPU, memoria, larghezza di banda di rete, storage) di un'intera macchina fisica per ogni nodo.

Le istanze VM vengono eseguite sullo stesso hardware delle istanze Bare Metal, con la stessa infrastruttura di firmware, stack software e networking.

Per ulteriori informazioni sulle istanze di computazione, vedere Panoramica di Compute.

Informazioni sulle forme

La forma determina il numero di CPU, la quantità di memoria e altre risorse allocate all'istanza di computazione che ospita il nodo cluster. Per informazioni sulle forme disponibili, vedere Pianificazione del layout, della forma e dello storage del cluster nella documentazione di Oracle Cloud Infrastructure.

Non è necessario che le forme dei nodi principali di Big Data Service e dei nodi di lavoro corrispondano. Tuttavia, le forme di tutti i nodi principali devono corrispondere tra loro e le forme di tutti i nodi di lavoro devono corrispondere tra loro.

Informazioni sui profili cluster

I profili cluster consentono di creare cluster ottimali per un carico di lavoro o una tecnologia specifica. Dopo aver creato un cluster con un profilo cluster specifico, è possibile aggiungere altri servizi Hadoop al cluster.

Tipi di profilo cluster

Oracle Big Data Service consente di creare cluster per numerosi tipi di profilo cluster.

Profilo cluster Componenti (sicuri e altamente disponibili) Componenti
HADOOP_EXTENDED1 Hive, Spark, HDFS, Filato, ZooKeeper, MapReduce2, Metriche Ambari, Ranger, Tonalità, Oozie, Tez Hive, Spark, HDFS, Filato, ZooKeeper, MapReduce2, Metriche Ambari, Tonalità, Oozie, Tez
HADOOP HDFS, filato, ZooKeeper, MapReduce2, metriche Ambari, ranger, tonalità HDFS, filato, ZooKeeper, MapReduce2, metriche Ambari, tonalità
CINQUE Hive, HDFS, Filato, ZooKeeper, MapReduce2, Metriche Ambari, Ranger, Tonalità, Tez Hive, HDFS, filato, ZooKeeper, MapReduce2, metriche Ambari, tonalità, Tez
PISCINA Spark, Hive2, HDFS, Filato, ZooKeeper, MapReduce2, Metriche Ambari, Ranger, Tonalità Spark, Hive2, HDFS, filati, ZooKeeper, MapReduce2, metriche Ambari, tonalità 2
HBASE HBase, HDFS, Filato, ZooKeeper, MapReduce2, Metriche Ambari, Ranger, Tonalità HBase, HDFS, filato, ZooKeeper, MapReduce2, metriche Ambari, tonalità
TRINO Trino, Hive3, HDFS, ZooKeeper, Metriche Ambari, Ranger, Hue Trino, Hive3, HDFS, ZooKeeper, Metriche Ambari, Tonalità
KAFKA Broker Kafka, HDFS, ZooKeeper, Metriche Ambari, Ranger, Hue Broker Kafka, HDFS, ZooKeeper, Metriche Ambari, Tonalità

1 HADOOP_EXTENDED è costituito dai componenti creati dai cluster prima che i profili cluster fossero disponibili.

2Il componente del metastore Hive dal servizio Hive viene utilizzato per gestire i metadati in Spark.

3Il componente del metastore Hive del servizio Hive viene utilizzato per gestire le entità dei metadati Hive in Trino.

Versioni di Apache Hadoop nei profili cluster

La tabella seguente elenca le versioni dei componenti Hadoop incluse nei profili cluster corrispondenti alla versione ODH.

ODH 1.x

Profilo cluster Versione
HADOOP_EXTENDED HDFS 3.1, Hive 3.1, Spark 3.0.2
HADOOP HDFS 3.1
CINQUE Hive 3.1
PISCINA Spark 3.0.2
HBASE HBase 2.2
TRINO Trino 360
KAFKA Kafka 2.1.0

ODH 2.x

Profilo cluster Versione
HADOOP_EXTENDED HDFS 3.3, Hive 3.1, Spark 3.2
HADOOP HDFS 3.3
CINQUE Hive 3.1
PISCINA Spark 3.2
HBASE HBase 2.2
TRINO Trino 389