ODH-Cluster planen und verstehen

Bevor Sie Big Data Service-Cluster erstellen, müssen Sie Cluster, Instanztypen und -ausprägungen sowie Clusterprofile planen und verstehen.

Weitere Informationen finden Sie unter:

Clusterlayout, -ausprägung und -speicherung planen

Bevor Sie den Prozess zum Erstellen eines Clusters starten, müssen Sie das Layout des Clusters, die Knotenausprägungen und den Speicher planen.

Clusterlayout

Knoten und Services werden auf verschiedenen Clustern unterschiedlich organisiert, je nachdem, ob das Cluster hochverfügbar (HA) und sicher ist oder nicht.

HA-Cluster verwenden

Verwenden Sie HA-Cluster für Produktionsumgebungen. Sie sind für Resilienz erforderlich und minimieren Ausfallzeiten.

In diesem Release muss ein Cluster hochverfügbar und sicher oder nichts von beidem sein.

Knotentypen

Es gibt folgende Typen von Knoten:

Master- oder Utilityknoten enthalten die Services, die für den Betrieb und die Verwaltung des Clusters erforderlich sind. Diese Knoten speichern oder verarbeiten keine Daten.
Worker-Knoten speichern und verarbeiten Daten. Der Verlust eines Worker-Knotens wirkt sich nicht auf den Betrieb des Clusters aus, kann aber die Performance beeinträchtigen.
Reine Compute-Worker-Knoten verarbeiten Daten. Der Verlust eines reinen Compute-Worker-Knotens wirkt sich nicht auf den Betrieb des Clusters aus, kann aber die Performance beeinträchtigen.
Edge-Knoten sind erweiterte Knoten für das Cluster, auf dem nur Clients installiert sind. Sie können zusätzliche Packages installieren und zusätzliche Anwendungen auf diesem Knoten anstelle von Worker-/Compute-/Master-Knoten ausführen, um Classpath-Konflikte und Ressourcenprobleme bei Clusterservices zu vermeiden.

High Availability-(HA-)Clusterlayout

Ein High-Availability-Cluster enthält zwei Masterknoten, zwei Utilityknoten, drei oder mehr Worker-Knoten und null oder mehr reine Compute-Worker-Knoten.


Knotentyp	Services auf ODH
Erster Masterknoten	Ambari Metrics Monitor HDFS-Client HDFS JournalNode HDFS NameNode HDFS ZKFailoverController Hive-Client Kerberos-Client MapReduce2-Client Spark3-Client Spark3 History Server YARN-Client YARN ResourceManager ZooKeeper-Server
Zweiter Master-Knoten	Ambari Metrics Monitor HDFS-Client HDFS JournalNode HDFS NameNode HDFS ZKFailoverController Kerberos-Client MapReduce2-Client MapReduce2 History Server Spark3-Client Tez-Client YARN-Client YARN RegistryDNS YARN ResourceManager YARN Timeline Service V1.5 ZooKeeper-Server
Erster Utilityknoten	Ambari Metrics Monitor Ambari Server HDFS-Client HDFS JournalNode Hive Metastore HiveServer2 Kerberos-Client MapReduce2-Client Oozie Server Spark3-Client Tez-Client YARN-Client ZooKeeper-Client ZooKeeper-Server
Zweiter Utilityknoten	Ambari Metrics Collector Ambari Metrics Monitor HDFS-Client Hive-Client Kerberos-Client MapReduce2-Client Spark3-Client YARN-Client
Worker-Knoten (max. 3)	Ambari Metrics Monitor HDFS DataNode HDFS-Client Hive-Client Kerberos-Client MapReduce2-Client Oozie-Client Spark3-Client Spark3 Thrift Server Tez-Client YARN-Client YARN NodeManager ZooKeeper-Client
Reine Compute-Worker-Knoten	Ambari Metrics Monitor HDFS-Client Hive-Client Kerberos-Client MapReduce2-Client Oozie-Client Spark3-Client Tez-Client YARN-Client YARN NodeManager ZooKeeper-Client
Edge-Knoten	Ambari Metrics Monitor HDFS-Client Hive-Client Kerberos-Client MapReduce2-Client Oozie-Client Spark3-Client Tez-Client YARN-Client ZooKeeper-Client

Minimales Clusterlayout (nonHA)

Ein Nicht-High-Availability-Cluster enthält einen Masterknoten, einen Utilityknoten, drei oder mehr Worker-Knoten und null oder mehr reine Compute-Worker-Knoten.


Knotentyp	Services auf ODH
Masterknoten	Ambari Metrics Monitor HDFS-Client HDFS NameNode Hive-Client MapReduce2-Client Spark3-Client Spark3 History Server YARN-Client YARN RegistryDNS YARN ResourceManager ZooKeeper-Server
Utilityknoten	Ambari Metrics Collector Ambari Metrics Monitor Ambari Server HDFS-Client HDFS Secondary NameNode Hive Metastore HiveServer2 MapReduce2-Client MapReduce2 History Server Oozie Server Spark3-Client Tez-Client YARN-Client YARN Timeline Service V1.5 ZooKeeper-Client ZooKeeper-Server
Worker-Knoten	Ambari Metrics Monitor HDFS DataNode HDFS-Client Hive-Client MapReduce2-Client Oozie-Client Spark3-Client Spark3 Thrift Server Tez-Client YARN-Client YARN NodeManager ZooKeeper-Client ZooKeeper-Server
Reine Compute-Worker-Knoten	Ambari Metrics Monitor HDFS-Client Hive-Client MapReduce2-Client Oozie-Client Spark3-Client Tez-Client YARN-Client YARN NodeManager ZooKeeper-Client
Edge-Knoten	HDFS-Client Hive-Client MapReduce2-Client Oozie-Client Spark3-Client Tez-Client YARN-Client ZooKeeper-Client

Unterstützte Knotenausprägungen

Die Knotenausprägung beschreibt die Compute-Ressourcen, die dem Knoten zugewiesen werden.

Die für Master-/Utilityknoten und Worker-Knoten verwendeten Ausprägungen können unterschiedlich sein. Es müssen jedoch alle Master-/Utilityknoten dieselbe Ausprägung und alle Worker-Knoten dieselbe Ausprägung aufweisen.

Die folgende Tabelle zeigt, welche Ausprägungen für die verschiedenen Knotentypen verwendet werden können. Weitere Informationen finden Sie unter Compute-Ausprägungen.

Eine Liste der von den einzelnen Ausprägungen bereitgestellten Ressourcen finden Sie unter:


Knotenart	Verfügbare Ausprägungen	Erforderliche Anzahl virtuelle Netzwerkkarten (VNICs)
Master oder Utility	VM.Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexibel VM.Standard.E4. FlexFeld * VM.Standard3. FlexFeld* VM.Optimized3. FlexFeld* VM.DenseIO.E4. Flexibel* VM.DenseIO.E5. Flex* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseIO2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128*	mindestens 3 Wird für das Clustersubnetz, das Subnetz für den DP-Zugriff und das Subnetz des Kunden verwendet ^* Sie müssen mindestens 3 OCPUs und 32 GB Speicher angeben.
Worker	VM.Standard2.1^* VM.Standard2.2^* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexibel VM.Standard.E4. FlexFeld * VM.Standard3. FlexFeld* VM.Optimized3. FlexFeld* VM.DenseIO.E4. Flexibel* VM.DenseIO.E5. Flex* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128*	Mindestens 2 Wird für das Clustersubnetz und das Subnetz verwendet
Reiner Compute Worker	VM.Standard2.1^* VM.Standard2.2^* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexibel VM.Standard.E4. FlexFeld * VM.Standard3. FlexFeld* VM.Optimized3. FlexFeld* VM.DenseIO.E4. Flexibel* VM.DenseIO.E5. Flex* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128*	Mindestens 2 Wird für das Clustersubnetz und das Subnetz verwendet
Rand	VM.Standard2.1^* VM.Standard2.2^* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexibel VM.Standard.E4. FlexFeld * VM.Standard3. FlexFeld* VM.Optimized3. FlexFeld* VM.DenseIO.E4. Flexibel* VM.DenseIO.E5. Flex* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128*	Mindestens 2 Wird für das Clustersubnetz und das Subnetz des Kunden verwendet Hinweis: Da der Edge-Knoten spezifisch für Clientanwendungsfälle ist, wählen Sie die Ausprägung nach Bedarf für die Anwendung aus.

^* Beachten Sie, dass VM.Standard2.1 und VM.Standard2.2 kleine Ausprägungen sind, die keine großen Workloads unterstützen. Für VM.Standard.E4. Flex, VM.Standard3. Flex, VM.Standard.E5. Flex und VM.Optimized3. Sie müssen mindestens 1 OCPU und 16 GB Arbeitsspeicher angeben.

Nicht alle Ausprägungen sind standardmäßig verfügbar. Informationen dazu, welche Ausprägungen standardmäßig über die Cloud-Konsole verfügbar sind, finden Sie unter Erhöhung des Servicelimits beantragen.

Blockspeicherknotenausprägungen

Knoten, die auf Standard-VM-Ausprägungen basieren, verwenden einen netzgebundenen Blockspeicher.

Hinweis

Blockspeicher wird für auf DenseIO- und HPC-Ausprägungen basierende Knoten nicht unterstützt.

Alle Knoten weisen ein Boot-Volume mit 150 GB auf.


Option	Limits/Richtlinien
Minimaler anfänglicher Blockspeicher	150 GB
Standardmäßiger anfänglicher Blockspeicher *	150 GB
Minimaler zusätzlicher Blockspeicher	150 GB
Standardmäßiger zusätzlicher Blockspeicher *	1 TB
Erhöhungsschritt für (anfänglichen und zusätzlichen) Blockspeicher	50 GB
Maximaler Blockspeicher für einen einzelnen Knoten	48 TB Die Gesamtgröße von 48 TB ergibt sich aus 12 Volumes mit jeweils 4 TB. Wenn Sie Blockspeicher mehrmals hinzufügen, bleibt das Maximum bei 48 TB. Es kann jedoch über mehr als 12 Volumes verteilt werden.
Maximale Block-Volume-Größe	4 TB Wenn Sie die maximalen 48 TB angeben, werden 12 Laufwerke mit jeweils 4 TB erstellt. Wenn Sie eine niedrigere Zahl angeben, werden ausreichend 4-TB-Geräte für diese Menge erstellt, und beim Hinzufügen von Speicher werden weitere Geräte erstellt.

Sie können Master- oder Utilityknoten keinen weiteren Blockspeicher hinzufügen. Daher zeigen die folgenden Zahlen nur Anfangsgrößen.


Option	Limits/Richtlinien
Minimaler anfänglicher Blockspeicher	150 GB
Standardmäßiger anfänglicher Blockspeicher	1 TB
Minimaler zusätzlicher Blockspeicher	150 GB
Standardmäßiger zusätzlicher Blockspeicher	1 TB
Erhöhungsschritt für (anfänglichen und zusätzlichen) Blockspeicher	50 GB
Maximaler Blockspeicher für einen einzelnen Knoten	32 TB
Maximale Block-Volume-Größe	32 TB
MySQL Platzierung	Verschieben Sie für Utilityknoten `/var/lib/mysql` in `/u01`, und erstellen Sie einen symbolischen Link. Dadurch wird verhindert, dass das Boot-Volume gefüllt wird.


Option	Richtlinien
Standardmäßiger anfänglicher Blockspeicher	2 TB
Minimaler anfänglicher Blockspeicher	150 GB

Abfrageserverspeicher wird für Temporary Tablespace verwendet, um umfangreiche JOIN- und GROUP BY-Vorgänge auszuführen. 2 TB werden für die typische Verarbeitung empfohlen. Bei kleinen Umgebungen, beispielsweise Entwicklung, kann dieser Wert nach unten angepasst werden.

Berücksichtigen Sie die folgenden Faktoren, um eine optimale Performance zu erzielen:

I/O-Durchsatz
Networking zwischen Compute-Gerät und Blockspeichergerät.

Informationen hierzu finden Sie in der Oracle Cloud Infrastructure-Dokumentation unter Block-Volume-Perfomance.

In der folgenden Tabelle wird beschrieben, wie Big Data Service Block Volume-Speicher für Knoten mit verschiedenen Größen zuweist.


Überblick	Menge
Anfängliche Volume-Zuweisung für Masterknoten und Utilityknoten	1 großes Volume
Volume-Zuweisung für zusätzlichen Blockspeicher für Masterknoten und Utilityknoten	1 großes Volume
Anfängliche Volume-Zuweisung für Worker-Knoten.	Speicher: Weniger als 12 TB. Volume-Größe: 1 TB Das letzte Volume kann kleiner als 1 TB sein. Speicher: 12 TB bis 48 TB. Volume-Größe: Gleichmäßige Aufteilung auf 12 Volumes mit jeweils mindestens 1 TB. Speicher: Mehr als 48 TB. Volume-Größe: Nicht zulässig.
Volume-Zuweisung für zusätzlichen Blockspeicher für Worker-Knoten	Die Mindestanzahl an Volumes, die die Speichergröße aufnehmen können, mit einer maximalen Volume-Größe von 4 TB pro Volume. (Das letzte Volume kann kleiner als 4 TB sein.

Es wird empfohlen, Edge-Knoten für das Staging zu verwenden.

Instanztypen und Ausprägungen

Big Data Service-Clusterknoten werden in Oracle Cloud Infrastructure-Compute-Instanzen (Servern) ausgeführt.

Beim Erstellen eines Clusters wählen Sie einen Instanztyp aus, der bestimmt, ob die Instanz direkt auf der Bare-Metal-Instanz der Hardware oder in einer virtuellen Umgebung ausgeführt wird. Sie wählen auch eine Ausprägung aus, mit der die der Instanz zugewiesenen Ressourcen konfiguriert werden.

Informationen zu Instanztypen

Bare Metal: Eine Bare Metal Compute-Instanz verwendet einen dedizierten physischen Server für den Knoten, um die beste Performance und starke Isolation zu gewährleisten.
Virtual Machine (VM): Durch Virtualisierung kann eine VM-Compute-Instanz mehrere isolierte Knoten hosten, die auf einem einzelnen physischen Bare-Metal-Rechner ausgeführt werden. VM-Instanzen sind weniger aufwendig als Bare-Metal-Instanzen und eignen sich zum Erstellen weniger anspruchsvoller Cluster, die nicht die Performance und Ressourcen (CPU, Arbeitsspeicher, Netzwerkbandbreite, Speicher) eines gesamten physischen Rechners für jeden Knoten erfordern.

VM-Instanzen werden auf derselben Hardware wie Bare-Metal-Instanzen mit derselben Firmware, demselben Softwarestack und derselben Netzwerkinfrastruktur ausgeführt.

Weitere Informationen zu Compute-Instanzen finden Sie unter Überblick über Compute.

Informationen zu Ausprägungen

Die Ausprägung bestimmt die Anzahl der CPUs, den Arbeitsspeicher und andere Ressourcen, die der Compute-Instanz zugewiesen sind, die den Clusterknoten hostet. Die verfügbaren Ausprägungen finden Sie in der Oracle Cloud Infrastructure-Dokumentation unter Clusterlayout, Ausprägung und Speicher planen.

Die Ausprägungen der Big Data Service-Masterknoten und der Worker-Knoten müssen nicht übereinstimmen. Die Ausprägungen aller Masterknoten müssen jedoch miteinander übereinstimmen, und die Ausprägungen aller Worker-Knoten müssen miteinander übereinstimmen.

Clusterprofile verstehen

Mit Clusterprofilen können Sie optimale Cluster für eine bestimmte Workload oder Technologie erstellen. Nachdem Sie ein Cluster mit einem bestimmten Clusterprofil erstellt haben, können dem Cluster weitere Hadoop-Services hinzugefügt werden.

Clusterprofiltypen

Mit Oracle Big Data Service können Sie Cluster für zahlreiche Clusterprofiltypen erstellen.


Clusterprofil	Komponenten (sicher und hoch verfügbar)	Komponenten
HADOOP_EXTENDED¹	Hive, Spark, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Hue, Oozie, Tez	Hive, Spark, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton, Oozie, Tez
HADOOP	HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Farbton	HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton
NIVEAU	Hive, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Farbton, Tez	Hive, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton, Tez
SPARK	Spark, Hive², HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Farbton	Spark, Hive², HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton ²
HBASE	HBase, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Farbton	HBase, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton
TRINO	Trino, Hive³, HDFS, ZooKeeper, Ambari-Metriken, Ranger, Farbton	Trino, Hive³, HDFS, ZooKeeper, Ambari-Metriken, Farbton
KAFKA	Kafka Broker, HDFS, ZooKeeper, Ambari Metrics, Ranger, Hue	Kafka Broker, HDFS, ZooKeeper, Ambari-Metriken, Hue

¹ HADOOP_EXTENDED besteht aus Komponenten, die Sie erstellt haben, bevor Clusterprofile verfügbar waren.

²Die Hive-Metastore-Komponente aus dem Hive-Service wird zur Verwaltung der Metadaten in Spark verwendet.

³Die Hive-Metastore-Komponente aus dem Hive-Service wird zur Verwaltung der Hive-Metadatenentitys im Trino verwendet.

Apache Hadoop-Versionen in Clusterprofilen

In der folgenden Tabelle sind die Hadoop-Komponentenversionen aufgeführt, die in Clusterprofilen enthalten sind, die der ODH-Version entsprechen.

Rechtes Auge - 1.x


Clusterprofil	Version
HADOOP_EXTENDED	HDFS 3.1, Hive 3.1, Spark 3.0.2
HADOOP	HDFS 3.1
NIVEAU	Hive 3.1
SPARK	Spark 3.0.2
HBASE	HBase 2.2
TRINO	Trino 360
KAFKA	Kafka 2.1.0

Rechtes Auge - 2.x


Clusterprofil	Version
HADOOP_EXTENDED	HDFS 3.3, Hive 3.1, Spark 3.2
HADOOP	HDFS 3.3
NIVEAU	Hive 3.1
SPARK	Spark 3.2
HBASE	HBase 2.2
TRINO	Trino 389

Oracle Cloud Infrastructure - Dokumentation