ODH-Cluster planen und verstehen
Bevor Sie Big Data Service-Cluster erstellen, müssen Sie Cluster, Instanztypen und -ausprägungen sowie Clusterprofile planen und verstehen.
Weitere Informationen finden Sie unter:
Clusterlayout, -ausprägung und -speicherung planen
Bevor Sie den Prozess zum Erstellen eines Clusters starten, müssen Sie das Layout des Clusters, die Knotenausprägungen und den Speicher planen.
Knoten und Services werden auf verschiedenen Clustern unterschiedlich organisiert, je nachdem, ob das Cluster hochverfügbar (HA) und sicher ist oder nicht.
HA-Cluster verwenden
Verwenden Sie HA-Cluster für Produktionsumgebungen. Sie sind für Resilienz erforderlich und minimieren Ausfallzeiten.
In diesem Release muss ein Cluster hochverfügbar und sicher oder nichts von beidem sein.
Knotentypen
Es gibt folgende Typen von Knoten:
- Master- oder Utilityknoten enthalten die Services, die für den Betrieb und die Verwaltung des Clusters erforderlich sind. Diese Knoten speichern oder verarbeiten keine Daten.
- Worker-Knoten speichern und verarbeiten Daten. Der Verlust eines Worker-Knotens wirkt sich nicht auf den Betrieb des Clusters aus, kann aber die Performance beeinträchtigen.
- Reine Compute-Worker-Knoten verarbeiten Daten. Der Verlust eines reinen Compute-Worker-Knotens wirkt sich nicht auf den Betrieb des Clusters aus, kann aber die Performance beeinträchtigen.
- Edge-Knoten sind erweiterte Knoten für das Cluster, auf dem nur Clients installiert sind. Sie können zusätzliche Packages installieren und zusätzliche Anwendungen auf diesem Knoten anstelle von Worker-/Compute-/Master-Knoten ausführen, um Classpath-Konflikte und Ressourcenprobleme bei Clusterservices zu vermeiden.
High Availability-(HA-)Clusterlayout
Ein High-Availability-Cluster enthält zwei Masterknoten, zwei Utilityknoten, drei oder mehr Worker-Knoten und null oder mehr reine Compute-Worker-Knoten.
Knotentyp | Services auf ODH |
---|---|
Erster Masterknoten |
|
Zweiter Master-Knoten |
|
Erster Utilityknoten |
|
Zweiter Utilityknoten |
|
Worker-Knoten (max. 3) |
|
Reine Compute-Worker-Knoten |
|
Edge-Knoten |
|
Minimales Clusterlayout (nonHA)
Ein Nicht-High-Availability-Cluster enthält einen Masterknoten, einen Utilityknoten, drei oder mehr Worker-Knoten und null oder mehr reine Compute-Worker-Knoten.
Knotentyp | Services auf ODH |
---|---|
Masterknoten |
|
Utilityknoten |
|
Worker-Knoten |
|
Reine Compute-Worker-Knoten |
|
Edge-Knoten |
|
Die Knotenausprägung beschreibt die Compute-Ressourcen, die dem Knoten zugewiesen werden.
Die für Master-/Utilityknoten und Worker-Knoten verwendeten Ausprägungen können unterschiedlich sein. Es müssen jedoch alle Master-/Utilityknoten dieselbe Ausprägung und alle Worker-Knoten dieselbe Ausprägung aufweisen.
Die folgende Tabelle zeigt, welche Ausprägungen für die verschiedenen Knotentypen verwendet werden können. Weitere Informationen finden Sie unter Compute-Ausprägungen.
Eine Liste der von den einzelnen Ausprägungen bereitgestellten Ressourcen finden Sie unter:
- Flexible Ausprägungen
- Erweiterungsspeicher-VM-Instanzen
- Bare-Metal-Ausprägungen
- VM-Standardausprägungen
Knotenart | Verfügbare Ausprägungen | Erforderliche Anzahl virtuelle Netzwerkkarten (VNICs) |
---|---|---|
Master oder Utility |
VM.Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexibel VM.Standard.E4. FlexFeld * VM.Standard3. FlexFeld* VM.Optimized3. FlexFeld* VM.DenseIO.E4. Flexibel* VM.DenseIO.E5. Flex* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseIO2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
mindestens 3 Wird für das Clustersubnetz, das Subnetz für den DP-Zugriff und das Subnetz des Kunden verwendet * Sie müssen mindestens 3 OCPUs und 32 GB Speicher angeben. |
Worker |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexibel VM.Standard.E4. FlexFeld * VM.Standard3. FlexFeld* VM.Optimized3. FlexFeld* VM.DenseIO.E4. Flexibel* VM.DenseIO.E5. Flex* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
Mindestens 2 Wird für das Clustersubnetz und das Subnetz verwendet |
Reiner Compute Worker |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexibel VM.Standard.E4. FlexFeld * VM.Standard3. FlexFeld* VM.Optimized3. FlexFeld* VM.DenseIO.E4. Flexibel* VM.DenseIO.E5. Flex* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
Mindestens 2 Wird für das Clustersubnetz und das Subnetz verwendet |
Rand |
VM.Standard2.1* VM.Standard2.2* VM. Standard2.4 VM. Standard2.8 VM. Standard2.16 VM.Standard2.24 VM.Standard.E5. Flexibel VM.Standard.E4. FlexFeld * VM.Standard3. FlexFeld* VM.Optimized3. FlexFeld* VM.DenseIO.E4. Flexibel* VM.DenseIO.E5. Flex* VM.DenseIO2.8 VM.DenseIO2.16 VM.DenseIO2.24 BM.Standard2.52 BM.DenseI2.52 BM.HPC2.36 BM.Standard3.64* BM.Optimized3.36* BM.DenseIO.E4.128* BM.Standard.E4.128* |
Mindestens 2 Wird für das Clustersubnetz und das Subnetz des Kunden verwendet Hinweis: Da der Edge-Knoten spezifisch für Clientanwendungsfälle ist, wählen Sie die Ausprägung nach Bedarf für die Anwendung aus. |
* Beachten Sie, dass VM.Standard2.1 und VM.Standard2.2 kleine Ausprägungen sind, die keine großen Workloads unterstützen. Für VM.Standard.E4. Flex, VM.Standard3. Flex, VM.Standard.E5. Flex und VM.Optimized3. Sie müssen mindestens 1 OCPU und 16 GB Arbeitsspeicher angeben.
Nicht alle Ausprägungen sind standardmäßig verfügbar. Informationen dazu, welche Ausprägungen standardmäßig über die Cloud-Konsole verfügbar sind, finden Sie unter Mandantenlimits suchen. Informationen dazu, wie Sie eine Erhöhung der Servicelimits beantragen, finden Sie unter Erhöhung des Servicelimits beantragen.
Knoten, die auf Standard-VM-Ausprägungen basieren, verwenden einen netzgebundenen Blockspeicher.
Blockspeicher wird für auf DenseIO- und HPC-Ausprägungen basierende Knoten nicht unterstützt.
Alle Knoten weisen ein Boot-Volume mit 150 GB auf.
Option | Limits/Richtlinien |
---|---|
Minimaler anfänglicher Blockspeicher | 150 GB |
Standardmäßiger anfänglicher Blockspeicher * | 150 GB |
Minimaler zusätzlicher Blockspeicher | 150 GB |
Standardmäßiger zusätzlicher Blockspeicher * | 1 TB |
Erhöhungsschritt für (anfänglichen und zusätzlichen) Blockspeicher | 50 GB |
Maximaler Blockspeicher für einen einzelnen Knoten |
48 TB Die Gesamtgröße von 48 TB ergibt sich aus 12 Volumes mit jeweils 4 TB. Wenn Sie Blockspeicher mehrmals hinzufügen, bleibt das Maximum bei 48 TB. Es kann jedoch über mehr als 12 Volumes verteilt werden. |
Maximale Block-Volume-Größe |
4 TB Wenn Sie die maximalen 48 TB angeben, werden 12 Laufwerke mit jeweils 4 TB erstellt. Wenn Sie eine niedrigere Zahl angeben, werden ausreichend 4-TB-Geräte für diese Menge erstellt, und beim Hinzufügen von Speicher werden weitere Geräte erstellt. |
Sie können Master- oder Utilityknoten keinen weiteren Blockspeicher hinzufügen. Daher zeigen die folgenden Zahlen nur Anfangsgrößen.
Option | Limits/Richtlinien |
---|---|
Minimaler anfänglicher Blockspeicher | 150 GB |
Standardmäßiger anfänglicher Blockspeicher | 1 TB |
Minimaler zusätzlicher Blockspeicher | 150 GB |
Standardmäßiger zusätzlicher Blockspeicher | 1 TB |
Erhöhungsschritt für (anfänglichen und zusätzlichen) Blockspeicher | 50 GB |
Maximaler Blockspeicher für einen einzelnen Knoten | 32 TB |
Maximale Block-Volume-Größe | 32 TB |
MySQL Platzierung | Verschieben Sie für Utilityknoten /var/lib/mysql in /u01 , und erstellen Sie einen symbolischen Link. Dadurch wird verhindert, dass das Boot-Volume gefüllt wird. |
Option | Richtlinien |
---|---|
Standardmäßiger anfänglicher Blockspeicher | 2 TB |
Minimaler anfänglicher Blockspeicher | 150 GB |
Abfrageserverspeicher wird für Temporary Tablespace verwendet, um umfangreiche JOIN- und GROUP BY-Vorgänge auszuführen. 2 TB werden für die typische Verarbeitung empfohlen. Bei kleinen Umgebungen, beispielsweise Entwicklung, kann dieser Wert nach unten angepasst werden.
Berücksichtigen Sie die folgenden Faktoren, um eine optimale Performance zu erzielen:
- I/O-Durchsatz
- Networking zwischen Compute-Gerät und Blockspeichergerät.
Informationen hierzu finden Sie in der Oracle Cloud Infrastructure-Dokumentation unter Block-Volume-Perfomance.
In der folgenden Tabelle wird beschrieben, wie Big Data Service Block Volume-Speicher für Knoten mit verschiedenen Größen zuweist.
Überblick | Menge |
---|---|
Anfängliche Volume-Zuweisung für Masterknoten und Utilityknoten | 1 großes Volume |
Volume-Zuweisung für zusätzlichen Blockspeicher für Masterknoten und Utilityknoten | 1 großes Volume |
Anfängliche Volume-Zuweisung für Worker-Knoten. |
|
Volume-Zuweisung für zusätzlichen Blockspeicher für Worker-Knoten |
Die Mindestanzahl an Volumes, die die Speichergröße aufnehmen können, mit einer maximalen Volume-Größe von 4 TB pro Volume. (Das letzte Volume kann kleiner als 4 TB sein. |
Es wird empfohlen, Edge-Knoten für das Staging zu verwenden.
Instanztypen und Ausprägungen
Big Data Service-Clusterknoten werden in Oracle Cloud Infrastructure-Compute-Instanzen (Servern) ausgeführt.
Beim Erstellen eines Clusters wählen Sie einen Instanztyp aus, der bestimmt, ob die Instanz direkt auf der Bare-Metal-Instanz der Hardware oder in einer virtuellen Umgebung ausgeführt wird. Sie wählen auch eine Ausprägung aus, mit der die der Instanz zugewiesenen Ressourcen konfiguriert werden.
-
Bare Metal: Eine Bare Metal Compute-Instanz verwendet einen dedizierten physischen Server für den Knoten, um die beste Performance und starke Isolation zu gewährleisten.
-
Virtual Machine (VM): Durch Virtualisierung kann eine VM-Compute-Instanz mehrere isolierte Knoten hosten, die auf einem einzelnen physischen Bare-Metal-Rechner ausgeführt werden. VM-Instanzen sind weniger aufwendig als Bare-Metal-Instanzen und eignen sich zum Erstellen weniger anspruchsvoller Cluster, die nicht die Performance und Ressourcen (CPU, Arbeitsspeicher, Netzwerkbandbreite, Speicher) eines gesamten physischen Rechners für jeden Knoten erfordern.
VM-Instanzen werden auf derselben Hardware wie Bare-Metal-Instanzen mit derselben Firmware, demselben Softwarestack und derselben Netzwerkinfrastruktur ausgeführt.
Weitere Informationen zu Compute-Instanzen finden Sie unter Überblick über Compute.
Die Ausprägung bestimmt die Anzahl der CPUs, den Arbeitsspeicher und andere Ressourcen, die der Compute-Instanz zugewiesen sind, die den Clusterknoten hostet. Die verfügbaren Ausprägungen finden Sie in der Oracle Cloud Infrastructure-Dokumentation unter Clusterlayout, Ausprägung und Speicher planen.
Die Ausprägungen der Big Data Service-Masterknoten und der Worker-Knoten müssen nicht übereinstimmen. Die Ausprägungen aller Masterknoten müssen jedoch miteinander übereinstimmen, und die Ausprägungen aller Worker-Knoten müssen miteinander übereinstimmen.
Clusterprofile verstehen
Mit Clusterprofilen können Sie optimale Cluster für eine bestimmte Workload oder Technologie erstellen. Nachdem Sie ein Cluster mit einem bestimmten Clusterprofil erstellt haben, können dem Cluster weitere Hadoop-Services hinzugefügt werden.
Clusterprofiltypen
Mit Oracle Big Data Service können Sie Cluster für zahlreiche Clusterprofiltypen erstellen.
Clusterprofil | Komponenten (sicher und hoch verfügbar) | Komponenten |
---|---|---|
HADOOP_EXTENDED1 | Hive, Spark, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Hue, Oozie, Tez | Hive, Spark, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton, Oozie, Tez |
HADOOP | HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Farbton | HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton |
NIVEAU | Hive, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Farbton, Tez | Hive, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton, Tez |
SPARK | Spark, Hive2, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Farbton | Spark, Hive2, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton 2 |
HBASE | HBase, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Ranger, Farbton | HBase, HDFS, Garn, ZooKeeper, MapReduce2, Ambari-Metriken, Farbton |
TRINO | Trino, Hive3, HDFS, ZooKeeper, Ambari-Metriken, Ranger, Farbton | Trino, Hive3, HDFS, ZooKeeper, Ambari-Metriken, Farbton |
KAFKA | Kafka Broker, HDFS, ZooKeeper, Ambari Metrics, Ranger, Hue | Kafka Broker, HDFS, ZooKeeper, Ambari-Metriken, Hue |
1 HADOOP_EXTENDED besteht aus Komponenten, die Sie erstellt haben, bevor Clusterprofile verfügbar waren.
2Die Hive-Metastore-Komponente aus dem Hive-Service wird zur Verwaltung der Metadaten in Spark verwendet.
3Die Hive-Metastore-Komponente aus dem Hive-Service wird zur Verwaltung der Hive-Metadatenentitys im Trino verwendet.
Apache Hadoop-Versionen in Clusterprofilen
In der folgenden Tabelle sind die Hadoop-Komponentenversionen aufgeführt, die in Clusterprofilen enthalten sind, die der ODH-Version entsprechen.
Rechtes Auge - 1.x
Clusterprofil | Version |
---|---|
HADOOP_EXTENDED | HDFS 3.1, Hive 3.1, Spark 3.0.2 |
HADOOP | HDFS 3.1 |
NIVEAU | Hive 3.1 |
SPARK | Spark 3.0.2 |
HBASE | HBase 2.2 |
TRINO | Trino 360 |
KAFKA | Kafka 2.1.0 |
Rechtes Auge - 2.x
Clusterprofil | Version |
---|---|
HADOOP_EXTENDED | HDFS 3.3, Hive 3.1, Spark 3.2 |
HADOOP | HDFS 3.3 |
NIVEAU | Hive 3.1 |
SPARK | Spark 3.2 |
HBASE | HBase 2.2 |
TRINO | Trino 389 |