Clustermetriken verwalten

Mit Metriken, Alarmen und Benachrichtigungen können Sie Zustand, Kapazität und Performance Ihrer Big Data Service-Ressourcen überwachen.

Erforderliche IAM-Policy

Um Ressourcen zu überwachen, benötigen Sie den erforderlichen Zugriffstyp in einer von einem Administrator geschriebenen Policy. Dabei handelt es sich um eine Rolle, ob Sie die Konsole oder die REST-API mit einem SDK, einer CLI oder einer anderen Toolanwendung verwenden. Die Policy muss Ihnen Zugriff auf die Monitoring-Services und die überwachten Ressourcen erteilen. Wenn Sie eine Aktion ausführen und eine Meldung erhalten, dass Sie keine Berechtigung haben oder nicht autorisiert sind, fragen Sie den Administrator, welchem Zugriffstyp Ihnen erteilt wurde und in welchem Compartment Sie arbeiten möchten. Weitere Informationen über Benutzerautorisierungen für Monitoring und Notifications finden Sie im Abschnitt "Authentifizierung und Autorisierung" für folgende Services: Monitoring oder Notifications.

Verfügbare Metriken: oci_big_data_service

Für Big Data Service sind zwei Typen von Metriken verfügbar.

Clustermetriken

Mit Clustermetriken können Sie einen Bericht auf Clusterebene abrufen und die verschiedenen verteilten KPIs überwachen.

Knotenmetriken

Mit Knotenmetriken können Sie Berichte auf Knotenebene abrufen und den Status einzelner Knoten des Clusters überwachen.

Big Data Service gibt Metriken aus, wenn das VMS nicht fehlerfrei ist. Beispiel: Eine Metrik wird ausgegeben, wenn die VM heruntergefahren ist, und keine Metriken, wenn das VMS hochgefahren ist oder die VM den Status STOPPED aufweist.

Hinweis

Big Data Service stellt DenseIO-bezogene Wartungsereignisse nicht über Metriken bereit, wenn die Compute-Aktion DISABLE oder TERMINATE lautet.

Resource-Principal-Metriken

Mit Metriken für Resource Principal Session Tokens (RPST) können Sie den Tokenlebenszyklus, die Gültigkeit und den Aktualisierungsstatus proaktiv überwachen.

Metrikdimensionen


Dimension	Beschreibung
resourceId	OCID des Big Data Service-Knotens oder -Clusters, je nach Metrik.
clusterOcid	OCID des Big Data Service-Clusters.
clusterName	Name des Big Data Service-Clusters.
resourceType	`BigDataClusterNode` (für Knotenmetriken) oder `BigDataCluster` (für Clusterebene).
resourceDisplayName	Knotenname, der in der Clusterdetails-UI verfügbar ist.

Big Data Service-Metriken umfassen die folgenden Dimensionen:

resourceId
Die Oracle Cloud-ID (OCID) des Big Data Service-Clusters (für Clustermetriken).

Die Oracle Cloud-ID (OCID) des Big Data Service-Knotens (für Knotenmetriken)
resourceType
BigDataCluster (für Clustermetriken)

BigDataClusterNode (für Knotenmetriken)
resourceDisplayName
Dieses Feld dient als eindeutige ID für jede Metrikentität. Das Feld ist der Knotenname, der auf der Seite "Clusterdetails" gefunden werden kann.

MaintenanceStatus spezifische Dimensionen

maintenanceDueTime
Die geplante Startzeit des 24-Stunden-Wartungsfensters.
computeMaintenanceAction
Die Aktion, die Oracle Cloud Infrastructure während einer geplanten Wartung mit einer Instanz ausführt.
- REBOOT: Die Instanz wird vom physischen Host, der gewartet werden muss, zu einem fehlerfreien Host migriert. Wenn keine Livemigration möglich ist, wird die Instanz neu migriert.
- REBUILD_IN_PLACE: Die Instanz wird gestoppt, auf derselben physischen Hardware neu erstellt und neu gestartet. Während des Wartungsprozesses kommt es zu einer Ausfallzeit von mehreren Stunden.
recommendedAction
Die Aktion, die Sie vor dem geplanten Wartungsereignis ausführen können und steuern, wie und wann Ihre Anwendungen Ausfallzeiten aufweisen.
- REBOOT: Sie können einen Clusterknoten neu starten. Siehe Knoten eines Clusters neu starten.

Die in der folgenden Tabelle aufgeführten Metriken sind automatisch für jedes Cluster verfügbar, das Sie erstellen. Sie müssen kein Monitoring für die Ressource aktivieren, um diese Metriken abzurufen.


Metrik	Metrikanzeigename	Maßeinheit	Beschreibung	Resource Type
`HdfsSpaceUsed`	Verwendeter HDFS-Speicher	Byte	Insgesamt im Cluster belegter HDFS-Speicherplatz	Cluster
`HdfsSpaceFree`	Freier HDFS-Speicherplatz	Byte	Gesamter freier HDFS-Speicherplatz im Cluster	Cluster
`YarnJobsCompleted`	Yarn-Jobs abgeschlossen	Jobs/Min.	Anzahl von YARN-Jobs, die in diesem Cluster abgeschlossen wurden	Cluster
`SparkJobsCompleted`	Abgeschlossene Spark-Jobs	Jobs/Min.	Anzahl von Spark-Jobs, die in diesem Cluster abgeschlossen wurden	Cluster
`ServiceCertificateExpiryTime`	Ablaufzeit des Servicezertifikats	Tage	Anzahl der verbleibenden Tage, bis ein bestimmtes Servicezertifikat im Cluster abläuft	Cluster
`CpuUtilization`	CPU-Auslastung	Prozent	Belegte CPU in Prozent	Knoten
`DiskUtilization`	Datenträgerauslastung	Byte	Datenträger-Speicherplatz belegt	Knoten
`MemoryUtilization`	Speicherauslastung	Byte	Gesamtspeicher belegt	Knoten
`NetworkBytesIn`	Netzwerkbyte eingehend	Byte/Min.	Eingehende Netzwerkbyte pro Minute	Knoten
`NetworkBytesOut`	Netzwerkbyte ausgehend	Byte/Min.	Ausgehende Netzwerkbyte pro Minute	Knoten
`CertificateExpiryTime`	Ablaufzeit des Zertifikats	Tage	Tage bis Zertifikatsablauf	Knoten
`MaintenanceStatus`	Wartungsstatus	Zahl	Der Wert 0 gibt an, dass für den Knoten kein Neustart der Wartung geplant ist. Der Wert 1 gibt an, dass für den Knoten ein Wartungsneustart geplant ist.	Knoten
`ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold`	Tokenablaufalert	Boolescher Wert	Gibt an, ob das RPST-Token 80% seiner Lebensdauer überschritten hat.	BigDataClusterNode
`ResourcePrincipalSessionTokenStatus`	RPST-Status	Anzahl	1: Token abgelaufen, 2: Token fehlt. 0: fehlerfreies Token.	BigDataClusterNode
`ResourcePrincipalTokenRefreshedInLast30Mins`	Tokenaktualisierungsstatus	Boolescher Wert	Gibt an, ob das RPST-Token in den letzten 30 Minuten auf der Ebene cluster aktualisiert wurde.	BigDataCluster

Oracle Cloud Infrastructure - Dokumentation

Clustermetriken verwalten

Erforderliche IAM-Policy

Verfügbare Metriken: oci_big_data_service