Clustermetriken verwalten
Mit Metriken, Alarmen und Benachrichtigungen können Sie Zustand, Kapazität und Performance Ihrer Big Data Service-Ressourcen überwachen.
Erforderliche IAM-Policy
Um Ressourcen zu überwachen, benötigen Sie den erforderlichen Zugriffstyp in einer von einem Administrator geschriebenen Policy. Dabei handelt es sich um eine Rolle, ob Sie die Konsole oder die REST-API mit einem SDK, einer CLI oder einer anderen Toolanwendung verwenden. Die Policy muss Ihnen Zugriff auf die Monitoring-Services und die überwachten Ressourcen erteilen. Wenn Sie eine Aktion ausführen und eine Meldung erhalten, dass Sie keine Berechtigung haben oder nicht autorisiert sind, fragen Sie den Administrator, welchem Zugriffstyp Ihnen erteilt wurde und in welchem Compartment Sie arbeiten möchten. Weitere Informationen über Benutzerautorisierungen für Monitoring und Notifications finden Sie im Abschnitt "Authentifizierung und Autorisierung" für folgende Services: Monitoring oder Notifications.
Verfügbare Metriken: oci_big_data_service
Für Big Data Service sind zwei Typen von Metriken verfügbar.
- Clustermetriken
-
Mit Clustermetriken können Sie einen Bericht auf Clusterebene abrufen und die verschiedenen verteilten KPIs überwachen.
- Knotenmetriken
-
Mit Knotenmetriken können Sie Berichte auf Knotenebene abrufen und den Status einzelner Knoten des Clusters überwachen.
Big Data Service gibt Metriken aus, wenn das VMS nicht fehlerfrei ist. Beispiel: Eine Metrik wird ausgegeben, wenn die VM heruntergefahren ist, und keine Metriken, wenn das VMS hochgefahren ist oder die VM den Status STOPPED aufweist.
Hinweis
Big Data Service stellt DenseIO-bezogene Wartungsereignisse nicht über Metriken bereit, wenn die Compute-Aktion DISABLE oder TERMINATE lautet. - Resource-Principal-Metriken
-
Mit Metriken für Resource Principal Session Tokens (RPST) können Sie den Tokenlebenszyklus, die Gültigkeit und den Aktualisierungsstatus proaktiv überwachen.
Metrikdimensionen
Dimension Beschreibung resourceId OCID des Big Data Service-Knotens oder -Clusters, je nach Metrik. clusterOcid OCID des Big Data Service-Clusters. clusterName Name des Big Data Service-Clusters. resourceType BigDataClusterNode
(für Knotenmetriken) oderBigDataCluster
(für Clusterebene).resourceDisplayName Knotenname, der in der Clusterdetails-UI verfügbar ist.
Big Data Service-Metriken umfassen die folgenden Dimensionen:
- resourceId
Die Oracle Cloud-ID (OCID) des Big Data Service-Clusters (für Clustermetriken).
Die Oracle Cloud-ID (OCID) des Big Data Service-Knotens (für Knotenmetriken)
- resourceType
BigDataCluster
(für Clustermetriken)BigDataClusterNode
(für Knotenmetriken) - resourceDisplayName
Dieses Feld dient als eindeutige ID für jede Metrikentität. Das Feld ist der Knotenname, der auf der Seite "Clusterdetails" gefunden werden kann.
- maintenanceDueTime
Die geplante Startzeit des 24-Stunden-Wartungsfensters.
- computeMaintenanceAction
Die Aktion, die Oracle Cloud Infrastructure während einer geplanten Wartung mit einer Instanz ausführt.
REBOOT
: Die Instanz wird vom physischen Host, der gewartet werden muss, zu einem fehlerfreien Host migriert. Wenn keine Livemigration möglich ist, wird die Instanz neu migriert.REBUILD_IN_PLACE
: Die Instanz wird gestoppt, auf derselben physischen Hardware neu erstellt und neu gestartet. Während des Wartungsprozesses kommt es zu einer Ausfallzeit von mehreren Stunden.
- recommendedAction
Die Aktion, die Sie vor dem geplanten Wartungsereignis ausführen können und steuern, wie und wann Ihre Anwendungen Ausfallzeiten aufweisen.
REBOOT
: Sie können einen Clusterknoten neu starten. Informationen hierzu finden Sie unter Clusterknoten neu starten.
Die in der folgenden Tabelle aufgeführten Metriken sind automatisch für jedes Cluster verfügbar, das Sie erstellen. Sie müssen kein Monitoring für die Ressource aktivieren, um diese Metriken abzurufen.
Metrik | Metrikanzeigename | Maßeinheit | Beschreibung | Resource Type |
---|---|---|---|---|
HdfsSpaceUsed |
Verwendeter HDFS-Speicher | Byte | Insgesamt im Cluster belegter HDFS-Speicherplatz | Cluster |
HdfsSpaceFree |
Freier HDFS-Speicherplatz | Byte | Gesamter freier HDFS-Speicherplatz im Cluster | Cluster |
YarnJobsCompleted |
Yarn-Jobs abgeschlossen | Jobs/Min. | Anzahl von YARN-Jobs, die in diesem Cluster abgeschlossen wurden | Cluster |
SparkJobsCompleted |
Abgeschlossene Spark-Jobs | Jobs/Min. | Anzahl von Spark-Jobs, die in diesem Cluster abgeschlossen wurden | Cluster |
ServiceCertificateExpiryTime |
Ablaufzeit des Servicezertifikats | Tage | Anzahl der verbleibenden Tage, bis ein bestimmtes Servicezertifikat im Cluster abläuft | Cluster |
CpuUtilization |
CPU-Auslastung | Prozent | Belegte CPU in Prozent | Knoten |
DiskUtilization |
Datenträgerauslastung | Byte | Datenträger-Speicherplatz belegt | Knoten |
MemoryUtilization |
Speicherauslastung | Byte | Gesamtspeicher belegt | Knoten |
NetworkBytesIn |
Netzwerkbyte eingehend | Byte/Min. | Eingehende Netzwerkbyte pro Minute | Knoten |
NetworkBytesOut |
Netzwerkbyte ausgehend | Byte/Min. | Ausgehende Netzwerkbyte pro Minute | Knoten |
CertificateExpiryTime |
Ablaufzeit des Zertifikats | Tage | Tage bis Zertifikatsablauf | Knoten |
MaintenanceStatus |
Wartungsstatus | Zahl | Der Wert 0 gibt an, dass für den Knoten kein Neustart der Wartung geplant ist. Der Wert 1 gibt an, dass für den Knoten ein Wartungsneustart geplant ist. | Knoten |
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold |
Tokenablaufalert | Boolescher Wert | Gibt an, ob das RPST-Token 80% seiner Lebensdauer überschritten hat. | BigDataClusterNode |
ResourcePrincipalSessionTokenStatus |
RPST-Status | Anzahl | 1: Token abgelaufen, 2: Token fehlt. 0: fehlerfreies Token. | BigDataClusterNode |
ResourcePrincipalTokenRefreshedInLast30Mins |
Tokenaktualisierungsstatus | Boolescher Wert | Gibt an, ob das RPST-Token in den letzten 30 Minuten auf der Ebene cluster aktualisiert wurde. | BigDataCluster |