Clustermetriken verwalten

Mit Metriken, Alarmen und Benachrichtigungen können Sie Zustand, Kapazität und Performance Ihrer Big Data Service-Ressourcen überwachen.

Erforderliche IAM-Policy

Um Ressourcen zu überwachen, benötigen Sie den erforderlichen Zugriffstyp in einer von einem Administrator geschriebenen Policy. Dabei handelt es sich um eine Rolle, ob Sie die Konsole oder die REST-API mit einem SDK, einer CLI oder einer anderen Toolanwendung verwenden. Die Policy muss Ihnen Zugriff auf die Monitoring-Services und die überwachten Ressourcen erteilen. Wenn Sie eine Aktion ausführen und eine Meldung erhalten, dass Sie keine Berechtigung haben oder nicht autorisiert sind, fragen Sie den Administrator, welchem Zugriffstyp Ihnen erteilt wurde und in welchem Compartment Sie arbeiten möchten. Weitere Informationen über Benutzerautorisierungen für Monitoring und Notifications finden Sie im Abschnitt "Authentifizierung und Autorisierung" für folgende Services: Monitoring oder Notifications.

Verfügbare Metriken: oci_big_data_service

Für Big Data Service sind zwei Typen von Metriken verfügbar.

Clustermetriken

Mit Clustermetriken können Sie einen Bericht auf Clusterebene abrufen und die verschiedenen verteilten KPIs überwachen.

Knotenmetriken

Mit Knotenmetriken können Sie Berichte auf Knotenebene abrufen und den Status einzelner Knoten des Clusters überwachen.

Big Data Service gibt Metriken aus, wenn das VMS nicht fehlerfrei ist. Beispiel: Eine Metrik wird ausgegeben, wenn die VM heruntergefahren ist, und keine Metriken, wenn das VMS hochgefahren ist oder die VM den Status STOPPED aufweist.

Hinweis

Big Data Service stellt DenseIO-bezogene Wartungsereignisse nicht über Metriken bereit, wenn die Compute-Aktion DISABLE oder TERMINATE lautet.
Resource-Principal-Metriken

Mit Metriken für Resource Principal Session Tokens (RPST) können Sie den Tokenlebenszyklus, die Gültigkeit und den Aktualisierungsstatus proaktiv überwachen.

Metrikdimensionen

Dimension Beschreibung
resourceId OCID des Big Data Service-Knotens oder -Clusters, je nach Metrik.
clusterOcid OCID des Big Data Service-Clusters.
clusterName Name des Big Data Service-Clusters.
resourceType BigDataClusterNode (für Knotenmetriken) oder BigDataCluster (für Clusterebene).
resourceDisplayName Knotenname, der in der Clusterdetails-UI verfügbar ist.

Big Data Service-Metriken umfassen die folgenden Dimensionen:

  • resourceId

    Die Oracle Cloud-ID (OCID) des Big Data Service-Clusters (für Clustermetriken).

    Die Oracle Cloud-ID (OCID) des Big Data Service-Knotens (für Knotenmetriken)

  • resourceType

    BigDataCluster (für Clustermetriken)

    BigDataClusterNode (für Knotenmetriken)

  • resourceDisplayName

    Dieses Feld dient als eindeutige ID für jede Metrikentität. Das Feld ist der Knotenname, der auf der Seite "Clusterdetails" gefunden werden kann.

MaintenanceStatus spezifische Dimensionen
  • maintenanceDueTime

    Die geplante Startzeit des 24-Stunden-Wartungsfensters.

  • computeMaintenanceAction

    Die Aktion, die Oracle Cloud Infrastructure während einer geplanten Wartung mit einer Instanz ausführt.

    • REBOOT: Die Instanz wird vom physischen Host, der gewartet werden muss, zu einem fehlerfreien Host migriert. Wenn keine Livemigration möglich ist, wird die Instanz neu migriert.
    • REBUILD_IN_PLACE: Die Instanz wird gestoppt, auf derselben physischen Hardware neu erstellt und neu gestartet. Während des Wartungsprozesses kommt es zu einer Ausfallzeit von mehreren Stunden.
  • recommendedAction

    Die Aktion, die Sie vor dem geplanten Wartungsereignis ausführen können und steuern, wie und wann Ihre Anwendungen Ausfallzeiten aufweisen.

Die in der folgenden Tabelle aufgeführten Metriken sind automatisch für jedes Cluster verfügbar, das Sie erstellen. Sie müssen kein Monitoring für die Ressource aktivieren, um diese Metriken abzurufen.

Metrik Metrikanzeigename Maßeinheit Beschreibung Resource Type
HdfsSpaceUsed Verwendeter HDFS-Speicher Byte Insgesamt im Cluster belegter HDFS-Speicherplatz Cluster
HdfsSpaceFree Freier HDFS-Speicherplatz Byte Gesamter freier HDFS-Speicherplatz im Cluster Cluster
YarnJobsCompleted Yarn-Jobs abgeschlossen Jobs/Min. Anzahl von YARN-Jobs, die in diesem Cluster abgeschlossen wurden Cluster
SparkJobsCompleted Abgeschlossene Spark-Jobs Jobs/Min. Anzahl von Spark-Jobs, die in diesem Cluster abgeschlossen wurden Cluster
ServiceCertificateExpiryTime Ablaufzeit des Servicezertifikats Tage Anzahl der verbleibenden Tage, bis ein bestimmtes Servicezertifikat im Cluster abläuft Cluster
CpuUtilization CPU-Auslastung Prozent Belegte CPU in Prozent Knoten
DiskUtilization Datenträgerauslastung Byte Datenträger-Speicherplatz belegt Knoten
MemoryUtilization Speicherauslastung Byte Gesamtspeicher belegt Knoten
NetworkBytesIn Netzwerkbyte eingehend Byte/Min. Eingehende Netzwerkbyte pro Minute Knoten
NetworkBytesOut Netzwerkbyte ausgehend Byte/Min. Ausgehende Netzwerkbyte pro Minute Knoten
CertificateExpiryTime Ablaufzeit des Zertifikats Tage Tage bis Zertifikatsablauf Knoten
MaintenanceStatus Wartungsstatus Zahl Der Wert 0 gibt an, dass für den Knoten kein Neustart der Wartung geplant ist. Der Wert 1 gibt an, dass für den Knoten ein Wartungsneustart geplant ist. Knoten
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold Tokenablaufalert Boolescher Wert Gibt an, ob das RPST-Token 80% seiner Lebensdauer überschritten hat. BigDataClusterNode
ResourcePrincipalSessionTokenStatus RPST-Status Anzahl 1: Token abgelaufen, 2: Token fehlt. 0: fehlerfreies Token. BigDataClusterNode
ResourcePrincipalTokenRefreshedInLast30Mins Tokenaktualisierungsstatus Boolescher Wert Gibt an, ob das RPST-Token in den letzten 30 Minuten auf der Ebene cluster aktualisiert wurde. BigDataCluster