Überblick über Monitoring
Verwenden Sie den Oracle Cloud Infrastructure Monitoring-Service, um Cloud-Ressourcen mit den Metriken und Alarmen-Features aktiv und passiv zu überwachen. Erfahren Sie mehr über die Funktionsweise von Monitoring.
Funktionsweise von Monitoring
Der Monitoring-Service verwendet Metriken , um Ressourcen und alarme zu überwachen, um Sie zu benachrichtigen, wenn diese Metriken alarmspezifische Trigger erfüllen.
Metriken werden an den Monitoring-Service als Rohdatenpunkte oder Zeitstempel/Wert-Paare zusammen mit Dimensionen und Metadaten ausgegeben. Metriken stammen aus verschiedenen Quellen:
- Ressourcenmetriken werden automatisch von Oracle Cloud Infrastructure Ressourcen gepostet. Beispiel: Der Compute-Service postet Metriken für Monitoring aktivierte Compute-Instanzen über den oci_computeagent-Namespace. Eine dieser Metriken ist
CpuUtilization
. Siehe Unterstützte Services und Standardmetrikdiagramme anzeigen. - Benutzerdefinierte Metriken, die mit der Monitoring-API veröffentlicht wurden.
- Daten, die mit Connector-Hub an neue oder vorhandene Metriken gesendet werden (mit Monitoring als Zielservice für einen Connector).
Sie können Metriken mit Connector-Hub aus dem Monitoring-Service übertragen. Weitere Informationen finden Sie unter Connector mit einer Monitoring-Quelle erstellen.
Metrikdaten, die an den Monitoring-Service gepostet werden, werden nur Ihnen präsentiert oder von den Oracle Cloud Infrastructure-Features genutzt, die Sie zur Verwendung der Metrikdaten aktivieren.
Wenn Sie eine Metrik abfragen, gibt der Monitoring-Service aggregierte Daten entsprechend den angegebenen Parametern zurück. Sie können einen Bereich (wie die letzten 24 Stunden), eine Statistik und ein Intervall angeben. In der Konsole wird ein Monitoringdiagramm pro Metrik für ausgewählte Ressourcen angezeigt. Die aggregierten Daten in jedem Diagramm entsprechen dem ausgewählten Statistik- und Intervall. API-Anforderungen können optional nach Dimension filtern und eine Auflösung angeben. API-Antworten umfassen den Metriknamen sowie das zugehörige Quell-Compartment und den Metrik-Namespace . Sie können die aggregierten Daten in einer Visualisierung oder einer Diagramm-Library einfügen.
Metrik- und Alarmdaten sind über die Konsole, die CLI und die API zugänglich. Informationen zu Aufbewahrungszeiträumen finden Sie unter Speicherlimits.
Das Alarmfeature des Monitoring-Service veröffentlicht Alarm-Nachrichten für konfigurierte Ziele, z.B. Themen in Notifications und Streams in Streaming.
Metrikfeature - Überblick
Das Metrikfeature übermittelt Metrikdaten zu Zustand, Kapazität und Performance von Cloud-Ressourcen.
Eine Metrik ist ein Maß für Integrität, Kapazität oder Performance einer Ressource . Ressourcen, Services und Anwendungen geben Metriken an den Monitoringservice aus. Gemeinsame Metriken reflektieren Daten im Zusammenhang mit:
- Verfügbarkeit und Latenz
- Betriebszeit und Ausfallzeit der Anwendung
- Abgeschlossene Transaktionen
- Nicht erfolgreiche und erfolgreiche Vorgänge
- KPIs (Key Performance-Indikatoren), wie Sales- und Engagement-Quantifizierer
Durch die Abfrage dieser Daten über Monitoring können Sie verstehen, wie gut die Systeme und Prozesse arbeiten, um die Serviceebenen zu erreichen, die Sie für Ihre Kunden festschreiben. Beispiel: Sie können die CPU-Auslastung und Datenträger-Lesezugriffe der Compute-Instanzen überwachen. Mit diesen Daten können Sie dann bestimmen, ob weitere Instanzen bereitgestellt werden sollen, um höhere Auslastungen zu handhaben, Probleme mit der Instance zu beheben oder das Systemverhalten besser zu verstehen.
Beispielmetrik: Fehlerrate
Für die Anwendungsintegrität ist einer der üblichen KPIs die Fehlerrate, die im Allgemeinen mit der Anzahl der nicht erfolgreichen Transaktionen dividiert durch die gesamten Transaktionen definiert wird. Dieser KPI wird in der Regel über die Software für das Monitoring und das Management der Anwendung bereitgestellt.
Als Entwickler können Sie diesen KPI aus Anwendungen mit benutzerdefinierten Metriken erfassen. Beobachtungen jedes Mal erfassen, wenn eine Anwendungstransaktion ausgeführt wird, und posten Sie diese Daten dann an den Monitoring-Service. Richten Sie in diesem Fall die Metriken für das Erfassen von nicht erfolgreichen Transaktionen, erfolgreichen Transaktionen und der Transaktionslatenzzeit (Zeit pro abgeschlossener Transaktion) ein.
Alarmfeature - Überblick
Mit Alarmen kann Zustand, Kapazität und Performance von Cloud-Ressourcen überwacht werden.
Das Alarmfeature des Monitoring-Service benachrichtigt Sie in Kooperation mit dem konfigurierten Zielservice, wenn Metriken alarmspezifische Trigger erfüllen. Die vorherige Abbildung zeigt den Ablauf, beginnend mit Ressourcen, die Metrik-Datenpunkte an Monitoring senden. Wenn ein Alarm ausgelöst wird, sendet er eine Alarmnachricht an das konfigurierte Ziel. Bei Notifications werden Nachrichten im konfigurierten Thema an Abonnements gesendet. Bei Streaming werden Nachrichten an den konfigurierten Stream gesendet. (Diese Abbildung deckt keine rohen und aggregierten Metrikdaten ab. Diese Details finden Sie in der Abbildung unter "Überblick über Monitoring oben auf dieser Seite.)
Sofern dies konfiguriert wurde, werden Sie im festgelegten Intervall durch Wiederholungsbenachrichtigungen über einen fortlaufenden Auslösestatus informiert. Sie können auch benachrichtigt werden, wenn ein Alarm wieder in den Status "OK" wechselt oder wenn ein Alarm zurückgesetzt wird.
Alarmauswertungen
Monitoring wertet Alarme einmal pro Minute, um den Alarmstatus zu finden.
Wenn der Alarm Benachrichtigungen aufteilt, wertet Monitoring jeden verfolgten Metrikstream aus. Wenn die Auswertung dieses Metrikstreams einen neuen FIRING
-Status oder einen anderen qualifizierenden Ereignis angibt, sendet Monitoring eine Alarmnachricht.
Monitoring verfolgt Metrikstreams pro Alarm für qualifizierende Ereignisse, Nachrichten unterliegen jedoch den Zielservicelimits.
Abbildung der Alarmauswertung
Betrachten Sie einen Alarm, der das 90. Perzentil der Metrik CpuUtilization
misst.
{
"compartmentId": "ocid1.compartment.oc1..exampleuniqueID",
"destinations": ["ocid1.onstopic.exampleuniqueID"],
"displayName": "High CPU Utilization",
"id": "ocid1.alarm.oc1..exampleuniqueID",
"lifecycleState": "ACTIVE",
"metricCompartmentId": "ocid1.compartment.oc1..exampleuniqueID",
"namespace": "oci_computeagent",
"pendingDuration": "PT3M",
"query": "CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85",
"repeatNotificationDuration": "PT2H",
"severity": "WARNING",
"isEnabled": true,
"timeCreated": "2023-02-01T01:02:29.600Z",
"timeUpdated": "2023-02-03T01:02:29.600Z"
}
Hinweise zu diesem Beispielalarm:
- Das Perzentil wird in der Abfrage als Statistik (fett) angegeben:
CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
- Jeder Datenpunkt ist das 90. Perzentil (
percentile(0.9)
) eines einminütigen Fensters, das in der Abfrage als Intervall (fett) angegeben wird:CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
- Datenpunktwerte für diese Statistik können Nullwerte (absent) bis 100 sein.
- Datenpunktauswertungen:
- Bei einem Datenpunktwert größer als 85 ist die Auswertung "true" (
1
). Eine Auswertung "true" bedeutet, dass die Triggerregelbedingung erfüllt wurde. - Bei einem Datenpunktwert, der nicht größer als 85 ist, ist die Auswertung falsch (
0
).
- Bei einem Datenpunktwert größer als 85 ist die Auswertung "true" (
- Der Alarm wird erst ausgelöst, wenn die Bedingung Triggerregel drei aufeinanderfolgende Minuten lang erfüllt ist. Diese Konfiguration ist die Triggerverzögerung (
pendingDuration
) des Alarms, die aufPT3M
gesetzt ist. - Der Alarm aktualisiert seinen Status auf "OK", wenn die Verletzung in der letzten Minute eindeutig war.
Die folgende Abbildung zeigt einen aggregierten Metrikstream für den Beispielalarm. Jeder Datenpunkt wird durch ein Quadrat angezeigt.
Die folgende Tabelle zeigt aufeinanderfolgende Alarmauswertungen für den Beispielalarm. Der Alarm wird in einem beweglichen Fenster von drei einminütigen Intervallen ausgewertet.
Zeitstempel der Auswertungsperiode | Minuten in Periode | Datenpunktauswertungen* | Status |
---|---|---|---|
3 | [1 2 3] | [0 0 0] | OK |
4 | [2 3 4] | [0 0 1] | OK |
5 | [3 4 5] | [0 1 1] | OK |
6 | [4 5 6] | [1 1 1] | FIRING |
7 | [5 6 7] | [1 1 1] | FIRING |
8 | [6 7 8] | [1 1 0] | OK |
9 | [7 8 9] | [1 0 0] | OK |
10 | [8 9 10] | [0 0 0] | OK |
*Ein Wert von eins (1) bedeutet, dass die Triggerregel-Bedingung erfüllt ist.
So werden Datenpunkte gezählt
In diesem Abschnitt wird beschrieben, wie Sie die Anzahl der von einem Alarm abgerufenen Datenpunkte (oder Datenpunkte) bestimmen. Mit dieser Zahl können Sie die Monitoring-Preise schätzen.
Um die Anzahl der von einem Alarm abgerufenen Datenpunkte zu ermitteln, rufen Sie zuerst die Anzahl der Abfragestreams und die analysierten Minuten ab.
- Die Anzahl der Abfragestreams hängt von den von der Alarmabfrage zurückgegebenen Metrikstreams ab.
- Die analysierten Minuten hängen von den Alarmattributen
interval
,resolution
undpendingDuration
ab. Bei Alarmabfragen ist der einzige gültige Wert fürresolution
1m
. Weitere Informationen zuinterval
finden Sie unter Intervall. Weitere Informationen zuresolution
undpendingDuration
finden Sie unter Monitoring-API.
Jeder Alarm wird einmal pro Minute ausgewertet, und somit wird jeder Alarm 1440 Mal pro Tag ausgewertet. Jede Auswertung fragt die Daten im von interval
definierten Zeitfenster ab und prüft den Zeitraum, in dem der Alarm weiterhin durch pendingDuration
definiert ist. Daher werden analysierte Minuten in jeder Minute durch den folgenden Ausdruck berechnet:
Analysierte Minuten pro Minute = interval
* Obergrenze (pendingDuration
/ resolution
)
Informationen zur internen Rücksetzungsperiode
Der interne Rücksetzungszeitraum bestimmt, wann ein Alarm die Prüfung auf eine fehlende Metrik stoppt, die den Auslösestatus in der vorherigen Auswertung ausgelöst hat. Wenn die Metrik für den gesamten Zeitraum abwesend ist, ignorieren spätere Alarmauswertungen den angegebenen Metrikstream. Wenn keine anderen Metrikstreams den Auslösestatus für den Alarm verursachen, wechselt der Alarm zu OK und sendet eine RESET-Nachricht. Standardmäßig wird die RESET-Nachricht nach 13 Minuten empfangen (interne Zurücksetzungsfrist plus slack-Standardzeitraum von 3 Minuten). Sie können den slack-Zeitraum anpassen.
Die Länge des internen Reset-Zeitraums wird global bei 10 Minuten konfiguriert, wodurch die Alarmhistorie eine Differenz von 10 Minuten anzeigt.
Der Beginn einer internen Reset-Periode hängt vom Alarmtyp ab. Bei Schwellenwertalarmen beginnt die interne Rücksetzungsperiode, wenn die erste Abwesenheit ermittelt wird. Bei Abwesenheitsalarmen beginnt die interne Rücksetzungsperiode nach Abschluss des Abwesenheitserkennungszeitraums (Standardwert 2 Stunden, kann angepasst werden).
Datenpunkte, die während einer internen Rücksetzungsperiode erfasst wurden
Jede Auswertung während der zehnminütigen internen Rücksetzungsperiode berücksichtigt alle Datenpunkte in diesem Zeitraum.
Beispiel: Ein Metrikstream (A
), der den Schwellenwert überschreitet (rote Linie in den folgenden Diagrammen gestrichelt). Der Alarm wird ausgelöst (F
). Wenn ein Mangel an ausgegebenen Datenpunkten erkannt wird, beginnt eine interne Zurücksetzungsfrist.
Das folgende Diagramm zeigt einen einzelnen internen Rücksetzungszeitraum für den Metrikstream A
, von der Zeit t5
bis t15
. Zum Zeitpunkt t16
wird der Metrikstream A
nicht mehr ausgewertet.
Das folgende Diagramm zeigt zwei interne Rücksetzungsperioden für Metrikstream A
, von den Zeitpunkten t3
bis t5
und von t6
bis t16
. A
gibt einen Datenpunkt in t6
aus und startet einen weiteren internen Rücksetzungszeitraum. Zum Zeitpunkt t17
wird der Metrikstream A
nicht mehr ausgewertet.
Beispiel für Schwellenwertalarm
Ein Schwellenwertalarm meldet Metrikstreams, die außerhalb des Schwellenwerts auftreten. Wenn ein zuvor problematischer Metrikstream nicht vorhanden ist, startet der Alarm den internen Zurücksetzungszeitraum für den Metrikstream.
In diesem Beispiel werden vier Metrikstreams von einem Schwellenwertalarm ausgewertet. Die Konsole zeigt die anfänglichen Übergangszustände "Feuern" (1:30) und "OK" (1:51). Die interne Reset-Periode tritt auf, während der Alarm ausgelöst wird.
Die interne Rücksetzungsperiode und andere wichtige Ereignisse in diesem Beispiel werden in der folgenden Tabelle beschrieben.
Zeit | Bundesland | Übergang | Veranstaltungen | Benachrichtigungen (siehe Nachrichtentypen) |
---|---|---|---|---|
12:0 | OK |
OK |
Alle Emissionen liegen innerhalb der Schwelle. | FIRING_TO_OK |
1:30 | FIRING |
FIRING |
Emission von resource1 überschreitet Schwellenwert. | OK_TO_FIRING |
1:35 | FIRING |
-- |
Für resource1 wird keine Emission ermittelt. Der Alarm startet den internen Reset-Zeitraum für resource1. | -- |
1:38 | FIRING |
-- |
Für resource2 wird keine Emission ermittelt. Der Alarm startet den internen Reset-Zeitraum für resource2. | -- |
1:45 | FIRING |
-- |
Die interne Rücksetzungsperiode endet für resource1, sodass der Alarm nicht mehr auf Emissionen von resource1 prüft. Der Alarm wird jedoch immer noch ausgelöst, da sich resource2 noch in einer eigenen internen Zurücksetzungsperiode befindet. | -- |
1:48 | OK |
OK |
Die interne Rücksetzungsperiode endet für resource2, sodass der Alarm nicht mehr auf Emissionen von resource2 prüft. Die Emissionen der verbleibenden Ressourcen (resource3 und resource4) liegen innerhalb des Schwellenwerts. | RESET (nach dem dreiminütigen slack-Zeitraum um ca. 1:51 Uhr gesendet) |
Abwesenheitsalarm - Beispiel
Ein Abwesenheitsalarm meldet abwesende Metrikstreams. Wenn ein Metrikstream nicht vorhanden ist, startet der Alarm den Abwesenheitserkennungszeitraum für den Metrikstream (Standardwert von zwei Stunden kann angepasst werden). Nach Abschluss des Abwesenheitserkennungszeitraums startet der Alarm die interne Zurücksetzungsperiode für den Metrikstream.
In diesem Beispiel wird ein Metrikstream von einem Abwesenheitsalarm ausgewertet, der den standardmäßigen zweistündigen Abwesenheitserkennungszeitraum und den standardmäßigen dreiminütigen slack-Zeitraum verwendet. Die Konsole zeigt die anfänglichen Übergangszustände "Feuern" (2:00) und "OK" (4:10). Die interne Reset-Periode tritt auf, während der Alarm ausgelöst wird.
Die interne Rücksetzungsperiode und andere wichtige Ereignisse in diesem Beispiel werden in der folgenden Tabelle beschrieben.
Zeit | Bundesland | Übergang | Veranstaltungen | Benachrichtigungen (siehe Nachrichtentypen) |
---|---|---|---|---|
1:00 Uhr | OK |
-- | Emissionen werden erkannt. | |
2:00 Uhr | FIRING |
FIRING |
Für resource-z wurde keine Emission ermittelt. Der Alarm startet die Abwesenheitserkennungsperiode für resource-z. | OK_TO_FIRING |
4:0 | FIRING |
-- |
Die Abwesenheitserkennungsperiode für resource-z endet. Der Alarm startet den internen Reset-Zeitraum für resource-z. | -- |
4:10 | OK |
OK |
Die interne Reset-Periode endet für resource-z, sodass der Alarm nicht mehr auf Emissionen von resource-z überprüft. Es werden keine Metrikstreams mehr vom Alarm überwacht, sodass der Alarm in den Status "OK" übergeht. | RESET (nach dem dreiminütigen slack-Zeitraum um ca. 4:13 Uhr gesendet) |
Erforderliche Zeit bis zur Berücksichtigung von Alarmaktualisierungen
Es kann bis zu fünf Minuten dauern, bis Aktualisierungen von Alarmen überall berücksichtigt werden.
Beispiel: Wenn Sie einen Alert in aufgeteilte Benachrichtigungen aktualisieren, kann es bis zu fünf Minuten dauern, bis die Metrikstreamstatus in der Konsole aufgefüllt wird.
Nach Alarmen suchen
Sie können mit unterstützten Attributen nach Alarmen suchen.
Weitere Informationen über die Suche finden Sie unter Überblick über die Suche. Attributbeschreibungen finden Sie unter Alarmreferenz.
-
id
-
displayName
-
compartmentId
-
metricCompartmentId
-
namespace
-
query
-
severity
-
destinations
-
suppression
-
isEnabled
-
lifecycleState
-
timeCreated
-
timeUpdated
-
tags
Der Nachrichtentyp zeigt den Grund für das Senden der Nachricht an.
Der angegebene Nachrichtentyp wird zu dem angegebenen Zeitpunkt plus der konfigurierten Triggerverzögerung des Alarms gesendet, sofern vorhanden.
Wiederholungsnachrichten werden auch gesendet, wenn sie im Alarm konfiguriert sind.
In der folgenden Tabelle sind der Alarmstatus und -übergang für jeden Nachrichtentyp aufgeführt.
Nachrichtentyp | Bundesland | Übergang | Anmerkungen |
---|---|---|---|
OK_TO_FIRING |
FIRING |
von OK bis FIRING |
|
FIRING_TO_OK |
OK |
von FIRING bis OK |
|
REPEAT |
FIRING |
-- | Dieser Nachrichtentyp wird gesendet, wenn der Alarm den Status FIRING beibehält und der Alarm für Wiederholungsbenachrichtigungen konfiguriert ist. |
RESET |
OK |
von FIRING bis OK |
Wichtig: Wenn eine Dieser Nachrichtentyp wird gesendet, wenn der Alarm nach mindestens einem internen Zurücksetzen in den Status Mögliche Ursachen für einen fehlenden Metrikstream: Die Ressource, von der die Metrik ausgegeben wurde, wurde möglicherweise verschoben oder beendet, oder die Metrik wird möglicherweise nur bei einem Fehler ausgegeben. Weitere Informationen zur internen Rücksetzungsperiode finden Sie unter Informationen zur internen Rücksetzungsperiode. |
Nachrichtenformat und Beispiele
Monitoring-Konzepte
Die folgenden Konzepte sind für die Arbeit mit Monitoring von wesentlicher Bedeutung.
- Aggregierte Daten
- Das Ergebnis bei der Anwendung einer Statistik und des Intervalls auf eine Auswahl von Rohdatenpunkten für eine Metrik. Beispiel: Sie können die Statistik
max
und dasIntervall1h
(eine Stunde) auf die Rohdatenpunkte der letzten 24 Stunden für die MetrikCpuUtilization
anwenden. Aggregierte Daten werden in Standardmetrikdiagrammen in der Konsole angezeigt. Sie können auch Metrikabfragen für bestimmte Gruppen von aggregierten Daten erstellen. Anweisungen hierzu finden Sie unter Standardmetrikdiagramme anzeigen und Metrikabfragen erstellen. - Alarm
- Die auszuwertende Alarmabfrage und das Benachrichtigungsziel, das verwendet werden soll, wenn sich der Alarm im Auslösestatus befindet, zusammen mit anderen Alarmeigenschaften.
- Alarmabfrage
- Der Monitoring Query Language-(MQL-)Ausdruck, der für den Alarm ausgewertet werden soll. Eine Alarmabfrage muss eine Metrik, eine Statistik, ein Intervall und eine Triggerregel (Schwellenwert oder Abwesenheit) angeben. Das Alarmfeature des Monitoring-Service interpretiert Ergebnisse für jede zurückgegebene Zeitreihe als booleschen Wert, wobei null für "false" steht und ein Wert ungleich null für "true" darstellt. Ein Wert von "true" bedeutet, dass die Triggerregelbedingung erfüllt wurde.
- Datenpunkt
- Ein Zeitstempel/Wert-Paar für die angegebene Metrik. Beispiel:
2022-05-10T22:19:00Z, 10.4
- Dimension
- Ein Qualifier, der in einer Metrikdefinition angegeben wird. Beispiel: Ressourcen-ID (
resourceId
), die in den Definitionen der oci_computeagent-Metriken angegeben wird. Mit Dimensionen können Sie Metrikdaten filtern oder gruppieren. Beispiel-Name/Wert-Paar für Dimensionen zum Filtern nach Availability-Domain:availabilityDomain = "VeBZ:PHX-AD-1"
- Häufigkeit
- Der Zeitraum zwischen jedem geposteten Rohdatenpunkt für eine Metrik. (Rohdatenpunkte werden vom Metrik-Namespace an den Monitoring-Service gepostet.) Die Häufigkeit variiert je nach Metrik. Standardservicemetriken weisen normalerweise eine Häufigkeit von 60 Sekunden (auch ein Datenpunkt pro Minute gepostet) auf. Siehe auch Auflösung.
- Intervall
- Das Zeitfenster, in dem die Gruppe von Rohdatenpunkten konvertiert werden.
- Nachricht
- Der Inhalt, den das Alarmfeature des Monitoring-Service in Themen in den konfigurierten Benachrichtigungszielen des Alarms veröffentlicht. Eine Nachricht wird gesendet, wenn der Alarm in einen anderen Status übergeht, beispielsweise von
OK
zuFIRING
. - Metadaten
- Eine Referenz, die in einer Metrikdefinition angegeben wird. Beispiel: Einheit (Byte), angegeben in der Definition der oci_computeagent-Metrik
DiskBytesRead
. Mit Metadaten können Sie zusätzliche Informationen zu einer Metrik bestimmen. Metrikdefinitionen finden Sie unter Unterstützte Services. - Metrik
- Eine auf Zustand, Kapazität oder Performance einer Ressource bezogene Metrik. Beispiel: Die
oci_computeagent
-MetrikCpuUtilization
, die die Verwendung einer Recheninstanz misst. Metrikdefinitionen finden Sie unter Unterstützte Services. - Metrikdefinition
- Eine Gruppe von Referenzen, Qualifiern und anderen Informationen, die von einem Metrik-Namespace für eine Metrik bereitgestellt werden. Beispiel: Die oci_computeagent-Metrik
DiskBytesRead
wird durch Dimensionen (wie Ressourcen-ID) und Metadaten (Angabe der Byte für Einheit) sowie die Identifizierung des Metrik-Namespace (oci_computeagent) definiert. Jede gepostete Gruppe von Datenpunkten enthält diese Informationen. Verwenden Sie den ListMetricData-API-Vorgang, um Metrikdefinitionen abzurufen. Metrikdefinitionen finden Sie unter Unterstützte Services. - Metrik-Namespace
- Indikator der Ressource , des Service oder der Anwendung, die die Metrik ausgibt. Wird in der Metrikdefinition angegeben. Beispiel: Die Metrikdefinition
CpuUtilization
, die von der Oracle Cloud Agent-Software auf Compute-Instanzen ausgegeben wird, listet den Metrik-Namespaceoci_computeagent
als Quelle der MetrikCpuUtilization
auf. Metrikdefinitionen finden Sie unter Unterstützte Services. - Metrikstream
- Ein einzelnes Set aggregierter Daten für eine Metrik und null oder mehr Dimensionswerte.
- Benachrichtigungsziel
- Details zum Senden von Nachrichten, wenn der Alarm in einen anderen Status übergeht, beispielsweise von
OK
inFIRING
. Die Details und das Setup können je nach Zielservice variieren. Die verfügbaren Zielservices sind Notifications und Streaming. - Oracle Cloud Agent-Software
- Software, mit der eine Compute-Instanz Raw-Datenpunkte an den Monitoring-Service posten kann. Wird automatisch mit den neuesten Versionen von unterstützten Images installiert. Siehe Monitoring für Compute-Instanzen aktivieren.
- query
- Der Monitoring Query Language-(MQL-)Ausdruck und zugehörige Informationen (wie Metrik-Namespace), die zur Rückgabe aggregierter Daten ausgewertet werden. Die Abfrage muss eine Metrik, eine Statistik und ein Intervall angeben.
- Auflösung
-
Der Zeitraum zwischen den Zeitfenstern oder die Regelmäßigkeit, zu der Zeitfenster verschoben werden. Beispiel: Verwenden Sie eine Auflösung von
1m
, um Aggregationen jede Minute abzurufen.Hinweis
Bei Metrikabfragen bestimmt das ausgewählte Intervall die standardmäßige Auflösung der Anforderung, womit der maximale Zeitraum für die zurückgegebenen Daten bestimmt wird.Bei Alarmabfragen hat das angegebene Intervall keine Auswirkung auf die Lösung der Anforderung. Der einzige gültige Wert der Auflösung einer Alarmabfrageanforderung ist
1m
. Weitere Informationen zum Auflösungsparameter und seiner Verwendung in Alarmabfragen finden Sie unter Alarm.Wie in der folgenden Abbildung dargestellt, kontrolliert die Auflösung die Startzeit jedes Aggregationsfensters bezogen auf das vorherige Fenster, während das Intervall die Länge der Fenster kontrolliert. Beide Anforderungen wenden die Statistik
max
auf die Daten in jedem fünf-Minuten-Fenster (aus dem Intervall) an. Dadurch wird ein einzelner aggregierter Datenpunkt, der den höchstenCPUutilization
-Zähler für dieses Fenster darstellt, angezeigt. Nur der Auflösungswert ist unterschiedlich. Durch diese Auflösung wird die Regelmäßigkeit geändert, bei der die Aggregationsfenster verschoben werden, oder die Startzeiten von aufeinanderfolgenden Aggregationsfenstern. Anforderung A gibt die Auflösung nicht an und verwendet somit den Standardwert gleich dem Intervall (5 Minuten). Die 5-Minuten-Aggregationsfenster dieser Anforderung stammen somit aus den Gruppen der Datenpunkte, die von 0:n bis 5:00, 5:n bis 10:00 usw. ausgegeben werden. Anforderung B gibt eine 1-Minuten-Auflösung an, sodass ihre 5-Minuten-Aggregationsfenster von der Gruppe der Datenpunkte übernommen werden, die jede Minute von 0:n bis 5:00, 1:n bis 6:00 usw. ausgegeben werden.Informationen dazu, wie Sie eine nicht standardmäßige Auflösung angeben, die vom Intervall abweicht, finden sie unter Nicht-Standardauflösungen für eine Abfrage auswählen und Alarm erstellen.
- Ressourcengruppe
- Eine benutzerdefinierte Zeichenfolge, die mit einer benutzerdefinierten Metrik bereitgestellt wird und als Filter oder zur Aggregation von Ergebnissen verwendet werden kann. Die Ressourcengruppe muss in der Definition der geposteten Metrik vorhanden sein. Pro Metrik kann nur eine Ressourcengruppe angewendet werden.
- Statistik
- Die Aggregationsfunktion, die auf die Gruppe von Rohdatenpunkten angewendet wird
- suppression
- Eine Konfiguration zum Stoppen des Veröffentlichens von Nachrichten im angegebenen Zeitraum. Dies ist nützlich, um Alarmbenachrichtigungen während der Systemwartung zu unterbrechen.
- Zeitraum
- Die Grenzen (Zeitstempel) der gewünschten Metrikdaten. Beispiel: die letzte Stunde.
- Triggerregel
- Die Bedingung, die erfüllt werden muss, damit der Alarm den Auslösestatus aufweist. Eine Triggerregel kann auf einem Schwellenwert oder auf Abwesenheit einer Metrik basieren.
Verfügbarkeit
Der Monitoring-Service ist in allen kommerziellen Oracle Cloud Infrastructure-Regionen verfügbar. Unter Informationen zu Regionen und Availability-Domains finden Sie die Liste der verfügbaren Regionen sowie zugehörige Standorte, Regions-IDs, Regionsschlüssel und Availability-Domains.
Unterstützte Services
Die folgenden Services haben Ressourcen oder Komponenten, die Metriken an Monitoring ausgeben können:
- Analytics Cloud - siehe Metriken überwachen
- API-Gateway - siehe API-Gatewaymetriken
- Application Performance Monitoring - siehe Application Performance Monitoring-Metriken
- Autonomous Recovery Service - siehe Recovery Service-Metriken
- Bastion - siehe Bastionmetriken
- Big Data Service - Siehe Clustermetriken verwalten
- Block Volume - siehe Block-Volume-Metriken
- Blockchain Platform - siehe Metriken überwachen
-
Compute - siehe Compute-Metriken und -Monitoring
-
Compute Cloud@Customer - siehe Compute Cloud@Customer-Metriken
- Connector Hub - siehe Connector Hub-Metriken
- Containerinstanzen - siehe Containerinstanzmetriken
- Datenkatalog - siehe Datenkatalogmetriken
- Data Flow - siehe Data Flow-Metriken
- Data Integration - siehe Data Integration-Metriken
- Data Science - siehe Metriken
- Datenbank – siehe diese Seiten:
- Performance mit Autonomous Database-Metriken überwachen (Autonomous Database-Serverlos)
- Datenbankbeobachtbarkeit mit Autonomous Database-Metriken (Autonomous Database on Dedicated Exadata Infrastructure)
- Metriken für Oracle Exadata Database Service on Dedicated Infrastructure im Monitoring-Service (siehe Referenzhandbücher für Exadata Cloud Infrastructure)
- Metriken für Base Database Service im Datenbankmanagementservice: Datenbanken mit Datenbankmanagementservicesmetriken überwachen
- Metriken für externe Datenbank
- Datenbankmanagement - siehe Datenbankmanagementmetriken für Oracle-Datenbanken
- Datenbankmigration - siehe Datenbankmigrationsmetriken
- OCI Database with PostgreSQL - siehe OCI Database with PostgreSQL Metrics
- DevOps - siehe DevOps-Metriken
- Digital Assistant - siehe Digital Assistant-Metriken
- DNS - siehe DNS-Metriken
- Email Delivery - siehe Email Delivery-Metriken
- Ereignisse - siehe Ereignismetriken
- File Storage - siehe Dateisystemmetriken
- Funktionen - siehe Funktionsmetriken
- Globally Distributed Autonomous Database - siehe Performance mit den Autonomous Database-Metriken beobachten
- Global verteilte Exadata Database on Exascale-Infrastruktur (siehe Metriken für Oracle Exadata Database Service on Dedicated Infrastructure im Monitoringservice)
- GoldenGate - siehe Oracle Cloud Infrastructure GoldenGate-Metriken
- Health Checks - siehe Health Checks-Metriken
- Integration der 2. Generation: Nachrichtenmetriken ansehen
- Integration 3: Nachrichtenmetriken und abrechenbare Nachrichten anzeigen
- Java-Management - siehe Java-Managementmetriken
- Kubernetes Engine - siehe Kubernetes Engine-(OKE-)Metriken
- Load Balancer - siehe Load-Balancer-Metriken
- Logging - siehe Logging-Metriken
- Log Analytics - siehe Log Analytics mit Servicemetriken Überwachen
- Media Streams (Media Services) - siehe Media Streams-Metriken
- Management Agent - siehe Management Agent-Metriken
- HeatWave - siehe Metriken
-
Networking - siehe Networking-Metriken
- NoSQL Database Cloud - Siehe Servicemetriken
- Benachrichtigungen - siehe Benachrichtigungsmetriken
- Netzwerkfirewall - siehe Firewalls überwachen
- Object Storage - siehe Object Storage-Metriken
- Ops Insights - siehe Ops Insights-Metriken
- Oracle APEX Application Development - siehe APEX-Serviceperformance überwachen
- OS Management Hub - siehe OS Management Hub-Metriken
- Prozessautomatisierung - siehe Oracle Cloud Infrastructure Process Automation Überwachen
- Queue - siehe Queue-Metriken
- Service-Mesh - siehe Service-Mesh-Metriken
- Stackmonitoring - siehe Metrikreferenz
- Streaming - siehe Streamingmetriken
- Vault – siehe Vaultressourcen überwachen
- Vulnerability Scanning - siehe Scanmetriken
- WAF - siehe Edge-Policy-Metriken
Ressourcen-IDs
Die meisten Oracle Cloud Infrastructure-Ressourcentypen verfügen über eine eindeutige, von Oracle zugewiesene ID, die als Oracle Cloud-ID (OCID) bezeichnet wird. Weitere Informationen zum OCID-Format und zu anderen Möglichkeiten zur Identifizierung von Ressourcen finden Sie unter Ressourcen-IDs. Siehe Ressourcen-IDs.
Metrikressourcen haben keine OCIDs .
Möglichkeiten für den Zugriff auf Monitoring
Auf Oracle Cloud Infrastructure (OCI) können Sie über die Konsole (eine browserbasierte Schnittstelle), die REST-API oder die OCI-CLI zugreifen. Anweisungen zur Verwendung der Konsole, API und CLI sind in verschiedenen Themen in dieser Dokumentation enthalten. Eine Liste der verfügbaren SDKs finden Sie unter Software Development Kits und Befehlszeilenschnittstelle.
Konsole: Um über die Konsole auf Monitoring zuzugreifen, müssen Sie einen unterstützten Browser verwenden. Um zu der Anmeldeseite der Konsole zu wechseln, rufen Sie das Navigationsmenü am Anfang dieser Seite auf, und wählen Sie Infrastrukturkonsole aus. Dort werden Sie aufgefordert, Ihren Cloud-Mandanten, Benutzernamen und Ihr Kennwort einzugeben. Öffnen Sie das Navigationsmenü , und wählen Sie Observability and Management aus. Wählen Sie unter Monitoring die Option Servicemetriken aus.
API: Um über APIs auf Monitoring zuzugreifen, verwenden Sie die Monitoring-API für Metriken und Alarme und die Notifications-API für Benachrichtigungen (wird bei Alarmen verwendet).
CLI: siehe Befehlszeilenreferenz für Monitoring und Befehlszeilenreferenz für Notifications.
Authentifizierung und Autorisierung
Jeder Service in Oracle Cloud Infrastructure kann zur Authentifizierung und Autorisierung für alle Schnittstellen (Konsole, SDK oder CLI und REST-API) in IAM eingebunden werden.
Ein Administrator in einer Organisation muss Gruppen , Compartments und Policys einrichten, die steuern, welche Benutzer auf Services, Ressourcen und Zugriffstypen zugreifen können. Beispiel: Die Policys steuern, wer neue Benutzer erstellen, das Cloud-Netzwerk erstellen und bearbeiten, Instanzen erstellen, Buckets erstellen, Objekte herunterladen darf usw. Weitere Informationen finden Sie unter Identitätsdomains verwalten. Einzelheiten zum Schreiben von Policys für die einzelnen Services finden Sie in der Policy-Referenz.
Wenn Sie ein regulärer Benutzer (kein Administrator) sind, der die Oracle Cloud Infrastructure-Ressourcen verwenden muss, für die das Unternehmen verantwortlich ist, bitten Sie einen Administrator, eine Benutzer-ID für Sie einzurichten. Der Administrator kann festlegen, welche Compartments Sie verwenden können.
Weitere Informationen zu Benutzerautorisierungen für Monitoring finden Sie unter IAM-Policys.
Für Administratoren: Informationen zu allgemeinen Policys, mit denen Gruppen Zugriff auf Metriken erteilt werden kann, finden Sie unter Metrikzugriff für Gruppen. Informationen zu allgemeinen Alarm-Policys finden Sie unter Alarmzugriff für Gruppen. Um Ressourcen wie Instanzen zu autorisieren, um API-Aufrufe vorzunehmen, fügen Sie die Ressourcen zu einer dynamischen Gruppe hinzu. Verwenden Sie die Abgleichsregeln der dynamischen Gruppe, um die Ressourcen hinzuzufügen, und erstellen Sie dann eine Policy, mit der dieser dynamischen Gruppe der Zugriff auf Metriken gewährt wird. Siehe Metrikzugriff für Ressourcen.
Limits für Monitoring
Unter Monitoring-Limits finden Sie eine Liste der jeweiligen Limits sowie Anweisungen dazu, wie Sie eine Erhöhung anfordern.
Andere Limits umfassen:
Speicherlimits
Artikel | Gespeicherter Zeitraum |
---|---|
Metrikdefinitionen | 90 Tage |
Alarmhistorieneinträge | 90 Tage |
Zurückgegebene Datenlimits (Metriken)
Wenn Sie Metriken abfragen und Metrikdiagramme anzeigen, unterliegen die zurückgegebenen Daten bestimmten Limits. Die Informationen zu den Limits für die zurückgegebenen Daten umfassen das Maximum von 100.000 Datenpunkten und die maximalen Zeiträume (werden durch die Auflösung bestimmt, die sich auf das Intervall bezieht). Siehe MetricData.
Limits für Alarmnachrichten
Die maximale Anzahl von Nachrichten pro Alarmauswertung hängt vom Alarmziel an. Die Limits sind mit dem Oracle Cloud Infrastructure-Service verknüpft, der für das Ziel verwendet wird.
Monitoring verfolgt 200.000 Metrikstreams pro Alarm für qualifizierende Ereignisse. Weitere Informationen zu Alarmauswertungen finden Sie unter Alarmauswertungen auf dieser Seite.
Alarmziel | Zustellung | Maximale Anzahl Alarmnachrichten pro Auswertung |
---|---|---|
Thema (Notifications) | Mindestens einmal | 60 |
Stream (Streaming) | Mindestens einmal | 100.000 |
Beispiel: Beachten Sie die folgenden Auswertungen eines Alarms, der Benachrichtigungen unter 200 Metrikstreams aufteilt und ein Thema als Ziel verwendet.
Alarmauswertung (Zeit) | Metrikstreamübergang | Generierte Nachrichten | Gesendete Nachrichten | Gelöschte Nachrichten |
---|---|---|---|---|
00:01:00 | 110 Metrikstreams gehen von OK in FIRING über. | 110 | 60 | 50 |
00:02:00 | 90 Metrikstreams gehen von OK in FIRING über. | 90 | 60 | 30 |
Wenn ein Thema oder Stream überlastet ist, können die Alarmbenachrichtigungen verzögert werden. Eine Überlastung kann auftreten, wenn mehrere Ressourcen dieses Thema oder diesen Stream verwenden.
Best Practices für das Arbeiten innerhalb von Limits
Wenn Sie eine hohe Anzahl an Alarmbenachrichtigungen erwarten, befolgen Sie diese Best Practices, um zu verhindern, dass Grenzwerte für Alarmmeldungen überschritten werden und Verzögerungen auftreten.
- Reservieren Sie ein einzelnes Thema oder einen einzelnen Stream zur Verwendung mit einem Alarm mit hohem Volumen. Verwenden Sie nicht ein einzelnes Thema oder einen einzelnen Stream für mehrere Alarme mit hohem Volumen.
- Wenn Sie mehr als 60 Nachrichten pro Minute erwarten, geben Sie Streaming als Alarmziel an.
- Streams:
- Erstellen Sie Partitionen basierend auf der erwarteten Last. Siehe Limits für Streaming-Ressourcen.
- Wenn Alarmmeldungen den Stream-Speicherplatz überschreiten, aktualisieren Sie den Alarm so, dass er einen anderen Stream mit mehr Partitionen verwendet. Beispiel: Wenn der ursprüngliche Stream fünf Partitionen enthält, erstellen Sie einen Stream mit zehn Partitionen, und aktualisieren Sie dann den Alarm, sodass er den neuen Stream verwendet.Hinweis
Um fehlende Nachrichten zu vermeiden, verwenden Sie den ursprünglichen Stream weiter, bis keine weiteren Nachrichten empfangen werden.
- Erhöhen Sie die Limits für den Mandanten:
- Themen: siehe Limits für die Veröffentlichung von Nachrichten (PublishMessage-Vorgang).
- Streams: siehe Limits für Streaming-Ressourcen.
Limits bei der Fehlerbehebung
Informationen zum Beheben eines Abfragefehlers bei zu vielen Metrikstreams finden Sie unter Fehler: Maximale Anzahl Metrikstreams überschritten.
Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung für Monitoring.
Sicherheit
In diesem Thema wird die Sicherheit für Monitoring beschrieben.
Informationen zum Sichern von Monitoring, einschließlich Sicherheitsinformationen und Empfehlungen, finden Sie unter Monitoring sichern.