Panoramica del monitoraggio
Utilizza il servizio Oracle Cloud Infrastructure Monitoring per monitorare attivamente e passivamente le risorse cloud utilizzando le funzioni Metriche e Allarmi. Informazioni sul funzionamento del monitoraggio.
Funzionamento del monitoraggio
Il servizio di monitoraggio utilizza le metriche per monitorare le risorse e gli allarmi per ricevere una notifica quando queste metriche soddisfano i trigger specificati dall'allarme.
Le metriche vengono emesse nel servizio di monitoraggio come datapoint raw o coppie data/valore, insieme alle dimensioni e ai metadati. Le metriche provengono da varie fonti:
- Metriche delle risorse pubblicate automaticamente da risorse di Oracle Cloud Infrastructure. Ad esempio, il servizio di computazione pubblica le metriche per le istanze di computazione abilitate per il monitoraggio tramite lo spazio di nomi oci_computeagent. Una di queste metriche è
CpuUtilization
. Vedere Servizi supportati e Visualizzazione dei grafici delle metriche predefiniti. - Metriche personalizzate pubblicate mediante l'API di monitoraggio.
- Dati inviati a metriche nuove o esistenti utilizzando l'hub connettore (con il servizio di monitoraggio come servizio di destinazione per un connettore).
È possibile trasferire le metriche dal servizio di monitoraggio utilizzando l'hub connettore. Per ulteriori informazioni, Creazione di un connettore con un'origine di monitoraggio.
I dati delle metriche inviati al servizio di monitoraggio vengono presentati solo all'utente o utilizzati dalle funzioni di Oracle Cloud Infrastructure che consente di utilizzare i dati delle metriche.
Quando si esegue una query su una metrica, il servizio di monitoraggio restituisce dati aggregati in base ai parametri specificati. È possibile specificare un intervallo (ad esempio le ultime 24 ore), statistica e intervallo . La console visualizza un grafico di monitoraggio per metrica per le risorse selezionate. I dati aggregati in ogni grafico riflettono la statistica e l'intervallo selezionati. Le richieste API possono facoltativamente filtrare in base alla dimensione e specificare una risoluzione . Le risposte API includono il nome della metrica insieme al relativo compartimento di origine e allo spazio di nomi metrica . È possibile inserire i dati aggregati in una libreria di visualizzazione o di grafica.
I dati di metrica e allarme sono accessibili dalla console, dall'interfaccia CLI e dall'API. Per i periodi di conservazione, vedere Limiti di memorizzazione.
La funzione Allarmi del servizio di monitoraggio pubblica messaggi di allarme nelle destinazioni configurate, ad esempio gli argomenti in Notifiche e i flussi in Streaming.
Panoramica della funzione metriche
La funzione Metriche trasmette i dati delle metriche sullo stato, sulla capacità e sulle prestazioni delle risorse cloud.
Una metrica è una misurazione correlata allo stato, alla capacità o alle prestazioni di una risorsa . Risorse, servizi e applicazioni emettono metriche al servizio di monitoraggio. Le metriche comuni riflettono i dati relativi a:
- Disponibilità e latenza
- Tempo di attività e inattività dell'applicazione
- Transazioni completate
- Operazioni non riuscite e riuscite
- Indicatori KPI (Key Performance Indicator), ad esempio quantificatori di vendite e coinvolgimento
Interrogando Monitoring per questi dati, puoi capire quanto stanno funzionando i sistemi e i processi per raggiungere i livelli di servizio che impegni con i tuoi clienti. Ad esempio, è possibile monitorare l'utilizzo della CPU e le letture dei dischi delle istanze di computazione . È quindi possibile utilizzare questi dati per decidere quando eseguire il provisioning di più istanze per gestire l'aumento del carico, risolvere i problemi con l'istanza o comprendere meglio il funzionamento del sistema.
Metrica di esempio: frequenza errori
Per lo stato dell'applicazione, uno dei KPI comuni è il tasso di errori, per il quale una definizione comune è il numero di transazioni non riuscite diviso per il totale delle transazioni. Questo KPI viene in genere fornito tramite il software di monitoraggio e gestione delle applicazioni.
Gli sviluppatori possono acquisire questo KPI dalle applicazioni utilizzando metriche personalizzate. Registra le osservazioni ogni volta che viene eseguita una transazione dell'applicazione e quindi invia tali dati al servizio di monitoraggio. In questo caso, imposta le metriche per acquisire le transazioni non riuscite, le transazioni riuscite e la latenza delle transazioni (tempo impiegato per ogni transazione completata).
Panoramica della funzione Allarmi
Utilizza gli allarmi per monitorare lo stato, la capacità e le prestazioni delle risorse cloud.
La funzione Allarmi del servizio di monitoraggio funziona con il servizio di destinazione configurato per ricevere una notifica quando le metriche soddisfano i trigger specificati dall'allarme. Nella figura precedente viene illustrato il flusso, a partire dalle risorse che emettono i datapoint della metrica per il monitoraggio. Quando viene attivato, un allarme invia un messaggio di allarme alla destinazione configurata. Per le notifiche, i messaggi vengono inviati alle sottoscrizioni nell'argomento configurato. Per lo streaming, i messaggi vengono inviati al flusso configurato. Questa illustrazione non copre i dati di metrica grezzi e aggregati. Per questi dettagli, vedere l'illustrazione "Panoramica del monitoraggio" nella parte superiore di questa pagina.
Quando è configurata, le notifiche ripetute ricordano uno stato di attivazione continuo all'intervallo di ripetizione configurato. Viene inoltre inviata una notifica quando un allarme torna allo stato OK o quando un allarme viene reimpostato.
Valutazioni allarmi
Il monitoraggio valuta gli allarmi una volta al minuto per trovare lo stato dell'allarme.
Quando l'allarme spluta le notifiche, Monitoring valuta ogni flusso di metriche monitorato. Se la valutazione del flusso di metriche indica un nuovo stato FIRING
o un altro evento qualificante, il servizio di monitoraggio invia un messaggio di allarme.
Il monitoraggio tiene traccia dei flussi di metriche per allarme per gli eventi qualificanti, ma i messaggi sono soggetti ai limiti del servizio di destinazione.
Illustrazione della valutazione degli allarmi
Si consideri un allarme che misura il 90° percentile della metrica CpuUtilization
.
{
"compartmentId": "ocid1.compartment.oc1..exampleuniqueID",
"destinations": ["ocid1.onstopic.exampleuniqueID"],
"displayName": "High CPU Utilization",
"id": "ocid1.alarm.oc1..exampleuniqueID",
"lifecycleState": "ACTIVE",
"metricCompartmentId": "ocid1.compartment.oc1..exampleuniqueID",
"namespace": "oci_computeagent",
"pendingDuration": "PT3M",
"query": "CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85",
"repeatNotificationDuration": "PT2H",
"severity": "WARNING",
"isEnabled": true,
"timeCreated": "2023-02-01T01:02:29.600Z",
"timeUpdated": "2023-02-03T01:02:29.600Z"
}
Note sull'allarme di esempio:
- Il percentile viene specificato nella query come statistica (grassetto):
CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
- Ogni datapoint rappresenta il 90° percentile (
percentile(0.9)
) di una finestra di un minuto, specificato nella query come intervallo (grassetto):CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
- I valori dei datapoint per questa statistica possono essere nulli (assenti) o 100.
- Valutazioni dei datapoint:
- Per qualsiasi valore di datapoint maggiore di 85, la valutazione è vera (
1
). Una valutazione vera indica che la condizione della regola trigger è stata soddisfatta. - Per qualsiasi valore di datapoint non superiore a 85, la valutazione è falsa (
0
).
- Per qualsiasi valore di datapoint maggiore di 85, la valutazione è vera (
- L'allarme non viene attivato finché la condizione della regola trigger non viene soddisfatta per tre minuti successivi. Questa configurazione corrisponde al ritardo del trigger (
pendingDuration
) dell'allarme, impostato suPT3M
. - L'allarme aggiorna lo stato su OK quando la condizione di violazione è stata chiara per l'ultimo minuto.
L'immagine seguente mostra un flusso di metriche aggregate per l'allarme di esempio. Ogni datapoint è indicato da un quadrato.
La tabella seguente mostra le valutazioni di allarme consecutive per l'allarme di esempio. L'allarme viene valutato su una finestra mobile di tre intervalli di un minuto.
Indicatore orario periodo valutazione | Minuti nel periodo | Valutazioni dei datapoint* | Stato |
---|---|---|---|
3 | [1 2 3] | [0 0 0] | OK |
4 | [2 3 4] | [0 0 1] | OK |
5 | [3 4 5] | [0 1 1] | OK |
6 | [4 5 6] | [1 1 1] | FIRING |
7 | [5 6 7] | [1 1 1] | FIRING |
8 | [6 7 8] | [1 1 0] | OK |
9 | [7 8 9] | [1 0 0] | OK |
10 | [8 9 10] | [0 0 0] | OK |
*Il valore di uno (1) indica che la condizione della regola del trigger viene soddisfatta.
Modalità di conteggio dei datapoint
In questa sezione viene descritto come determinare il numero di datapoint (o datapoint) recuperati da un allarme. Questo numero consente di stimare i prezzi di monitoraggio.
Per trovare il numero di datapoint recuperati da un allarme, ottenere prima il numero di flussi di query e i minuti analizzati.
- Il numero di flussi di query dipende dai flussi di metriche restituiti dalla query di allarme.
- I minuti analizzati dipendono dagli attributi di allarme
interval
,resolution
ependingDuration
. Per le query di allarme, l'unico valore valido perresolution
è1m
. Per ulteriori informazioni suinterval
, vedere Intervallo. Per ulteriori informazioni suresolution
ependingDuration
, vedere Monitoraggio dell'API.
Ogni allarme viene valutato una volta al minuto e quindi ogni allarme viene valutato 1440 volte al giorno. Ogni valutazione esegue una query sui dati nella finestra temporale definita da interval
e controlla il periodo di tempo in cui l'allarme persiste definito da pendingDuration
. Pertanto, i minuti analizzati a ogni minuto vengono calcolati dalla seguente espressione:
minuti analizzati ad ogni minuto = interval
* massimale (pendingDuration
/ resolution
)
Informazioni sul periodo di reimpostazione interno
Il periodo di reimpostazione interno determina quando un allarme interrompe il controllo di una metrica assente che ha attivato lo stato In fase di attivazione nella valutazione precedente. Se la metrica è assente per l'intero periodo, le valutazioni dell'allarme successive ignorano il flusso di metriche indicato. Se nessun altro flusso di metriche sta causando lo stato di attivazione dell'allarme, l'allarme passa a OK e invia un messaggio RESET. Per impostazione predefinita, il messaggio RESET arriva dopo 13 minuti (periodo di ripristino interno più il periodo di inattività predefinito di 3 minuti). È possibile personalizzare il periodo di attesa.
La durata del periodo di reimpostazione interna è configurata globalmente a 10 minuti, pertanto la cronologia allarmi mostra una differenza di 10 minuti.
L'inizio di un periodo di reimpostazione interno dipende dal tipo di allarme. Per gli allarmi di soglia, il periodo di reimpostazione interno inizia quando viene rilevata la prima assenza. Per gli allarmi assenza, il periodo di reimpostazione interna inizia dopo il completamento del periodo di rilevamento assenza (l'impostazione predefinita è 2 ore, può essere personalizzato).
Punti dati raccolti durante un periodo di reimpostazione interna
Ogni valutazione durante il periodo di reimpostazione interno di dieci minuti tiene conto di tutti i datapoint in tale periodo.
Ad esempio, si consideri un flusso di metriche (A
) che supera la soglia (linea rossa tratteggiata nei diagrammi seguenti). L'allarme si attiva (F
). Quando viene rilevata una mancanza di datapoint emessi, inizia un periodo di reimpostazione interno.
Il seguente diagramma mostra un singolo periodo di reimpostazione interno per il flusso di metriche A
, dagli orari t5
a t15
. Al momento t16
, il flusso di metriche A
non viene più valutato.
Il seguente diagramma mostra due periodi di reimpostazione interni per il flusso di metriche A
, dagli orari t3
a t5
e da t6
a t16
. A
emette un datapoint in t6
, iniziando un altro periodo di reimpostazione interno. Al momento t17
, il flusso di metriche A
non viene più valutato.
Esempio di allarme soglia
Un allarme soglia segnala i flussi di metriche che si verificano al di fuori della soglia. Quando un flusso di metriche precedentemente problematico è assente, l'allarme avvia il periodo di reimpostazione interno per il flusso di metriche.
In questo esempio, quattro flussi di metriche vengono valutati da un allarme di soglia. La console mostra gli stati di transizione iniziale di Firing (1:30) e Ok (1:51). Il periodo di reimpostazione interno si verifica quando lo stato dell'allarme è In esecuzione.
La tabella riportata di seguito descrive il periodo di reimpostazione interna e altri eventi significativi in questo esempio.
Tempo | Stato | Transition | Eventi | Notifiche (vedere Tipi di messaggio) |
---|---|---|---|---|
12:0 | OK |
OK |
Tutte le emissioni sono entro la soglia. | FIRING_TO_OK |
1:30 | FIRING |
FIRING |
L'emissione da resource1 supera la soglia. | OK_TO_FIRING |
1:35 | FIRING |
-- |
Nessuna emissione rilevata per resource1. L'allarme avvia il periodo di reimpostazione interno per resource1. | -- |
1:38 | FIRING |
-- |
Nessuna emissione rilevata per resource2. L'allarme avvia il periodo di reimpostazione interno per resource2. | -- |
1:45 | FIRING |
-- |
Il periodo di reset interno termina per resource1, quindi l'allarme non controlla più le emissioni da resource1. Tuttavia, l'allarme è ancora in funzione perché resource2 è ancora nel proprio periodo di reset interno. | -- |
1:48 | OK |
OK |
Il periodo di reset interno termina per resource2, quindi l'allarme non controlla più le emissioni da resource2. Le emissioni delle risorse rimanenti (resource3 e resource4) sono entro la soglia. | RESET (inviato dopo il periodo di sospensione di tre minuti, alle 1:51 circa) |
Esempio di allarme assenza
Un allarme assenza segnala i flussi di metriche assenti. Quando un flusso di metriche è assente, l'allarme avvia il periodo di rilevamento assenza per il flusso di metriche (il valore predefinito di due ore può essere personalizzato). Al termine del periodo di rilevamento delle assenze, l'allarme avvia il periodo di reimpostazione interno per il flusso di metriche.
In questo esempio, un flusso di metriche viene valutato da un allarme di assenza che utilizza il periodo di rilevamento assenza predefinito di due ore e il periodo di sospensione predefinito di tre minuti. La console mostra gli stati di transizione iniziale di Firing (2:00) e Ok (4:10). Il periodo di reimpostazione interno si verifica quando lo stato dell'allarme è In esecuzione.
La tabella riportata di seguito descrive il periodo di reimpostazione interna e altri eventi significativi in questo esempio.
Tempo | Stato | Transition | Eventi | Notifiche (vedere Tipi di messaggio) |
---|---|---|---|---|
1:0 | OK |
-- | Le emissioni vengono rilevate. | |
2:0 | FIRING |
FIRING |
Nessuna emissione rilevata per resource-z. L'allarme avvia il periodo di rilevamento delle assenze per resource-z. | OK_TO_FIRING |
4:0 | FIRING |
-- |
Il periodo di rilevamento delle assenze per resource-z termina. L'allarme avvia il periodo di reimpostazione interno per resource-z. | -- |
4:10 | OK |
OK |
Il periodo di reset interno termina per resource-z, quindi l'allarme non controlla più le emissioni da resource-z. Nessun flusso di metriche viene più monitorato dall'allarme, quindi l'allarme passa allo stato OK. | RESET (inviato dopo il periodo di sospensione di tre minuti, alle 4:13 circa) |
Tempo necessario per riflettere gli aggiornamenti degli allarmi
Gli aggiornamenti degli allarmi richiedono fino a cinque minuti per essere riflessi ovunque.
Ad esempio, se si aggiorna un allarme in notifiche frazionate, il stato del flusso di metriche potrebbe richiedere fino a cinque minuti per essere popolato nella console.
Ricerca di allarmi
Cercare gli allarmi utilizzando gli attributi supportati.
Per ulteriori informazioni sulla ricerca, vedere Panoramica della ricerca. Per le descrizioni degli attributi, vedere Riferimento allarmi.
-
id
-
displayName
-
compartmentId
-
metricCompartmentId
-
namespace
-
query
-
severity
-
destinations
-
suppression
-
isEnabled
-
lifecycleState
-
timeCreated
-
timeUpdated
-
tags
Il tipo di messaggio indica il motivo dell'invio del messaggio.
Il tipo di messaggio specificato viene inviato all'ora indicata più l'eventuale ritardo del trigger configurato dell'allarme.
I messaggi di ripetizione vengono inviati anche se configurati nell'allarme.
Nella tabella seguente sono elencati lo stato di allarme e la transizione per ogni tipo di messaggio.
Tipo di messaggio | Stato | Transition | Commenti |
---|---|---|---|
OK_TO_FIRING |
FIRING |
da OK a FIRING |
|
FIRING_TO_OK |
OK |
da FIRING a OK |
|
REPEAT |
FIRING |
-- | Questo tipo di messaggio viene inviato quando l'allarme mantiene lo stato FIRING e l'allarme viene configurato per le notifiche ripetute. |
RESET |
OK |
da FIRING a OK |
Importante: quando si verifica una modifica dello stato Questo tipo di messaggio viene inviato quando l'allarme passa allo stato Possibili cause di un flusso di metriche assente: la risorsa che emetteva la metrica potrebbe essere stata spostata o terminata oppure la metrica potrebbe essere emessa solo in caso di errore. Per ulteriori informazioni sul periodo di reimpostazione interno, vedere Informazioni sul periodo di reimpostazione interno. |
Formato ed esempi dei messaggi
Concetti di monitoraggio
I seguenti concetti sono essenziali per lavorare con il monitoraggio.
- dati aggregati
- Risultato dell'applicazione di una statistica e di un intervallo a una selezione di datapoint di tipo RAW per una metrica. Ad esempio, è possibile applicare le opzioni statistica
max
e intervallo1h
(un'ora) alle ultime 24 ore dei datapoint di tipo RAW per la metricaCpuUtilization
. I dati aggregati vengono visualizzati nei grafici delle metriche predefiniti nella console. È inoltre possibile creare query di metrica per set specifici di dati aggregati. Per istruzioni, vedere Visualizzazione dei grafici delle metriche predefinite e Creazione di query sulle metriche. - allarme
- La query di allarme da valutare e la destinazione di notifica da utilizzare quando l'allarme è in stato di attivazione, insieme ad altre proprietà di allarme.
- query di allarme
- Espressione MQL (Monitoring Query Language) da valutare per l'allarme. Una query di allarme deve specificare una metrica, una statistica, un intervallo e una regola trigger (soglia o assenza). La funzione Allarmi del servizio di monitoraggio interpreta i risultati di ogni serie temporale restituita come un valore booleano, dove zero rappresenta false e un valore diverso da zero rappresenta true. Un valore true indica che la condizione regola trigger è stata soddisfatta.
- datapoint
- Coppia data/ora-valore per la metrica specificata. Esempio:
2022-05-10T22:19:00Z, 10.4
- dimensione
- Qualificatore fornito in una definizione della metrica. Esempio: identificativo della risorsa (
resourceId
), fornito nelle definizioni delle metriche oci_computeagent. Utilizzare le dimensioni per filtrare o raggruppare i dati delle metriche. Esempio di coppia nome-valore dimensione per filtrare in base al dominio di disponibilità:availabilityDomain = "VeBZ:PHX-AD-1"
- frequenza
- Periodo di tempo tra ogni datapoint di tipo RAW contabilizzato per una metrica. I datapoint raw vengono pubblicati dallo spazio di nomi metrica nel servizio di monitoraggio. Mentre la frequenza varia in base alla metrica, le metriche di servizio predefinite in genere hanno una frequenza di 60 secondi (un datapoint inviato al minuto). Vedere anche risoluzione.
- Intervallo
- Finestra temporale utilizzata per convertire il set di datapoint di tipo RAW.
- messaggio
- Il contenuto che la funzione Allarmi del servizio di monitoraggio pubblica negli argomenti nelle destinazioni di notifica configurate dall'allarme. Viene inviato un messaggio quando l'allarme passa a un altro stato, ad esempio da
OK
aFIRING
. - metadati
- Riferimento fornito in una definizione della metrica. Esempio: unità (byte), fornita nella definizione della oci_computeagent metrica
DiskBytesRead
. Utilizzare i metadati per determinare informazioni aggiuntive su una metrica. Per le definizioni delle metriche, vedere Servizi supportati. - metrica
- Misurazione relativa all'integrità, alla capacità o alle prestazioni di una risorsa. Esempio: la metrica
CpuUtilization
oci_computeagent
, che misura l'uso di un'istanza di computazione. Per le definizioni delle metriche, vedere Servizi supportati. - definizione metrica
- Un set di riferimenti, qualificatori e altre informazioni fornite da uno spazio di nomi metrica per una metrica. Ad esempio, la metrica
DiskBytesRead
oci_computeagent è definita dalle dimensioni (ad esempio l'identificativo della risorsa) e dai metadati (specificando i byte per l'unità) nonché dall'identificazione dello spazio di nomi metrica (oci_computeagent). Ogni set di datapoint pubblicato contiene queste informazioni. Utilizzare l'operazione API ListMetricData per ottenere le definizioni delle metriche. Per le definizioni delle metriche, vedere Servizi supportati. - spazio di nomi metrica
- Indicatore della risorsa , del servizio o dell'applicazione che emette la metrica. Fornito nella definizione della metrica. Ad esempio, la definizione della metrica
CpuUtilization
emessa dal software dell'agente Oracle Cloud nelle istanze di calcolo elenca lo spazio di nomi metricaoci_computeagent
come origine della metricaCpuUtilization
. Per le definizioni delle metriche, vedere Servizi supportati. - flusso di metriche
- Un singolo set di dati aggregati per un valore metrica e uno o più valori dimensione zero.
- destinazione della notifica
- Dettagli per l'invio di messaggi quando l'allarme passa a un altro stato, ad esempio da
OK
aFIRING
. I dettagli e l'impostazione possono variare in base al servizio di destinazione. I servizi di destinazione disponibili includono le notifiche e lo streaming. - Software Oracle Cloud Agent
- Software utilizzato da un'istanza di computazione per inviare datapoint di tipo RAW al servizio di monitoraggio. Installato automaticamente con le ultime versioni delle immagini supportate. Vedere Abilitazione del monitoraggio per le istanze di computazione.
- query
- L'espressione MQL (Monitoring Query Language) e le informazioni associate (ad esempio lo spazio di nomi delle metriche) da valutare per la restituzione di dati aggregati. La query deve specificare una metrica, una statistica e un intervallo.
- Risoluzione
-
Il periodo tra le finestre temporali o la regolarità del turno delle finestre temporali. Ad esempio, utilizzare una risoluzione di
1m
per recuperare le aggregazioni ogni minuto.Nota
Per le query delle metriche, l'intervallo selezionato determina la risoluzione predefinita della richiesta, che determina l'intervallo di tempo massimo dei dati restituiti.Per le query di allarme, l'intervallo specificato non ha alcun effetto sulla risoluzione della richiesta. L'unico valore valido della risoluzione per una richiesta di query di allarme è
1m
. Per ulteriori informazioni sul parametro di risoluzione utilizzato nelle query di allarme, vedere Allarme.Come illustrato nella figura seguente, la risoluzione controlla l'ora di inizio di ogni finestra di aggregazione rispetto alla finestra precedente mentre l'intervallo controlla la lunghezza delle finestre. Entrambe le richieste applicano la statistica
max
ai dati all'interno di ogni finestra di cinque minuti (dall'intervallo), ottenendo un singolo datapoint aggregato che rappresenta il contatoreCPUutilization
più alto per tale finestra. Solo il valore di risoluzione è diverso. Questa risoluzione modifica la regolarità con cui le finestre di aggregazione si spostano o l'ora di inizio delle finestre di aggregazione successive. La richiesta A non specifica una risoluzione e pertanto utilizza il valore predefinito uguale all'intervallo (5 minuti). Le finestre di aggregazione di cinque minuti di questa richiesta vengono pertanto prese dai set di datapoint emessi dalle 0:n alle 5:00, dalle 5:n alle 10:00 e così via. La richiesta B specifica una risoluzione di 1 minuto, pertanto le relative finestre di aggregazione di cinque minuti vengono prese dal set di datapoint emessi ogni minuto dalle 0:n alle 5:00, dalle 1:n alle 6:00 e così via.Per specificare una risoluzione non predefinita diversa dall'intervallo, vedere Selezione di una risoluzione non predefinita per una query e Creazione di un allarme.
- gruppo di risorse
- Stringa personalizzata fornita con una metrica personalizzata che può essere utilizzata come filtro o per aggregare i risultati. Il gruppo di risorse deve esistere nella definizione della metrica contabilizzata. È possibile applicare un solo gruppo di risorse per metrica.
- statistica
- Funzione di aggregazione applicata al set di datapoint di tipo RAW.
- eliminazione
- Configurazione per interrompere la pubblicazione dei messaggi durante l'intervallo di tempo specificato. Utile per sospendere le notifiche di allarme durante la manutenzione del sistema.
- Intervallo di tempo
- I limiti (indicatore orario) dei dati della metrica desiderati. Ad esempio, l'ultima ora.
- regola trigger
- Condizione che deve essere soddisfatta perché l'allarme sia in stato di attivazione. Una regola trigger può essere basata su una soglia o sull'assenza di una metrica.
disponibilità
Il servizio di monitoraggio è disponibile in tutte le aree commerciali di Oracle Cloud Infrastructure. Vedere Informazioni sulle aree e sui domini di disponibilità per la lista delle aree disponibili, insieme alle posizioni associate, agli identificativi delle aree, alle chiavi delle aree e ai domini di disponibilità.
Servizi supportati
I servizi riportati di seguito contengono risorse o componenti che possono emettere metriche per il monitoraggio.
- Analytics Cloud - vedere Monitora metriche
- Gateway API - vedere Metriche del gateway API
- Application Performance Monitoring: vedere Metriche di Application Performance Monitoring
- Autonomous Recovery Service - vedere Metriche del servizio di recupero
- Bastion: vedere Metriche Bastion
- Big Data Service - vedere Gestione delle metriche del cluster
- Volume a blocchi - vedere Metriche dei volumi a blocchi
- Piattaforma Blockchain: vedere Monitora metriche
-
Computazione - vedere Metriche e monitoraggio della computazione
-
Calcolo di Cloud@Customer - vedere le metriche di Compute Cloud@Customer
- Hub connettore - vedere Metriche dell'hub connettore
- Istanze contenitore - vedere Metriche delle istanze contenitore
- Data Catalog - vedere Metriche di Data Catalog
- Flusso di dati - vedere Metriche di Data Flow
- Integrazione dei dati: vedere Metriche di integrazione dei dati
- Data Science - vedere Metriche
- Database - vedere queste pagine:
- Monitorare le prestazioni con le metriche di Autonomous Database (Autonomous Database serverless)
- Osservabilità del database con le metriche di Autonomous Database (Autonomous Database sull'infrastruttura Exadata dedicata)
- Metriche per Oracle Exadata Database Service on Dedicated Infrastructure nel servizio di monitoraggio (da Guide di riferimento per l'infrastruttura Exadata Cloud)
- Metriche per Base Database Service in Database Management Service: monitorare un database utilizzando le metriche di gestione del database
- Metriche per database esterno
- Gestione database - vedere Metriche di gestione del database per i database Oracle
- Migrazione database - vedere Metriche di migrazione del database
- Database OCI con PostgreSQL: vedere Database OCI con PostgreSQL Metrics
- DevOps: vedere DevOps Metriche
- Digital Assistant - vedere Metriche di Digital Assistant
- DNS - vedere Metriche DNS
- Consegna tramite posta elettronica: vedere Metriche di consegna tramite posta elettronica
- Eventi - vedere Metriche degli eventi
- Storage di file - vedere Metriche del file system
- Funzioni: vedere Metriche delle funzioni.
- Autonomous Database distribuito a livello globale - vedere Monitora le prestazioni con le metriche di Autonomous Database
- Globally Distributed Exadata Database on Exascale Infrastructure (consulta le metriche di Oracle Exadata Database Service on Dedicated Infrastructure nel servizio di monitoraggio)
- GoldenGate: consulta le metriche di Oracle Cloud Infrastructure GoldenGate
- Controlli stato - vedere Metriche dei controlli dello stato
- Generazione integrazione 2: Visualizza metriche messaggi
- Integrazione 3: Visualizza metriche messaggi e messaggi fatturabili
- Java Management - vedere Metriche di Java Management
- Motore Kubernetes: consulta le metriche OKE (Kubernetes Engine)
- Load balancer - vedere Metriche del load balancer
- Log: vedere Metriche di log
- Logging Analytics: vedere Monitorare Logging Analytics utilizzando le metriche dei servizi
- Flussi multimediali (servizi multimediali): vedere Metriche dei flussi multimediali
- Management Agent - vedere Metriche del Management Agent
- HeatWave: vedere Metriche
-
Networking: vedere Metriche di networking
- NoSQL Database Cloud - vedere Metriche dei servizi
- Notifiche: vedere Metriche delle notifiche
- Firewall di rete - vedere Monitoraggio dei firewall
- Storage degli oggetti - consulta le metriche dello storage degli oggetti
- Ops Insights - vedere Metriche Ops Insights
- Oracle APEX Application Development - vedere Monitorare le prestazioni di APEX Service
- Hub di gestione del sistema operativo: vedere Metriche dell'hub di gestione del sistema operativo.
- Automazione dei processi - vedere Monitora Oracle Cloud Infrastructure Process Automation
- Coda: vedere Metriche coda
- Mesh di servizio - vedere Metriche mesh di servizio
- Monitoraggio dello stack - vedere Riferimento alle metriche
- Streaming - vedere Metriche di streaming
- Vault - vedere Monitoraggio delle risorse del vault
- Analisi delle vulnerabilità: vedere Analisi delle metriche
- WAF - vedere Metriche dei criteri edge
Identificativi risorsa
La maggior parte dei tipi di risorse Oracle Cloud Infrastructure ha un identificativo univoco assegnato da Oracle chiamato OCID (Oracle Cloud ID). Per informazioni sul formato OCID e su altri modi per identificare le risorse, vedere Identificativi risorsa. Vedere Identificativi risorsa.
Le risorse della metrica non dispongono di OCID .
Modalità di accesso al monitoraggio
Puoi accedere a Oracle Cloud Infrastructure (OCI) utilizzando la console (un'interfaccia basata su browser), l'API REST o l'interfaccia CLI OCI. Le istruzioni per l'uso della console, dell'API e dell'interfaccia CLI sono incluse negli argomenti della presente documentazione. Per un elenco di SDK disponibili, consulta Software Development Kits and Command Line Interface.
Console: per accedere al servizio di monitoraggio utilizzando la console, è necessario utilizzare un browser supportato. Per andare alla pagina di accesso della console, aprire il menu di navigazione nella parte superiore di questa pagina e selezionare Console dell'infrastruttura. Viene richiesto di immettere il tenant cloud, il nome utente e la password. Aprire il menu di navigazione e selezionare Osservabilità e gestione. In Monitoraggio, selezionare Metriche servizio.
API: per accedere al servizio di monitoraggio tramite le interfacce API, utilizzare API di monitoraggio per le metriche e gli allarmi e API delle notifiche per le notifiche (utilizzata con gli allarmi).
CLI: vedere Riferimento della riga di comando per il monitoraggio e Riferimento della riga di comando per le notifiche.
Autenticazione e autorizzazione
Ogni servizio in Oracle Cloud Infrastructure si integra con IAM per l'autenticazione e l'autorizzazione, per tutte le interfacce (console, SDK o CLI e API REST).
Un amministratore di un'organizzazione deve impostare i gruppi , i compartimenti e i criteri che controllano gli utenti che possono accedere ai servizi, alle risorse e al tipo di accesso. Ad esempio, i criteri controllano chi può creare nuovi utenti, creare e gestire la rete cloud, creare istanze, creare bucket, scaricare oggetti e così via. Per ulteriori informazioni, vedere Gestione dei domini di Identity. Per dettagli specifici sulla scrittura dei criteri relativi a ognuno dei vari servizi, consulta il riferimento per i criteri.
Se sei un utente normale (non un amministratore) che deve utilizzare le risorse Oracle Cloud Infrastructure di proprietà dell'azienda, contatta un amministratore per impostare un ID utente. L'amministratore può confermare quale compartimento o compartimenti è possibile utilizzare.
Per ulteriori informazioni sulle autorizzazioni utente per il monitoraggio, vedere Criteri IAM.
Amministratori: per i criteri comuni che consentono ai gruppi di accedere alle metriche, vedere Accesso alle metriche per i gruppi. Per i criteri di allarme comuni, vedere Allarme accesso per gruppi. Per autorizzare le risorse, ad esempio le istanze, a effettuare chiamate API, aggiungere le risorse a un gruppo dinamico. Utilizzare le regole di corrispondenza del gruppo dinamico per aggiungere le risorse, quindi creare un criterio che consenta a tale gruppo dinamico di accedere alle metriche. Vedere Accesso alle metriche per le risorse.
Limiti del monitoraggio
Per un elenco dei limiti applicabili e le istruzioni per richiedere un aumento del limite, vedere Limiti del monitoraggio.
Altri limiti includono quanto segue.
Limiti memoria
Elemento | Intervallo di tempo memorizzato |
---|---|
Definizioni di metriche | 90 giorni |
Voci della cronologia avvisi | 90 giorni |
Limiti dati restituiti (metriche)
Quando si parametri della query e si visualizzano i grafici delle metriche, i dati restituiti sono soggetti a determinati limiti. Le informazioni sui limiti per i dati restituiti includono il massimo di 100.000 datapoint e il massimo di intervallo di tempo (determinato dalla risoluzione, relativo all'intervallo). Vedere MetricData.
Limiti messaggi di allarme
Il numero massimo di messaggi per valutazione dell'allarme dipende dalla destinazione dell'allarme. I limiti sono associati al servizio Oracle Cloud Infrastructure utilizzato per la destinazione.
Il monitoraggio tiene traccia di 200.000 flussi di metriche per allarme per eventi di qualificazione. Per ulteriori informazioni sulle valutazioni degli allarmi, vedere Valutazioni degli allarmi in questa pagina.
Destinazione allarme | Delivery | Numero massimo di messaggi di allarme per valutazione |
---|---|---|
argomento (Notifiche) | Almeno una volta | 60 |
flusso (Streaming) | Almeno una volta | 100.000 |
Ad esempio, si consideri le seguenti valutazioni di un allarme che spluta le notifiche tra 200 flussi di metriche, utilizzando un argomento come destinazione.
Valutazione allarme (tempo) | Transizione del flusso di metriche | Messaggi generati | Messaggi inviati | Messaggi eliminati |
---|---|---|---|---|
0:1:0 | 110 flussi di metriche passano da OK a FIRING. | 110 | 60 | 50 |
0:2:0 | 90 flussi di metriche passano da OK a FIRING. | 90 | 60 | 30 |
Quando un argomento o un flusso viene utilizzato in modo eccessivo, possono verificarsi notifiche di allarme ritardate. L'uso eccessivo può verificarsi quando più risorse utilizzano tale argomento o flusso.
Best practice per lavorare entro i limiti
Quando si prevede un volume elevato di notifiche di allarme, seguire queste procedure ottimali per evitare di superare i limiti dei messaggi di allarme e i ritardi associati.
- Riserva un singolo argomento o flusso da utilizzare con un allarme ad alto volume. Non utilizzare un solo argomento o flusso per più allarmi ad alto volume.
- Se si prevedono più di 60 messaggi al minuto, specificare Streaming come destinazione dell'allarme.
- Streams:
- Crea partizioni in base al carico previsto. Vedere Limiti sullo streaming delle risorse.
- Se i messaggi di allarme superano lo spazio del flusso, aggiornare l'allarme in modo da utilizzare un flusso diverso con più partizioni. Ad esempio, se il flusso originale contiene cinque partizioni, creare un flusso con dieci partizioni e quindi aggiornare l'allarme per utilizzare il nuovo flusso.Nota
Per evitare messaggi mancanti, continuare a utilizzare il flusso originale fino a quando non vengono ricevuti altri messaggi.
- Aumenta i limiti per la tenancy:
- Argomenti: vedere Limiti per la pubblicazione dei messaggi (operazione PublishMessage).
- Streams: vedere Limiti sullo streaming delle risorse.
Limiti risoluzione dei problemi
Per risolvere un errore di query relativo a troppi flussi di metriche, vedere Errore: superato il numero massimo di flussi di metriche.
Per informazioni sulla risoluzione dei problemi, vedere Risoluzione dei problemi di monitoraggio.
Sicurezza
Questo argomento descrive la sicurezza per il monitoraggio.
Per informazioni su come proteggere il monitoraggio, incluse informazioni e suggerimenti sulla sicurezza, vedere Protezione del monitoraggio.