Panoramica del monitoraggio

Utilizza il servizio Oracle Cloud Infrastructure Monitoring per monitorare attivamente e passivamente le risorse cloud utilizzando le funzioni Metriche e Allarmi. Informazioni sul funzionamento del monitoraggio.

Questa immagine mostra le metriche e gli allarmi utilizzati nel servizio di monitoraggio.

Suggerimento

Guarda una introduzione video al servizio.

Funzionamento del monitoraggio

Il servizio di monitoraggio utilizza le metriche per monitorare le risorse e gli allarmi per ricevere una notifica quando queste metriche soddisfano i trigger specificati dall'allarme.

Le metriche vengono emesse nel servizio di monitoraggio come datapoint raw o coppie data/valore, insieme alle dimensioni e ai metadati. Le metriche provengono da varie fonti:

È possibile trasferire le metriche dal servizio di monitoraggio utilizzando l'hub connettore. Per ulteriori informazioni, Creazione di un connettore con un'origine di monitoraggio.

I dati delle metriche inviati al servizio di monitoraggio vengono presentati solo all'utente o utilizzati dalle funzioni di Oracle Cloud Infrastructure che consente di utilizzare i dati delle metriche.

Quando si esegue una query su una metrica, il servizio di monitoraggio restituisce dati aggregati in base ai parametri specificati. È possibile specificare un intervallo (ad esempio le ultime 24 ore), statistica e intervallo . La console visualizza un grafico di monitoraggio per metrica per le risorse selezionate. I dati aggregati in ogni grafico riflettono la statistica e l'intervallo selezionati. Le richieste API possono facoltativamente filtrare in base alla dimensione e specificare una risoluzione . Le risposte API includono il nome della metrica insieme al relativo compartimento di origine e allo spazio di nomi metrica . È possibile inserire i dati aggregati in una libreria di visualizzazione o di grafica.

I dati di metrica e allarme sono accessibili dalla console, dall'interfaccia CLI e dall'API. Per i periodi di conservazione, vedere Limiti di memorizzazione.

La funzione Allarmi del servizio di monitoraggio pubblica messaggi di allarme nelle destinazioni configurate, ad esempio gli argomenti in Notifiche e i flussi in Streaming.

Panoramica della funzione metriche

La funzione Metriche trasmette i dati delle metriche sullo stato, sulla capacità e sulle prestazioni delle risorse cloud.

Una metrica è una misurazione correlata allo stato, alla capacità o alle prestazioni di una risorsa . Risorse, servizi e applicazioni emettono metriche al servizio di monitoraggio. Le metriche comuni riflettono i dati relativi a:

  • Disponibilità e latenza
  • Tempo di attività e inattività dell'applicazione
  • Transazioni completate
  • Operazioni non riuscite e riuscite
  • Indicatori KPI (Key Performance Indicator), ad esempio quantificatori di vendite e coinvolgimento

Interrogando Monitoring per questi dati, puoi capire quanto stanno funzionando i sistemi e i processi per raggiungere i livelli di servizio che impegni con i tuoi clienti. Ad esempio, è possibile monitorare l'utilizzo della CPU e le letture dei dischi delle istanze di computazione . È quindi possibile utilizzare questi dati per decidere quando eseguire il provisioning di più istanze per gestire l'aumento del carico, risolvere i problemi con l'istanza o comprendere meglio il funzionamento del sistema.

Metrica di esempio: frequenza errori

Per lo stato dell'applicazione, uno dei KPI comuni è il tasso di errori, per il quale una definizione comune è il numero di transazioni non riuscite diviso per il totale delle transazioni. Questo KPI viene in genere fornito tramite il software di monitoraggio e gestione delle applicazioni.

Gli sviluppatori possono acquisire questo KPI dalle applicazioni utilizzando metriche personalizzate. Registra le osservazioni ogni volta che viene eseguita una transazione dell'applicazione e quindi invia tali dati al servizio di monitoraggio. In questo caso, imposta le metriche per acquisire le transazioni non riuscite, le transazioni riuscite e la latenza delle transazioni (tempo impiegato per ogni transazione completata).

Panoramica della funzione Allarmi

Utilizza gli allarmi per monitorare lo stato, la capacità e le prestazioni delle risorse cloud.

Le risorse emettono datapoint delle metriche per il monitoraggio. Quando vengono attivati, gli allarmi inviano messaggi alla destinazione configurata. Per le notifiche, i messaggi vengono inviati alle sottoscrizioni nell'argomento configurato. Per lo streaming, i messaggi vengono inviati al flusso configurato).

La funzione Allarmi del servizio di monitoraggio funziona con il servizio di destinazione configurato per ricevere una notifica quando le metriche soddisfano i trigger specificati dall'allarme. Nella figura precedente viene illustrato il flusso, a partire dalle risorse che emettono i datapoint della metrica per il monitoraggio. Quando viene attivato, un allarme invia un messaggio di allarme alla destinazione configurata. Per le notifiche, i messaggi vengono inviati alle sottoscrizioni nell'argomento configurato. Per lo streaming, i messaggi vengono inviati al flusso configurato. Questa illustrazione non copre i dati di metrica grezzi e aggregati. Per questi dettagli, vedere l'illustrazione "Panoramica del monitoraggio" nella parte superiore di questa pagina.

Quando è configurata, le notifiche ripetute ricordano uno stato di attivazione continuo all'intervallo di ripetizione configurato. Viene inoltre inviata una notifica quando un allarme torna allo stato OK o quando un allarme viene reimpostato.

Valutazioni allarmi

Il monitoraggio valuta gli allarmi una volta al minuto per trovare lo stato dell'allarme.

Quando l'allarme spluta le notifiche, Monitoring valuta ogni flusso di metriche monitorato. Se la valutazione del flusso di metriche indica un nuovo stato FIRING o un altro evento qualificante, il servizio di monitoraggio invia un messaggio di allarme.

Il monitoraggio tiene traccia dei flussi di metriche per allarme per gli eventi qualificanti, ma i messaggi sono soggetti ai limiti del servizio di destinazione.

Illustrazione della valutazione degli allarmi

Si consideri un allarme che misura il 90° percentile della metrica CpuUtilization.

{
  "compartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "destinations": ["ocid1.onstopic.exampleuniqueID"],
  "displayName": "High CPU Utilization",
  "id": "ocid1.alarm.oc1..exampleuniqueID",
  "lifecycleState": "ACTIVE",
  "metricCompartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "namespace": "oci_computeagent",
  "pendingDuration": "PT3M",
  "query": "CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85",
  "repeatNotificationDuration": "PT2H",
  "severity": "WARNING",
  "isEnabled": true,
  "timeCreated": "2023-02-01T01:02:29.600Z",
  "timeUpdated": "2023-02-03T01:02:29.600Z"
}

Note sull'allarme di esempio:

  • Il percentile viene specificato nella query come statistica (grassetto):
    CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
  • Ogni datapoint rappresenta il 90° percentile (percentile(0.9)) di una finestra di un minuto, specificato nella query come intervallo (grassetto):
    CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
  • I valori dei datapoint per questa statistica possono essere nulli (assenti) o 100.
  • Valutazioni dei datapoint:
    • Per qualsiasi valore di datapoint maggiore di 85, la valutazione è vera (1). Una valutazione vera indica che la condizione della regola trigger è stata soddisfatta.
    • Per qualsiasi valore di datapoint non superiore a 85, la valutazione è falsa (0).
  • L'allarme non viene attivato finché la condizione della regola trigger non viene soddisfatta per tre minuti successivi. Questa configurazione corrisponde al ritardo del trigger (pendingDuration) dell'allarme, impostato su PT3M.
  • L'allarme aggiorna lo stato su OK quando la condizione di violazione è stata chiara per l'ultimo minuto.

L'immagine seguente mostra un flusso di metriche aggregate per l'allarme di esempio. Ogni datapoint è indicato da un quadrato.


Flusso di metriche aggregate per l'allarme di esempio.

La tabella seguente mostra le valutazioni di allarme consecutive per l'allarme di esempio. L'allarme viene valutato su una finestra mobile di tre intervalli di un minuto.

Indicatore orario periodo valutazione Minuti nel periodo Valutazioni dei datapoint* Stato
3 [1 2 3] [0 0 0] OK
4 [2 3 4] [0 0 1] OK
5 [3 4 5] [0 1 1] OK
6 [4 5 6] [1 1 1] FIRING
7 [5 6 7] [1 1 1] FIRING
8 [6 7 8] [1 1 0] OK
9 [7 8 9] [1 0 0] OK
10 [8 9 10] [0 0 0] OK

*Il valore di uno (1) indica che la condizione della regola del trigger viene soddisfatta.

Modalità di conteggio dei datapoint

In questa sezione viene descritto come determinare il numero di datapoint (o datapoint) recuperati da un allarme. Questo numero consente di stimare i prezzi di monitoraggio.

Per trovare il numero di datapoint recuperati da un allarme, ottenere prima il numero di flussi di query e i minuti analizzati.

  • Il numero di flussi di query dipende dai flussi di metriche restituiti dalla query di allarme.
  • I minuti analizzati dipendono dagli attributi di allarme interval, resolution e pendingDuration. Per le query di allarme, l'unico valore valido per resolution è 1m. Per ulteriori informazioni su interval, vedere Intervallo. Per ulteriori informazioni su resolution e pendingDuration, vedere Monitoraggio dell'API.

Ogni allarme viene valutato una volta al minuto e quindi ogni allarme viene valutato 1440 volte al giorno. Ogni valutazione esegue una query sui dati nella finestra temporale definita da interval e controlla il periodo di tempo in cui l'allarme persiste definito da pendingDuration. Pertanto, i minuti analizzati a ogni minuto vengono calcolati dalla seguente espressione:

minuti analizzati ad ogni minuto = interval * massimale (pendingDuration / resolution)

Informazioni sul periodo di reimpostazione interno

Il periodo di reimpostazione interno determina quando un allarme interrompe il controllo di una metrica assente che ha attivato lo stato In fase di attivazione nella valutazione precedente. Se la metrica è assente per l'intero periodo, le valutazioni dell'allarme successive ignorano il flusso di metriche indicato. Se nessun altro flusso di metriche sta causando lo stato di attivazione dell'allarme, l'allarme passa a OK e invia un messaggio RESET. Per impostazione predefinita, il messaggio RESET arriva dopo 13 minuti (periodo di ripristino interno più il periodo di inattività predefinito di 3 minuti). È possibile personalizzare il periodo di attesa.

La durata del periodo di reimpostazione interna è configurata globalmente a 10 minuti, pertanto la cronologia allarmi mostra una differenza di 10 minuti.

L'inizio di un periodo di reimpostazione interno dipende dal tipo di allarme. Per gli allarmi di soglia, il periodo di reimpostazione interno inizia quando viene rilevata la prima assenza. Per gli allarmi assenza, il periodo di reimpostazione interna inizia dopo il completamento del periodo di rilevamento assenza (l'impostazione predefinita è 2 ore, può essere personalizzato).

Punti dati raccolti durante un periodo di reimpostazione interna

Ogni valutazione durante il periodo di reimpostazione interno di dieci minuti tiene conto di tutti i datapoint in tale periodo.

Ad esempio, si consideri un flusso di metriche (A) che supera la soglia (linea rossa tratteggiata nei diagrammi seguenti). L'allarme si attiva (F). Quando viene rilevata una mancanza di datapoint emessi, inizia un periodo di reimpostazione interno.

Il seguente diagramma mostra un singolo periodo di reimpostazione interno per il flusso di metriche A, dagli orari t5 a t15. Al momento t16, il flusso di metriche A non viene più valutato.

Diagramma che rappresenta un singolo periodo di reimpostazione interno.

Il seguente diagramma mostra due periodi di reimpostazione interni per il flusso di metriche A, dagli orari t3 a t5 e da t6 a t16. A emette un datapoint in t6, iniziando un altro periodo di reimpostazione interno. Al momento t17, il flusso di metriche A non viene più valutato.

Diagramma che illustra due periodi di reimpostazione interni.
Esempio di allarme soglia

Un allarme soglia segnala i flussi di metriche che si verificano al di fuori della soglia. Quando un flusso di metriche precedentemente problematico è assente, l'allarme avvia il periodo di reimpostazione interno per il flusso di metriche.

In questo esempio, quattro flussi di metriche vengono valutati da un allarme di soglia. La console mostra gli stati di transizione iniziale di Firing (1:30) e Ok (1:51). Il periodo di reimpostazione interno si verifica quando lo stato dell'allarme è In esecuzione.

Esempio di allarme di soglia con quattro flussi di metriche.

La tabella riportata di seguito descrive il periodo di reimpostazione interna e altri eventi significativi in questo esempio.

Tempo Stato Transition Eventi Notifiche (vedere Tipi di messaggio)
12:0 OK OK Tutte le emissioni sono entro la soglia. FIRING_TO_OK
1:30 FIRING FIRING L'emissione da resource1 supera la soglia. OK_TO_FIRING
1:35 FIRING -- Nessuna emissione rilevata per resource1. L'allarme avvia il periodo di reimpostazione interno per resource1. --
1:38 FIRING -- Nessuna emissione rilevata per resource2. L'allarme avvia il periodo di reimpostazione interno per resource2. --
1:45 FIRING -- Il periodo di reset interno termina per resource1, quindi l'allarme non controlla più le emissioni da resource1. Tuttavia, l'allarme è ancora in funzione perché resource2 è ancora nel proprio periodo di reset interno. --
1:48 OK OK Il periodo di reset interno termina per resource2, quindi l'allarme non controlla più le emissioni da resource2. Le emissioni delle risorse rimanenti (resource3 e resource4) sono entro la soglia. RESET (inviato dopo il periodo di sospensione di tre minuti, alle 1:51 circa)
Esempio di allarme assenza

Un allarme assenza segnala i flussi di metriche assenti. Quando un flusso di metriche è assente, l'allarme avvia il periodo di rilevamento assenza per il flusso di metriche (il valore predefinito di due ore può essere personalizzato). Al termine del periodo di rilevamento delle assenze, l'allarme avvia il periodo di reimpostazione interno per il flusso di metriche.

In questo esempio, un flusso di metriche viene valutato da un allarme di assenza che utilizza il periodo di rilevamento assenza predefinito di due ore e il periodo di sospensione predefinito di tre minuti. La console mostra gli stati di transizione iniziale di Firing (2:00) e Ok (4:10). Il periodo di reimpostazione interno si verifica quando lo stato dell'allarme è In esecuzione.

Esempio di allarme assenza con un singolo flusso di metriche.

La tabella riportata di seguito descrive il periodo di reimpostazione interna e altri eventi significativi in questo esempio.

Tempo Stato Transition Eventi Notifiche (vedere Tipi di messaggio)
1:0 OK -- Le emissioni vengono rilevate.
2:0 FIRING FIRING Nessuna emissione rilevata per resource-z. L'allarme avvia il periodo di rilevamento delle assenze per resource-z. OK_TO_FIRING
4:0 FIRING -- Il periodo di rilevamento delle assenze per resource-z termina. L'allarme avvia il periodo di reimpostazione interno per resource-z. --
4:10 OK OK Il periodo di reset interno termina per resource-z, quindi l'allarme non controlla più le emissioni da resource-z. Nessun flusso di metriche viene più monitorato dall'allarme, quindi l'allarme passa allo stato OK. RESET (inviato dopo il periodo di sospensione di tre minuti, alle 4:13 circa)

Tempo necessario per riflettere gli aggiornamenti degli allarmi

Gli aggiornamenti degli allarmi richiedono fino a cinque minuti per essere riflessi ovunque.

Ad esempio, se si aggiorna un allarme in notifiche frazionate, il stato del flusso di metriche potrebbe richiedere fino a cinque minuti per essere popolato nella console.

Tipi di messaggio

Il tipo di messaggio indica il motivo dell'invio del messaggio.

Nota

Il tipo di messaggio specificato viene inviato all'ora indicata più l'eventuale ritardo del trigger configurato dell'allarme.

I messaggi di ripetizione vengono inviati anche se configurati nell'allarme.

Nella tabella seguente sono elencati lo stato di allarme e la transizione per ogni tipo di messaggio.

Tipo di messaggio Stato Transition Commenti
OK_TO_FIRING FIRING da OK a FIRING
FIRING_TO_OK OK da FIRING a OK
REPEAT FIRING -- Questo tipo di messaggio viene inviato quando l'allarme mantiene lo stato FIRING e l'allarme viene configurato per le notifiche ripetute.
RESET OK da FIRING a OK

Importante: quando si verifica una modifica dello stato RESET, esaminare lo stato della risorsa.

Questo tipo di messaggio viene inviato quando l'allarme passa allo stato OK dopo una o più reimpostazioni interne. Una reimpostazione interna si verifica quando un flusso di metriche che ha causato la transizione dell'allarme allo stato FIRING è continuamente assente per l'periodo di reimpostazione interno completo. Un flusso di metriche reimpostato internamente non viene più tracciato dall'allarme.

Possibili cause di un flusso di metriche assente: la risorsa che emetteva la metrica potrebbe essere stata spostata o terminata oppure la metrica potrebbe essere emessa solo in caso di errore. Per ulteriori informazioni sul periodo di reimpostazione interno, vedere Informazioni sul periodo di reimpostazione interno.

Concetti di monitoraggio

I seguenti concetti sono essenziali per lavorare con il monitoraggio.

dati aggregati
Risultato dell'applicazione di una statistica e di un intervallo a una selezione di datapoint di tipo RAW per una metrica. Ad esempio, è possibile applicare le opzioni statistica max e intervallo 1h (un'ora) alle ultime 24 ore dei datapoint di tipo RAW per la metrica CpuUtilization. I dati aggregati vengono visualizzati nei grafici delle metriche predefiniti nella console. È inoltre possibile creare query di metrica per set specifici di dati aggregati. Per istruzioni, vedere Visualizzazione dei grafici delle metriche predefinite e Creazione di query sulle metriche.
allarme
La query di allarme da valutare e la destinazione di notifica da utilizzare quando l'allarme è in stato di attivazione, insieme ad altre proprietà di allarme.
Per creare un allarme, vedere Creazione di un allarme di base.
query di allarme
Espressione MQL (Monitoring Query Language) da valutare per l'allarme. Una query di allarme deve specificare una metrica, una statistica, un intervallo e una regola trigger (soglia o assenza). La funzione Allarmi del servizio di monitoraggio interpreta i risultati di ogni serie temporale restituita come un valore booleano, dove zero rappresenta false e un valore diverso da zero rappresenta true. Un valore true indica che la condizione regola trigger è stata soddisfatta.
Per creare una query di allarme di base, vedere Creazione di una query di base per generare un grafico delle metriche di allarme. Per creare un allarme, vedere Creazione di un allarme di base.
datapoint
Coppia data/ora-valore per la metrica specificata. Esempio: 2022-05-10T22:19:00Z, 10.4
Un datapoint è raw o aggregato. I datapoint non elaborati vengono inviati dallo spazio di nomi metrica al servizio di monitoraggio utilizzando l'operazione PostMetricData. La frequenza dei datapoint pubblicati varia in base allo spazio di nomi metrica. Ad esempio, uno spazio di nomi personalizzato potrebbe inviare datapoint per una metrica a una frequenza di 20 secondi.
I datapoint aggregati sono il risultato dell'applicazione di una statistica e di un intervallo ai datapoint di tipo RAW. L'intervallo dei datapoint aggregati viene specificato nella richiesta SummarizeMetricsData. Ad esempio, una richiesta che specifica le opzioni statistica sum e intervallo 1h (un'ora) restituisce un valore sum per ogni ora dei datapoint raw disponibili per la metrica.
dimensione
Qualificatore fornito in una definizione della metrica. Esempio: identificativo della risorsa (resourceId), fornito nelle definizioni delle metriche oci_computeagent. Utilizzare le dimensioni per filtrare o raggruppare i dati delle metriche. Esempio di coppia nome-valore dimensione per filtrare in base al dominio di disponibilità: availabilityDomain = "VeBZ:PHX-AD-1"
Per selezionare una dimensione per un grafico o una query di metrica, vedere Selezione di dimensioni per filtrare le metriche e Selezione di dimensioni per una query.
Per selezionare un intervallo per un allarme, vedere Selezione dell'intervallo per una query di allarme.
frequenza
Periodo di tempo tra ogni datapoint di tipo RAW contabilizzato per una metrica. I datapoint raw vengono pubblicati dallo spazio di nomi metrica nel servizio di monitoraggio. Mentre la frequenza varia in base alla metrica, le metriche di servizio predefinite in genere hanno una frequenza di 60 secondi (un datapoint inviato al minuto). Vedere anche risoluzione.
Intervallo
Finestra temporale utilizzata per convertire il set di datapoint di tipo RAW.
L'indicatore orario del datapoint aggregato corrisponde alla fine della finestra temporale durante la quale vengono valutati i datapoint raw. Ad esempio, per un intervallo di cinque minuti, l'indicatore orario "2:05" corrisponde alla finestra temporale di cinque minuti dalle 2:00:n alle 2:05:00.
Questa immagine mostra in che modo l'indicatore orario di un datapoint aggregato corrisponde all'intervallo.
La seguente query di esempio (espressione MQL) specifica un intervallo di 5 minuti. Per le opzioni di intervallo valide nelle espressioni MQL, vedere Riferimento Interval (Monitoring Query Language (MQL).
CpuUtilization[5m].max()
Nota

I valori supportati per l'intervallo dipendono dall'intervallo di tempo specificato nella query della metrica (non applicabile alle query di allarme). Sono supportati più valori di intervallo per intervalli di tempo più piccoli. Ad esempio, se si seleziona un'ora per l'intervallo di tempo, sono supportati tutti i valori di intervallo. Se si seleziona 90 giorni per l'intervallo di tempo, sono supportati solo valori di intervallo compresi tra 1 ora e 1 giorno.
Per selezionare un intervallo per un grafico delle metriche o una query, vedere Modifica dell'intervallo per un grafico delle metriche predefinito e Selezione dell'intervallo per una query.
Per selezionare un intervallo per un allarme, vedere Selezione dell'intervallo per una query di allarme.
Vedere anche risoluzione.
messaggio
Il contenuto che la funzione Allarmi del servizio di monitoraggio pubblica negli argomenti nelle destinazioni di notifica configurate dall'allarme. Viene inviato un messaggio quando l'allarme passa a un altro stato, ad esempio da OK a FIRING.
Per ulteriori informazioni sui messaggi di allarme, vedere Formato ed esempi dei messaggi.
metadati
Riferimento fornito in una definizione della metrica. Esempio: unità (byte), fornita nella definizione della oci_computeagent metrica DiskBytesRead. Utilizzare i metadati per determinare informazioni aggiuntive su una metrica. Per le definizioni delle metriche, vedere Servizi supportati.
metrica
Misurazione relativa all'integrità, alla capacità o alle prestazioni di una risorsa. Esempio: la metrica CpuUtilization oci_computeagent, che misura l'uso di un'istanza di computazione. Per le definizioni delle metriche, vedere Servizi supportati.
Nota

Le risorse della metrica non dispongono di OCID .
definizione metrica
Un set di riferimenti, qualificatori e altre informazioni fornite da uno spazio di nomi metrica per una metrica. Ad esempio, la metrica DiskBytesRead oci_computeagent è definita dalle dimensioni (ad esempio l'identificativo della risorsa) e dai metadati (specificando i byte per l'unità) nonché dall'identificazione dello spazio di nomi metrica (oci_computeagent). Ogni set di datapoint pubblicato contiene queste informazioni. Utilizzare l'operazione API ListMetricData per ottenere le definizioni delle metriche. Per le definizioni delle metriche, vedere Servizi supportati.
Per selezionare il nome di una metrica per una query, vedere Selezione del nome della metrica per una query.
Per selezionare il nome di una metrica per un allarme, vedere Creazione di una query di base per generare un grafico della metrica di allarme e Creazione di un allarme di base.
spazio di nomi metrica
Indicatore della risorsa , del servizio o dell'applicazione che emette la metrica. Fornito nella definizione della metrica. Ad esempio, la definizione della metrica CpuUtilization emessa dal software dell'agente Oracle Cloud nelle istanze di calcolo elenca lo spazio di nomi metrica oci_computeagent come origine della metrica CpuUtilization. Per le definizioni delle metriche, vedere Servizi supportati.
Per selezionare uno spazio di nomi delle metriche per un grafico o una query delle metriche, vedere Visualizzazione dei grafici delle metriche predefiniti per uno spazio di nomi delle metriche (più risorse) e Selezione dello spazio di nomi delle metriche per una query.
Per selezionare uno spazio dei nomi delle metriche per un allarme, vedere Creazione di una query di base per generare un grafico delle metriche di allarme e Creazione di un allarme di base.
flusso di metriche
Un singolo set di dati aggregati per un valore metrica e uno o più valori dimensione zero.
Nella pagina Stato flussi di metriche, ogni flusso di metriche corrisponde a un set di coppie chiave-valore dimensione.
Nei grafici delle metriche (nella console), ogni flusso di metriche viene rappresentato come una linea (a meno che non si aggreghi tutti i flussi di metriche).
L'immagine seguente mostra i flussi di metriche in un grafico. Ogni riga del grafico corrisponde a un flusso di metriche.
Questa immagine mostra i flussi di metriche in un grafico. Ogni riga del grafico corrisponde a un flusso di metriche.
Ad esempio, si consideri un compartimento contenente tre istanze di computazione nel dominio di disponibilità AD-1 (due incluse nel pool di istanze ipexample) e una quarta istanza nel dominio di disponibilità AD-2. In questo esempio, il grafico delle metriche Utilizzo CPU mostra quattro linee (una per istanza). Se filtra in base al dominio di disponibilità AD-1, il grafico mostra tre righe. Se ulteriormente filtrato in base al pool di istanze ipexample, il grafico mostra due linee.
Per selezionare i flussi di metriche in una query, vedere Selezione di dimensioni per filtrare le metriche, Selezione di dimensioni per una query e Selezione di dimensioni per una query di allarme.
Per impostare un allarme per le notifiche per flusso di metriche, vedere Creazione di un allarme che suddivide i messaggi in base al flusso di metriche e Scenario: Dividi messaggi in base al flusso di metriche.
destinazione della notifica
Dettagli per l'invio di messaggi quando l'allarme passa a un altro stato, ad esempio da OK a FIRING. I dettagli e l'impostazione possono variare in base al servizio di destinazione. I servizi di destinazione disponibili includono le notifiche e lo streaming.
Per il servizio Notifiche, specificare un argomento. Se si sta creando l'argomento per l'allarme, specificare anche uno o più protocolli di sottoscrizione, ad esempio PagerDuty.
Per il servizio di streaming, specificare un flusso.
Per esempi di messaggi di allarme inviati ad argomenti e flussi, vedere Messaggi di allarme di esempio.
Per impostare una destinazione di notifica in un allarme, vedere Definizione delle notifiche per un allarme.
Software Oracle Cloud Agent
Software utilizzato da un'istanza di computazione per inviare datapoint di tipo RAW al servizio di monitoraggio. Installato automaticamente con le ultime versioni delle immagini supportate. Vedere Abilitazione del monitoraggio per le istanze di computazione.
query
L'espressione MQL (Monitoring Query Language) e le informazioni associate (ad esempio lo spazio di nomi delle metriche) da valutare per la restituzione di dati aggregati. La query deve specificare una metrica, una statistica e un intervallo.
Per creare una query di metrica, vedere Creazione di una query.
Per creare una query di allarme, vedere Creazione di una query di base per generare un grafico delle metriche di allarme.
Risoluzione

Il periodo tra le finestre temporali o la regolarità del turno delle finestre temporali. Ad esempio, utilizzare una risoluzione di 1m per recuperare le aggregazioni ogni minuto.

Nota

Per le query delle metriche, l'intervallo selezionato determina la risoluzione predefinita della richiesta, che determina l'intervallo di tempo massimo dei dati restituiti.

Per le query di allarme, l'intervallo specificato non ha alcun effetto sulla risoluzione della richiesta. L'unico valore valido della risoluzione per una richiesta di query di allarme è 1m. Per ulteriori informazioni sul parametro di risoluzione utilizzato nelle query di allarme, vedere Allarme.

Come illustrato nella figura seguente, la risoluzione controlla l'ora di inizio di ogni finestra di aggregazione rispetto alla finestra precedente mentre l'intervallo controlla la lunghezza delle finestre. Entrambe le richieste applicano la statistica max ai dati all'interno di ogni finestra di cinque minuti (dall'intervallo), ottenendo un singolo datapoint aggregato che rappresenta il contatore CPUutilization più alto per tale finestra. Solo il valore di risoluzione è diverso. Questa risoluzione modifica la regolarità con cui le finestre di aggregazione si spostano o l'ora di inizio delle finestre di aggregazione successive. La richiesta A non specifica una risoluzione e pertanto utilizza il valore predefinito uguale all'intervallo (5 minuti). Le finestre di aggregazione di cinque minuti di questa richiesta vengono pertanto prese dai set di datapoint emessi dalle 0:n alle 5:00, dalle 5:n alle 10:00 e così via. La richiesta B specifica una risoluzione di 1 minuto, pertanto le relative finestre di aggregazione di cinque minuti vengono prese dal set di datapoint emessi ogni minuto dalle 0:n alle 5:00, dalle 1:n alle 6:00 e così via.

Questa immagine mostra come iniziano le finestre di aggregazione in base alla risoluzione.

Per specificare una risoluzione non predefinita diversa dall'intervallo, vedere Selezione di una risoluzione non predefinita per una query e Creazione di un allarme.

gruppo di risorse
Stringa personalizzata fornita con una metrica personalizzata che può essere utilizzata come filtro o per aggregare i risultati. Il gruppo di risorse deve esistere nella definizione della metrica contabilizzata. È possibile applicare un solo gruppo di risorse per metrica.
Per selezionare un gruppo di risorse in una query, vedere Selezione di un gruppo di risorse in una query.
Per selezionare un gruppo di risorse in una query di allarme, vedere Selezione di un gruppo di risorse in una query di allarme.
statistica
Funzione di aggregazione applicata al set di datapoint di tipo RAW.
Per selezionare la statistica per un grafico o una query delle metriche, vedere Modifica della statistica per un grafico delle metriche predefinito e Selezione della statistica per una query.
Per selezionare la statistica per una query di allarme, vedere Selezione della statistica per una query di allarme.
eliminazione
Configurazione per interrompere la pubblicazione dei messaggi durante l'intervallo di tempo specificato. Utile per sospendere le notifiche di allarme durante la manutenzione del sistema.
Per eliminare gli allarmi, vedere Soppressione di un singolo allarme e Soppressione di più allarmi.
Intervallo di tempo
I limiti (indicatore orario) dei dati della metrica desiderati. Ad esempio, l'ultima ora.
Per selezionare l'intervallo di tempo per un grafico o una query delle metriche, vedere Modifica dell'intervallo di tempo per i grafici delle metriche predefiniti, Modifica dell'intervallo di tempo per un grafico delle metriche personalizzate e Selezione di un intervallo di tempo non predefinito per una query.
regola trigger
Condizione che deve essere soddisfatta perché l'allarme sia in stato di attivazione. Una regola trigger può essere basata su una soglia o sull'assenza di una metrica.
Per impostare una regola di trigger in un allarme, vedere Aggiunta di regole di trigger a un allarme.

disponibilità

Il servizio di monitoraggio è disponibile in tutte le aree commerciali di Oracle Cloud Infrastructure. Vedere Informazioni sulle aree e sui domini di disponibilità per la lista delle aree disponibili, insieme alle posizioni associate, agli identificativi delle aree, alle chiavi delle aree e ai domini di disponibilità.

Servizi supportati

I servizi riportati di seguito contengono risorse o componenti che possono emettere metriche per il monitoraggio.

Identificativi risorsa

La maggior parte dei tipi di risorse Oracle Cloud Infrastructure ha un identificativo univoco assegnato da Oracle chiamato OCID (Oracle Cloud ID). Per informazioni sul formato OCID e su altri modi per identificare le risorse, vedere Identificativi risorsa. Vedere Identificativi risorsa.

Nota

Le risorse della metrica non dispongono di OCID .

Modalità di accesso al monitoraggio

Puoi accedere a Oracle Cloud Infrastructure (OCI) utilizzando la console (un'interfaccia basata su browser), l'API REST o l'interfaccia CLI OCI. Le istruzioni per l'uso della console, dell'API e dell'interfaccia CLI sono incluse negli argomenti della presente documentazione. Per un elenco di SDK disponibili, consulta Software Development Kits and Command Line Interface.

Console: per accedere al servizio di monitoraggio utilizzando la console, è necessario utilizzare un browser supportato. Per andare alla pagina di accesso della console, aprire il menu di navigazione nella parte superiore di questa pagina e selezionare Console dell'infrastruttura. Viene richiesto di immettere il tenant cloud, il nome utente e la password. Aprire il menu di navigazione e selezionare Osservabilità e gestione. In Monitoraggio, selezionare Metriche servizio.

API: per accedere al servizio di monitoraggio tramite le interfacce API, utilizzare API di monitoraggio per le metriche e gli allarmi e API delle notifiche per le notifiche (utilizzata con gli allarmi).

CLI: vedere Riferimento della riga di comando per il monitoraggio e Riferimento della riga di comando per le notifiche.

Autenticazione e autorizzazione

Ogni servizio in Oracle Cloud Infrastructure si integra con IAM per l'autenticazione e l'autorizzazione, per tutte le interfacce (console, SDK o CLI e API REST).

Un amministratore di un'organizzazione deve impostare i gruppi , i compartimenti e i criteri che controllano gli utenti che possono accedere ai servizi, alle risorse e al tipo di accesso. Ad esempio, i criteri controllano chi può creare nuovi utenti, creare e gestire la rete cloud, creare istanze, creare bucket, scaricare oggetti e così via. Per ulteriori informazioni, vedere Gestione dei domini di Identity. Per dettagli specifici sulla scrittura dei criteri relativi a ognuno dei vari servizi, consulta il riferimento per i criteri.

Se sei un utente normale (non un amministratore) che deve utilizzare le risorse Oracle Cloud Infrastructure di proprietà dell'azienda, contatta un amministratore per impostare un ID utente. L'amministratore può confermare quale compartimento o compartimenti è possibile utilizzare.

Per ulteriori informazioni sulle autorizzazioni utente per il monitoraggio, vedere Criteri IAM.

Amministratori: per i criteri comuni che consentono ai gruppi di accedere alle metriche, vedere Accesso alle metriche per i gruppi. Per i criteri di allarme comuni, vedere Allarme accesso per gruppi. Per autorizzare le risorse, ad esempio le istanze, a effettuare chiamate API, aggiungere le risorse a un gruppo dinamico. Utilizzare le regole di corrispondenza del gruppo dinamico per aggiungere le risorse, quindi creare un criterio che consenta a tale gruppo dinamico di accedere alle metriche. Vedere Accesso alle metriche per le risorse.

Limiti del monitoraggio

Per un elenco dei limiti applicabili e le istruzioni per richiedere un aumento del limite, vedere Limiti del monitoraggio.

Altri limiti includono quanto segue.

Limiti memoria

Elemento Intervallo di tempo memorizzato
Definizioni di metriche 90 giorni
Voci della cronologia avvisi 90 giorni

Limiti messaggi di allarme

Il numero massimo di messaggi per valutazione dell'allarme dipende dalla destinazione dell'allarme. I limiti sono associati al servizio Oracle Cloud Infrastructure utilizzato per la destinazione.

Il monitoraggio tiene traccia di 200.000 flussi di metriche per allarme per eventi di qualificazione. Per ulteriori informazioni sulle valutazioni degli allarmi, vedere Valutazioni degli allarmi in questa pagina.

Destinazione allarme Delivery Numero massimo di messaggi di allarme per valutazione
argomento (Notifiche) Almeno una volta 60
flusso (Streaming) Almeno una volta 100.000

Ad esempio, si consideri le seguenti valutazioni di un allarme che spluta le notifiche tra 200 flussi di metriche, utilizzando un argomento come destinazione.

Valutazione allarme (tempo) Transizione del flusso di metriche Messaggi generati Messaggi inviati Messaggi eliminati
0:1:0 110 flussi di metriche passano da OK a FIRING. 110 60 50
0:2:0 90 flussi di metriche passano da OK a FIRING. 90 60 30

Quando un argomento o un flusso viene utilizzato in modo eccessivo, possono verificarsi notifiche di allarme ritardate. L'uso eccessivo può verificarsi quando più risorse utilizzano tale argomento o flusso.

Best practice per lavorare entro i limiti

Quando si prevede un volume elevato di notifiche di allarme, seguire queste procedure ottimali per evitare di superare i limiti dei messaggi di allarme e i ritardi associati.

  • Riserva un singolo argomento o flusso da utilizzare con un allarme ad alto volume. Non utilizzare un solo argomento o flusso per più allarmi ad alto volume.
  • Se si prevedono più di 60 messaggi al minuto, specificare Streaming come destinazione dell'allarme.
  • Streams:
    • Crea partizioni in base al carico previsto. Vedere Limiti sullo streaming delle risorse.
    • Se i messaggi di allarme superano lo spazio del flusso, aggiornare l'allarme in modo da utilizzare un flusso diverso con più partizioni. Ad esempio, se il flusso originale contiene cinque partizioni, creare un flusso con dieci partizioni e quindi aggiornare l'allarme per utilizzare il nuovo flusso.
      Nota

      Per evitare messaggi mancanti, continuare a utilizzare il flusso originale fino a quando non vengono ricevuti altri messaggi.
  • Aumenta i limiti per la tenancy:

Sicurezza

Questo argomento descrive la sicurezza per il monitoraggio.

Per informazioni su come proteggere il monitoraggio, incluse informazioni e suggerimenti sulla sicurezza, vedere Protezione del monitoraggio.