Risoluzione dei problemi degli allarmi

Utilizzare le informazioni di risoluzione dei problemi per identificare e risolvere i problemi comuni che possono verificarsi durante l'utilizzo degli allarmi in Monitoraggio.

Prima di risolvere i problemi, assicurarsi di aver compreso come vengono valutati gli allarmi. Vedere Illustrazione della valutazione degli allarmi.

L'allarme non spara

L'allarme ha soddisfatto le condizioni per sparare, ma non ha sparato. Ad esempio, un'istanza di computazione è stata disattivata.

Causa: ritardo trigger lungo

L'espressione di allarme non ha restituito true per minuti consecutivi nel periodo di ritardo del trigger.

L'immagine seguente del grafico delle metriche di un allarme include un'area ombreggiata per indicare il periodo di ritardo del trigger. In questo esempio, il riepilogo dell'allarme visualizzato nella pagina dei dettagli dell'allarme è Alarm fires when the Mean of CpuUtilization is greater than the threshold value of 80, with a trigger delay of 10 minutes. Il ritardo del trigger inizia alle 1:30 (quando la soglia viene superata) e termina alle 1:40. L'espressione di allarme restituisce true alle 1:30, quindi restituisce false alle 1:32. Questa vera valutazione non continua per l'intero periodo di ritardo del trigger di dieci minuti, quindi l'allarme non si attiva.


Ritardo trigger sovrapposto a un grafico delle metriche di allarme.

Per visualizzare il grafico delle metriche per un allarme, ottenere la relativa cronologia.

Per ulteriori informazioni sulla modalità di valutazione degli allarmi, vedere Illustrazione della valutazione degli allarmi.

Rimedio: accorciare il ritardo del trigger

Se il ritardo del trigger è troppo lungo e si desidera che l'allarme venga attivato immediatamente dopo aver violato la soglia, aggiornare l'allarme per utilizzare un ritardo del trigger più breve. Ad esempio, impostare il ritardo del trigger su un minuto. Vedere Definizione del ritardo del trigger per un allarme e Riferimento MQL (Monitoring Query Language).

Causa: l'intervallo è più breve della frequenza di emissione

L'espressione di allarme ha restituito true, causando l'attivazione dell'allarme, ma all'intervallo successivo, anche se l'ultimo punto dati ha superato la soglia, l'allarme è stato cancellato. Allarme cancellato perché l'intervallo è più breve della frequenza di emissione per la metrica selezionata.

L'immagine seguente del grafico delle metriche di un allarme mostra i datapoint orari per la metrica selezionata, StoredBytes, dallo spazio di nomi delle metriche oci_object_storage. La query di allarme è StoredBytes[1m].sum() > 800000000, che specifica un intervallo di un minuto. Questo intervallo è più breve della frequenza di emissione della metrica, ovvero un'ora. La frequenza è documentata in Metriche di storage degli oggetti.


Grafico delle metriche di allarme per una metrica con frequenza di emissione oraria.

In questo esempio, l'allarme si attiva alle 3:00 e si cancella alle 3:01. Se l'intervallo è stato impostato su un'ora, l'espressione dell'allarme continuerà a restituire true e l'allarme continuerà a essere attivato fino alle 4:00.

Per visualizzare il grafico delle metriche per un allarme, ottenere la relativa cronologia.

Per ulteriori informazioni sulla modalità di valutazione degli allarmi, vedere Illustrazione della valutazione degli allarmi.

Rimedio: aumentare l'intervallo

Se si desidera che l'allarme venga attivato, aggiornare l'intervallo di allarme in modo che sia uguale o più lungo della frequenza di emissione della metrica. Ad esempio, per la metrica StoredBytes, aggiornare l'intervallo di allarme ad almeno un'ora se si desidera che l'allarme venga attivato alle 3:01 e continuare l'attivazione fino alle 4:00 nell'esempio precedente. Vedere Selezione dell'intervallo per una query di allarme e Riferimento MQL (Monitoring Query Language).

Causa: dimensioni errate

L'espressione di allarme non ha restituito true quando una risorsa ha soddisfatto la condizione definita nell'allarme perché la risorsa è stata filtrata utilizzando le dimensioni.

Si consideri ad esempio un allarme con dimensioni selezionate per il dominio di disponibilità 1. La risorsa che ha soddisfatto la condizione si trova nel dominio di disponibilità 2. La valutazione dell'allarme considera solo le risorse che corrispondono alle dimensioni specificate.

Rimedio: Aggiorna dimensioni

Rimuovere le dimensioni o aggiornarle per includere la risorsa. Vedere Selezione di dimensioni per una query di allarme.

Causa: query errata

Esempi comuni:

  • La query di allarme potrebbe specificare la metrica MemoryUtilization quando si intendeva selezionare CpuUtilization.
  • La query di allarme potrebbe specificare la statistica mean() quando invece si desidera che l'allarme monitor la somma dei datapoint in un intervallo (sum()).

Per controllare la presenza di un allarme nella query, ottenerne i dettagli.

Per informazioni sugli elementi di query, vedere Riferimento MQL (Monitoring Query Language). Per ulteriori informazioni sulla modalità di valutazione degli allarmi, vedere Illustrazione della valutazione degli allarmi.

Rimedio: aggiorna la query

Aggiornare l'allarme per specificare la metrica desiderata. Per modificare direttamente MQL, vedere Modifica dell'espressione MQL durante l'aggiornamento di un allarme.

Causa: l'allarme è disabilitato

Rimedio: abilitare l'allarme

  1. Nella pagina di elenco Definizioni allarmi selezionare l'allarme da utilizzare. Se è necessaria assistenza per trovare la pagina dell'elenco o l'allarme, vedere Elenca allarmi.
    Nota

    Questi passi riguardano la console. Per istruzioni complete, vedere Abilitazione di un allarme.
  2. Nella pagina dei dettagli dell'allarme, selezionare Allarme abilitato.

Allarme non invia notifica

Quando l'allarme si accende, non invia una notifica.

Causa: allarme o dimensione eliminati

Rimedio: rimuovere la soppressione

Vedere Rimozione di un'eliminazione da un singolo allarme e Rimozione di eliminazioni da più allarmi.

Causa: la sottoscrizione non fa parte dell'argomento configurato

Ad esempio, supponiamo che non ricevi messaggi di allarme nella tua casella di posta. L'argomento specificato per l'allarme potrebbe non avere una sottoscrizione e-mail per l'indirizzo e-mail desiderato.

Per verificare se l'argomento include la sottoscrizione prevista, vedere Ottenere i dettagli di un argomento.

Rimedio: Aggiorna argomento per includere la sottoscrizione

Vedere Creazione di una sottoscrizione.

È inoltre possibile aggiornare l'allarme per fare riferimento a un nuovo argomento e a una sottoscrizione oppure a un argomento esistente che include la sottoscrizione desiderata. Vedere Selezione di un argomento come destinazione di notifica per un allarme.

Allarme invia troppe notifiche

Quando l'allarme si attiva, invia più notifiche del previsto.

Causa: le notifiche di ripetizione sono abilitate

L'allarme è configurato per ripetere le notifiche di allarme quando l'allarme continua a essere attivato senza interruzioni.

Rimedio: Disabilita notifiche ripetute

  1. Nella pagina di elenco Definizioni allarmi selezionare l'allarme da utilizzare. Se è necessaria assistenza per trovare la pagina dell'elenco o l'allarme, vedere Elenca allarmi.
    Nota

    Questi passi riguardano la console. Per istruzioni complete, vedere Ripetizione delle notifiche per un allarme.
  2. Andare a Azioni, quindi selezionare Modifica allarme.
  3. In Definisci notifiche di allarme deselezionare la casella di controllo Ripeti notifica?.
  4. Selezionare Salva allarme.

Causa: le notifiche frazionate sono abilitate

L'allarme è configurato per inviare una notifica per ogni flusso di metriche che viene attivato. Ad esempio, se vengono attivati 50 flussi di metriche, l'allarme invia 50 notifiche. Questo comportamento è previsto per le notifiche frazionate. Vedere Scenario: Fraziona messaggi per flusso di metriche.

Ad esempio, l'immagine riportata di seguito mostra un grafico delle metriche di allarme con due flussi di metriche che superano la soglia a 1:30, causando l'attivazione dell'allarme.


Due flussi metrici sparano alle 1:30.

Di seguito è riportato il messaggio di allarme inviato per l'istanza di computazione con il valore della metrica 87.

Messaggio e-mail inviato per il primo flusso di metriche di attivazione nell'esempio.

Di seguito è riportato il messaggio di allarme inviato per l'istanza di computazione con il valore della metrica 95.

Messaggio e-mail inviato per il secondo flusso di metriche di attivazione nell'esempio.

Per visualizzare il grafico delle metriche per un allarme, ottenere la relativa cronologia.

Se non si intendeva che l'allarme inviasse una notifica per ogni flusso di metriche di attivazione, prendere in considerazione l'aggiornamento dell'allarme alle notifiche di gruppo. Vedere Quando raggruppare le notifiche. Dopo questo aggiornamento, l'allarme invia una singola notifica quando l'allarme viene attivato, indipendentemente dal numero di flussi di metriche che vengono attivati.

Allarme non salvato (errore 404)

Quando si tenta di salvare un allarme nuovo o aggiornato, viene visualizzato un errore 404 che impedisce la creazione o l'aggiornamento dell'allarme.

Causa: criteri insufficienti

Un errore 404 indica che non si dispone dei criteri IAM necessari.

Rimedio: ottieni i criteri richiesti

Vedere Criteri IAM.

Allarme incendi e cancella continuamente

Risolvere un allarme che continua a cambiare tra i valori di stato Firing e OK.

L'intervallo di allarme è troppo piccolo oppure il ritardo trigger è troppo grande (o entrambi). La risorsa emette la metrica specificata con una frequenza maggiore dell'intervallo di allarme.

Ad esempio, si consideri la metrica DatabaseAvailability, che viene emessa ogni 5 minuti.

Richiesta API (porzioni rilevanti):

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[1m].absent()",
  "pendingDuration":"PT3M",

Configurazione della console:

Campo Value
Spazio di nomi metrica oci_autonomous_database
Nome metrica DatabaseAvailability
Intervallo 1 minuto
Statistica Media
Regola trigger
  • Operatore: assegnato
  • Minuti di ritardo trigger: 3
Raggruppamento messaggi Raggruppa le notifiche nei flussi di metriche
Esempio: stato degli switch di allarme

Di seguito è riportato un esempio di passaggio dello stato di un allarme tra i valori di stato Firing e OK da 1:00 a 1:08. Prendere nota dello stato OK alle 1:01, 1:02, 1:06 e 1:07. In questi momenti, i risultati della valutazione dell'allarme hanno soddisfatto la condizione per l'intervallo di un minuto, ma la modifica dello stato era internamente in sospeso a causa del ritardo del trigger di tre minuti. Lo stato dell'allarme è stato modificato in Firing alle 1:03 e alle 1:08 perché tre valutazioni consecutive hanno soddisfatto la condizione.

Ora Valore nel grafico delle metriche* Condizioni di allarme soddisfatte? Stato allarme
1:0 0 N OK
1:1 1 Sì La modifica dello stato è internamente in sospeso OK
1:2 1 Sì La modifica dello stato è internamente in sospeso OK
1:3 1 Firing
1:4 1 Firing
1:5 0 N OK
1:6 1 Sì La modifica dello stato è internamente in sospeso OK
1:7 1 Sì La modifica dello stato è internamente in sospeso OK
1:8 1 Firing

*Per il valore nel grafico delle metriche, 0 indica che la metrica è presente mentre 1 indica che la metrica è assente. Per un grafico delle metriche di esempio, vedere Creazione di un allarme assenza.

Per risolvere questa situazione, aggiornare la seguente configurazione di allarme:

Ad esempio, aggiornare l'intervallo a 10 minuti e aggiornare il ritardo del trigger a 1 minuto.

Richiesta API (porzioni rilevanti):

  "isNotificationsPerMetricDimensionEnabled":false,
  "namespace":"oci_autonomous_database",
  "query":"DatabaseAvailability[10m].absent()",
  "pendingDuration":"PT1M",

Configurazione della console:

Campo Value
Spazio di nomi metrica oci_autonomous_database
Nome metrica DatabaseAvailability
Intervallo 10 minuti
Statistica Media
Regola trigger
  • Operatore: assegnato
  • Minuti di ritardo trigger: 1
Raggruppamento messaggi Raggruppa le notifiche nei flussi di metriche
Esempio: metrica presente, allarme OK
In questo esempio, la metrica è presente nei tempi previsti (ogni cinque minuti): 2:00, 2:05 e 2:10. Ogni volta, l'allarme valuta la presenza della metrica durante gli ultimi dieci minuti. Lo stato dell'allarme rimane OK per gli orari elencati.
Ora Valore nel grafico delle metriche* Condizioni di allarme soddisfatte? Stato allarme
2:0 0 N OK
2:1 1 N OK
2:2 1 N OK
2:3 1 N OK
2:4 1 N OK
2:5 0 N OK
2:6 1 N OK
2:7 1 N OK
2:8 1 N OK
2:9 1 N OK
2:10 0 N OK
2:11 1 N OK
*Per il valore nel grafico delle metriche, 0 indica che la metrica è presente mentre 1 indica che la metrica è assente. Per un grafico delle metriche di esempio, vedere Creazione di un allarme assenza.
Esempio: metrica assente, allarme Firing
In questo esempio, la metrica è presente alle 2:00, ma assente alle 2:05 e alle 2:10. Poiché l'intervallo di allarme è di dieci minuti, la condizione di allarme non è stata soddisfatta alle 2:05. Alle 2:10 lo stato dell'allarme diventa Firing perché viene soddisfatta la condizione dell'allarme (per l'intervallo di dieci minuti erano presenti metriche zero).
Ora Valore nel grafico delle metriche* Condizioni di allarme soddisfatte? Stato allarme
2:0 0 N OK
2:1 1 N OK
2:2 1 N OK
2:3 1 N OK
2:4 1 N OK
2:5 1 N OK
2:6 1 N OK
2:7 1 N OK
2:8 1 N OK
2:9 1 N OK
2:10 1 Firing
2:11 1 Firing
*Per il valore nel grafico delle metriche, 0 indica che la metrica è presente mentre 1 indica che la metrica è assente. Per un grafico delle metriche di esempio, vedere Creazione di un allarme assenza.