Gestione delle metriche del cluster
Puoi monitorare lo stato, la capacità e le prestazioni delle risorse del servizio Big Data utilizzando metriche, allarmi e notifiche.
Criterio IAM necessario
Per monitorare le risorse, è necessario disporre del tipo di accesso richiesto in un criterio scritto da un amministratore, indipendentemente dal fatto che si stia utilizzando la console o l'API REST con un SDK, un'interfaccia CLI o un altro strumento. Il criterio deve consentire l'accesso ai servizi di monitoraggio e alle risorse monitorate. Se si esegue un'azione e viene visualizzato un messaggio che informa che non si dispone dell'autorizzazione o che non si è autorizzati, confermare con l'amministratore il tipo di accesso concesso e il compartimento in cui lavorare. Per informazioni sulle autorizzazioni utente per il monitoraggio e le notifiche, vedere la sezione Autenticazione e autorizzazione per i servizi seguenti: Monitoraggio e Notifiche.
Metriche disponibili: oci_big_data_service
Per il servizio Big Data sono disponibili due tipi di metriche.
- Metriche cluster
-
Le metriche cluster consentono di ottenere un report a livello di cluster e monitorare i diversi indicatori di prestazioni chiave distribuiti.
- Parametri nodo
-
Le metriche dei nodi consentono di ottenere report a livello di nodo e monitorare lo stato dei singoli nodi del cluster.
Il servizio Big Data emette metriche quando il VMS non è in buono stato. Ad esempio, una metrica viene emessa quando la VM è inattiva e nessuna metrica quando il VMS è attivo o la VM è in stato STOPPED.
Nota
Il servizio Big Data non espone gli eventi di manutenzione correlati a DenseIO tramite le metriche se l'azione di computazione è DISABLE o TERMINATE. - Metriche principal risorsa
-
Le metriche per i token RST (Resource Principal Session Token) consentono di monitorare in modo proattivo il ciclo di vita, la validità e lo stato di aggiornamento dei token.
Dimensioni metrica
Dimensione descrizione; resourceId OCID del nodo o del cluster del servizio Big Data, a seconda della metrica. clusterOcid OCID del cluster del servizio Big Data. clusterName Nome del cluster del servizio Big Data. resourceType BigDataClusterNode
(per le metriche nodo) oBigDataCluster
(per il livello cluster).resourceDisplayName Nome nodo, disponibile nell'interfaccia utente dei dettagli del cluster.
I parametri del servizio Big Data includono le dimensioni riportate di seguito.
-
resourceId
L'ID Oracle Cloud (OCID) del cluster Big Data Service (per le metriche cluster).
OCID (Oracle Cloud ID) del nodo Big Data Service (per le metriche dei nodi)
-
resourceType
BigDataCluster
(per le metriche cluster)BigDataClusterNode
(per le metriche nodo) -
resourceDisplayName
Questo campo funge da identificativo univoco per ogni entità metrica. Il campo è il nome del nodo che è possibile trovare nella pagina dei dettagli del cluster.
-
maintenanceDueTime
Ora di inizio pianificata della finestra di manutenzione di 24 ore.
-
computeMaintenanceAction
Azione che Oracle Cloud Infrastructure esegue su un'istanza durante una manutenzione pianificata.
-
REBOOT
: l'istanza viene migrata dall'host fisico che richiede una manutenzione a un host in buono stato. Se la migrazione attiva non è possibile, viene riavviata la migrazione dell'istanza. -
REBUILD_IN_PLACE
: l'istanza viene arrestata, ricostruita sullo stesso hardware fisico e riavviata. Durante il processo di manutenzione si verifica un tempo di inattività di diverse ore.
-
-
recommendedAction
Azione che è possibile eseguire prima dell'evento di manutenzione pianificata per controllare in che modo e quando le applicazioni subiscono tempi di inattività.
-
REBOOT
: è possibile riavviare un nodo cluster. Vedere Riavvio del nodo di un cluster.
-
Le metriche elencate nella tabella seguente sono automaticamente disponibili per qualsiasi cluster creato. Non è necessario abilitare il monitoraggio sulla risorsa per ottenere queste metriche.
Parametro | Nome visualizzato metrica | Unità | Descrizione | Tipo di risorsa |
---|---|---|---|---|
HdfsSpaceUsed
|
Spazio HDFS utilizzato | byte | Totale spazio HDFS utilizzato nel cluster | Cluster |
HdfsSpaceFree
|
Spazio libero HDFS | byte | Spazio totale libero HDFS sul cluster | Cluster |
YarnJobsCompleted
|
Job Yarn completati | Job/min | Numero di job YARN completati su questo cluster | Cluster |
SparkJobsCompleted
|
Job Spark completati | Job/min | Numero di job Spark completati in questo cluster | Cluster |
ServiceCertificateExpiryTime
|
Tempo scadenza certificato servizio | Giorni | Numero di giorni rimanenti per la scadenza di un determinato certificato di servizio nel cluster | Cluster |
CpuUtilization
|
Utilizzo CPU | Percentuale | Percentuale CPU utilizzata | nodo |
DiskUtilization
|
Utilizzo del disco | byte | Spazio su disco utilizzato | nodo |
MemoryUtilization
|
Utilizzo memoria | byte | Memoria totale utilizzata | nodo |
NetworkBytesIn
|
Byte di rete in entrata | byte/min | Byte di rete in al minuto | nodo |
NetworkBytesOut
|
Byte di rete in uscita | byte/min | Byte di rete in uscita al minuto | nodo |
CertificateExpiryTime
|
Ora scadenza certificato | Giorni | Giorni alla scadenza del certificato | nodo |
MaintenanceStatus
|
Stato gestione | Conteggio | Il valore 0 indica che il nodo non dispone di un riavvio per manutenzione pianificata. Il valore 1 indica che il nodo ha un riavvio per manutenzione pianificato. | nodo |
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold
|
Avviso scadenza token | Boolean | Indica se il token RPST ha superato l'80% della relativa durata. | BigDataClusterNode |
ResourcePrincipalSessionTokenStatus
|
Stato RPST | Count | 1: Token scaduto, 2: Token mancante. 0: token in buono stato. | BigDataClusterNode |
ResourcePrincipalTokenRefreshedInLast30Mins
|
Stato aggiornamento token | Boolean | Indica se il token RPST è stato aggiornato negli ultimi 30 minuti a livello di cluster. | BigDataCluster |