Gestione delle metriche del cluster

Puoi monitorare lo stato, la capacità e le prestazioni delle risorse del servizio Big Data utilizzando metriche, allarmi e notifiche.

Criterio IAM necessario

Per monitorare le risorse, è necessario disporre del tipo di accesso richiesto in un criterio scritto da un amministratore, indipendentemente dal fatto che si stia utilizzando la console o l'API REST con un SDK, un'interfaccia CLI o un altro strumento. Il criterio deve consentire l'accesso ai servizi di monitoraggio e alle risorse monitorate. Se si esegue un'azione e viene visualizzato un messaggio che informa che non si dispone dell'autorizzazione o che non si è autorizzati, confermare con l'amministratore il tipo di accesso concesso e il compartimento in cui lavorare. Per informazioni sulle autorizzazioni utente per il monitoraggio e le notifiche, vedere la sezione Autenticazione e autorizzazione per i servizi seguenti: Monitoraggio e Notifiche.

Metriche disponibili: oci_big_data_service

Per il servizio Big Data sono disponibili due tipi di metriche.

Metriche cluster

Le metriche cluster consentono di ottenere un report a livello di cluster e monitorare i diversi indicatori di prestazioni chiave distribuiti.

Parametri nodo

Le metriche dei nodi consentono di ottenere report a livello di nodo e monitorare lo stato dei singoli nodi del cluster.

Il servizio Big Data emette metriche quando il VMS non è in buono stato. Ad esempio, una metrica viene emessa quando la VM è inattiva e nessuna metrica quando il VMS è attivo o la VM è in stato STOPPED.

Nota

Il servizio Big Data non espone gli eventi di manutenzione correlati a DenseIO tramite le metriche se l'azione di computazione è DISABLE o TERMINATE.

Metriche principal risorsa

Le metriche per i token RST (Resource Principal Session Token) consentono di monitorare in modo proattivo il ciclo di vita, la validità e lo stato di aggiornamento dei token.

Dimensioni metrica


Dimensione	descrizione;
resourceId	OCID del nodo o del cluster del servizio Big Data, a seconda della metrica.
clusterOcid	OCID del cluster del servizio Big Data.
clusterName	Nome del cluster del servizio Big Data.
resourceType	`BigDataClusterNode` (per le metriche nodo) o `BigDataCluster` (per il livello cluster).
resourceDisplayName	Nome nodo, disponibile nell'interfaccia utente dei dettagli del cluster.

I parametri del servizio Big Data includono le dimensioni riportate di seguito.

resourceId
L'ID Oracle Cloud (OCID) del cluster Big Data Service (per le metriche cluster).

OCID (Oracle Cloud ID) del nodo Big Data Service (per le metriche dei nodi)
resourceType
BigDataCluster (per le metriche cluster)

BigDataClusterNode (per le metriche nodo)
resourceDisplayName
Questo campo funge da identificativo univoco per ogni entità metrica. Il campo è il nome del nodo che è possibile trovare nella pagina dei dettagli del cluster.

MaintenanceStatus dimensioni specifiche

maintenanceDueTime
Ora di inizio pianificata della finestra di manutenzione di 24 ore.
computeMaintenanceAction
Azione che Oracle Cloud Infrastructure esegue su un'istanza durante una manutenzione pianificata.
- REBOOT: l'istanza viene migrata dall'host fisico che richiede una manutenzione a un host in buono stato. Se la migrazione attiva non è possibile, viene riavviata la migrazione dell'istanza.
- REBUILD_IN_PLACE: l'istanza viene arrestata, ricostruita sullo stesso hardware fisico e riavviata. Durante il processo di manutenzione si verifica un tempo di inattività di diverse ore.
recommendedAction
Azione che è possibile eseguire prima dell'evento di manutenzione pianificata per controllare in che modo e quando le applicazioni subiscono tempi di inattività.
- REBOOT: è possibile riavviare un nodo cluster. Vedere Riavvio del nodo di un cluster.

Le metriche elencate nella tabella seguente sono automaticamente disponibili per qualsiasi cluster creato. Non è necessario abilitare il monitoraggio sulla risorsa per ottenere queste metriche.


Parametro	Nome visualizzato metrica	Unità	Descrizione	Tipo di risorsa
`HdfsSpaceUsed`	Spazio HDFS utilizzato	byte	Totale spazio HDFS utilizzato nel cluster	Cluster
`HdfsSpaceFree`	Spazio libero HDFS	byte	Spazio totale libero HDFS sul cluster	Cluster
`YarnJobsCompleted`	Job Yarn completati	Job/min	Numero di job YARN completati su questo cluster	Cluster
`SparkJobsCompleted`	Job Spark completati	Job/min	Numero di job Spark completati in questo cluster	Cluster
`ServiceCertificateExpiryTime`	Tempo scadenza certificato servizio	Giorni	Numero di giorni rimanenti per la scadenza di un determinato certificato di servizio nel cluster	Cluster
`CpuUtilization`	Utilizzo CPU	Percentuale	Percentuale CPU utilizzata	nodo
`DiskUtilization`	Utilizzo del disco	byte	Spazio su disco utilizzato	nodo
`MemoryUtilization`	Utilizzo memoria	byte	Memoria totale utilizzata	nodo
`NetworkBytesIn`	Byte di rete in entrata	byte/min	Byte di rete in al minuto	nodo
`NetworkBytesOut`	Byte di rete in uscita	byte/min	Byte di rete in uscita al minuto	nodo
`CertificateExpiryTime`	Ora scadenza certificato	Giorni	Giorni alla scadenza del certificato	nodo
`MaintenanceStatus`	Stato gestione	Conteggio	Il valore 0 indica che il nodo non dispone di un riavvio per manutenzione pianificata. Il valore 1 indica che il nodo ha un riavvio per manutenzione pianificato.	nodo
`ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold`	Avviso scadenza token	Boolean	Indica se il token RPST ha superato l'80% della relativa durata.	BigDataClusterNode
`ResourcePrincipalSessionTokenStatus`	Stato RPST	Count	1: Token scaduto, 2: Token mancante. 0: token in buono stato.	BigDataClusterNode
`ResourcePrincipalTokenRefreshedInLast30Mins`	Stato aggiornamento token	Boolean	Indica se il token RPST è stato aggiornato negli ultimi 30 minuti a livello di cluster.	BigDataCluster

Documentazione di Oracle Cloud Infrastructure

Gestione delle metriche del cluster

Criterio IAM necessario

Metriche disponibili: oci_big_data_service