Gestione delle metriche del cluster

Criterio IAM necessario

Per monitorare le risorse, è necessario disporre del tipo di accesso richiesto in un criterio scritto da un amministratore, indipendentemente dal fatto che si stia utilizzando la console o l'API REST con un SDK, un'interfaccia CLI o un altro strumento. Il criterio deve consentire l'accesso ai servizi di monitoraggio e alle risorse monitorate. Se si esegue un'azione e viene visualizzato un messaggio che informa che non si dispone dell'autorizzazione o che non si è autorizzati, confermare con l'amministratore il tipo di accesso concesso e il compartimento in cui lavorare. Per informazioni sulle autorizzazioni utente per il monitoraggio e le notifiche, vedere la sezione Autenticazione e autorizzazione per i servizi seguenti: Monitoraggio e Notifiche.

Metriche disponibili: oci_big_data_service

Per il servizio Big Data sono disponibili due tipi di metriche.

Metriche cluster

Le metriche cluster consentono di ottenere un report a livello di cluster e monitorare i diversi indicatori di prestazioni chiave distribuiti.

Parametri nodo

Le metriche dei nodi consentono di ottenere report a livello di nodo e monitorare lo stato dei singoli nodi del cluster.

Il servizio Big Data emette metriche quando il VMS non è in buono stato. Ad esempio, una metrica viene emessa quando la VM è inattiva e nessuna metrica quando il VMS è attivo o la VM è in stato STOPPED.

Nota

Il servizio Big Data non espone gli eventi di manutenzione correlati a DenseIO tramite le metriche se l'azione di computazione è DISABLE o TERMINATE.
Metriche principal risorsa

Le metriche per i token RST (Resource Principal Session Token) consentono di monitorare in modo proattivo il ciclo di vita, la validità e lo stato di aggiornamento dei token.

Dimensioni metrica

Dimensione descrizione;
resourceId OCID del nodo o del cluster del servizio Big Data, a seconda della metrica.
clusterOcid OCID del cluster del servizio Big Data.
clusterName Nome del cluster del servizio Big Data.
resourceType BigDataClusterNode (per le metriche nodo) o BigDataCluster (per il livello cluster).
resourceDisplayName Nome nodo, disponibile nell'interfaccia utente dei dettagli del cluster.

I parametri del servizio Big Data includono le dimensioni riportate di seguito.

  • resourceId

    L'ID Oracle Cloud (OCID) del cluster Big Data Service (per le metriche cluster).

    OCID (Oracle Cloud ID) del nodo Big Data Service (per le metriche dei nodi)

  • resourceType

    BigDataCluster (per le metriche cluster)

    BigDataClusterNode (per le metriche nodo)

  • resourceDisplayName

    Questo campo funge da identificativo univoco per ogni entità metrica. Il campo è il nome del nodo che è possibile trovare nella pagina dei dettagli del cluster.

MaintenanceStatus dimensioni specifiche
  • maintenanceDueTime

    Ora di inizio pianificata della finestra di manutenzione di 24 ore.

  • computeMaintenanceAction

    Azione che Oracle Cloud Infrastructure esegue su un'istanza durante una manutenzione pianificata.

    • REBOOT: l'istanza viene migrata dall'host fisico che richiede una manutenzione a un host in buono stato. Se la migrazione attiva non è possibile, viene riavviata la migrazione dell'istanza.
    • REBUILD_IN_PLACE: l'istanza viene arrestata, ricostruita sullo stesso hardware fisico e riavviata. Durante il processo di manutenzione si verifica un tempo di inattività di diverse ore.
  • recommendedAction

    Azione che è possibile eseguire prima dell'evento di manutenzione pianificata per controllare in che modo e quando le applicazioni subiscono tempi di inattività.

Le metriche elencate nella tabella seguente sono automaticamente disponibili per qualsiasi cluster creato. Non è necessario abilitare il monitoraggio sulla risorsa per ottenere queste metriche.

Parametro Nome visualizzato metrica Unità Descrizione Tipo di risorsa
HdfsSpaceUsed Spazio HDFS utilizzato byte Totale spazio HDFS utilizzato nel cluster Cluster
HdfsSpaceFree Spazio libero HDFS byte Spazio totale libero HDFS sul cluster Cluster
YarnJobsCompleted Job Yarn completati Job/min Numero di job YARN completati su questo cluster Cluster
SparkJobsCompleted Job Spark completati Job/min Numero di job Spark completati in questo cluster Cluster
ServiceCertificateExpiryTime Tempo scadenza certificato servizio Giorni Numero di giorni rimanenti per la scadenza di un determinato certificato di servizio nel cluster Cluster
CpuUtilization Utilizzo CPU Percentuale Percentuale CPU utilizzata nodo
DiskUtilization Utilizzo del disco byte Spazio su disco utilizzato nodo
MemoryUtilization Utilizzo memoria byte Memoria totale utilizzata nodo
NetworkBytesIn Byte di rete in entrata byte/min Byte di rete in al minuto nodo
NetworkBytesOut Byte di rete in uscita byte/min Byte di rete in uscita al minuto nodo
CertificateExpiryTime Ora scadenza certificato Giorni Giorni alla scadenza del certificato nodo
MaintenanceStatus Stato gestione Conteggio Il valore 0 indica che il nodo non dispone di un riavvio per manutenzione pianificata. Il valore 1 indica che il nodo ha un riavvio per manutenzione pianificato. nodo
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold Avviso scadenza token Boolean Indica se il token RPST ha superato l'80% della relativa durata. BigDataClusterNode
ResourcePrincipalSessionTokenStatus Stato RPST Count 1: Token scaduto, 2: Token mancante. 0: token in buono stato. BigDataClusterNode
ResourcePrincipalTokenRefreshedInLast30Mins Stato aggiornamento token Boolean Indica se il token RPST è stato aggiornato negli ultimi 30 minuti a livello di cluster. BigDataCluster