Gerenciando Métricas do Cluster

Você pode monitorar a integridade, a capacidade e o desempenho de seus recursos do Big Data Service usando métricas, alarmes e notificações.

Política do IAM Obrigatória

Para monitorar recursos, você deve ter o tipo necessário de acesso em uma política gravada por um administrador, quer esteja usando a Console ou a API REST com um SDK, uma CLI ou outra ferramenta. A política deve fornecer acesso aos serviços de monitoramento e aos recursos que estão sendo monitorados. Se você executar uma ação e receber uma mensagem de que não tem permissão ou está não autorizado, confirme com o administrador o tipo de acesso que você recebeu e em qual compartimento trabalhar. Para obter mais informações sobre autorizações do usuário para monitoramento e notificações, consulte a seção Autenticação e Autorização dos seguintes serviços: Monitoramento e Notificações.

Métricas Disponíveis: oci_big_data_service

Há dois tipos de métricas disponíveis para o Big Data Service.

Métricas do cluster

As métricas do cluster permitem que você obtenha um relatório no nível do cluster e monitore os diferentes indicadores de desempenho de chave distribuída.

Métricas do nó

As métricas do nó permitem obter relatórios no nível do nó e monitorar o status de nós individuais do cluster.

O Big Data Service emite métricas quando o VMS não está íntegro. Por exemplo, uma métrica é emitida quando a VM está inativa e nenhuma métrica quando o VMS está ativo ou a VM está no estado STOPPED.

Observação

O Big Data Service não expõe eventos de manutenção relacionados a DenseIO por meio de métricas se a ação de computação for DISABLE ou TERMINATE.

Métricas do Controlador de Recursos

As métricas de RRPST (Resource Principal Session Tokens) ajudam a monitorar proativamente o ciclo de vida, a validade e o status da atualização do token.

Dimensões de Métrica


Dimensão	Descrição
resourceId	OCID do nó ou cluster do Big Data Service, dependendo da métrica.
clusterOcid	OCID do cluster do Big Data Service.
clusterName	Nome do cluster do Big Data Service.
resourceType	`BigDataClusterNode` (para métricas de nó) ou `BigDataCluster` (para nível de cluster).
resourceDisplayName	Nome do nó, disponível na IU de detalhes do cluster.

As métricas do Big Data Service incluem as seguintes dimensões:

resourceId
O OCID (Oracle Cloud ID) do cluster do Big Data Service (para métricas do cluster).

O OCID (Oracle Cloud ID) do nó do Big Data Service (para métricas do nó)
resourceType
BigDataCluster (para métricas do cluster)

BigDataClusterNode (para métricas do nó)
resourceDisplayName
Este campo serve como um identificador exclusivo para cada entidade métrica. O campo é o nome do nó que pode ser encontrado na página de detalhes do Cluster.

MaintenanceStatus dimensões específicas

maintenanceDueTime
A hora inicial programada da janela de manutenção de 24 horas.
computeMaintenanceAction
A ação que o Oracle Cloud Infrastructure executa em uma instância durante uma manutenção programada.
- REBOOT: A instância é migrada do host físico que precisa de manutenção para um host íntegro. Se a migração ao vivo não for possível, a instância será reinicializada migrada.
- REBUILD_IN_PLACE: A instância é interrompida, reconstruída no mesmo hardware físico e reinicializada. Um período de indisponibilidade de várias horas ocorre durante o processo de manutenção.
recommendedAction
A ação que você pode executar antes do evento da manutenção programada para controlar como e quando seus aplicativos experimentam período de indisponibilidade.
- REBOOT: Você pode reinicializar um nó do cluster. Consulte Reiniciando um Nó do Cluster.

As métricas listadas na tabela a seguir estão automaticamente disponíveis para qualquer cluster que você criar. Você não precisa ativar o monitoramento no recurso para obter essas métricas.


Métrica	Nome para Exibição da Métrica	Unidade	Descrição	Tipo de Recurso
`HdfsSpaceUsed`	Espaço Utilizado do HDFS	Bytes	Espaço total utilizado do HDFS no cluster	Cluster
`HdfsSpaceFree`	Espaço Livre do HDFS	Bytes	Espaço total livre do HDFS no cluster	Cluster
`YarnJobsCompleted`	Jobs Concluídos do Yarn	Jobs/Min	Número de jobs do YARN concluídos neste cluster	Cluster
`SparkJobsCompleted`	Jobs Concluídos do Spark	Jobs/Min	Número de jobs do Spark concluídos neste cluster	Cluster
`ServiceCertificateExpiryTime`	Tempo de expiração do certificado do serviço	Dias	Número de dias restantes para que um certificado de serviço específico expire no cluster	Cluster
`CpuUtilization`	Utilização da CPU	Porcentagem	Porcentagem da CPU usada	Nó
`DiskUtilization`	Utilização do Disco	Bytes	Espaço em disco usado	Nó
`MemoryUtilization`	Utilização da Memória	Bytes	Memória total utilizada	Nó
`NetworkBytesIn`	Entrada de Bytes de Rede	Bytes/Minuto	Entrada de bytes de rede por minuto	Nó
`NetworkBytesOut`	Saída de Bytes de Rede	Bytes/Minuto	Saída de bytes de rede por minuto	Nó
`CertificateExpiryTime`	Tempo de Expiração do Certificado	Dias	Dias até a expiração do certificado	Nó
`MaintenanceStatus`	Status da Manutenção	Contagem	Um valor 0 indica que o nó não tem reinicialização de manutenção programada. Um valor 1 indica que o nó tem a reinicialização de manutenção programada.	Nó
`ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold`	Alerta de Expiração do Token	Booliano	Indica se o token RPST excedeu 80% de sua vida útil.	BigDataClusterNode
`ResourcePrincipalSessionTokenStatus`	Status RPST	Contagem	1: Token expirado, 2: Token ausente. 0: token íntegro.	BigDataClusterNode
`ResourcePrincipalTokenRefreshedInLast30Mins`	Status de Atualização do Token	Booliano	Indica se o token RPST foi atualizado nos últimos 30 minutos no nível do cluster.	BigDataCluster

Documentação do Oracle Cloud Infrastructure

Gerenciando Métricas do Cluster

Política do IAM Obrigatória

Métricas Disponíveis: oci_big_data_service