Gerenciando Métricas do Cluster

Você pode monitorar a integridade, a capacidade e o desempenho de seus recursos do Big Data Service usando métricas, alarmes e notificações.

Política do IAM Obrigatória

Para monitorar recursos, você deve ter o tipo necessário de acesso em uma política gravada por um administrador, quer esteja usando a Console ou a API REST com um SDK, uma CLI ou outra ferramenta. A política deve fornecer acesso aos serviços de monitoramento e aos recursos que estão sendo monitorados. Se você executar uma ação e receber uma mensagem de que não tem permissão ou está não autorizado, confirme com o administrador o tipo de acesso que você recebeu e em qual compartimento trabalhar. Para obter mais informações sobre autorizações do usuário para monitoramento e notificações, consulte a seção Autenticação e Autorização dos seguintes serviços: Monitoramento e Notificações.

Métricas Disponíveis: oci_big_data_service

Há dois tipos de métricas disponíveis para o Big Data Service.

Métricas do cluster

As métricas do cluster permitem que você obtenha um relatório no nível do cluster e monitore os diferentes indicadores de desempenho de chave distribuída.

Métricas do nó

As métricas do nó permitem obter relatórios no nível do nó e monitorar o status de nós individuais do cluster.

O Big Data Service emite métricas quando o VMS não está íntegro. Por exemplo, uma métrica é emitida quando a VM está inativa e nenhuma métrica quando o VMS está ativo ou a VM está no estado STOPPED.

Observação

O Big Data Service não expõe eventos de manutenção relacionados a DenseIO por meio de métricas se a ação de computação for DISABLE ou TERMINATE.
Métricas do Controlador de Recursos

As métricas de RRPST (Resource Principal Session Tokens) ajudam a monitorar proativamente o ciclo de vida, a validade e o status da atualização do token.

Dimensões de Métrica

Dimensão Descrição
resourceId OCID do nó ou cluster do Big Data Service, dependendo da métrica.
clusterOcid OCID do cluster do Big Data Service.
clusterName Nome do cluster do Big Data Service.
resourceType BigDataClusterNode (para métricas de nó) ou BigDataCluster (para nível de cluster).
resourceDisplayName Nome do nó, disponível na IU de detalhes do cluster.

As métricas do Big Data Service incluem as seguintes dimensões:

  • resourceId

    O OCID (Oracle Cloud ID) do cluster do Big Data Service (para métricas do cluster).

    O OCID (Oracle Cloud ID) do nó do Big Data Service (para métricas do nó)

  • resourceType

    BigDataCluster (para métricas do cluster)

    BigDataClusterNode (para métricas do nó)

  • resourceDisplayName

    Este campo serve como um identificador exclusivo para cada entidade métrica. O campo é o nome do nó que pode ser encontrado na página de detalhes do Cluster.

MaintenanceStatus dimensões específicas
  • maintenanceDueTime

    A hora inicial programada da janela de manutenção de 24 horas.

  • computeMaintenanceAction

    A ação que o Oracle Cloud Infrastructure executa em uma instância durante uma manutenção programada.

    • REBOOT: A instância é migrada do host físico que precisa de manutenção para um host íntegro. Se a migração ao vivo não for possível, a instância será reinicializada migrada.
    • REBUILD_IN_PLACE: A instância é interrompida, reconstruída no mesmo hardware físico e reinicializada. Um período de indisponibilidade de várias horas ocorre durante o processo de manutenção.
  • recommendedAction

    A ação que você pode executar antes do evento da manutenção programada para controlar como e quando seus aplicativos experimentam período de indisponibilidade.

As métricas listadas na tabela a seguir estão automaticamente disponíveis para qualquer cluster que você criar. Você não precisa ativar o monitoramento no recurso para obter essas métricas.

Métrica Nome para Exibição da Métrica Unidade Descrição Tipo de Recurso
HdfsSpaceUsed Espaço Utilizado do HDFS Bytes Espaço total utilizado do HDFS no cluster Cluster
HdfsSpaceFree Espaço Livre do HDFS Bytes Espaço total livre do HDFS no cluster Cluster
YarnJobsCompleted Jobs Concluídos do Yarn Jobs/Min Número de jobs do YARN concluídos neste cluster Cluster
SparkJobsCompleted Jobs Concluídos do Spark Jobs/Min Número de jobs do Spark concluídos neste cluster Cluster
ServiceCertificateExpiryTime Tempo de expiração do certificado do serviço Dias Número de dias restantes para que um certificado de serviço específico expire no cluster Cluster
CpuUtilization Utilização da CPU Porcentagem Porcentagem da CPU usada
DiskUtilization Utilização do Disco Bytes Espaço em disco usado
MemoryUtilization Utilização da Memória Bytes Memória total utilizada
NetworkBytesIn Entrada de Bytes de Rede Bytes/Minuto Entrada de bytes de rede por minuto
NetworkBytesOut Saída de Bytes de Rede Bytes/Minuto Saída de bytes de rede por minuto
CertificateExpiryTime Tempo de Expiração do Certificado Dias Dias até a expiração do certificado
MaintenanceStatus Status da Manutenção Contagem Um valor 0 indica que o nó não tem reinicialização de manutenção programada. Um valor 1 indica que o nó tem a reinicialização de manutenção programada.
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold Alerta de Expiração do Token Booliano Indica se o token RPST excedeu 80% de sua vida útil. BigDataClusterNode
ResourcePrincipalSessionTokenStatus Status RPST Contagem 1: Token expirado, 2: Token ausente. 0: token íntegro. BigDataClusterNode
ResourcePrincipalTokenRefreshedInLast30Mins Status de Atualização do Token Booliano Indica se o token RPST foi atualizado nos últimos 30 minutos no nível do cluster. BigDataCluster