Resolvendo Problemas Gerais de Hardware

Examine as seções a seguir para determinar se os problemas do pool ou indisponibilidade do sistema de arquivos estão relacionados a um problema de hardware, como falha na placa do sistema, memória, dispositivo, HBA ou configuração incorreta.

Por exemplo, um disco com falhas em um pool de ZFS ocupado pode prejudicar muito o desempenho geral do sistema.

Se você começar diagnosticando e identificando problemas de hardware, que podem ser mais fáceis de detectar e verificar em todos os seus hardwares, poderá então passar para o diagnóstico do pool e problemas do sistema de arquivos, como descrito no restante deste capítulo. Se suas configurações de hardware, pool e sistema de arquivos estiverem íntegras, considere diagnosticar problemas de aplicativo, que geralmente são mais complexos de descobrir e não são abordados neste guia.

Identificando Falhas de Hardware e Dispositivo

O Solaris Fault Manager rastreia problemas de software, hardware e dispositivos específicos, identificando as informações de telemetria do erro que indicam um sintoma específico em um log de erros e reporta o diagnóstico real de falha quando o sintoma do erro resulta em uma falha concreta.

O comando a seguir identifica as falhas relacionadas a software ou hardware.

# fmadm faulty

Use o comando acima com frequência para identificar serviços ou dispositivos falhos.

Use o comando acima com frequência para identificar erros relacionados a hardware ou dispositivo.

# fmdump -eV | more

As mensagens de erro deste arquivo de log que descrevem os problemas vdev.open_failed, checksum ou io_failureprecisam de sua atenção ou podem evoluir para falhas reais exibidas no comando fmadm que indica falha.

Se a afirmação acima indica que um dispositivo está danificado, é hora de verificar se existe um dispositivo sobressalente disponível.

Você também pode rastrear erros adicionais do dispositivo usando o comando iostat. Use a sintaxe a seguir para identificar um resumo das estatísticas de erro.

# iostat -en
  ---- errors --- 
  s/w h/w trn tot device
    0   0   0   0 c0t5000C500335F95E3d0
    0   0   0   0 c0t5000C500335FC3E7d0
    0   0   0   0 c0t5000C500335BA8C3d0
    0  12   0  12 c2t0d0
    0   0   0   0 c0t5000C500335E106Bd0
    0   0   0   0 c0t50015179594B6F11d0
    0   0   0   0 c0t5000C500335DC60Fd0
    0   0   0   0 c0t5000C500335F907Fd0
    0   0   0   0 c0t5000C500335BD117d0

Na saída acima, os erros são reportados em um disco interno c2t0d0 . Use a sintaxe a seguir para exibir erros de dispositivo com mais detalhes.

# iostat -En
c0t5000C500335F95E3d0 Soft Errors: 0 Hard Errors: 0 Transport Errors: 0 
Vendor: SEAGATE  Product: ST930003SSUN300G Revision: 0B70 Serial No: 110672QFSB 
Size: 300.00GB <300000000000 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0 
Illegal Request: 0 Predictive Failure Analysis: 0 
c0t5000C500335FC3E7d0 Soft Errors: 0 Hard Errors: 0 Transport Errors: 0 
Vendor: SEAGATE  Product: ST930003SSUN300G Revision: 0B70 Serial No: 110672TE67 
Size: 300.00GB <300000000000 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0 
Illegal Request: 0 Predictive Failure Analysis: 0 
c0t5000C500335BA8C3d0 Soft Errors: 0 Hard Errors: 0 Transport Errors: 0 
Vendor: SEAGATE  Product: ST930003SSUN300G Revision: 0B70 Serial No: 110672SDF4 
Size: 300.00GB <300000000000 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 0 
Illegal Request: 0 Predictive Failure Analysis: 0 
c2t0d0           Soft Errors: 0 Hard Errors: 12 Transport Errors: 0 
Vendor: AMI      Product: Virtual CDROM    Revision: 1.00 Serial No:  
Size: 0.00GB <0 bytes>
Media Error: 0 Device Not Ready: 12 No Device: 0 Recoverable: 0 
Illegal Request: 2 Predictive Failure Analysis: 0

Relatório de mensagens de erros do ZFS do sistema

Além de manter um rastreamento persistente de erros dentro do pool, o ZFS também exibe mensagens syslog quando ocorrem eventos de interesse. As situações abaixo geram eventos para notificar o administrador:

Transição de estado do dispositivo – Se um dispositivo passa a ser FAULTED, o ZFS registra uma mensagem indicando que a tolerância a falhas do pool pode estar em risco. Uma mensagem semelhante é enviada se o dispositivo passar a ser on-line, restaurando a normalidade do pool.
Corrupção de dados – Se for detectado qualquer tipo de corrupção de dados, o ZFS registra uma mensagem descrevendo quando e onde a corrupção foi detectada. Esta mensagem é registrada somente na primeira vez que a corrupção é detectada. Os acessos subsequentes não geram mensagens.
Falhas em pools e em dispositivos: se ocorrer uma falha em um pool ou em um dispositivo, o daemon do gerenciador de falhas relatará esses erros através de mensagens syslog bem como pelo comando fmdump.

Se o ZFS detectar um erro de dispositivo e se recuperar automaticamente, não ocorre nenhuma notificação. Tais erros não representam uma falha na integridade dos dados ou de redundância do pool. São normalmente o resultado de um problema do driver acompanhado por seu próprio conjunto de mensagens de erro.

Ignorar Links de Navegao
Sair do Modo de Exibio de Impresso
	Guia de administração do Oracle Solaris ZFS Oracle Solaris 10 1/13 Information Library (Português (Brasil))