Ignorar Links de Navegao | |
Sair do Modo de Exibio de Impresso | |
Guia de administração do ZFS Oracle Solaris |
1. Sistema de arquivos Oracle Solaris ZFS (introdução)
2. Introdução ao ZFS do Oracle Solaris
3. Diferenças entre o sistema de arquivos tradicional e o ZFS do Oracle Solaris
4. Gerenciando conjuntos de armazenamento ZFS do Oracle Solaris
5. Instalando e inicializando um sistema de arquivos raiz ZFS do Oracle Solaris
6. Gerenciando sistemas de arquivos ZFS do Oracle Solaris
7. Trabalhando com instantâneos e clones do ZFS do Oracle Solaris
8. Uso de ACLs e atributos para proteger arquivos ZFS do Oracle Solaris
9. Administração delegada do ZFS do Oracle Solaris
10. Tópicos avançados do ZFS do Oracle Solaris
11. Solução de problemas e conjunto de recuperação do Oracle Solaris ZFS
Ausência de dispositivos em um pool de armazenamento do ZFS
Verificando a integridade do sistema de arquivos ZFS
Validação do sistema de arquivos
Controlando o scrubbing de dados do ZFS
Scrubbing explícito de dados do ZFS
Scrubbing e resilvering de dados do ZFS
Resolvendo problemas com o ZFS
Determinando se há problemas em um conjunto de armazenamento do ZFS
Revisando a saída de zpool status
Informações gerais sobre o status do pool
Informações sobre a configuração do pool
Relatório de mensagens de erros do ZFS do sistema
Reparando uma configuração do ZFS danificada
Reparando um dispositivo faltando
Reanexando fisicamente um dispositivo
Notificando o ZFS da disponibilidade de um dispositivo
Substituindo ou reparando um dispositivo modificado
Determinando o tipo de falha do dispositivo
Substituindo um dispositivo em um pool de armazenamento do ZFS
Determinando se um dispositivo pode ser substituído
Dispositivos que não podem ser substituídos
Substituindo um dispositivo em um pool de armazenamento do ZFS
Exibindo o status do resilvering
Identificando o tipo de corrupção de dados
Reparando arquivos ou diretórios corrompidos
Reparando o dano de todo o pool de armazenamento do ZFS
Reparando um sistema não inicializável
Por ser uma combinação de um sistema de arquivos e um gerenciador de volumes, o ZFS pode exibir diferentes falhas. Este capítulo começa delineando as várias falhas e, em seguida, discute como identificá-las em um sistema em execução. E finalmente termina tratando o tema de como reparar os problemas. O ZFS pode encontrar três tipos básicos de erros:
Observe que um único pool pode sofrer os três tipos de erros, de modo que o procedimento completo de reparação implica em encontrar e corrigir o erro, passar para o próximo erro, e assim por diante.
Se um dispositivo for completamente removido do sistema, o ZFS detecta que o dispositivo não pode ser aberto e o coloca no estado REMOVIDO. Dependendo do nível de replicação dos dados do conjunto, essa remoção pode ou não fazer com que todo o conjunto se torne indisponível. Se, em um dispositivo RAID-Z ou espelhado, um disco for removido, o pool continua acessível. Um conjunto pode se tornar FAULTED, o que significa que nenhum dado é acessível até que o dispositivo seja desanexado, sob as condições a seguir:
Se todos os componentes de um espelho são removidos
Se mais de um dispositivo em um dispositivo (raidz1) RAID-Z é removido
Se o dispositivo de nível superior é removido em uma configuração de disco único
O termo “danificado” abrange uma ampla variedade de possíveis erros. Os exemplos incluem o seguinte:
Erros transitórios de E/S devido a disco ou controlador defeituosos
Corrupção de dados em disco devido a raios cósmicos
Erros de driver resultando em transferência de dados de ou para locais incorretos
Um usuário substitui porções do dispositivo físico por acidente
Em alguns casos, estes erros são transitórios, como um erro de E/S aleatório durante problemas com o controlador. Em outros casos, o problema pode ser permanente, como a corrupção em disco. Ainda assim, se o problema for permanente, isso não significa necessariamente que o erro ocorrerá novamente. Por exemplo, se um administrador substitui acidentalmente parte de um disco, e nenhum tipo de falha de hardware ocorre, o dispositivo não precisa ser trocado. Identificar exatamente o problema com o dispositivo não é uma tarefa fácil, por isso esse tema é abordado mais detalhadamente em uma seção posterior.
A corrupção de dados ocorre quando um ou mais erros no dispositivo (indicando um ou mais dispositivos ausentes ou danificados) afetam o dispositivo virtual de nível superior. Por exemplo, a metade de um espelho pode sofrer milhares de erros de dispositivo sem jamais causar corrupção de dados. Haverá corrupção de dados se for encontrado um erro no outro lado do espelho no mesmo exato local.
A corrupção de dados é sempre permanente e requer cuidados especiais durante a reparação. Mesmo que os dispositivos subjacentes forem reparados ou substituídos, os dados originais não poderão ser recuperados. Frequentemente, esse tipo de situação requer a recuperação dos dados a partir de backups. Os erros dos dados são registrados à medida que vão sendo encontrados e podem ser controlados através de scrubbing rotineira do conjunto, como explicado na seção seguinte. Quando um bloco corrompido é removido, o próximo ciclo de limpeza reconhece que a corrupção já não existe e remove qualquer vestígio de erro do sistema.