Prácticas de supervisión y mantenimiento de agrupaciones de almacenamiento ZFS

Idioma:

Asegúrese de que la capacidad de agrupación esté por debajo del 90% para obtener el mejor rendimiento.
El rendimiento de la agrupación se puede degradar cuando una agrupación está muy llena y los sistemas de archivos se actualizan con frecuencia, como en un servidor de correo muy ocupado. Las agrupaciones llenas pueden ocasionar una penalización del rendimiento, pero no otros problemas. Si la carga de trabajo principal es de archivos inmutables, mantenga la agrupación en el rango de uso entre un 95 y 96%. Incluso si el contenido más estático está en el rango entre 95 y 96%, se pueden ver perjudicados los rendimientos de escritura, lectura y creación.
- Supervise el espacio de la agrupación y del sistema de archivos para asegurarse de que no estén llenos.
- Evalúe la posibilidad de usar reservas y cuotas ZFS a fin de garantizar que el espacio del sistema de archivos no supere el 90% de la capacidad de la agrupación.
Supervise el estado de la agrupación.
- Supervise una agrupación redundante con zpool status y fmdump al menos una vez por semana.
- Supervise una agrupación no redundante con zpool status y fmdump al menos dos veces por semana.
Ejecute zpool scrub de forma regular para identificar problemas de integridad de los datos.
- Si tiene unidades de calidad de consumidor, trate de programar una limpieza semanal.
- Si tiene unidades de calidad de centro de datos, trate de programar una limpieza mensual.
- También debería realizar una limpieza antes de reemplazar dispositivos o reducir temporalmente la redundancia de una agrupación para asegurarse de que todos los dispositivos se encuentren en funcionamiento.
Supervise las fallas de la agrupación o del dispositivo. Use zpool status como se describe a continuación. También use fmdump o fmdump -eV para ver si se produjo alguna falla o error de dispositivo.
- Agrupaciones redundantes: supervise el estado de la agrupación con zpool status y fmdump semanalmente
- Agrupaciones no redundantes: supervise el estado de la agrupación con zpool status y fmdump dos veces por semana
El dispositivo de la agrupación está UNAVAIL u OFFLINE - Si el dispositivo de una agrupación no está disponible, compruebe que el dispositivo se muestre en la salida del comando format. Si el dispositivo no se muestra en la salida de format, no estará visible para ZFS.
Si el dispositivo de una agrupación está UNAVAIL u OFFLINE, en general, esto significa que el dispositivo ha fallado o que el cable se ha desconectado, o algún otro problema de hardware, como un cable o controlador incorrectos que han provocado que el dispositivo sea inaccesible.

Considere la configuración del servicio smtp-notify para que notifique cuando un componente de hardware se diagnostique como defectuoso. Para obtener más información, consulte sección Parámetros de notificación de smf(5) y smtp-notify(1M).

De manera predeterminada, algunas notificaciones se configuran de forma automática para ser enviadas al usuario raíz. Si agrega un alias para la cuenta de usuario como raíz en el archivo /etc/aliases, recibirá notificaciones por correo electrónico, similares a la siguiente:

From noaccess@tardis.space.com Fri Jun 29 16:58:59 2012
Date: Fri, 29 Jun 2012 16:58:58 -0600 (MDT)
From: No Access User <noaccess@tardis.space.com>
Message-Id: <201206292258.q5TMwwFL002753@tardis.space.com>
Subject: Fault Management Event: tardis:ZFS-8000-8A
To: root@tardis.central.com
Content-Length: 771

SUNW-MSG-ID: ZFS-8000-8A, TYPE: Fault, VER: 1, SEVERITY: Critical
EVENT-TIME: Fri Jun 29 16:58:58 MDT 2012
PLATFORM: ORCL,SPARC-T3-4, CSN: 1120BDRCCD, HOSTNAME: tardis
SOURCE: zfs-diagnosis, REV: 1.0
EVENT-ID: 76c2d1d1-4631-4220-dbbc-a3574b1ee807
DESC: A file or directory in pool 'pond' could not be read due to corrupt data.
AUTO-RESPONSE: No automated response will occur.
IMPACT: The file or directory is unavailable.
REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event.
Run 'zpool status -xv' and examine the list of damaged files to determine what
has been affected. Please refer to the associated reference document at
http://support.oracle.com/msg/ZFS-8000-8A for the latest service procedures
and policies regarding this diagnosis.

Supervise el espacio de la agrupación de almacenamiento. Utilice el comando zpool list y el comando zfs list para identificar la cantidad de disco que consumen los datos del sistema de archivos. Las instantáneas de ZFS pueden consumir espacio en disco y, si no están enumeradas por el comando zfs list, también pueden consumir espacio en disco en modo silencioso. Utilice el comando de instantánea zfs list –t para identificar el espacio en disco consumido por las instantáneas.