Supervisión de eventos de disco

Idioma:

A partir de la versión 2.3.2.2 de Oracle Hardware Management Pack, se agregaron funciones de diagnóstico mejoradas para recopilar eventos de errores del disco y de SMART, de discos conectados a Sun Storage 6 Gb SAS PCIe HBA, Internal (SGX-SAS6-INT-Z), ya sea de discos independientes o conectados a un volumen RAID.

Estos eventos de diagnóstico mejorados se capturan y se registran en /var/log/ssm/event.log cuando se está ejecutando Hardware Management Agent.

En la siguiente tabla, se muestran los eventos de diagnóstico mejorados que se registran.

Nombre del evento en el log	Descripción
PD_RECOVERED_ERROR	Se detectó un error recuperado por el disco.
PD_BAD_DEVICE_FAULT	El dispositivo detectó un fallo de unidad no recuperable mientras se ejecutaba un comando.
PD_MEDIA_ERROR	El dispositivo detectó un error de medio no recuperable.
PD_DEVICE_ERROR	El dispositivo detectó un fallo de hardware no recuperable. Es posible que el dispositivo esté desconectado o degradado.
PD_TRANSPORT_ERROR	Ruta al dispositivo que se desconfiguró debido a la inestabilidad del transporte.
PD_OVER_TEMPERATURE	El proceso SMART del disco informa una temperatura crítica.
PD_SELF_TEST_FAILURE	Fallaron una o más pruebas automáticas de SMART para el disco.
PD_PREDICTIVE_FAILURE	El firmware de supervisión de estado de SMART informó que es inminente un fallo del disco.

El controlador sondea todos los discos físicos en intervalos regulares. Si un disco ha encontrado un error, el controlador genera un evento. Hardware Management Agent captura el evento y lo introduce en el log de eventos de gestión de hardware.

Para ver la información del evento en el log de eventos de gestión de hardware, escriba:

# view /var/log/ssm/event.log

Para mejorar los eventos de disco de diagnóstico, verá información similar a:

Thu Apr 30 12:32:31 2015:(CLI) Event Name  : PD_MEDIA_ERROR
Thu Apr 30 12:32:31 2015:(CLI) Event Description : A medium error was 
detected by the device that was non-recoverable.
Thu Apr 30 12:32:31 2015:(CLI) ASC  : 0x10
Thu Apr 30 12:32:31 2015:(CLI) ASCQ : 0x3
Thu Apr 30 12:32:31 2015:(CLI) Sense Key : 0x3
Thu Apr 30 12:32:31 2015:(CLI) Source : LSI
Thu Apr 30 12:32:31 2015:(CLI) SAS Address : 0x5000cca01200fadd
Thu Apr 30 12:32:31 2015:(CLI) LSI Description : Unexpected sense: PD 
0c(e0xfc/s1) Path 5000cca01200fadd, CDB: 2f 00 00 fc 4d 42 00 10 00 00, 
Sense: 3/10/03
Thu Apr 30 12:32:31 2015:(CLI) Event TimeStamp : 04/30/2015 ; 19:30:25
Thu Apr 30 12:32:31 2015:(CLI) Node ID : 00000000:12
Thu Apr 30 12:32:31 2015:(CLI) Nac Name : /SYS/HDD1
Thu Apr 30 12:32:31 2015:(CLI) Serial Number : 001015N0JPXA   PMG0JPXA
Thu Apr 30 12:32:31 2015:(CLI) WWN No : PDS:5000cca01200fadd
Thu Apr 30 12:32:31 2015:(CLI) Disk Model : H106030SDSUN300G

A continuación, puede usar la información de la lista de eventos para determinar cuál disco físico del sistema tiene un problema. La información como el nombre NAC de Oracle ILOM (que coincide con la etiqueta del panel frontal del sistema) y el número de serie lo ayudan a identificar el disco y la ranura de unidad en el sistema.

Notas - Para los eventos PD_OVER_TEMPERATURE, PD_SELF_TEST_FAILURE y PD_PREDICTIVE_FAILURE, use Oracle ILOM para configurar alertas preventivas.

Para el resto de los eventos de diagnóstico que se describen en este documento, el administrador deberá consultar el log de eventos de gestión de hardware para estos eventos de disco si se sospecha que existe un problema en el disco. Actualmente, no hay mecanismos de alerta para anunciar estos eventos de manera preventiva.