Surveillance des événements liés aux disques

Langue :

A partir d'Oracle Solaris 11.2 avec SRU 10, Oracle Hardware Management Pack comprend désormais des fonctions de diagnostic avancé permettant de collecter les erreurs et les événements SMART des disques connectés au HBA PCIe SAS 6 Gbit/s Sun Storage, Internal (SGX-SAS6-INT-Z), qu'ils soient indépendants ou qu'ils appartiennent à un volume RAID.

Ces événements de diagnostic avancé sont capturés et enregistrés dans le fichier /var/log/ssm/event.log lors de l'exécution de l'agent de gestion du matériel.

Le tableau suivant répertorie les événements de diagnostic avancé qui font l'objet d'un enregistrement.

Nom de l'événement dans le journal	Description
PD_RECOVERED_ERROR	Une erreur de récupération de disque a été détectée.
PD_BAD_DEVICE_FAULT	Une défaillance de lecteur non récupérable a été détectée par le périphérique lors de l'exécution d'une commande.
PD_MEDIA_ERROR	Une erreur de média non récupérable a été détectée par le périphérique.
PD_DEVICE_ERROR	Une défaillance matérielle non récupérable a été détectée par le périphérique. Le périphérique est peut-être hors ligne ou détérioré.
PD_TRANSPORT_ERROR	La configuration d'un chemin d'accès vers le périphérique a été annulée en raison de l'instabilité du transport.
PD_OVER_TEMPERATURE	Le processus SMART d'un disque signale une température critique.
PD_SELF_TEST_FAILURE	Un ou plusieurs auto-tests SMART de disque ont échoué.
PD_PREDICTIVE_FAILURE	Le microprogramme de surveillance de l'intégrité SMART a signalé qu'une panne de disque est imminente.

Le contrôleur interroge chaque disque physique à intervalles réguliers. Si un disque rencontre une erreur, le contrôleur génère un événement. L'agent de gestion du matériel le capture et le consigne dans le journal des événements associé.

Pour afficher les informations liées à l'événement dans le journal des événements de gestion du matériel, saisissez ce qui suit :

# view /var/log/ssm/event.log

Pour les événements de diagnostic avancé relatifs aux disques, vous obtenez ce type d'informations :

Thu Apr 30 12:32:31 2015:(CLI) Event Name  : PD_MEDIA_ERROR
Thu Apr 30 12:32:31 2015:(CLI) Event Description : A medium error was 
detected by the device that was non-recoverable.
Thu Apr 30 12:32:31 2015:(CLI) ASC  : 0x10
Thu Apr 30 12:32:31 2015:(CLI) ASCQ : 0x3
Thu Apr 30 12:32:31 2015:(CLI) Sense Key : 0x3
Thu Apr 30 12:32:31 2015:(CLI) Source : LSI
Thu Apr 30 12:32:31 2015:(CLI) SAS Address : 0x5000cca01200fadd
Thu Apr 30 12:32:31 2015:(CLI) LSI Description : Unexpected sense: PD 
0c(e0xfc/s1) Path 5000cca01200fadd, CDB: 2f 00 00 fc 4d 42 00 10 00 00, 
Sense: 3/10/03
Thu Apr 30 12:32:31 2015:(CLI) Event TimeStamp : 04/30/2015 ; 19:30:25
Thu Apr 30 12:32:31 2015:(CLI) Node ID : 00000000:12
Thu Apr 30 12:32:31 2015:(CLI) Nac Name : /SYS/HDD1
Thu Apr 30 12:32:31 2015:(CLI) Serial Number : 001015N0JPXA   PMG0JPXA
Thu Apr 30 12:32:31 2015:(CLI) WWN No : PDS:5000cca01200fadd
Thu Apr 30 12:32:31 2015:(CLI) Disk Model : H106030SDSUN300G

Vous pouvez ensuite utiliser les informations figurant dans la liste d'événements pour identifier le disque physique posant problème dans le système. Certaines informations, telles que le nom NAC d'Oracle ILOM (qui correspond à l'étiquette figurant sur le panneau avant du système) et le numéro de série d'unité vous permettent d'identifier le disque et son emplacement dans le système.

Remarque - Pour les événements PD_OVER_TEMPERATURE, PD_SELF_TEST_FAILURE et PD_PREDICTIVE_FAILURE, utilisez Oracle ILOM pour configurer des alertes proactives.

Pour les autres événements de diagnostic de disque décrits dans ce document, il revient à l'administrateur de les rechercher dans le journal des événements de gestion du matériel lors de la détection d'un problème. Il n'existe actuellement aucun mécanisme d'alerte pour annoncer ces événements de manière proactive.