Surveillance des événements de disque

Langue :

A partir d'Oracle Hardware Management Pack 2.3.2.2, des fonctions de diagnostic amélioré ont été ajoutées pour collecter les événements d'erreur disque et SMART à partir des disques associés au HBA PCIe SAS 6 Gb Sun Storage, interne (SGX-SAS6-INT-Z), qu'il soit indépendant ou dans un volume RAID.

Ces événements de diagnostic amélioré sont capturés et journalisés dans le fichier /var/log/ssm/event.log quand l'agent de gestion du matériel est en cours d'exécution.

Le tableau suivant répertorie les événements de diagnostic améliorés journalisés.

Nom de l'événement dans le journal	Description
PD_RECOVERED_ERROR	Une erreur récupérée de disque a été détectée.
PD_BAD_DEVICE_FAULT	Une panne de lecteur non récupérable a été détectée par le périphérique lors de l'exécution d'une commande.
PD_MEDIA_ERROR	Une erreur moyenne non récupérable a été détectée par le périphérique.
PD_DEVICE_ERROR	Une panne matérielle non récupérable a été détectée par le périphérique. Le périphérique est peut-être hors ligne ou en état de dégradation.
PD_TRANSPORT_ERROR	Un chemin d'accès au périphérique n'a pas été configuré en raison d'une instabilité du transport.
PD_OVER_TEMPERATURE	Le processus de disque SMART signale une température critique.
PD_SELF_TEST_FAILURE	Un ou plusieurs tests automatiques de disque SMART ont échoué.
PD_PREDICTIVE_FAILURE	Le microprogramme de surveillance de l'intégrité SMART a signalé qu'une panne de disque est imminente.

Le contrôleur interroge chaque disque physique à intervalles réguliers. Si un disque a détecté une erreur, un événement est généré par le contrôleur. L'agent de gestion du matériel capture cet événement et l'enregistre dans le journal des événements de gestion du matériel.

Pour voir l'événement dans le journal des événements de gestion du matériel, saisissez :

# view /var/log/ssm/event.log

Pour un diagnostic amélioré des événements de disque, vous verrez des informations telles que :

Thu Apr 30 12:32:31 2015:(CLI) Event Name  : PD_MEDIA_ERROR
Thu Apr 30 12:32:31 2015:(CLI) Event Description : A medium error was 
detected by the device that was non-recoverable.
Thu Apr 30 12:32:31 2015:(CLI) ASC  : 0x10
Thu Apr 30 12:32:31 2015:(CLI) ASCQ : 0x3
Thu Apr 30 12:32:31 2015:(CLI) Sense Key : 0x3
Thu Apr 30 12:32:31 2015:(CLI) Source : LSI
Thu Apr 30 12:32:31 2015:(CLI) SAS Address : 0x5000cca01200fadd
Thu Apr 30 12:32:31 2015:(CLI) LSI Description : Unexpected sense: PD 
0c(e0xfc/s1) Path 5000cca01200fadd, CDB: 2f 00 00 fc 4d 42 00 10 00 00, 
Sense: 3/10/03
Thu Apr 30 12:32:31 2015:(CLI) Event TimeStamp : 04/30/2015 ; 19:30:25
Thu Apr 30 12:32:31 2015:(CLI) Node ID : 00000000:12
Thu Apr 30 12:32:31 2015:(CLI) Nac Name : /SYS/HDD1
Thu Apr 30 12:32:31 2015:(CLI) Serial Number : 001015N0JPXA   PMG0JPXA
Thu Apr 30 12:32:31 2015:(CLI) WWN No : PDS:5000cca01200fadd
Thu Apr 30 12:32:31 2015:(CLI) Disk Model : H106030SDSUN300G

Vous pouvez utiliser les informations de la liste des événements pour déterminer quel disque physique du système pose problème. Des informations telles que le nom NAC Oracle ILOM (qui correspond à l'étiquette sur le panneau avant du système) et le numéro de série du lecteur vous aident à identifier le disque et son emplacement d'unité dans le système.

Remarque - Pour des événements PD_OVER_TEMPERATURE, PD_SELF_TEST_FAILURE et PD_PREDICTIVE_FAILURE, utilisez Oracle ILOM pour configurer des alertes proactives.

Pour les autres événements de diagnostic de disque décrits dans ce document, il revient à l'administrateur de vérifier le journal des événements de gestion du matériel pour ces événements de disque quand un problème de disque est suspecté. Il n'existe actuellement aucun mécanisme d'alerte permettant de signaler ces événements, de façon proactive.