Utilice el comando fmadm faulty para mostrar la información acerca de defectos o fallos y determinar qué FRU están implicadas. El comando fmadm faulty muestra los problemas activos. El comando fmdump muestra el contenido de los archivos log asociados con el daemon del gestor de fallos y es más útil como log histórico de los problemas del sistema.
El comando fmadm faulty muestra información sobre el estado de los recursos que el gestor de fallos identifica como defectuosos. El comando fmadm faulty tiene varias opciones para la visualización de diferente información o la visualización de información en diferentes formatos. Consulte la página del comando man fmadm(1M) para obtener información sobre todas las opciones de fmadm faulty.
Ejemplo 2-1 Salida de fmadm que muestra una CPU con fallos1 # fmadm faulty 2 --------------- ------------------------------------ -------------- --------- 3 TIME EVENT-ID MSG-ID SEVERITY 4 --------------- ------------------------------------ -------------- --------- 5 Aug 24 17:56:03 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Minor 6 7 Host : bur419-61 8 Platform : SUNW,T5440 Chassis_id : BEL07524BN 9 Product_sn : BEL07524BN 10 11 Fault class : fault.cpu.ultraSPARC-T2plus.ireg 12 Affects : cpu:///cpuid=0/serial=1F95806CD1421929 13 faulted and taken out of service 14 FRU : "MB/CPU0" (hc://:product-id=SUNW,T5440:server-id=bur419-61:\ 15 serial=3529:part=541255304/motherboard=0/cpuboard=0) 16 faulty 17 Serial ID. : 3529 18 1F95806CD1421929 19 20 Description : The number of integer register errors associated with this thread 21 has exceeded acceptable levels. 22 23 Response : The fault manager will attempt to remove the affected thread from 24 service. 25 26 Impact : System performance may be affected. 27 28 Action : Use 'fmadm faulty' to provide a more detailed view of this event. 29 Please refer to the associated reference document at 30 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service 31 procedures and policies regarding this diagnosis.
La línea 14 identifica la FRU afectada. La cadena que se muestra entre comillas, “MB/CPU0”, debe coincidir con la etiqueta que se encuentra en el hardware físico. La cadena que se muestra entre paréntesis es el identificador de recurso de gestión de fallos (FMRI) para la FRU. El FMRI incluye propiedades descriptivas sobre el sistema que contiene el fallo, como su nombre de host y el número de serie del chasis. En algunas plataformas, el número de referencia y el número de serie de la FRU también se incluyen en el FMRI de la FRU.
Las líneas de afectados (líneas 12 y 13) indican los componentes que se ven afectados por el fallo y sus estados relativos. En este ejemplo, una única cadena de CPU se ve afectada. Ese hilo hardware de CPU tiene fallos y fue puesto fuera de servicio por el gestor de fallos.
Siguiendo la descripción de FRU en la salida del comando fmadm faulty, la línea 16 muestra el estado como faulty. La sección de acciones puede incluir acciones específicas, además de referencias a documentos del sitio de asistencia.
Ejemplo 2-2 Salida de fmadm faulty que muestra varios fallos1 # fmadm faulty 2 --------------- ------------------------------------ -------------- ------- 3 TIME EVENT-ID MSG-ID SEVERITY 4 --------------- ------------------------------------ -------------- ------- 5 Sep 21 10:01:36 d482f935-5c8f-e9ab-9f25-d0aaafec1e6c PCIEX-8000-5Y Major 6 7 Fault class : fault.io.pci.device-invreq 8 Affects : dev:///pci@0,0/pci1022,7458@11/pci1000,3060@0 9 dev:///pci@0,0/pci1022,7458@11/pci1000,3060@1 10 ok and in service 11 dev:///pci@0,0/pci1022,7458@11/pci1000,3060@2 12 dev:///pci@0,0/pci1022,7458@11/pci1000,3060@3 13 faulty and taken out of service 14 FRU : "SLOT 2" (hc://.../pciexrc=3/pciexbus=4/pciexdev=0) 15 repair attempted 16 "SLOT 3" (hc://.../pciexrc=3/pciexbus=4/pciexdev=1) 17 acquitted 18 "SLOT 4" (hc://.../pciexrc=3/pciexbus=4/pciexdev=2) 19 not present 20 "SLOT 5" (hc://.../pciexrc=3/pciexbus=4/pciexdev=3) 21 faulty 22 23 Description : The transmitting device sent an invalid request. 24 25 Response : One or more device instances may be disabled 26 27 Impact : Possible loss of services provided by the device instances 28 associated with this fault 29 30 Action : Use 'fmadm faulty' to provide a more detailed view of this event. 31 Please refer to the associated reference document at 32 http://support.oracle.com/msg/PCIEX-8000-5Y for the latest service 33 procedures and policies regarding this diagnosis.
En esta salida, el dispositivo 1 en la ranura 3 se describe como “ok and in service” en la línea 10, y la línea 17 muestra el estado “acquitted”. El dispositivo 3 en la ranura 5 se describe como “faulty and taken out of service”, y su estado es “faulty”. Los estados que se muestran para otros dos dispositivos son "repair attempted" y “not present”.
Ejemplo 2-3 Visualización de fallos con el comando fmdumpAlgunos mensajes de la consola y artículos de conocimientos podrían indicarle que utilice el comando fmdump -v -u UUID para mostrar información de fallos, como se muestra en el siguiente ejemplo:
1 # fmdump -v -u 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 2 TIME UUID SUNW-MSG-ID EVENT 3 Aug 24 17:56:03.4596 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Diagnosed 4 100% fault.cpu.ultraSPARC-T2plus.ireg 5 6 Problem in: - 7 Affects: cpu:///cpuid=0/serial=1F95806CD1421929 8 FRU: hc://:product-id=SUNW,T5440:server-id=bur419-61:\ 9 serial=9999:part=541255304/motherboard=0/cpuboard=0 10 Location: MB/CPU0
La información sobre las FRU afectadas está en las líneas 8 a 10. La cadena de ubicación de la línea 10 presenta la cadena de FRU legible para el usuario. La línea 8 muestra el FMRI de la FRU. Para ver la gravedad, el texto descriptivo y la acción en la salida de fmdump, utilice la opción -m. Consulte la página del comando man fmdump(1M) para obtener más información.
Ejemplo 2-4 Identificación de las CPU que están sin conexiónUtilice el comando psrinfo para mostrar información sobre las CPU:
$ psrinfo 0 faulted since 05/13/2013 12:55:26 1 on-line since 05/12/2013 11:47:26
El estado faulted de este ejemplo indica que el agente de respuesta del gestor de fallos ha dejado sin conexión a la CPU.