Gestión de fallos en Oracle® Solaris 11.2

Salir de la Vista de impresión

Actualización: Julio de 2014
 
 

Visualización de Información sobre fallos o defectos

Utilice el comando fmadm faulty para mostrar la información acerca de defectos o fallos y determinar qué FRU están implicadas. El comando fmadm faulty muestra los problemas activos. El comando fmdump muestra el contenido de los archivos log asociados con el daemon del gestor de fallos y es más útil como log histórico de los problemas del sistema.


Consejo  -  Base su acción administrativa en la salida del comando fmadm faulty. La salida de archivos log del comando fmdump puede contener declaraciones de errores que no son fallos ni defectos.

El comando fmadm faulty muestra información sobre el estado de los recursos que el gestor de fallos identifica como defectuosos. El comando fmadm faulty tiene varias opciones para la visualización de diferente información o la visualización de información en diferentes formatos. Consulte la página del comando man fmadm(1M) para obtener información sobre todas las opciones de fmadm faulty.

Ejemplo 2-1  Salida de fmadm que muestra una CPU con fallos
1    # fmadm faulty
2    --------------- ------------------------------------  -------------- ---------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- ---------
5    Aug 24 17:56:03 7b83c87c-78f6-6a8e-fa2b-d0cf16834049  SUN4V-8001-8H  Minor
6    
7    Host        : bur419-61
8    Platform    : SUNW,T5440        Chassis_id  : BEL07524BN
9    Product_sn  : BEL07524BN
10
11   Fault class : fault.cpu.ultraSPARC-T2plus.ireg
12   Affects     : cpu:///cpuid=0/serial=1F95806CD1421929
13                     faulted and taken out of service
14   FRU         : "MB/CPU0" (hc://:product-id=SUNW,T5440:server-id=bur419-61:\
15                 serial=3529:part=541255304/motherboard=0/cpuboard=0)
16                     faulty
17   Serial ID.  : 3529
18                 1F95806CD1421929
19   
20   Description : The number of integer register errors associated with this thread
21                 has exceeded acceptable levels.
22   
23   Response    : The fault manager will attempt to remove the affected thread from
24                 service.
25   
26   Impact      : System performance may be affected.
27   
28   Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
29                 Please refer to the associated reference document at
30                 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service
31                 procedures and policies regarding this diagnosis.

La línea 14 identifica la FRU afectada. La cadena que se muestra entre comillas, “MB/CPU0”, debe coincidir con la etiqueta que se encuentra en el hardware físico. La cadena que se muestra entre paréntesis es el identificador de recurso de gestión de fallos (FMRI) para la FRU. El FMRI incluye propiedades descriptivas sobre el sistema que contiene el fallo, como su nombre de host y el número de serie del chasis. En algunas plataformas, el número de referencia y el número de serie de la FRU también se incluyen en el FMRI de la FRU.

Las líneas de afectados (líneas 12 y 13) indican los componentes que se ven afectados por el fallo y sus estados relativos. En este ejemplo, una única cadena de CPU se ve afectada. Ese hilo hardware de CPU tiene fallos y fue puesto fuera de servicio por el gestor de fallos.

Siguiendo la descripción de FRU en la salida del comando fmadm faulty, la línea 16 muestra el estado como faulty. La sección de acciones puede incluir acciones específicas, además de referencias a documentos del sitio de asistencia.

Ejemplo 2-2  Salida de fmadm faulty que muestra varios fallos
1    # fmadm faulty
2    --------------- ------------------------------------  -------------- -------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- -------
5    Sep 21 10:01:36 d482f935-5c8f-e9ab-9f25-d0aaafec1e6c  PCIEX-8000-5Y  Major
6    
7    Fault class  : fault.io.pci.device-invreq
8    Affects      : dev:///pci@0,0/pci1022,7458@11/pci1000,3060@0
9                   dev:///pci@0,0/pci1022,7458@11/pci1000,3060@1
10                   ok and in service
11                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@2
12                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@3
13                    faulty and taken out of service
14   FRU          : "SLOT 2" (hc://.../pciexrc=3/pciexbus=4/pciexdev=0)
15                    repair attempted
16                  "SLOT 3" (hc://.../pciexrc=3/pciexbus=4/pciexdev=1)
17                    acquitted
18                  "SLOT 4" (hc://.../pciexrc=3/pciexbus=4/pciexdev=2)
19                    not present
20                  "SLOT 5" (hc://.../pciexrc=3/pciexbus=4/pciexdev=3)
21                    faulty
22   
23    Description  : The transmitting device sent an invalid request.
24   
25    Response     : One or more device instances may be disabled
26   
27    Impact       : Possible loss of services provided by the device instances
28                   associated with this fault
29   
30    Action       : Use 'fmadm faulty' to provide a more detailed view of this event.
31                   Please refer to the associated reference document at
32                   http://support.oracle.com/msg/PCIEX-8000-5Y for the latest service
33                   procedures and policies regarding this diagnosis.

En esta salida, el dispositivo 1 en la ranura 3 se describe como “ok and in service” en la línea 10, y la línea 17 muestra el estado “acquitted”. El dispositivo 3 en la ranura 5 se describe como “faulty and taken out of service”, y su estado es “faulty”. Los estados que se muestran para otros dos dispositivos son "repair attempted" y “not present”.

Ejemplo 2-3  Visualización de fallos con el comando fmdump

Algunos mensajes de la consola y artículos de conocimientos podrían indicarle que utilice el comando fmdump -v -u UUID para mostrar información de fallos, como se muestra en el siguiente ejemplo:

1    # fmdump -v -u 7b83c87c-78f6-6a8e-fa2b-d0cf16834049
2    TIME                 UUID                                 SUNW-MSG-ID EVENT
3    Aug 24 17:56:03.4596 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Diagnosed
4      100%  fault.cpu.ultraSPARC-T2plus.ireg
5
6            Problem in: -
7               Affects: cpu:///cpuid=0/serial=1F95806CD1421929
8                   FRU: hc://:product-id=SUNW,T5440:server-id=bur419-61:\
9                   serial=9999:part=541255304/motherboard=0/cpuboard=0
10              Location: MB/CPU0

La información sobre las FRU afectadas está en las líneas 8 a 10. La cadena de ubicación de la línea 10 presenta la cadena de FRU legible para el usuario. La línea 8 muestra el FMRI de la FRU. Para ver la gravedad, el texto descriptivo y la acción en la salida de fmdump, utilice la opción -m. Consulte la página del comando man fmdump(1M) para obtener más información.

Ejemplo 2-4  Identificación de las CPU que están sin conexión

Utilice el comando psrinfo para mostrar información sobre las CPU:

$ psrinfo 
0       faulted   since 05/13/2013 12:55:26 
1       on-line   since 05/12/2013 11:47:26 

El estado faulted de este ejemplo indica que el agente de respuesta del gestor de fallos ha dejado sin conexión a la CPU.