Go to main content
Guía del usuario del software de la arquitectura de gestión de fallos de Oracle® Linux

Salir de la Vista de impresión

Actualización: Octubre de 2015
 
 

Reparación de fallos o defectos

Una vez que la gestión de fallos ha identificado un componente con fallos en el sistema, deberá repararlo. Una reparación se puede realizar de dos maneras: implícita o explícitamente.

  • Una reparación implícita se puede producir cuando el componente defectuoso se reemplaza o elimina, teniendo en cuenta que el componente tiene información de números de serie mediante la cual el daemon del gestor de fallos puede realizar un seguimiento. La información de números de serie del sistema se incluye para que el daemon del gestor de fallos pueda determinar si los componentes se dejaron fuera de servicio, ya sea mediante el reemplazo u otros medios (por ejemplo, lista negra). Cuando se producen esas detecciones, el daemon del gestor de fallos deja de mostrar el recurso afectado en la salida de fmadm faulty. El recurso se mantiene en la memoria caché de recursos interna del daemon hasta que el evento de fallo tenga 30 días de antigüedad, punto en que se depura.

  • Se requiere una reparación explícitasi no hay ningún número de serie de la FRU disponible. Por ejemplo, las CPU no tienen números de serie. En estos casos, el daemon del gestor de fallos no puede detectar una sustitución de FRU.

    Use el comando fmadm para marcar explícitamente un fallo como reparado. Entre las opciones, se incluye:

    • fmadm replaced label

    • fmadm repaired label

    • fmadm acquit label

    • fmadm acquit uuid [label]

    Aunque estos cuatro comandos pueden tomar las UUID o las etiquetas como argumentos, es mejor usar la etiqueta. Por ejemplo, la etiqueta /SYS/MB/P0 representa la CPU que tiene la etiqueta "P0" en la placa base.

    Si una FRU tiene varios fallos y desea reemplazar la FRU una sola vez, use el comando fmadm replaced para la FRU.

Comando fmadm replaced

Puede utilizar el comando fmadm replaced para indicar que la FRU sospechosa se ha reemplazado o eliminado.

Si el sistema detecta automáticamente que se ha reemplazado una FRU (el número de serie ha cambiado), esta detección se trata de la misma manera que si se hubiese escrito fmadm replaced en la línea de comandos. El comando fmadm replaced no se permite si fmd puede confirmar automáticamente que la FRU no se ha reemplazado (el número de serie no ha cambiado).

Si el sistema detecta automáticamente que la FRU se ha eliminado pero no se ha reemplazado, el comportamiento actual no cambia: El sospechoso se muestra como not present, pero no se considera eliminarlo de manera permanente hasta que el evento de fallo tenga 30 días de antigüedad, momento en que se depura.

Comando fmadm repaired

Puede utilizar el comando fmadm repaired cuando se ha llevado a cabo una reparación física para resolver el problema, en lugar de reemplazar una FRU. Entre los ejemplos de dichas reparaciones, se incluyen volver a colocar un componente o estirar un pin torcido.

Comando fmadm acquit

Con frecuencia, se usa la opción acquit al determinar que el recurso no era la causa. La liberación también puede ocurrir implícitamente cuando se producen eventos de error adicionales y se refina el diagnóstico.

El reemplazo tiene prioridad sobre la reparación, y el reemplazo y la reparación tienen prioridad sobre la liberación. Por lo tanto, puede liberar un componente y después repararlo, pero no puede liberar un componente que ya ha sido reparado.

Un caso se considera reparado (se desplaza al estado FMD_CASE_REPAIRED y se genera un evento list.repaired) cuando se libera su UUID o todos los sospechosos se han reparado, reemplazado, eliminado o liberado.

Normalmente, fmd automáticamente libera un sospechoso de una lista de sospechosos de varios elementos, o los servicios de soporte le proporcionan instrucciones para llevar a cabo una liberación manual. Solo debe liberar por etiqueta si ha establecido que el recurso no era culpable en ninguno de los casos actuales en que es un sospechoso. Sin embargo, puede permitir que una FRU se libere manualmente en un caso pero siga siendo sospechosa en todos los demás casos, mediante la siguiente opción que le permite especificar la UUID y la etiqueta:

fmadm acquit uuid [label]