Descripción general de la arquitectura de gestión de fallos

Idioma:

La arquitectura de gestión de fallos (FMA) de Oracle Linux es un complemento para los mecanismos existentes de detección y recuperación de errores de Linux que permite a los administradores del sistema ver los fallos, realizar las acciones correspondientes y borrar los fallos detectados por el núcleo de Linux desde el host. Utiliza el gestor de fallos de Oracle ILOM en el procesador de servicio para diagnosticar los errores de CPU y memoria capturados en el host y generar una salida en formato de fallo estándar que se almacena en la base de datos de gestión de fallos.

Esta base de datos contiene un superconjunto de todos los fallos detectados (capturados por la FMA de Oracle Linux y la FMA de Oracle ILOM) y se mantiene tanto en el host como en el procesador de servicio.

En el sistema operativo Oracle Linux, los errores de CPU y memoria se generan a nivel de núcleo, como eventos de comprobación de máquina. Estos eventos se almacenan en la base de datos de mcelog de Linux. El daemon de mcelog de Linux, mcelogd, recupera los errores almacenados en la base de datos y los convierte en mensajes legibles para el ojo humano que son una salida de la consola, el archivo mcelog (/var/log/mcelog), y el log del sistema Linux. El daemon de mcelog también realiza una acción según un juego de reglas almacenadas en un archivo de configuración. Por ejemplo, es posible que estas acciones incluyan el retiro de una página de memoria del servicio porque contiene errores que no se pueden corregir.

Es posible que la información registrada por mcelog no contenga suficiente información para identificar un componente defectuoso (como una memoria DIMM). El daemon del gestor de fallos de la FMA de Oracle Linux, fmd, examina y recupera los errores almacenados en el archivo mcelog, y traduce los errores al formato de informe de error admitido por Oracle ILOM. Luego, reenvía el informe de error al procesador de servicio mediante el puerto interno de interconexión de host a ILOM. El gestor de fallos de Oracle ILOM utiliza el informe de error para diagnosticar el fallo. A continuación, Oracle ILOM registra el fallo en su propia base de datos de gestión de fallos y envía una copia a la base de datos de gestión de fallos que reside en el host de Linux.

Con este método, todos los fallos de hardware del sistema que están en la base de datos se pueden visualizar, y se pueden tomar medidas en función de ellos mediante un conjunto similar de comandos de gestión de fallos, ya sea desde el sistema operativo del host o desde Oracle ILOM.

image:Gráfico que muestra cómo funciona la FMA de Linux.

Entre las plataformas de servidor de Oracle que ejecutan Oracle Linux se incluyen detectores de errores, motores de diagnóstico y agentes de respuesta. Los detectores de errores y los agentes de respuesta residen en el host de Oracle Linux. Los motores de diagnóstico residen en el procesador de servicio del servidor.

Los detectores de errores detectan errores en el sistema y realizan las acciones requeridas de inmediato. También generan informes bien definidos o informes de errores para un motor de diagnóstico. En Linux, el daemon de mcelog detecta errores, y el software de gestión de fallos de Oracle Linux los recopila, les asigna el nuevo formato de informe de error y los reenvía al procesador de servicio para el diagnóstico de fallos.
Un juego de motores de diagnóstico ubicado en el procesador de servicio interpreta los informes de error y determina si un fallo o defecto está presente en el sistema. Una vez realizada dicha determinación, el motor de diagnóstico crea una lista de sospechosos que describe el recurso o el juego de recursos que pueden ser la causa del problema. El recurso puede o no tener una unidad sustituible en campo (FRU) o una etiqueta asociada.

Cuando la lista de sospechosos incluye múltiples sospechosos, por ejemplo, si el motor de diagnóstico no puede aislar un único sospechoso, a los sospechosos se les asigna una probabilidad de ser el sospechoso clave. Las probabilidades en esta lista alcanzan el 100 por ciento.

Los detectores de errores y los motores de diagnóstico están conectados por un daemon del gestor de fallos en el procesador de servicio, que actúa como un multiplexor entre los diversos componentes, como se muestra en la siguiente figura.
Los agentes de respuesta intentan realizar una acción según el tipo de error. Del lado del host, el daemon de mcelog actúa como agente de respuesta. Las respuestas incluyen registrar mensajes y retirar páginas de memoria.

El daemon del gestor de fallos de Oracle Linux, fmd(1M), es un servicio en sí mismo. El servicio se puede activar y controlar como un daemon sin secuencia de comandos o mediante las secuencias de comandos init.d para lograr una mayor capacidad de gestión. Entre los comandos de gestión de fallos admitidos por esta versión de la FMA de Oracle Linux, se incluyen:

fmadm(1M): los administradores y el personal de los servicios de asistencia usan esta utilidad para ver y borrar los fallos mantenidos por el gestor de fallos de Oracle Linux, fmd(1M).
fmdump(1M): esta utilidad se usa para mostrar el contenido de cualquiera de los archivos log asociados con el gestor de fallos de Oracle Linux, fmd(1M).