|
|
CRU
|
Una CRU es una unidad sustituible por el cliente (como una memoria DIMM).
|
Motores de diagnóstico
|
La FMA de Oracle Linux utiliza motores de diagnóstico que residen en el procesador de servicio para procesar los informes de error de eventos de hardware, incluso los generados por mcelog. Para obtener una lista de los motores de diagnóstico admitidos en la arquitectura de gestión de fallos para Oracle ILOM, consulte la documentación de Oracle ILOM.
|
Informe de error
|
Los informes de errores describen los eventos de errores. Incluyen información del dispositivo raw y del tipo de error a fin de que el gestor de fallos pueda diagnosticar el error y crear un mensaje de diagnóstico de fallo adecuado.
|
Fallo
|
Un fallo indica que un componente de hardware está presente pero no se puede utilizar o está degradado a causa de uno o varios problemas diagnosticados por el gestor de fallos. El componente se ha desactivado para evitar más daños al sistema.
|
Caso de fallo
|
Cuando se diagnostican problemas, el gestor de fallos registra un mensaje de diagnóstico de fallo que contiene un identificador de caso (representado por un UUID), que hace referencia al problema.
|
FRU
|
Una FRU es una unidad sustituible en campo (como un procesador).
|
Etiqueta
|
Una cadena de ubicación (también llamada etiqueta de FRU), por ejemplo, "/SYS/MB/P1", que representa el procesador 1 ubicado en la placa base del sistema. El valor marcado entre comillas debe coincidir con la etiqueta en el hardware físico o que aparece en Oracle ILOM.
|
Eventos de comprobación de máquina
|
Errores de plataforma detectados por el hardware y notificados al sistema operativo. El error notificado puede ser corregible o incorregible, recuperable o irrecuperable. En Linux, mcelog captura estos errores.
|
mcelog
|
mcelog proporciona tratamiento de errores y análisis de errores predictivos en sistemas Linux x86. El daemon de mcelog procesa los eventos de comprobación de máquina relacionados con la CPU y la memoria, y ejecuta acciones en función de los umbrales de error que se pueden configurar. Se pueden configurar una variedad de acciones, entre ellas, el retiro de páginas de memoria defectuosas, la desconexión de núcleos de CPU y el tratamiento automático de errores de caché. También se pueden configurar acciones definidas por el usuario.
La FMA de Oracle Linux captura errores procesados por mcelog y almacenados en el archivo log mcelog, los convierte al formato de fallo de Oracle y los agrega a la base de datos de gestión de fallos sincronizada que está disponible en el host y en Oracle ILOM.
|
Retiro de páginas
|
Una utilidad de núcleo de los sistemas operativos Linux más recientes en la que una página de memoria de sistema operativo correspondiente a una ubicación de memoria física con errores se retira de servicio, si es posible. Esta función ayuda a incrementar la disponibilidad del sistema.
|
Reparación automática predictiva
|
La recuperación automática preventiva es una arquitectura de gestión de fallos y una metodología para diagnosticar, informar y tratar condiciones de fallo del software y el hardware. La reparación automática preventiva reduce el tiempo necesario para depurar un problema de hardware o software y proporciona al administrador del sistema o el personal del servicio de asistencia de Oracle datos detallados acerca de cada fallo. La arquitectura consta del protocolo de gestión de eventos de mcelog de Linux, el gestor de eventos, y los motores de diagnóstico basados en el procesador de servicio que procesan los errores recibidos del sistema operativo del host para crear un caso de fallo de FMA estándar.
|
Procesador de servicio (SP)
|
La mayoría de los servidores de Oracle se envían con un procesador de servicio que controla las funciones del chasis, como la asignación y el control de la energía, la supervisión del estado del sistema y las actividades de FMA, lo cual incluye el diagnóstico de fallos y los informes de errores.
|
Identificador único universal (UUID)
|
El UUID se utiliza para identificar de forma exclusiva un problema en cualquier conjunto de sistemas.
|