Descripción general de gestión de fallos

La función de gestión de fallos de Oracle Solaris proporciona una arquitectura para crear gestores de errores flexibles, telemetría de errores estructurada, software de diagnóstico, agentes de respuesta y mensajería estructurada. Muchas partes de la pila de software participan en la gestión de fallos, incluidos la CPU, la memoria y los subsistemas de E/S, Oracle Solaris ZFS, un creciente grupo de controladores de dispositivos y otras pilas de gestión.

FMA tiene como finalidad ayudar con los problemas que pueden producirse en un sistema Oracle Solaris. El problema podría ser un fallo, lo que hace referencia a algo que antes solía funcionar pero que ahora no funciona. El problema podría ser un defecto, lo que hace referencia a algo que nunca funcionó correctamente. En general, el hardware puede tener fallos y defectos. Sin embargo, la mayoría de los problemas de software son defectos o son causados por problemas de configuración.

En un nivel elevado, la pila de gestión de fallos contiene detectores de errores, motores de diagnóstico y agentes de respuesta. Los detectores de errores, como su nombre lo indica, detectan errores del sistema y realizan cualquier acción necesaria inmediata. Los detectores de errores proporcionan informes de errores bien definidos, o informes de errores, a un motor de diagnóstico. Un motor de diagnóstico interpreta los informes de errores y determina si hay un fallo o defecto en el sistema. Una vez realizada dicha determinación, el motor de diagnóstico emite una lista de sospechosos que describe el recurso o conjunto de recursos que pueden ser la causa del problema. El recurso puede o no tener una unidad reemplazable en campo (FRU), una etiqueta o una unidad de reconfiguración automática de sistema (ASRU) asociadas. Una ASRU se puede suprimir inmediatamente del servicio para mitigar el problema hasta que se reemplace la FRU.

Cuando la lista de sospechosos incluye múltiples sospechosos, por ejemplo, si el motor de diagnóstico no puede aislar un único sospechoso, a los sospechosos se les asigna una probabilidad de ser el sospechoso clave. Las probabilidades en esta lista alcanzan el 100 por ciento. Los agentes de respuesta interpretan las listas de sospechosos. Un agente de respuesta intenta emprender una acción según la lista de sospechosos. Las respuestas incluyen mensajes de registro, desconexión de cadenas de CPU, eliminación de páginas de memoria o eliminación de dispositivos de E/S.

Los detectores de errores, los motores de diagnóstico y los agentes de respuesta están conectados por un daemon del gestor de fallos, fmd, que actúa como un multiplexor entre los diversos componentes, como se muestra en la siguiente figura.

image:La figura muestra la interrelación entre el daemon de gestión de fallos, los detectores de errores, los agentes de respuesta y los motores de diagnóstico.

El daemon del gestor de fallos es, en sí mismo, un servicio bajo el control de SMF. El servicio está habilitado de manera predeterminada y se controla como cualquier otro servicio SMF. Consulte la página del comando man smf(5) para obtener más información.

La FMA y los servicios SMF interactúan mutuamente según corresponda. Algunos problemas de hardware pueden causar que SMF detenga o reinicie servicios. Asimismo, algunos errores de SMF hacen que FMA informe sobre un defecto.

Omitir V�nculos de navegaci�n
Salir de la Vista de impresi�n
	Administración de Oracle Solaris: tareas comunes Oracle Solaris 11 Information Library (Español)