Omitir V�nculos de navegaci�n | |
Salir de la Vista de impresi�n | |
Administración de Oracle Solaris: tareas comunes Oracle Solaris 11 Information Library (Español) |
1. Localización de información acerca de comandos de Oracle Solaris
2. Gestión de grupos y cuentas de usuario (descripción general)
3. Gestión de cuentas de usuario y grupos (tareas)
4. Inicio y cierre de un sistema Oracle Solaris
5. Trabajo con Oracle Configuration Manager
6. Gestión de servicios (descripción general)
7. Gestión de servicios (tareas)
Notificación de fallos y defectos
Visualización de Información sobre fallos o defectos
Cómo mostrar información sobre componentes con fallos
Cómo identificar las CPU que están sin conexión
Cómo mostrar información sobre servicios defectuosos
Reparación de fallos o defectos
Archivos de registro de gestión de fallos
9. Gestión de información del sistema (tareas)
10. Gestión de procesos del sistema (tareas)
11. Supervisión del rendimiento del sistema (tareas)
12. Gestión de paquetes de software (tareas)
13. Gestión del uso de discos (tareas)
14. Programación de tareas del sistema (tareas)
15. Configuración y administración de impresoras mediante CUPS (tareas)
16. Gestión de la consola del sistema, dispositivos del terminal y servicios de energía (tareas)
17. Gestión de información sobre la caída del sistema (tareas)
18. Gestión de archivos del núcleo central (tareas)
19. Resolución de problemas de software y sistemas (tareas)
20. Resolución de diversos problemas de software y sistemas (tareas)
La función de gestión de fallos de Oracle Solaris proporciona una arquitectura para crear gestores de errores flexibles, telemetría de errores estructurada, software de diagnóstico, agentes de respuesta y mensajería estructurada. Muchas partes de la pila de software participan en la gestión de fallos, incluidos la CPU, la memoria y los subsistemas de E/S, Oracle Solaris ZFS, un creciente grupo de controladores de dispositivos y otras pilas de gestión.
FMA tiene como finalidad ayudar con los problemas que pueden producirse en un sistema Oracle Solaris. El problema podría ser un fallo, lo que hace referencia a algo que antes solía funcionar pero que ahora no funciona. El problema podría ser un defecto, lo que hace referencia a algo que nunca funcionó correctamente. En general, el hardware puede tener fallos y defectos. Sin embargo, la mayoría de los problemas de software son defectos o son causados por problemas de configuración.
En un nivel elevado, la pila de gestión de fallos contiene detectores de errores, motores de diagnóstico y agentes de respuesta. Los detectores de errores, como su nombre lo indica, detectan errores del sistema y realizan cualquier acción necesaria inmediata. Los detectores de errores proporcionan informes de errores bien definidos, o informes de errores, a un motor de diagnóstico. Un motor de diagnóstico interpreta los informes de errores y determina si hay un fallo o defecto en el sistema. Una vez realizada dicha determinación, el motor de diagnóstico emite una lista de sospechosos que describe el recurso o conjunto de recursos que pueden ser la causa del problema. El recurso puede o no tener una unidad reemplazable en campo (FRU), una etiqueta o una unidad de reconfiguración automática de sistema (ASRU) asociadas. Una ASRU se puede suprimir inmediatamente del servicio para mitigar el problema hasta que se reemplace la FRU.
Cuando la lista de sospechosos incluye múltiples sospechosos, por ejemplo, si el motor de diagnóstico no puede aislar un único sospechoso, a los sospechosos se les asigna una probabilidad de ser el sospechoso clave. Las probabilidades en esta lista alcanzan el 100 por ciento. Los agentes de respuesta interpretan las listas de sospechosos. Un agente de respuesta intenta emprender una acción según la lista de sospechosos. Las respuestas incluyen mensajes de registro, desconexión de cadenas de CPU, eliminación de páginas de memoria o eliminación de dispositivos de E/S.
Los detectores de errores, los motores de diagnóstico y los agentes de respuesta están conectados por un daemon del gestor de fallos, fmd, que actúa como un multiplexor entre los diversos componentes, como se muestra en la siguiente figura.
El daemon del gestor de fallos es, en sí mismo, un servicio bajo el control de SMF. El servicio está habilitado de manera predeterminada y se controla como cualquier otro servicio SMF. Consulte la página del comando man smf(5) para obtener más información.
La FMA y los servicios SMF interactúan mutuamente según corresponda. Algunos problemas de hardware pueden causar que SMF detenga o reinicie servicios. Asimismo, algunos errores de SMF hacen que FMA informe sobre un defecto.