Cuando un Controlador falla o cuando un Controlador se desconecta un de con el mantenimiento guiado, Sistema Oracle FS usa conmutación por error y failback para que el Sistema Oracle FS vuelva al estado normal. La conmutación por error transfiere todos los recursos del nodo sin conexión al nodo que se mantiene en línea. El failback transfiere esos recursos de vuelta al nodo que estaba fuera de línea cuando vuelve a estar en línea.
En condiciones normales, cada nodo de Controlador en un par usa sus recursos para brindar servicio activo a las solicitudes de E/S que llegan a la ruta de datos. Los nodos de Controlador están interconectados como un par activo-activo. Esta interconexión permite que cada nodo asista al otro nodo en caso de que falle.
Cuando un nodo de Controlador falla, tanto el nodo piloto como el nodo de Controlador detectan y confirman el fallo. A continuación, el nodo de Controlador asociado toma el control de todas las solicitudes de E/S del nodo de Controlador con errores, incluidas las operaciones de vaciado de datos de caché al almacenamiento y de conversión de datos de Controlador al modo conservador.
Puede producirse una conmutación por error del nodo de Controlador si hay un fallo inesperado del nodo de Controlador o si es necesario reemplazar una unidad sustituible en campo (FRU) o una unidad sustituible por el cliente (CRU) que requiere que se apague el nodo de Controlador. Para los componentes que requieren que se apague el nodo de Controlador antes del mantenimiento, el mantenimiento guiado inicia el proceso de conmutación por error para el nodo de Controlador que necesita mantenimiento.
El proceso de conmutación por error realizará las siguientes tareas:Asume los recursos de puerto desde el nodo del Controlador del asociado.
Asume los recursos de memoria y los datos pertinentes que la memoria pueda contener desde el nodo del Controlador del asociado.
Cambia el modo de operación del nodo del Controlador asociado de caché de escritura no directa a caché de escritura directa.
Cambia el estado del nodo del Controlador del asociado de Normal a Conservador. En el modo Conservador, todas las escrituras se realizan directamente en el almacenamiento.
Después de completar el mantenimiento o el tratamiento del fallo de Controlador, el nodo de Controlador comienza un ciclo de inicio. Durante el ciclo de inicio, el sistema comprueba el estado operativo del nodo de Controlador y, luego, realiza un failback para restaurar los servicios en el nodo del Controlador reparado.
Después de que el nodo de Controlador realiza una conmutación por error a su nodo asociado, cuando se repara el nodo de Controlador o se recupera y se inicia, el sistema realiza una operación de failback. Durante el failback, el nodo del Controlador asociado, que está manejando todos los servicios y la carga de recursos, transfiere los servicios y recursos adecuados de vuelta al nodo del Controlador reparado.
Cuando un nodo de Controlador vuelve a estar en línea, atraviesa varios estados. Use la pantalla Log de eventos de Gestor del sistema Oracle FS (GUI) para realizar un seguimiento del estado del nodo del Controlador a medida que vuelve a estar en línea.