Ajuste los supervisores de fallos de HA para Oracle Database

Idioma:

La supervisión de fallos del servicio de datos de HA para Oracle Database es proporcionada por los siguientes supervisores de fallos:

El supervisor de fallos del servidor de Oracle Database
El supervisor de fallos del agente de escucha de Oracle Database

Notas - Si utiliza un listener de Single Client Access Name de Oracle Grid Infrastructure para clusters (SCAN), el software de Oracle Solaris Cluster no proporciona ninguna supervisión de fallos para el listener SCAN.

Cada supervisor de fallos se encuentra dentro de un recurso cuyo tipo se muestra en la siguiente tabla.

Tabla 3 Tipos de recursos para supervisores de fallos de HA para Oracle Database

Supervisor de fallos	Tipo de Recurso
Servidor de Oracle Database	`SUNW.oracle_server`
Listener de Oracle Database	`SUNW.oracle_listener`

Las propiedades estándar y las propiedades de extensión de este recurso controlan el comportamiento de los supervisores de fallos. Los valores por defecto de estas propiedades determinan el comportamiento preestablecido de los supervisores de fallos. El comportamiento preestablecido debe ser adecuado para la mayoría de las instalaciones de Oracle Solaris Cluster. Por lo tanto, debe ajustar los supervisores de fallos de HA para Oracle Database sólo si debe modificar el comportamiento preestablecido.

El ajuste de los supervisores de fallos de HA para Oracle Database incluye las siguientes tareas:

Establecer el intervalo entre sondeos de supervisores de fallos.
Establecer el tiempo de espera de sondeos de supervisores de fallos.
Definir los criterios de fallos persistentes.
Especificar el comportamiento de conmutación por error de un recurso.

Para obtener más información, consulte Ajuste de los supervisores de fallos para los servicios de datos de Oracle Solaris Cluster de Guía de administración y planificación de servicios de datos de Oracle Solaris Cluster 4.3 . En las siguientes subsecciones, se proporciona información sobre los supervisores de fallos de HA para Oracle Database que necesita para llevar a cabo estas tareas.

Ajuste los supervisores de fallos de HA para Oracle Database al registrar y configurar HA para Oracle Database. Para obtener más información, consulte Registro y configuración de HA para Oracle Database.

Funcionamiento del supervisor de fallos del servidor de Oracle Database

El supervisor de fallos del servidor de Oracle Database envía una solicitud al servidor para consultar su estado.

El supervisor de fallos de servidor se inicia con pmfadm para que el supervisor tenga alta disponibilidad. Si se detiene el supervisor por algún motivo, Process Monitor Facility (PMF) reinicia el supervisor de forma automática.

El supervisor de fallos de servidor consta de los siguientes procesos.

Un proceso de supervisión de fallos principal
Un sondeo de fallos del cliente de la base de datos

Esta sección incluye la siguiente información relativa al supervisor de fallos del servidor:

Funcionamiento del supervisor de fallos principal

El supervisor de fallos principal determina que una operación es correcta si la base de datos está en línea y no da ningún error durante la transacción.

Funcionamiento del sondeo de fallos del cliente de la base de datos

El sondeo de fallos del cliente de la base de datos realiza las siguientes operaciones:

Supervisa la partición de registros de rehacer archivados. Consulte Operaciones para supervisar la partición de registros de rehacer archivados.
Si el estado de la partición es correcto, determinar si la base de datos está operativa. Consulte Operaciones para determinar si la base de datos está operativa.

El sondeo utiliza el valor de timeout establecido en la propiedad del recurso Probe_timeout para determinar cuánto tiempo asignar para realizar correctamente el sondeo de Oracle Database.

Operaciones para supervisar la partición de registros de rehacer archivados

El sondeo de fallos del cliente de la base de datos consulta la vista de rendimiento dinámica v$archive_dest a fin de determinar todos los posibles destinos para los archivos de rehacer archivados. Para cada destino activo, el sondeo determina si el estado del destino es correcto y si tiene suficiente espacio libre para almacenar los registros de rehacer archivados.

Si el estado del destino es correcto, el sondeo determina la cantidad de espacio libre en el sistema de archivos de destino. Si la cantidad de espacio libre es inferior al 10% de la capacidad del sistema de archivos y es inferior a 20 Mbytes, el sondeo imprime un mensaje en syslog.
Si el estado del destino es ERROR, el sondeo imprime un mensaje en syslog y desactiva las operaciones para determinar si la base de datos está operativa. Las operaciones permanecen desactivadas hasta que se borre la condición de error.

Operaciones para determinar si la base de datos está operativa

Si la partición de registros de rehacer archivados es correcta, el sondeo de fallos de cliente de base de datos consulta la vista de rendimiento v$sysstat para obtener estadísticas de rendimiento de la base de datos. Los cambios en estas estadísticas indican que la base de datos está operativa. Si estas estadísticas permanecen sin cambios en las consultas consecutivas, el sondeo de fallos realiza transacciones de bases de datos para determinar si la base de datos está operativa. Estas transacciones implican crear, actualizar y descartar una tabla en el espacio de tabla del usuario.

El sondeo de fallos del cliente de la base de datos realiza todas las transacciones como usuario de Oracle Database. El ID de este usuario se especifica durante la preparación de los nodos de Oracle Solaris Cluster, como se explica en Cómo preparar los nodos de Oracle Solaris Cluster.

Acciones del supervisor de fallos de servidor como respuesta a un error de transacción de la base de datos

Si una transacción de base de datos falla, el supervisor de fallos de servidor realiza una acción que depende del error que ha ocasionado el fallo. Para cambiar la acción que realiza el supervisor de fallos del servidor, personalice el supervisor de fallos del servidor, como se describe en Personalización del supervisor de fallos Servidor de HA para Oracle Database.

Si la acción requiere ejecutar un programa externo, el programa se ejecuta como proceso independiente en segundo plano.

Las acciones que puede realizar son las siguientes:

Ignorar. El supervisor de fallos de servidor ignora el error.
Detener la supervisión. El supervisor de fallos de servidor se detiene sin cerrar la base de datos.
Reiniciar. El supervisor de fallos del servidor detiene y reinicia la entidad especificada por el valor de la propiedad de extensión Restart_type.
- Si la propiedad de extensión Restart_type está establecida en RESOURCE_RESTART, el supervisor de fallos del servidor reinicia el recurso del servidor de la base de datos. Por defecto, el supervisor de fallos del servidor reinicia el recurso del servidor de la base de datos.
- Si la propiedad de extensión Restart_type está establecida en RESOURCE_GROUP_RESTART, el supervisor de fallos del servidor reinicia el grupo de recursos del servidor de la base de datos.
Notas - La cantidad de intentos de reinicio puede exceder el valor de la propiedad del recurso Retry_count en el tiempo que la propiedad del recurso Retry_interval especifica. Si se produce esta situación, el supervisor de fallos del servidor intenta cambiar el grupo de recursos a otro nodo del cluster.
Conmutar. El supervisor de fallos del servidor cambia el grupo de recursos del servidor de la base de datos a otro nodo del cluster. Si no hay ningún nodo disponible, el intento de conmutar el grupo de recursos falla. En tal caso, se reinicia el servidor de la base de datos.

Exploración de las alertas registradas por el supervisor de fallos de servidor

Oracle Database registra las alertas en un archivo log de alertas. La ruta absoluta de este archivo se especifica mediante la propiedad de extensión alert_log_file del recurso SUNW.oracle_server. El supervisor de fallos de servidor explora el archivo de registro de alertas en busca de nuevas alertas en las siguientes ocasiones:

Cuando se inicia el supervisor de fallos de servidor
Cada vez que el supervisor de fallos de servidor consulta el estado del servidor

Si se define una acción para una alerta registrada que detecta el supervisor de fallos de servidor, el supervisor realiza la acción como respuesta a la alerta.

Las acciones preestablecidas para las alertas registradas aparecen en Tabla 5. Para cambiar la acción que realiza el supervisor de fallos del servidor, personalice el supervisor de fallos del servidor, como se describe en Personalización del supervisor de fallos Servidor de HA para Oracle Database.

Funcionamiento del supervisor de fallos del listener de Oracle Database

El supervisor de fallos del listener de Oracle Database comprueba el estado de un listener de Oracle Database.

Si el listener se está ejecutando, el supervisor de fallos del listener de Oracle Database considera que el sondeo se realizó correctamente. Si el supervisor de fallos detecta un error, la escucha se reinicia.

Notas - El recurso de escucha no proporciona ningún mecanismo para establecer la contraseña de escucha. Si la seguridad del listener de Oracle Database está activada, un sondeo del supervisor de fallos del listener posiblemente devuelva el error TNS-01169. Debido a que la escucha puede responder, el supervisor de fallos de escucha considera que el sondeo es correcto. Esta acción no hace que permanezca sin detectar una falla en la escucha. Una falla en la escucha devuelve un error diferente o finaliza el tiempo de espera del sondeo.

El sondeo de escucha se inicia con pmfadm para que el sondeo tenga alta disponibilidad. Si se detiene el sondeo, PMF reinicia automáticamente el sondeo.

Si ocurre algún problema en la escucha durante el sondeo, se intenta reiniciar la escucha. El valor definido para la propiedad del recurso retry_count determina la cantidad máxima de veces que el sondeo intentos el reinicio. Si, tras haber intentado el número máximo de veces, el sondeo sigue dando resultados negativos, el sondeo detiene el supervisor de fallos y no conmuta el grupo de recursos.

Obtención de archivos del núcleo central para resolver problemas de tiempos de espera finalizados de DBMS

Para facilitar la resolución de problemas de los tiempos de espera inexplicables de DBMS, puede activar el supervisor de fallos para crear un archivo del núcleo central cuando se produce un tiempo de espera del sondeo. El contenido del archivo del núcleo central hace referencia al proceso del supervisor de fallos. El supervisor de fallos crea el archivo del núcleo central en el directorio raíz (/). Para activar el supervisor de fallos a fin de crear un archivo del núcleo central, utilice el comando coreadm para activar los volcados del núcleo central de ID de conjunto.

# coreadm -g /var/cores/%f.%n.%p.core -e global -e process \
-e global-setid -e proc-setid -e log

Para obtener más información, consulte la página del comando man coreadm(1M).