Ajuste de los supervisores de errores de Admisión de Oracle RAC

Los supervisores de datos proporcionan supervisión de errores para el servicio de datos de Admisión de Oracle RAC para los recursos siguientes:

Recurso de grupo de dispositivos escalables
Recurso de punto de montaje de sistema de archivos escalables
Recurso de servidor Oracle 9i RAC
Recurso de escucha de Oracle 9i RAC

Cada supervisor de errores se encuentra en un recurso cuyo tipo de recurso figura en la tabla siguiente.

Tabla 5-4 Tipos de recursos para supervisores de errores de Admisión de Oracle RAC

Supervisor de errores	Tipo de recurso
Grupo de dispositivos escalables	`SUNW.ScalDeviceGroup`
Punto de montaje de sistema de archivos escalables	`SUNW.ScalMountPoint`
Servidor Oracle 9i RAC	`SUNW.scalable_rac_server`
Escucha de Oracle 9i RAC	`SUNW.scalable_rac_listener`

Las propiedades del sistema y las de extensión de estos recursos controlan el comportamiento de los supervisores de errores. Los valores predeterminados de estas propiedades determinan el comportamiento preestablecido de los supervisores de errores. En principio, el comportamiento preestablecido es válido para la mayoría de las instalaciones de Oracle Solaris Cluster. Por lo tanto, los supervisores de errores de Admisión de Oracle RAC sólo se ajustan si debe modificar el comportamiento preestablecido.

Para ajustar los supervisores de errores de Admisión de Oracle RAC hay que realizar las tareas siguientes:

Establecer el intervalo entre sondeos de supervisores de errores
Establecer el tiempo de espera de sondeos de supervisores de errores
Definir los criterios de errores persistentes
Especificar el comportamiento de migración tras error de un recurso

Para obtener más información, consulte Tuning Fault Monitors for Oracle Solaris Cluster Data Services de Oracle Solaris Cluster Data Services Planning and Administration Guide. En las subsecciones siguientes se proporciona información sobre los supervisores de errores de Admisión de Oracle RAC necesarios para efectuar estas tareas:

Funcionamiento del supervisor de errores en un grupo de dispositivos escalable
Funcionamiento del supervisor de errores para puntos de montaje de sistemas de archivos escalables
Funcionamiento del supervisor de errores del servidor Oracle 9i RAC
Funcionamiento del supervisor de errores de escucha de Oracle 9i RAC
Cómo obtener los archivos de núcleo para resolver los tiempos de espera de DBMS

Funcionamiento del supervisor de errores en un grupo de dispositivos escalable

De forma predeterminada, los supervisores de errores controlan todos los volúmenes lógicos del grupo de dispositivos representados por el recurso. Si sólo se debe supervisar un subconjunto de los volúmenes lógicos de un grupo de dispositivos, defina la propiedad de extensión LogicalDeviceList.

El estado del grupo de dispositivos se deriva de los estados de los volúmenes lógicos concretos que se supervisan. Si todos los volúmenes lógicos supervisados están en buen estado, el grupo de dispositivos también lo está. Si algún volumen lógico está defectuoso, también lo está el grupo de dispositivos. Si se detecta un grupo de dispositivos defectuoso, se detiene la supervisión del recurso que representa al grupo y el recurso se coloca en estado inhabilitado.

Para obtener el estado de un volumen lógico determinado se debe consultar al administrador de volúmenes del volumen. Si el estado de un volumen de Solaris Volume Manager for Sun Cluster no se puede determinar a partir de una consulta, el supervisor de errores efectúa operaciones de entrada y salida de archivos para determinar el estado.

Nota - En el caso de discos duplicados, si está defectuoso uno de los duplicados secundarios, se considera que el grupo de dispositivos está en buen estado.

Si la configuración de la pertenencia al clúster userland causa un error de E/S, de forma predeterminada se suspende la supervisión de recursos de grupos de dispositivos aunque las reconfiguraciones de supervisión de la pertenencia al clúster userland (UCMM) estén en curso.

Funcionamiento del supervisor de errores para puntos de montaje de sistemas de archivos escalables

Para determinar si está disponible el sistema de archivos montado, el supervisor de errores efectúa operaciones de E/S como abrir, leer y escribir en un archivo de prueba del sistema de archivos. Si una operación de E/S no se completa durante el periodo de tiempo de espera, el supervisor de errores informa de un error. Para especificar el tiempo de espera de las operaciones de E/S, configure la extensión de propiedad IOTimeout.

La respuesta a un error depende del tipo de sistema de archivos, según se indica a continuación:

Si es un sistema de archivos NFS en un dispositivo NAS cualificado, la respuesta es la siguiente:
- La supervisión del recurso se detiene en el nodo actual.
- El recurso se coloca en estado inhabilitado en el nodo actual y el sistema de archivos se desmonta respecto del nodo.
Si es un qfs-shared; Sun QFS, la respuesta es la siguiente:
- Si el nodo donde se da el error aloja el recurso del servidor de metadatos, dicho recurso se migra a otro nodo tras el error.
- El sistema de archivos se desmonta.
Si falla el intento de migración tras error, el sistema de archivos continúa desmontado y se genera un mensaje de advertencia.

Funcionamiento del supervisor de errores del servidor Oracle 9i RAC

El supervisor de errores para el servidor Oracle 9i RAC utiliza una solicitud al servidor para consultar el estado del servidor.

El supervisor de errores del servidor se inicia mediante pmfadm para tener alta disponibilidad. Si se detiene el supervisor por algún motivo, la PMF reinicia el supervisor de forma automática.

El supervisor de errores del servidor consta de los procesos siguientes.

Un proceso de supervisión de errores principal
Un sondeo de errores de cliente de base de datos

Esta sección contiene la información siguiente relativa al supervisor de errores del servidor:

Funcionamiento del supervisor de errores principal
Funcionamiento del sondeo de errores de cliente de base de datos
Acciones del supervisor de errores del servidor como respuesta a un error de transacción de la base de datos
Exploración de las alertas registradas por el supervisor de errores del servidor

Funcionamiento del supervisor de errores principal

El supervisor de errores principal determina que una operación es correcta si la base de datos está en línea y no da ningún error durante la transacción.

Funcionamiento del sondeo de errores de cliente de base de datos

El sondeo de errores de cliente de base de datos realiza las operaciones siguientes:

Supervisar la partición de los registros de rehacer archivados. Consulte Operaciones para supervisar la partición de registros de rehacer archivados.
Si el estado de la partición es correcto, determinar si la base de datos está operativa. Consulte Operaciones para determinar si la base de datos está operativa.

El sondeo utiliza el valor de tiempo de espera definido en la propiedad del recurso Probe_timeout para determinar el tiempo que se debe asignar para realizar el sondeo de Oracle correctamente.

Operaciones para supervisar la partición de registros de rehacer archivados

El sondeo de errores de cliente de base de datos consulta la vista de rendimiento dinámico v$archive_dest para determinar todos los posibles destinos para los registros de rehacer archivados. Para cada destino activo, el sondeo determina si el estado del destino es correcto y tiene suficiente espacio libre para almacenar los archivos de registro de rehacer archivados.

Si el estado del destino es correcto, el sondeo determina la cantidad de espacio libre en el sistema de archivos de destino. Si la cantidad de espacio libre es inferior al 10% de la capacidad del sistema de archivos y e inferior a 20 Mbytes, el sondeo imprime un mensaje en syslog.
Si el estado del destino es ERROR, el sondeo imprime un mensaje en syslog e inhabilita las operaciones para determinar si la base de datos está operativa. Las operaciones permanecen inhabilitadas hasta que se borre la condición de error.

Operaciones para determinar si la base de datos está operativa

Si la partición de los registros de rehacer archivados es correcta, el sondeo de errores de cliente de base de datos consulta la vista de rendimiento dinámico v$sysstat para obtener las estadísticas de rendimiento de la base de datos. Los cambios en las estadísticas indican que la base de datos está operativa. Si estas estadísticas permanecen sin cambios en las consultas consecutivas, el sondeo de errores realiza transacciones de bases de datos para determinar si la base de datos está operativa. Estas transacciones implican crear, actualizar y descartar una tabla en el espacio de tabla del usuario.

El sondeo de errores de cliente de base de datos realiza todas sus transacciones como usuario de Oracle. El ID de este usuario se especifica al preparar los nodos o las zonas, tal y como se explica en Cómo crear el grupo de DBA y las cuentas de usuario de DBA.

Acciones del supervisor de errores del servidor como respuesta a un error de transacción de la base de datos

Si se da un error en una transacción de base de datos, el supervisor de errores del servidor realiza una acción que depende del error que haya causado el problema. Para cambiar la acción que realiza el supervisor de errores del servidor, personalícelo tal y como se explica en Personalización del supervisor de errores de Servidor Oracle 9i RAC.

Si la acción requiere ejecutar un programa externo, el programa se ejecuta como proceso independiente en segundo plano.

Las acciones que puede realizar son las siguientes:

Omitir. El supervisor de errores del servidor hace caso omiso del error.
Detener la supervisión. El supervisor de errores del servidor se detiene sin cerrar la base de datos.
Reiniciar. El supervisor de errores del servidor detiene y reinicia el recurso de servidor Oracle 9i RAC.

Exploración de las alertas registradas por el supervisor de errores del servidor

El software Oracle registra las alertas en un archivo de registro de alertas. La ruta absoluta de este archivo se especifica mediante la propiedad de extensión alert_log_file del recurso SUNW.scalable_rac_server. El supervisor de errores del servidor examina el archivo de registro de alertas en busca de nuevas alertas:

Cuando se inicia el supervisor de errores del servidor.
Cada vez que el supervisor de errores del servidor consulta el estado del servidor.

Si se define una acción para una alerta registrada detectada por el supervisor de errores del servidor, el supervisor realiza la acción como respuesta a la alerta.

Las acciones preestablecidas para las alertas registradas aparecen enumeradas en la Tabla B-2. Para cambiar la acción que realiza el supervisor de errores del servidor, personalícelo tal y como se explica en Personalización del supervisor de errores de Servidor Oracle 9i RAC.

Funcionamiento del supervisor de errores de escucha de Oracle 9i RAC

El supervisor de errores de escucha de Oracle 9i RAC comprueba el estado de una escucha de Oracle.

Si la escucha está en ejecución, el supervisor de errores de escucha de Oracle 9i RAC considera que el sondeo es satisfactorio. Si el supervisor de errores detecta un error, la escucha se reinicia.

Nota - El recurso de escucha no proporciona ningún mecanismo para establecer la contraseña de escucha. Si se ha habilitado la seguridad de escucha de Oracle, un sondeo del supervisor de errores de escucha podría generar el error de Oracle TNS-01169. Dado que la escucha puede responder, el supervisor de errores de escucha considera que el sondeo es correcto. Con esta acción, los errores de escucha no se quedan sin detectar. Un error de escucha devuelve un error diferente o finaliza el tiempo de espera del sondeo.

El sondeo de escucha se inicia con pmfadm para que el sondeo tenga alta disponibilidad. Si se detiene el sondeo, la Utilidad de supervisor de procesos (PMF) reinicia automáticamente el sondeo.

Si se da algún problema en la escucha durante el sondeo, se intenta reiniciar la escucha. El valor que se establece para la propiedad de recurso retry_count determina el número máximo de veces que el sondeo intenta el reinicio. Si el sondeo sigue siendo incorrecto después de intentar reiniciar el máximo de veces, detendrá el supervisor de errores.

Cómo obtener los archivos de núcleo para resolver los tiempos de espera de DBMS

Para facilitar la resolución de problemas de los tiempos de espera sin motivo de DBMS, puede habilitar el supervisor de errores para crear un archivo de núcleo cuando finalice un tiempo de espera del sondeo. El contenido del archivo de núcleo hace referencia al proceso del supervisor de errores. El supervisor de errores crea el archivo de núcleo en el directorio /. Para habilitar el supervisor de errores para la creación de un archivo de núcleo, utilice el comando coreadm con el fin de habilitar los volcados de núcleo de set-id. Para obtener más información, consulte la página de comando man coreadm(1M).

Omitir Vínculos de navegación
Salir de la Vista de impresión
	Guía del servicio de datos de Oracle Solaris Cluster para Oracle Real Application Clusters (RAC)