Ajuste los supervisores de fallos de Soporte para Oracle RAC

Idioma:

La supervisión de fallos para el servicio de datos Soporte para Oracle RAC es proporcionada por supervisores de fallos para los siguientes recursos:

Recurso de grupo de dispositivos escalables
Recurso de punto de montaje de sistema de archivos escalable

Cada supervisor de fallos reside en un recurso cuyo tipo se muestra en la siguiente tabla.

Tabla 17 Tipos de recursos para supervisores de fallos de Soporte para Oracle RAC

Supervisor de fallos	Tipo de recurso
Grupo de dispositivos escalables	`SUNW.ScalDeviceGroup`
Punto de montaje de sistemas de archivo escalable	`SUNW.ScalMountPoint`

Las propiedades estándar y las propiedades de extensión de estos recursos controlan el comportamiento de los supervisores de fallos. Los valores predeterminados de estas propiedades determinan el comportamiento preestablecido de los supervisores de fallos. El comportamiento preestablecido debe ser adecuado para la mayoría de las instalaciones de Oracle Solaris Cluster. Por lo tanto, debe ajustar los supervisores de fallos de Soporte para Oracle RAC sólo si debe modificar el comportamiento preestablecido.

El ajuste de los supervisores de fallos de Soporte para Oracle RAC incluye las siguientes tareas:

Establecer el intervalo entre sondeos de supervisores de fallos.
Establecer el timeout de sondeos de supervisores de fallos.
Definir los criterios de fallos persistentes.
Especificar el comportamiento de failover de un recurso.

Para obtener más información, consulte Ajuste de los supervisores de fallos para los servicios de datos de Oracle Solaris Cluster de Guía de administración y planificación de servicios de datos de Oracle Solaris Cluster 4.3. La información sobre los supervisores de fallos de Soporte para Oracle RAC que necesita para realizar estas tareas se proporciona en las siguientes subsecciones:

Funcionamiento del supervisor de fallos para un grupo de dispositivos escalables

De forma predeterminada, el supervisor de fallos controla todos los volúmenes lógicos del grupo de dispositivos que representa el recurso. Si necesita que se supervise sólo un subconjunto de los volúmenes lógicos de un grupo de dispositivos, defina la propiedad de extensión LogicalDeviceList.

El estado del grupo de dispositivos se obtiene de los estados de los volúmenes lógicos individuales que se supervisan. Si todos los volúmenes lógicos supervisados están en buen estado, también lo está el grupo de dispositivos. Si algún volumen lógico supervisado está defectuoso, también lo está el grupo de dispositivos. Si se detecta un grupo de dispositivos defectuoso, la supervisión del recurso que representa el grupo se detiene y el recurso se coloca en estado desactivado.

El estado de un volumen lógico individual se obtiene al consultar al administrador de volúmenes del volumen. Si el estado de un volumen de Solaris Volume Manager para Sun Cluster no se puede determinar a partir de una consulta, el supervisor de fallos realiza operaciones de entrada y salida (E/S) de archivos para determinar el estado.

Notas - En el caso de los discos reflejados, si un reflejo secundario está defectuoso, el grupo de dispositivos se sigue considerando en buen estado.

Si la reconfiguración de la pertenencia del cluster del espacio de usuario produce un error de E/S, la supervisión de los recursos del grupo de dispositivos realizada por supervisores de fallos se suspende mientras que las reconfiguraciones del supervisor de pertenencia del cluster del espacio de usuario (UCMM) está en curso.

Funcionamiento del supervisor de fallos para puntos de montaje de sistemas de archivos escalables

Para determinar si el sistema de archivos montado está disponible, el supervisor de fallos realizará operaciones de E/S, como abrir, leer y escribir en un archivo de prueba en el sistema de archivos. Si una operación de E/S no se completa dentro del período de timeout, el supervisor de fallos informa un error. Para especificar el timeout de las operaciones de E/S, defina la propiedad de extensión IOTimeout.

La respuesta a un error depende del tipo de sistema de archivos, como se indica a continuación:

Si el sistema de archivos es un sistema de archivos NFS en un dispositivo NAS cualificado la respuesta es la siguiente:
- La supervisión del recurso se detiene en el nodo del cluster actual.
- El recurso se coloca en estado desactivado en el nodo del cluster actual y el sistema de archivos se desmonta de ese nodo.
Si el sistema de archivos es un Sistema de archivos compartido StorageTek QFS, la respuesta es la siguiente:
- Si el nodo del cluster en el que se produjo el error aloja el recurso del servidor de metadatos, este último realiza un failover a otro nodo.
- El sistema de archivos está desmontado.
Si el intento de failover falla, el sistema de archivos permanece desmontado y se proporciona una advertencia.

Obtención de archivos del núcleo central para resolver problemas de timeout finalizados de DBMS

Para facilitar la resolución de problemas de los timeout inexplicables de DBMS, puede activar el supervisor de fallos para crear un archivo del núcleo central cuando se produce un timeout del sondeo. El contenido del archivo del núcleo central hace referencia al proceso del supervisor de fallos. El supervisor de fallos crea el archivo del núcleo central en el directorio de inicio (/). Para activar el supervisor de fallos a fin de crear un archivo del núcleo central, utilice el comando coreadm para activar los volcados del núcleo central de ID de conjunto.

# coreadm -g /var/cores/%f.%n.%p.core -e global -e process \
-e global-setid -e proc-setid -e log

Para obtener más información, consulte la página del comando man coreadm(1M).