Personnalisation du détecteur de pannes Serveur Oracle 9i RAC

La personnalisation du détecteur de pannes Serveur Oracle 9i RAC permet de modifier le comportement du détecteur de pannes comme suit :

Remplacement d'une action prédéfinie pour une erreur
Spécification d'une action pour une erreur pour laquelle aucune action n'est prédéfinie

Attention - Avant de personnaliser le détecteur de pannes Serveur Oracle 9i RAC, réfléchissez aux conséquences, en particulier si vous modifiez une action de redémarrage ou de basculement afin qu'elle ignore ou arrête le contrôle. Si des erreurs ne sont pas corrigées pendant de longues périodes, elles peuvent causer des problèmes avec la base de données. Si vous êtes confronté à des problèmes avec la base de données après la personnalisation du détecteur de pannes Serveur Oracle 9i RAC, revenez aux actions prédéfinies. Le fait de repasser aux actions prédéfinies permet de déterminer si le problème provient de votre personnalisation.

La personnalisation du détecteur de pannes Serveur Oracle 9i RAC implique les activités suivantes :

Defining custom behavior for errors
Propagating a custom action file to all nodes in a cluster
Specifying the custom action file that a server fault monitor should use

Définition de comportements personnalisés pour les erreurs

Le détecteur de pannes Serveur Oracle 9i RAC détecte les types d'erreur suivants :

Erreurs SGBD qui se produisent au cours du test d'une base de données par le détecteur de pannes de serveur
Alertes qu'Oracle consigne dans un fichier journal
Dépassements de délais d'attente provoqués par un échec de réception d'une réponse dans le laps de temps défini par la propriété d'extension Probe_timeout

Pour définir un comportement personnalisé pour ces types d'erreur, créez un fichier d'actions personnalisées. Cette section contient les informations suivantes concernant les fichiers d'actions personnalisées :

Format de fichier d'actions personnalisées
Modification de la réponse à une erreur SGBD
Modification de la réponse aux alertes journalisées
Modification du nombre maximum de tests de délai d'attente dépassé consécutifs

Format de fichier d'actions personnalisées

Un fichier d'actions personnalisées est un simple fichier texte. Le fichier contient une ou plusieurs entrées qui définissent le comportement personnalisé du détecteur de pannes Serveur Oracle 9i RAC. Chaque entrée définit le comportement personnalisé pour une erreur SGBD, une erreur de délai d'attente ou plusieurs alertes journalisées. Un fichier d'actions personnalisées peut contenir jusqu'à 1 024 entrées.

Remarque - Chaque entrée dans un fichier d'actions personnalisées remplace l'action prédéfinie pour une erreur ou spécifie une action pour une erreur pour laquelle aucune action n'est prédéfinie. Créez des entrées dans un fichier d'actions personnalisées uniquement pour les actions prédéfinies que vous remplacez ou pour les erreurs pour lesquelles aucune action n'est prédéfinie. Ne créez pas d'entrées pour les actions que vous ne modifiez pas.

Une entrée dans un fichier d'actions personnalisées se présente sous la forme d'une séquence de paires composées d'un mot-clé et d'une valeur séparées par des points-virgules. Chaque entrée est entourée par des accolades.

Le format d'une entrée de fichier d'actions personnalisées se présente comme suit :

{
[ERROR_TYPE=DBMS_ERROR|SCAN_LOG|TIMEOUT_ERROR;]
ERROR=error-spec; 
[ACTION=RESTART|STOP|NONE;]
[CONNECTION_STATE=co|di|on|*;]
[NEW_STATE=co|di|on|*;]
[MESSAGE="message-string"]
}

Des blancs peuvent être utilisés entre les paires de mot-clé et de valeurs séparées et entre les entrées pour formater le fichier.

La signification et les valeurs autorisées pour les mots-clés dans un fichier d'actions personnalisées sont les suivantes :

ERROR_TYPE

Indique le type de l'erreur que le détecteur de pannes de serveur a détecté. Les valeurs suivantes sont autorisées pour ce mot-clé :

DBMS_ERROR: Spécifie que l'erreur est une erreur SGBD.
SCAN_LOG: Spécifie que l'erreur est une alerte journalisée dans un fichier journal d'alertes.
TIMEOUT_ERROR: Spécifie que l'erreur est un dépassement de délai d'attente.

Le mot-clé ERROR_TYPE est facultatif. Si vous omettez ce mot-clé, l'erreur est considérée comme une erreur SGBD.

ERROR

Identifie les erreurs. Le type de données et la signification de error-spec sont déterminés par la valeur du mot-clé ERROR_TYPE comme le montre le tableau suivant.

`ERROR_TYPE`	Type de données	Signification
`DBMS_ERROR`	Nombre entier	Le numéro d'erreur d'une erreur SGBD généré par Oracle
`SCAN_LOG`	Expression régulière citée	Une chaîne dans un message d'erreur qu'Oracle a journalisé dans le fichier journal d'alertes d'Oracle
`TIMEOUT_ERROR`	Nombre entier	Le nombre de tests de délai dépassé consécutifs depuis la dernière fois que le détecteur de pannes de serveur a démarré ou redémarré

Vous devez spécifier le mot-clé ERROR. Si vous omettez ce mot-clé, l'entrée du fichier d'actions personnalisées est ignorée.

ACTION

Spécifie l'action que le détecteur de pannes de serveur doit effectuer en réponse à une erreur. Les valeurs suivantes sont autorisées pour ce mot-clé :

NONE: Spécifie que le détecteur de pannes de serveur ignore l'erreur.
STOP: Spécifie que le détecteur de pannes de serveur est arrêté.
RESTART: Spécifie que le détecteur de pannes de serveur arrête et redémarre la ressource de serveur Oracle 9i RAC.

Le mot-clé ACTION est facultatif. Si vous omettez ce mot-clé, le détecteur de pannes de serveur ignore l'erreur.

CONNECTION_STATE

Spécifie l'état requis de la connexion entre la base de données et le détecteur de pannes de serveur quand une erreur est détectée. L'entrée s'applique uniquement si la connexion est dans l'état requis quand l'erreur est détectée. Les valeurs suivantes sont autorisées pour ce mot-clé :

*: Spécifie que l'entrée s'applique toujours, quel que soit l'état de la connexion.
co: Spécifie que l'entrée s'applique uniquement si le détecteur de pannes de serveur tente de se connecter à la base de données.
on: Spécifie que l'entrée s'applique uniquement si le détecteur de pannes de serveur est en ligne. Le détecteur de pannes de serveur est en ligne quand il est connecté à la base de données.
di: Spécifie que l'entrée s'applique uniquement si le détecteur de pannes de serveur se déconnecte de la base de données.

Le mot-clé CONNECTION_STATE est facultatif. Si vous omettez ce mot-clé, l'entrée s'applique toujours, quel que soit l'état de la connexion.

NEW_STATE

Spécifie l'état de la connexion entre la base de données et le détecteur de pannes de serveur que ce dernier doit atteindre une fois l'erreur détectée. Les valeurs suivantes sont autorisées pour ce mot-clé :

*: Spécifie que l'état de la connexion ne doit pas changer.
co: Spécifie que le détecteur de pannes de serveur doit se déconnecter de la base de données et s'y reconnecter immédiatement.
di: Spécifie que le détecteur de pannes de serveur doit se déconnecter de la base de données. Le détecteur de pannes de serveur se reconnecte à son prochain test de la base de données.

Le mot-clé NEW_STATE est facultatif. Si vous omettez ce mot-clé, l'état de la connexion de la base de données ne change pas une fois l'erreur détectée.

MESSAGE

Spécifie un message supplémentaire qui est ajouté au fichier journal quand l'erreur est détectée. Le message doit être entre guillemets. Ce message s'ajoute au message standard qui est défini pour l'erreur.

Le mot-clé MESSAGE est facultatif. Si vous omettez ce mot-clé, aucun message supplémentaire n'est ajouté au fichier journal de la ressource quand l'erreur est détectée.

Modification de la réponse à une erreur SGBD

L'action qu'effectue le détecteur de pannes de serveur en réponse à chaque erreur SGBD est prédéfinie comme indiqué dans le Tableau B-1. Pour déterminer s'il vous est nécessaire de modifier la réponse à une erreur SGBD, prenez en considération l'effet des erreurs SGBD sur votre base de données pour déterminer si les actions prédéfinies sont appropriées. Pour obtenir des exemples, reportez-vous aux sous-sections suivantes :

Réponse à une erreur dont les effets sont majeurs
Ignorer une erreur dont les effets sont mineurs

Pour changer la réponse à une erreur SGBD, créez une entrée dans le fichier d'actions personnalisées dans lequel les mots-clés sont définis comme suit :

ERROR_TYPE est défini sur DBMS_ERROR.
ERROR est défini sur le numéro de l'erreur SGBD.
ACTION est défini sur l'action nécessaire.

Réponse à une erreur dont les effets sont majeurs

Si une erreur que le détecteur de pannes de serveur ignore affecte plus d'une session, il peut s'avérer nécessaire que le détecteur de pannes de serveur exécute une action pour empêcher une perte de service.

Par exemple, aucune action n'est prédéfinie pour l'erreur Oracle 4031 : impossible d'allouer num-bytes octets de mémoire partagée. Cependant cette erreur Oracle indique que la zone globale partagée (SGA) n'a pas assez de mémoire, est très fragmentée, ou les deux. Si cette erreur n'affecte qu'une seule session, il est envisageable de l'ignorer. Toutefois, si cette erreur affecte plusieurs sessions, envisagez de spécifier que le détecteur de pannes de serveur redémarre la base de données.

L'exemple suivant montre une entrée dans un fichier d'actions personnalisées pour modifier la réponse à une erreur SGBD en redémarrage.

Exemple 5-4 Modification de la réponse à une erreur SGBD en redémarrage

{
ERROR_TYPE=DBMS_ERROR;
ERROR=4031; 
ACTION=restart;
CONNECTION_STATE=*; 
NEW_STATE=*;
MESSAGE="Insufficient memory in shared pool.";
}

Cet exemple montre une entrée dans un fichier d'actions personnalisées qui remplace l'action prédéfinie pour l'erreur SGBD 4031. Cette entrée spécifie le comportement suivant :

En réponse à l'erreur SGBD 4031, l'action que le détecteur de pannes de serveur effectue est un redémarrage.
Cette entrée s'applique quel que soit l'état de la connexion entre la base de données et le détecteur de pannes de serveur quand l'erreur est détectée.
L'état de la connexion entre la base de données et le détecteur de pannes de serveur ne doit pas être modifié après la détection de l'erreur.
Le message suivant est ajouté au fichier journal de la ressource quand cette erreur est détectée :
```
Insufficient memory in shared pool.
```

Ignorer une erreur dont les effets sont mineurs

Si les effets d'une erreur à laquelle le détecteur de pannes de serveur répond sont mineurs, le fait d'ignorer l'erreur peut s'avérer moins perturbateur que d'y répondre.

Par exemple, l'action prédéfinie pour l'erreur Oracle 4030 : mémoire de traitement manquante lors d'affectation de num-bytes octets est un redémarrage. Cette erreur Oracle indique que le détecteur de pannes de serveur n'a pas réussi à allouer une mémoire du tas privée. Une des causes possibles de cette erreur est que le système d'exploitation dispose d'une mémoire insuffisante. Si cette erreur affecte plusieurs sessions, il peut être approprié de redémarrer la base de données. Cependant, il est possible que l'erreur n'affecte pas d'autres sessions car ces sessions ne nécessitent pas plus de mémoire privée. Dans cette situation, envisagez de spécifier au détecteur de pannes de serveur d'ignorer l'erreur.

L'exemple suivant montre une entrée dans un fichier d'actions personnalisées pour ignorer une erreur SGBD.

Exemple 5-5 Ignorer une erreur SGBD

{
ERROR_TYPE=DBMS_ERROR;
ERROR=4030;
ACTION=none;
CONNECTION_STATE=*;
NEW_STATE=*;
MESSAGE="";
}

Cet exemple montre une entrée dans un fichier d'actions personnalisées qui remplace l'action prédéfinie pour l'erreur SGBD 4030. Cette entrée spécifie le comportement suivant :

Le détecteur de pannes de serveur ignore l'erreur SGBD 4030.
Cette entrée s'applique quel que soit l'état de la connexion entre la base de données et le détecteur de pannes de serveur quand l'erreur est détectée.
L'état de la connexion entre la base de données et le détecteur de pannes de serveur ne doit pas être modifié après la détection de l'erreur.
Aucun message n'est ajouté au fichier journal de la ressource quand cette erreur est détectée.

Modification de la réponse aux alertes journalisées

Le logiciel Oracle consigne les alertes dans un fichier qui est identifié par la propriété d'extension alert_log_file. Le détecteur de pannes de serveur analyse ce fichier et effectue des actions en réponse aux alertes pour lesquelles une action est définie.

Les alertes consignées pour lesquelles une action a été prédéfinie sont répertoriées dans le Tableau B-2. Modifiez la réponse aux alertes journalisées pour modifier l'action prédéfinie ou pour définir de nouvelles alertes auxquelles le détecteur de pannes de serveur répond.

Pour changer la réponse aux alertes consignées, créez une entrée dans le fichier d'actions personnalisées dans lequel les mots-clés sont définis comme suit :

ERROR_TYPE est défini sur SCAN_LOG.
ERROR est défini sur une expression régulière citée qui identifie une chaîne dans un message d'erreur qu'Oracle a journalisé dans le fichier journal d'alertes d'Oracle.
ACTION est défini sur l'action nécessaire.

Le détecteur de pannes de serveur traite les entrées dans un fichier d'actions personnalisées dans l'ordre dans lequel les entrées se produisent. Seule la première entrée qui correspond à une alerte consignée est traitée. Les entrées correspondantes suivantes sont ignorées. Si vous utilisez des expressions régulières pour spécifier des actions pour plusieurs alertes consignées, veillez à ce que les entrées plus spécifiques se produisent avant les entrées plus génériques. Les entrées spécifiques qui se produisent après les entrées génériques pourraient être ignorées.

Par exemple, un fichier d'actions personnalisées pourrait définir différentes actions pour les erreurs qui sont identifiées par les expressions régulières ORA-65 et ORA-6. Pour veiller à ce que l'entrée contenant l'expression régulière ORA-65 ne soit pas ignorée, assurez-vous que cette entrée se produise avant l'entrée contenant l'expression régulière ORA-6.

L'exemple suivant montre une entrée dans un fichier d'actions personnalisées pour modifier la réponse à une alerte journalisée.

Exemple 5-6 Modification de la réponse à une alerte consignée

{
ERROR_TYPE=SCAN_LOG;
ERROR="ORA-00600: internal error";
ACTION=RESTART;
}

Cet exemple montre une entrée dans un fichier d'actions personnalisées qui remplace l'action prédéfinie pour les alertes journalisées concernant des erreurs internes. Cette entrée spécifie le comportement suivant :

En réponse aux alertes consignées contenant le texte ORA-00600: erreur interne, l'action effectuée par le détecteur de pannes de serveur est un redémarrage.
Cette entrée s'applique quel que soit l'état de la connexion entre la base de données et le détecteur de pannes de serveur quand l'erreur est détectée.
L'état de la connexion entre la base de données et le détecteur de pannes de serveur ne doit pas être modifié après la détection de l'erreur.
Aucun message n'est ajouté au fichier journal de la ressource quand cette erreur est détectée.

Modification du nombre maximum de tests de délai d'attente dépassé consécutifs

Par défaut, le détecteur de pannes de serveur redémarre la base de données après le deuxième test de délai dépassé consécutif. Si la base de données est légèrement chargée, deux tests de délai dépassé consécutifs devraient suffire pour indiquer que la base de données est bloquée. Cependant, pendant les périodes de charge élevée, un test de détecteur de pannes de serveur peut dépasser le délai d'attente même si la base de données fonctionne correctement. Pour empêcher le détecteur de pannes de serveur de redémarrer la base de données quand ce n'est pas nécessaire, augmentez le nombre maximum de tests de délai dépassé consécutifs.

Attention - L'augmentation du nombre maximum de tests de délai dépassé consécutifs augmente le temps nécessaire pour détecter un blocage de la base de données.

Pour changer le nombre maximum de tests de délai dépassé consécutifs autorisés, créez une entrée dans un fichier d'actions personnalisées pour chaque test de délai dépassé consécutif autorisé sauf le premier test de délai dépassé.

Remarque - Il n'est pas nécessaire de créer une entrée pour le premier test de délai dépassé. L'action qu'effectue le détecteur de pannes de serveur en réponse au premier test de délai dépassé est prédéfinie.

Pour le dernier test de délai dépassé, créez une entrée dans laquelle les mots-clés sont réglés comme suit :

ERROR_TYPE est défini sur TIMEOUT_ERROR.
ERROR est défini sur le nombre maximum de tests de délai dépassé consécutifs autorisé.
ACTION est défini sur RESTART.

Pour chaque test de délai dépassé consécutif restant sauf le premier, créez une entrée dans laquelle les mots-clés sont réglés comme suit :

ERROR_TYPE est défini sur TIMEOUT_ERROR.
ERROR est défini sur le numéro de séquence du test de délai dépassé. Par exemple, pour le deuxième test de délai dépassé consécutif, réglez ce mot-clé sur 2. Pour le troisième test de délai dépassé consécutif, réglez ce mot-clé sur 3.
ACTION est défini sur NONE.

Astuce - Pour faciliter le débogage, spécifiez un message indiquant le numéro de séquence du test de délai dépassé.

L'exemple suivant montre les entrées d'un fichier d'actions personnalisées pour augmenter le nombre maximum de tests de délai dépassé jusqu'à 5.

Exemple 5-7 Modification du nombre maximum de tests de délai d'attente dépassé consécutifs

{
ERROR_TYPE=TIMEOUT;
ERROR=2;
ACTION=NONE;
CONNECTION_STATE=*;
NEW_STATE=*;
MESSAGE="Timeout #2 has occurred.";
}

{
ERROR_TYPE=TIMEOUT;
ERROR=3;
ACTION=NONE;
CONNECTION_STATE=*;
NEW_STATE=*;
MESSAGE="Timeout #3 has occurred.";
}

{
ERROR_TYPE=TIMEOUT;
ERROR=4;
ACTION=NONE;
CONNECTION_STATE=*;
NEW_STATE=*;
MESSAGE="Timeout #4 has occurred.";
}

{
ERROR_TYPE=TIMEOUT;
ERROR=5;
ACTION=RESTART;
CONNECTION_STATE=*;
NEW_STATE=*;
MESSAGE="Timeout #5 has occurred. Restarting.";
}

Cet exemple montre les entrées d'un fichier d'actions personnalisées pour augmenter le nombre maximum de tests de délai dépassé jusqu'à 5. Ces entrées spécifient le comportement suivant :

Le détecteur de pannes de serveur ignore du deuxième au quatrième test de délai dépassé consécutif.
En réponse au cinquième test de délai dépassé consécutif, l'action que le détecteur de pannes de serveur effectue est un redémarrage.
Cette entrée s'applique quel que soit l'état de la connexion entre la base de données et le détecteur de pannes de serveur quand le délai est dépassé.
L'état de la connexion entre la base de données et le détecteur de pannes de serveur ne doit pas être modifié après le dépassement du délai.
Quand les tests de délai dépassé consécutifs allant du deuxième au quatrième se produisent, un message de la forme suivante est ajouté dans le fichier journal de la ressource :
```
Timeout #number has occurred.
```
Quand le cinquième test de délai dépassé consécutif se produit, le message suivant est ajouté au fichier journal de la ressource :
```
Timeout #5 has occurred. Restarting.
```

Propagation d'un fichier d'actions personnalisées à tous les nœuds d'un cluster

Un détecteur de pannes de serveur doit avoir un comportement cohérent sur tous les nœuds du cluster. C'est pour cela que le fichier d'actions personnalisées que le détecteur de pannes de serveur utilise doit être identique sur tous les nœuds du cluster. Après la création ou la modification d'un fichier d'actions personnalisées, assurez-vous que ce fichier est identique sur tous les nœuds du cluster en le propageant sur ceux-ci. Pour ce faire, utilisez la méthode la mieux adaptée à votre configuration de cluster :

Recherche du fichier sur un système de fichiers que tous les nœuds partagent
Recherche d'un fichier sur un système de fichiers local à haut niveau de disponibilité
Copie du fichier sur le système de fichiers local de chaque nœud du cluster en utilisant des commandes du système d'exploitation, telles que les commandes rcp(1) ou rdist(1)

Spécification du fichier d'actions personnalisées qu'un détecteur de pannes de serveur doit utiliser

Pour appliquer des actions personnalisées à un détecteur de pannes de serveur, vous devez spécifier le fichier d'actions personnalisées que le détecteur de pannes doit utiliser. Des actions personnalisées sont appliquées à un détecteur de pannes de serveur quand ce dernier lit un fichier d'actions personnalisées. Un détecteur de pannes de serveur lit un fichier d'actions personnalisées quand vous lui en spécifiez un.

La spécification d'un fichier d'actions personnalisées valide également ce dernier. Si le fichier contient des erreurs de syntaxe, un message d'erreur s'affiche. Après la modification d'un fichier d'actions personnalisées, il faut donc spécifier le fichier à nouveau pour le valider.

Attention - Si des erreurs de syntaxe sont détectées dans un fichier d'actions personnalisées modifié, corrigez ces erreurs avant le redémarrage du détecteur de pannes. Si des erreurs de syntaxe ne sont pas corrigées lors du redémarrage du détecteur de pannes, ce dernier lit le fichier erroné, ignorant les entrées qui se produisent après la première erreur de syntaxe.

Spécification du fichier d'actions personnalisées qu'un détecteur de pannes de serveur doit utiliser

Sur un noeud du cluster, connectez-vous en tant que superutilisateur ou adoptez un rôle octroyant une autorisation reposant sur un contrôle d'accès à base de rôles de type solaris.cluster.modify.
Définissez la propriété d'extension Custom_action_file de la ressource SUNW.scalable_rac_server.
Définissez cette propriété sur le chemin absolu du fichier d'actions personnalisées.
```
# clresource set -p custom_action_file=filepath server-resource
```
-p custom_action_file=filepath

Spécifie le chemin absolu du fichier d'actions personnalisées.

server-resource

Spécifie la ressource SUNW.scalable_rac_server.

Ignorer les liens de navigation
Quitter l'aperu
	Guide Service de données Oracle Solaris Cluster pour Oracle Real Application Clusters