Le détecteur de pannes serveur HA pour Oracle Database détecte les types d'erreurs suivants :
Erreurs de SGBD qui se produisent au cours du test d'une base de données par le détecteur de pannes du serveur
Alertes qu'Oracle Database consigne dans un fichier journal d'alertes
Délais d'attente provoqués par un échec de réception d'une réponse dans le laps de temps défini par la propriété d'extension Probe_timeout
Pour définir un comportement personnalisé pour ces types d'erreurs, créez un fichier d'actions personnalisées. Cette section contient les informations suivantes concernant les fichiers d'actions personnalisées :
Un fichier d'actions personnalisées est un simple fichier texte. Le fichier contient une ou plusieurs entrées qui définissent le comportement personnalisé du détecteur de pannes de serveur HA pour Oracle Database. Chaque entrée définit le comportement personnalisé pour une erreur de SGBD, une erreur de délai d'attente ou plusieurs alertes journalisées. Un fichier d'actions personnalisées peut contenir jusqu'à 1 024 entrées.
Une entrée de fichier d'actions personnalisées se présente sous la forme d'une suite de paires mot-clé/valeur délimitée par des points-virgules. Chaque entrée est entourée par des accolades.
Le format d'une entrée de fichier d'actions personnalisées se présente comme suit :
{ [ERROR_TYPE=DBMS_ERROR|SCAN_LOG|TIMEOUT_ERROR;] ERROR=error-spec; [ACTION=SWITCH| RESTART|STOP|NONE;] [CONNECTION_STATE=co|di|on|*;] [NEW_STATE=co|di|on|*;] [MESSAGE="message-string"] }
Des espaces peuvent être utilisés entre les paires de mot-clé/valeur distinctes et entre les entrées pour formater le fichier.
La signification et les valeurs autorisées pour les mots-clés dans un fichier d'actions personnalisées sont les suivantes :
Indique le type de l'erreur que le détecteur de pannes du serveur a détectée. Les valeurs suivantes sont autorisées pour ce mot-clé :
Spécifie que l'erreur est une erreur de SGBD.
Spécifie que l'erreur est une alerte consignée dans le fichier journal d'alertes.
Spécifie que l'erreur est un délai d'attente.
Le mot-clé ERROR_TYPE est facultatif. Si vous omettez ce mot-clé, l'erreur est considérée comme une erreur de SGBD.
Identifie l'erreur. Le type de données et la signification de error-spec sont déterminés par la valeur du mot-clé ERROR_TYPE comme le montre le tableau suivant.
|
Vous devez spécifier le mot-clé ERROR. Si vous omettez ce mot-clé, l'entrée du fichier d'actions personnalisées est ignorée.
Spécifie l'action que le détecteur de pannes du serveur doit effectuer en réponse à l'erreur. Les valeurs suivantes sont autorisées pour ce mot-clé :
Spécifie que le détecteur de pannes du serveur ignore l'erreur.
Spécifie que le détecteur de pannes du serveur est arrêté.
Spécifie que le détecteur de pannes du serveur arrête et redémarre l'entité spécifiée par la valeur de la propriété d'extension Restart_type de la ressource SUNW.oracle_server.
Le détecteur de pannes du serveur bascule le groupe de ressources de la base de données sur un autre noeud.
Le mot-clé ACTION est facultatif. Si vous omettez ce mot-clé, le détecteur de pannes de serveur ignore l'erreur.
Spécifie l'état requis de la connexion entre la base de données et le détecteur de pannes de serveur quand l'erreur est détectée. L'entrée s'applique uniquement si la connexion est dans l'état requis quand l'erreur est détectée. Les valeurs suivantes sont autorisées pour ce mot-clé :
Spécifie que l'entrée s'applique toujours, quel que soit l'état de la connexion.
Spécifie que l'entrée s'applique uniquement si le détecteur de pannes de serveur tente de se connecter à la base de données.
Spécifie que l'entrée s'applique uniquement si le détecteur de pannes de serveur est en ligne. Le détecteur de pannes de serveur est en ligne s'il est connecté à la base de données.
Spécifie que l'entrée s'applique uniquement si le détecteur de pannes du serveur se déconnecte de la base de données.
Le mot-clé CONNECTION_STATE est facultatif. Si vous omettez ce mot-clé, l'entrée s'applique toujours, quel que soit l'état de la connexion.
Spécifie l'état de la connexion entre la base de données et le détecteur de pannes du serveur que ce dernier doit atteindre une fois l'erreur détectée. Les valeurs suivantes sont autorisées pour ce mot-clé :
Spécifie que l'état de la connexion ne doit pas changer.
Spécifie que le détecteur de pannes de serveur doit se déconnecter de la base de données et s'y reconnecter immédiatement.
Spécifie que le détecteur de pannes du serveur doit se déconnecter de la base de données. Le détecteur de pannes du serveur se reconnecte à son prochain test de la base de données.
Le mot-clé NEW_STATE est facultatif. Si vous omettez ce mot-clé, l'état de la connexion à la base de données ne change pas une fois l'erreur détectée.
Indique qu'un message est ajouté au fichier journal de la ressource lorsque cette erreur est détectée. Le message doit être placé entre guillemets. Ce message s'ajoute au message standard qui est défini pour l'erreur.
Le mot-clé MESSAGE est facultatif. Si vous omettez ce mot-clé, aucun message n'est ajouté au fichier journal de la ressource lorsque l'erreur est détectée.
L'action effectuée par le détecteur de pannes du serveur en réponse à chaque erreur de SGBD est prédéfinie comme indiqué dans le Table 4. Pour déterminer s'il est nécessaire de modifier la réponse à une erreur de SGBD, prenez en considération l'effet des erreurs de SGBD sur votre base de données pour déterminer si les actions prédéfinies sont appropriées. Pour consulter des exemples, reportez-vous aux sous-sections suivantes :
Pour changer la réponse à une erreur de SGBD, créez une entrée dans un fichier d'actions personnalisées dans lequel les mots-clés sont définis comme suit :
ERROR_TYPE est défini sur DBMS_ERROR.
ERROR est défini sur le numéro de l'erreur de SGBD.
ACTION est défini sur l'action nécessaire.
Si une erreur que le détecteur de pannes du serveur ignore affecte plus d'une session, une action du détecteur de pannes du serveur peut être nécessaire pour empêcher une perte de service.
Par exemple, aucune action n'est prédéfinie pour l'erreur 4031 d'Oracle Database : unable to allocate num-bytes bytes of shared memory. Cependant, cette erreur Oracle Database indique que la zone globale partagée (SGA) n'a pas assez de mémoire, est très fragmentée, ou les deux. Si cette erreur n'affecte qu'une seule session, il est possible de l'ignorer. Toutefois, si cette erreur affecte plusieurs sessions, envisagez de spécifier au détecteur de pannes du serveur de redémarrer la base de données.
L'exemple suivant présente une entrée dans un fichier d'actions personnalisées visant à changer la réponse à une erreur de SGBD en redémarrage.
Exemple 3 Changement de la réponse à une erreur de SGBD en redémarrage{ ERROR_TYPE=DBMS_ERROR; ERROR=4031; ACTION=restart; CONNECTION_STATE=*; NEW_STATE=*; MESSAGE="Insufficient memory in shared pool."; }
Cet exemple montre une entrée dans un fichier d'actions personnalisées qui remplace l'action prédéfinie pour l'erreur de SGBD 4031. Cette entrée spécifie le comportement suivant :
En réponse à l'erreur SGBD 4031, l'action que le détecteur de pannes de serveur effectue est un redémarrage.
Cette entrée s'applique quel que soit l'état de la connexion entre la base de données et le détecteur de pannes de serveur quand l'erreur est détectée.
L'état de la connexion entre la base de données et le détecteur de pannes du serveur ne doit pas être modifié après la détection de l'erreur.
Le message suivant est ajouté au fichier journal de la ressource lorsque cette erreur est détectée :
Insufficient memory in shared pool.
Si les effets d'une erreur à laquelle le détecteur de pannes du serveur répond sont mineurs, le fait d'ignorer l'erreur peut s'avérer moins perturbateur que d'y répondre.
Par exemple, l'action prédéfinie pour l'erreur 4030 Oracle Database : out of process memory when trying to allocate num-bytes bytes est le redémarrage. Cette erreur Oracle Database indique que le détecteur de pannes du serveur n'a pas pu allouer de portion de mémoire privée. Une cause possible de cette erreur est que la mémoire disponible pour le système d'exploitation est insuffisante. Si cette erreur affecte plusieurs sessions, un redémarrage de la base de données peut être approprié. Cependant, il est possible que cette erreur n'affecte pas les autres sessions, car ces sessions ne nécessitent pas de mémoire privée supplémentaire. Dans cette situation, envisagez de spécifier au détecteur de pannes du serveur d'ignorer l'erreur.
L'exemple suivant montre une entrée dans un fichier d'actions personnalisées visant à ignorer une erreur de SGBD.
Exemple 4 Non prise en compte d'une erreur de SGBD{ ERROR_TYPE=DBMS_ERROR; ERROR=4030; ACTION=none; CONNECTION_STATE=*; NEW_STATE=*; MESSAGE=""; }
Cet exemple montre une entrée dans un fichier d'actions personnalisées qui remplace l'action prédéfinie pour l'erreur de SGBD 4030. Cette entrée spécifie le comportement suivant :
Le détecteur de pannes de serveur ignore l'erreur SGBD 4030.
Cette entrée s'applique quel que soit l'état de la connexion entre la base de données et le détecteur de pannes de serveur quand l'erreur est détectée.
L'état de la connexion entre la base de données et le détecteur de pannes du serveur ne doit pas être modifié après la détection de l'erreur.
Aucun message n'est ajouté au fichier journal de la ressource lorsque cette erreur est détectée.
Le logiciel Oracle Database consigne les alertes dans un fichier identifié par la propriété d'extension alert_log_file. Le détecteur de pannes du serveur analyse ce fichier et effectue des actions en réponse aux alertes pour lesquelles une action est définie.
Les alertes consignées pour lesquelles une action est définie sont répertoriées dans le Table 5. Modifiez la réponse aux alertes journalisées pour modifier l'action prédéfinie ou pour définir de nouvelles alertes auxquelles le détecteur de pannes du serveur répond.
Pour modifier la réponse aux alertes journalisées, créez une entrée dans un fichier d'actions personnalisées dans lequel les mots-clés sont définis comme suit :
ERROR_TYPE est défini sur SCAN_LOG.
ERROR est défini sur une expression régulière citée qui identifie une chaîne dans un message d'erreur qu'Oracle Database a consigné dans le fichier journal d'alertes d'Oracle Database.
ACTION est défini sur l'action nécessaire.
Le détecteur de pannes du serveur traite les entrées d'un fichier d'actions personnalisées dans l'ordre dans lequel les entrées se produisent. Seule la première entrée qui correspond à une alerte journalisée est traitée. Les entrées correspondantes suivantes sont ignorées. Si vous utilisez des expressions régulières afin de spécifier des actions pour plusieurs alertes journalisées, veillez à ce que les entrées plus spécifiques se produisent avant les entrées plus génériques. Les entrées spécifiques qui se produisent après les entrées génériques peuvent être ignorées.
Par exemple, un fichier d'actions personnalisées peut définir différentes actions pour les erreurs qui sont identifiées par les expressions régulières ORA-65 et ORA-6. Pour veiller à ce que l'entrée contenant l'expression régulière ORA-65 ne soit pas ignorée, assurez-vous que cette entrée se produise avant l'entrée contenant l'expression régulière ORA-6.
L'exemple suivant montre une entrée dans un fichier d'actions personnalisées pour modifier la réponse à une alerte journalisée.
Exemple 5 Modification de la réponse à une alerte journalisée{ ERROR_TYPE=SCAN_LOG; ERROR="ORA-00600: internal error"; ACTION=RESTART; }
Cet exemple montre une entrée dans un fichier d'actions personnalisées qui remplace l'action prédéfinie pour les alertes journalisées concernant des erreurs internes. Cette entrée spécifie le comportement suivant :
En réponse aux alertes consignées contenant le texte ORA-00600: internal error, l'action effectuée par le détecteur de pannes de serveur est un redémarrage.
Cette entrée s'applique quel que soit l'état de la connexion entre la base de données et le détecteur de pannes de serveur quand l'erreur est détectée.
L'état de la connexion entre la base de données et le détecteur de pannes du serveur ne doit pas être modifié après la détection de l'erreur.
Aucun message n'est ajouté au fichier journal de la ressource lorsque cette erreur est détectée.
Par défaut, le détecteur de pannes du serveur redémarre la base de données après le deuxième test de délai dépassé consécutif. Si la base de données est légèrement chargée, deux tests de délai dépassé consécutifs doivent être suffisants pour indiquer que la base de données est bloquée. Cependant, pendant les périodes de charge élevée, un test du détecteur de pannes de serveur peut dépasser le délai d'attente même si la base de données fonctionne correctement. Pour éviter que le détecteur de pannes du serveur ne redémarre la base de données lorsque que ce n'est pas nécessaire, augmentez le nombre maximal de tests de délai dépassé consécutifs.
![]() | Mise en garde - L'augmentation du nombre maximal de tests de délai dépassé consécutifs augmente le temps nécessaire pour détecter un blocage de la base de données. |
Pour modifier le nombre maximal de tests de délai dépassé consécutifs autorisés, créez une entrée dans un fichier d'actions personnalisées pour chaque test de délai dépassé consécutif autorisé sauf pour le premier test de délai dépassé.
Pour le dernier test de délai dépassé, créez une entrée dans laquelle les mots-clés sont définis comme suit :
ERROR_TYPE est défini sur TIMEOUT_ERROR.
ERROR est défini sur le nombre maximal de tests de délai dépassé consécutifs autorisé.
ACTION est défini sur RESTART.
Pour chaque test de délai dépassé consécutif restant sauf le premier, créez une entrée dans laquelle les mots-clés sont définis comme suit :
ERROR_TYPE est défini sur TIMEOUT_ERROR.
ERROR est défini sur le numéro de séquence du test de délai dépassé. Par exemple, pour le deuxième test de délai dépassé consécutif, définissez ce mot-clé sur 2. Pour le troisième test de délai dépassé consécutif, définissez ce mot-clé sur 3.
ACTION est défini sur NONE.
L'exemple suivant montre les entrées d'un fichier d'actions personnalisées pour augmenter le nombre maximum de tests de délai dépassé jusqu'à 5.
Exemple 6 Modification du nombre maximal de tests de délai dépassé consécutifs{ ERROR_TYPE=TIMEOUT; ERROR=2; ACTION=NONE; CONNECTION_STATE=*; NEW_STATE=*; MESSAGE="Timeout #2 has occurred."; } { ERROR_TYPE=TIMEOUT; ERROR=3; ACTION=NONE; CONNECTION_STATE=*; NEW_STATE=*; MESSAGE="Timeout #3 has occurred."; } { ERROR_TYPE=TIMEOUT; ERROR=4; ACTION=NONE; CONNECTION_STATE=*; NEW_STATE=*; MESSAGE="Timeout #4 has occurred."; } { ERROR_TYPE=TIMEOUT; ERROR=5; ACTION=RESTART; CONNECTION_STATE=*; NEW_STATE=*; MESSAGE="Timeout #5 has occurred. Restarting."; }
Cet exemple montre les entrées d'un fichier d'actions personnalisées pour augmenter le nombre maximum de tests de délai dépassé jusqu'à 5. Ces entrées spécifient le comportement suivant :
Le détecteur de pannes de serveur ignore les deuxième, troisième et quatrième tests de délai dépassé consécutifs.
En réponse au cinquième test de délai dépassé consécutif, l'action que le détecteur de pannes de serveur effectue est un redémarrage.
Cette entrée s'applique quel que soit l'état de la connexion entre la base de données et le détecteur de pannes de serveur quand le délai d'attente est dépassé.
L'état de la connexion entre la base de données et le détecteur de pannes de serveur ne doit pas être modifié après le dépassement du délai.
Lorsque les tests du deuxième au quatrième test de délai dépassé consécutif se produisent, un message de la forme suivante est ajouté au fichier journal de la ressource :
Timeout #number has occurred.
Quand le cinquième test de délai dépassé consécutif se produit, le message suivant est ajouté au fichier journal de la ressource :
Timeout #5 has occurred. Restarting.