Supplément Sun Cluster 3.0 5/02

Le contrôleur de pannes de Sun Cluster HA for SAP

Le contrôleur de pannes de Sun Cluster HA for SAP vérifie le processus SAP et le bon état de la base de données. L'état du processus SAP a un impact sur l'historique des pannes des ressources SAP. L'historique des pannes des ressources SAP guide à son tour les actions du contrôleur de pannes, qui peuvent être : aucune action, redémarrage ou reprise sur panne.

Contrairement à l'état du processus SAP, l'état de la base de données utilisée par SAP n'a aucun impact sur l'historique des pannes des ressources SAP. L'état de la base de données déclenche toutefois le contrôleur de pannes SAP, pour qu'il consigne tous les messages syslog et qu'il définisse en conséquence le statut de la ressource SAP qui utilise la base de données.

Détection de pannes de Sun Cluster HA for SAP pour l'instance centrale

Pour l'instance centrale, la détection de pannes exécute les étapes suivantes.

  1. Recherche les ID de processus pour le serveur de messages SAP et le répartiteur

  2. Boucle indéfiniment (en sommeil pour Thorough_probe_interval)

  3. Vérifie le bon état des ressources SAP

    1. Sortie anormale - Si le contrôleur de processus (PMF) détecte que l'arborescence du processus SAP a échoué, le détecteur de pannes traite ce problème comme une panne totale. Le contrôleur de pannes redémarre ou bascule de la ressource SAP vers un autre noeud en fonction de l'historique des pannes des ressources.

    2. Contrôle de l'état des ressources SAP à travers la détection de pannes - Le détecteur utilise la commande ps(1) pour vérifier le serveur de messages SAP et les processus du répartiteur principal. Si l'un des processus du serveur de messages SAP ou du répartiteur principal manque dans la liste des processus actifs du système, le contrôleur de pannes traite ce problème comme une panne totale.

      Si vous configurez le paramètre Check_ms_retry de façon à avoir une valeur supérieure à zéro, le détecteur vérifie la connexion du serveur de messages SAP. Si vous avez défini la propriété d'extension Lgtst_ms_with_logicalhostname à sa valeur par défaut TRUE, le détecteur effectue le test de connexion au serveur de messages SAP à l'aide de la commande lgtst. Le détecteur utilise l'interface du nom d'hôte logique spécifié dans le groupe de ressources SAP pour appeler la commande SAP lgtst. Si vous définissez la propriété d'extension Lgtst_ms_with_logicalhostname à une valeur autre que TRUE, le détecteur appelle lgtst avec le nom de l'hôte local (interface de boucle).

      Si l'appel de la commande lgtst échoue, la connexion du serveur de messages SAP ne fonctionne pas. Dans cette situation, le contrôleur de pannes considère le problème comme une panne partielle et ne déclenche pas immédiatement un redémarrage de SAP ou un basculement. Dans les conditions suivantes, le contrôleur de pannes compte deux pannes partielles comme une panne totale.

      1. Vous configurez la propriété d'extension Check_ms_retry sur 2.

      2. Le contrôleur de pannes accumule deux pannes partielles qui surviennent au cours de l'délai entre essais que la propriété de ressource Retry_interval définit.

      Une erreur totale engendre un redémarrage local ou un basculement, en fonction de l'historique des pannes des ressources.

    3. Statut de connexion à la base de données à travers le détecteur - Le détecteur appelle la commande SAP R3trans pour vérifier le statut de connexion à la base de données. Les détecteurs de pannes de Sun Cluster HA for SAP vérifient que SAP peut se connecter à la base de données. Sun Cluster HA for SAP dépend toutefois des détecteurs de panne de la base de données à haute disponibilité pour déterminer l'état de la base de données. Si la vérification du statut de connexion à la base de données échoue, le contrôleur de pannes consigne le message Database might be down à syslog. Le contrôleur de pannes définit ensuite le statut de la ressource SAP sur DEGRADED. Si le détecteur vérifie à nouveau le statut de la base de données et si la connexion est rétablie, le contrôleur de pannes consigne le message Database is up, à syslog et définit le statut de la ressource SAP sur OK.

  4. Evalue l'historique des pannes

    D'après l'historique des pannes, le contrôleur de pannes exécute une des actions suivantes.

    • aucune action

    • redémarrage local

    • reprise sur panne

Détection de pannes de Sun Cluster HA for SAP pour le serveur d'application

Pour le serveur d'application, le détecteur de pannes éxécute les étapes suivantes.

  1. Recherche des ID de processus pour le répartiteur principal

  2. Boucle indéfiniment (en sommeil pour Thorough_probe_interval)

  3. Vérifie le bon état des ressources SAP

    1. Sortie anormale - Si le contrôleur de processus (PMF) détecte que l'arborescence du processus SAP a échoué, le contrôleur de pannes traite ce problème comme une panne totale. Le contrôleur de pannes redémarre ou bascule de la ressource SAP vers un autre noeud en fonction de l'historique des pannes des ressources.

    2. Contrôle de l'état des ressources SAP à travers la détection de pannes - Le détecteur utilise la commande ps(1) pour vérifier le serveur de messages SAP et les processus du répartiteur principal. Si le processus du répartiteur principal de SAP manque dans la liste des processus actifs du système, le contrôleur de pannes traite le problème comme une panne totale.

    3. Statut de connexion à la base de données à travers la détection de pannes - Le détecteur appelle la commande SAP R3trans pour vérifier le statut de connexion à la base de données. Les détecteurs de pannes de Sun Cluster HA for SAP vérifient que SAP peut se connecter à la base de données. Sun Cluster HA for SAP dépend toutefois des détecteurs de pannes de la base de données à haute disponibilité pour déterminer l'état de la base de données. Si la vérification du statut de la base de données échoue, le contrôleur de pannes consigne le message Database might be down à syslog et définit de statut de la ressource SAP sur DEGRADED. Si le détecteur vérifie à nouveau le statut de la base de données et si la connexion est rétablie, le contrôleur de pannes consigne le message Database is up, à syslog. Le contrôleur de pannes définit ensuite le statut de la ressource SAP sur OK.

  4. Evalue l'historique des pannes

    D'après l'historique des pannes, le contrôleur de pannes exécute une des actions suivantes :

    • aucune action

    • redémarrage local

    • reprise sur panne

      Si la ressource du serveur d'application est une ressource de reprise sur panne, le contrôleur de pannes bascule sur le serveur d'application.

      Si la ressource du serveur d'application est une ressource modulaire, une fois le nombre de démarrages locaux épuisés, RGM (le gestionnaire des groupes de ressources) amènera le serveur d'application sur un autre noeud, si un autre noeud est disponible dans la grappe.