Supplément Sun Cluster 3.0 5/02

Détection de pannes de Sun Cluster HA for SAP pour l'instance centrale

Pour l'instance centrale, la détection de pannes exécute les étapes suivantes.

  1. Recherche les ID de processus pour le serveur de messages SAP et le répartiteur

  2. Boucle indéfiniment (en sommeil pour Thorough_probe_interval)

  3. Vérifie le bon état des ressources SAP

    1. Sortie anormale - Si le contrôleur de processus (PMF) détecte que l'arborescence du processus SAP a échoué, le détecteur de pannes traite ce problème comme une panne totale. Le contrôleur de pannes redémarre ou bascule de la ressource SAP vers un autre noeud en fonction de l'historique des pannes des ressources.

    2. Contrôle de l'état des ressources SAP à travers la détection de pannes - Le détecteur utilise la commande ps(1) pour vérifier le serveur de messages SAP et les processus du répartiteur principal. Si l'un des processus du serveur de messages SAP ou du répartiteur principal manque dans la liste des processus actifs du système, le contrôleur de pannes traite ce problème comme une panne totale.

      Si vous configurez le paramètre Check_ms_retry de façon à avoir une valeur supérieure à zéro, le détecteur vérifie la connexion du serveur de messages SAP. Si vous avez défini la propriété d'extension Lgtst_ms_with_logicalhostname à sa valeur par défaut TRUE, le détecteur effectue le test de connexion au serveur de messages SAP à l'aide de la commande lgtst. Le détecteur utilise l'interface du nom d'hôte logique spécifié dans le groupe de ressources SAP pour appeler la commande SAP lgtst. Si vous définissez la propriété d'extension Lgtst_ms_with_logicalhostname à une valeur autre que TRUE, le détecteur appelle lgtst avec le nom de l'hôte local (interface de boucle).

      Si l'appel de la commande lgtst échoue, la connexion du serveur de messages SAP ne fonctionne pas. Dans cette situation, le contrôleur de pannes considère le problème comme une panne partielle et ne déclenche pas immédiatement un redémarrage de SAP ou un basculement. Dans les conditions suivantes, le contrôleur de pannes compte deux pannes partielles comme une panne totale.

      1. Vous configurez la propriété d'extension Check_ms_retry sur 2.

      2. Le contrôleur de pannes accumule deux pannes partielles qui surviennent au cours de l'délai entre essais que la propriété de ressource Retry_interval définit.

      Une erreur totale engendre un redémarrage local ou un basculement, en fonction de l'historique des pannes des ressources.

    3. Statut de connexion à la base de données à travers le détecteur - Le détecteur appelle la commande SAP R3trans pour vérifier le statut de connexion à la base de données. Les détecteurs de pannes de Sun Cluster HA for SAP vérifient que SAP peut se connecter à la base de données. Sun Cluster HA for SAP dépend toutefois des détecteurs de panne de la base de données à haute disponibilité pour déterminer l'état de la base de données. Si la vérification du statut de connexion à la base de données échoue, le contrôleur de pannes consigne le message Database might be down à syslog. Le contrôleur de pannes définit ensuite le statut de la ressource SAP sur DEGRADED. Si le détecteur vérifie à nouveau le statut de la base de données et si la connexion est rétablie, le contrôleur de pannes consigne le message Database is up, à syslog et définit le statut de la ressource SAP sur OK.

  4. Evalue l'historique des pannes

    D'après l'historique des pannes, le contrôleur de pannes exécute une des actions suivantes.

    • aucune action

    • redémarrage local

    • reprise sur panne