Supplément Sun Cluster 3.0 5/02

Détection de pannes de Sun Cluster HA for SAP pour le serveur d'application

Pour le serveur d'application, le détecteur de pannes éxécute les étapes suivantes.

  1. Recherche des ID de processus pour le répartiteur principal

  2. Boucle indéfiniment (en sommeil pour Thorough_probe_interval)

  3. Vérifie le bon état des ressources SAP

    1. Sortie anormale - Si le contrôleur de processus (PMF) détecte que l'arborescence du processus SAP a échoué, le contrôleur de pannes traite ce problème comme une panne totale. Le contrôleur de pannes redémarre ou bascule de la ressource SAP vers un autre noeud en fonction de l'historique des pannes des ressources.

    2. Contrôle de l'état des ressources SAP à travers la détection de pannes - Le détecteur utilise la commande ps(1) pour vérifier le serveur de messages SAP et les processus du répartiteur principal. Si le processus du répartiteur principal de SAP manque dans la liste des processus actifs du système, le contrôleur de pannes traite le problème comme une panne totale.

    3. Statut de connexion à la base de données à travers la détection de pannes - Le détecteur appelle la commande SAP R3trans pour vérifier le statut de connexion à la base de données. Les détecteurs de pannes de Sun Cluster HA for SAP vérifient que SAP peut se connecter à la base de données. Sun Cluster HA for SAP dépend toutefois des détecteurs de pannes de la base de données à haute disponibilité pour déterminer l'état de la base de données. Si la vérification du statut de la base de données échoue, le contrôleur de pannes consigne le message Database might be down à syslog et définit de statut de la ressource SAP sur DEGRADED. Si le détecteur vérifie à nouveau le statut de la base de données et si la connexion est rétablie, le contrôleur de pannes consigne le message Database is up, à syslog. Le contrôleur de pannes définit ensuite le statut de la ressource SAP sur OK.

  4. Evalue l'historique des pannes

    D'après l'historique des pannes, le contrôleur de pannes exécute une des actions suivantes :

    • aucune action

    • redémarrage local

    • reprise sur panne

      Si la ressource du serveur d'application est une ressource de reprise sur panne, le contrôleur de pannes bascule sur le serveur d'application.

      Si la ressource du serveur d'application est une ressource modulaire, une fois le nombre de démarrages locaux épuisés, RGM (le gestionnaire des groupes de ressources) amènera le serveur d'application sur un autre noeud, si un autre noeud est disponible dans la grappe.