Guide d'administration système de Sun Cluster 3.0

Chapitre 2 Arrêt et initialisation d'un cluster

Ce chapitre indique les procédures à suivre pour arrêter ou initialiser un cluster ou des noeuds de cluster individuels.

Les procédures décrites dans ce chapitre sont les suivantes :

Pour un récapitulatif des procédures décrites dans ce chapitre, reportez-vous au Tableau 2-1 et au Tableau 2-2.

2.1 Arrêt et initialisation d'un cluster - Présentation

La commande Sun Cluster scshutdown(1M) permet d'interrompre les services du cluster de façon méthodique et d'arrêter celui-ci proprement.


Remarque :

pour garantir un arrêt correct de l'ensemble du cluster, utilisez la commande scshutdown à la place des commandes shutdown ou halt. La commande Solaris shutdown permet d'arrêter des noeuds individuels.


Pour arrêter un cluster, la commande scshutdown exécute les opérations suivantes :

  1. Mise hors ligne de tous les groupes de ressources en cours d'exécution.

  2. Démontage de tous les systèmes de fichiers du cluster.

  3. Arrêt des services de périphériques actifs.

  4. Exécution de la commande init 0 et retour à l'invite PROM ok sur tous les noeuds.

Vous pouvez effectuer cette opération en cas de déplacement du cluster ou d'altération des données due à une erreur d'application.


Remarque :

si nécessaire, vous pouvez initialiser un noeud en mode hors-cluster pour qu'il ne fasse pas partie du cluster. Cela peut être utile lors de l'installation du logiciel de cluster ou pour certaines procédures administratives. Reportez-vous à la section "2.2.4 Initialisation d'un noeud de cluster en mode hors-cluster" pour plus d'informations.


.

Tableau 2-1 Plan des tâches : arrêt et initialisation d'un cluster

Tâche 

Pour les instructions, voir... 

Arrêter le cluster 

    - Utilisez scshutdown

"2.1.1 Arrêt d'un cluster"

Démarrer le cluster en initialisant tous les noeuds.  

Les noeuds doivent disposer d'une connexion fonctionnelle avec l'interconnexion du cluster pour devenir membres de ce dernier. 

"2.1.2 Initialisation d'un cluster"

Arrêter le cluster 

    - Utilisez scshutdown

A l'invite ok, initialisez chaque noeud individuellement à l'aide de la commande boot.

Les noeuds doivent disposer d'une connexion fonctionnelle avec l'interconnexion du cluster pour devenir membres de ce dernier. 

"2.1.3 Réinitialisation d'un cluster"

2.1.1 Arrêt d'un cluster

  1. (Facultatif). Pour les clusters qui exécutent Oracle Parallel Server (OPS), arrêtez toutes les instances de la base de données OPS.

    Reportez-vous à la documentation fournie avec Oracle Parallel Server pour connaître les procédures d'arrêt.

  2. Devenez superutilisateur sur un noeud du cluster.

  3. Effectuez un arrêt immédiat du cluster à l'aide de la commande scshutdown(1M).

    Sur un noeud du cluster, entrez la commande suivante :


    # scshutdown -g 0 -y
    
  4. Vérifiez que tous les noeuds sont à l'invite PROM ok.

  5. Si nécessaire, mettez les noeuds hors tension.

2.1.1.1 Exemple : arrêt d'un cluster

L'exemple suivant reproduit l'affichage de la console lors d'un arrêt normal du cluster avec retour de tous les noeuds à l'invite ok. L'option -g 0 définit le délai de grâce d'arrêt à 0 ; l'option -y indique au logiciel de répondre automatiquement yes (oui) à la demande de confirmation. Les messages d'arrêt apparaissent également sur les consoles des autres noeuds du cluster.


# scshutdown -g 0 -y

Sep  2 10:08:46 phys-schost-1 cl_runtime: WARNING: CMM monitoring disabled.

phys-schost-1#

INIT: New run level: 0

The system is coming down.  Please wait.

System services are now being stopped.

/etc/rc0.d/K05initrgm: Calling scswitch -S (evacuate)

The system is down.

syncing file systems... done

Program terminated

ok 

2.1.1.2 Etape suivante

Reportez-vous à la section "2.1.2 Initialisation d'un cluster" pour redémarrer un cluster préalablement arrêté.

2.1.2 Initialisation d'un cluster

  1. Pour démarrer un cluster dont les noeuds ont été arrêtés et se trouvent à l'invite PROM ok, vous devez initialiser chaque noeud.

    L'ordre d'initialisation des noeuds n'a aucune incidence, sauf si vous modifiez la configuration entre les arrêts. Dans ce cas, vous devez commencer par initialiser le noeud dont la configuration est la plus récente.


    ok boot
    

    Des messages apparaissent sur les consoles des noeuds initialisés à mesure que vous activez des composants du cluster.


    Remarque :

    les noeuds du cluster doivent avoir une connexion fonctionnelle avec l'interconnexion du cluster pour devenir membres de ce dernier.


  2. Vérifiez que les noeuds sont correctement initialisés et qu'ils sont en ligne.

    La commande scstat(1M) permet d'obtenir un rapport sur l'état des noeuds.


    # scstat -n
    

2.1.2.1 Exemple : initialisation d'un cluster

L'exemple suivant reproduit l'affichage de la console lors de l'initialisation du noeud phys-schost-1 dans le cluster. Des messages similaires apparaissent sur les consoles des autres noeuds du cluster.


ok boot

Rebooting with command: boot

...

Hostname: phys-schost-1

Booting as part of a cluster

NOTICE: Node 1 with votecount = 1 added.

NOTICE: Node 2 with votecount = 1 added.

NOTICE: Node 3 with votecount = 1 added.

...

NOTICE: Node 1: attempting to join cluster

...

NOTICE: Node 2 (incarnation # 937690106) has become reachable.

NOTICE: Node 3 (incarnation # 937690290) has become reachable.

NOTICE: cluster has reached quorum.

NOTICE: node 1 is up; new incarnation number = 937846227.

NOTICE: node 2 is up; new incarnation number = 937690106.

NOTICE: node 3 is up; new incarnation number = 937690290.

NOTICE: Cluster members:   1  2  3

...

NOTICE: Node 1: joined cluster

...

The system is coming up.  Please wait.

checking ufs filesystems

...

reservation program successfully exiting

Print services started.

volume management starting.

The system is ready.

phys-schost-1 console login: 

2.1.3 Réinitialisation d'un cluster

Exécutez la commande scshutdown(1M) pour arrêter le cluster, puis initialisez le cluster sur chaque noeud à l'aide de la commande boot.

  1. (Facultatif). Pour les clusters qui exécutent Oracle Parallel Server (OPS), arrêtez toutes les instances de la base de données OPS.

    Reportez-vous à la documentation fournie avec Oracle Parallel Server pour connaître les procédures d'arrêt.

  2. Devenez superutilisateur sur un noeud du cluster.

  3. Arrêtez le cluster à l'aide de la commande scshutdown.

    Sur un noeud du cluster, entrez la commande suivante :


    # scshutdown -g 0 -y 
    

    Chaque noeud est arrêté et ramené à l'invite PROM ok.


    Remarque :

    les noeuds du cluster doivent avoir une connexion fonctionnelle avec l'interconnexion du cluster pour devenir membres de ce dernier.


  4. Initialisez chaque noeud.

    L'ordre d'initialisation des noeuds n'a aucune incidence, sauf si vous modifiez la configuration entre les arrêts. Dans ce cas, vous devez commencer par initialiser le noeud dont la configuration est la plus récente.


    ok boot
    

    Des messages apparaissent sur les consoles des noeuds initialisés à mesure que vous activez des composants du cluster.

  5. Vérifiez que les noeuds sont correctement initialisés et qu'ils sont en ligne.

    La commande scstat permet d'obtenir un rapport sur l'état des noeuds.


    # scstat -n
    

2.1.3.1 Exemple : réinitialisation d'un cluster

L'exemple suivant reproduit l'affichage de la console lors d'un arrêt normal du cluster avec retour de tous les noeuds à l'invite ok, suivi du redémarrage du cluster. L'option -g 0 définit le délai de grâce à 0 ; l'option -y indique au logiciel de répondre automatiquement yes à la demande de confirmation. Les messages d'arrêt apparaissent également sur les consoles des autres noeuds du cluster.


# scshutdown -g 0 -y

Sep  2 10:08:46 phys-schost-1 cl_runtime: WARNING: CMM monitoring disabled.

phys-schost-1#

INIT: New run level: 0

The system is coming down.  Please wait.

...

The system is down.

syncing file systems... done

Program terminated

ok boot

Rebooting with command: boot

...

Hostname: phys-schost-1

Booting as part of a cluster

...

NOTICE: Node 1: attempting to join cluster

...

NOTICE: Node 2 (incarnation # 937690106) has become reachable.

NOTICE: Node 3 (incarnation # 937690290) has become reachable.

NOTICE: cluster has reached quorum.

...

NOTICE: Cluster members:   1  2  3

...

NOTICE: Node 1: joined cluster

...

The system is coming up.  Please wait.

checking ufs filesystems

...

reservation program successfully exiting

Print services started.

volume management starting.

The system is ready.

phys-schost-1 console login:

2.2 Arrêt et initialisation d'un noeud de cluster individuel


Remarque :

utilisez la commande scswitch en conjonction avec la commande Solaris shutdown pour arrêter un noeud individuel. N'utilisez la commande scshutdown que pour arrêter l'ensemble du cluster.


Tableau 2-2 Plan des tâches : arrêt et initialisation d'un noeud de cluster

Tâche 

Pour les instructions, voir... 

Arrêter un noeud de cluster  

    - Utilisez les commandes scswitch(1M) et shutdown(1M)

"2.2.1 Arrêt d'un noeud de cluster"

Démarrer un noeud en l'initialisant.  

Le noeud doit avoir une connexion fonctionnelle avec l'interconnexion du cluster pour devenir membre de ce dernier. 

"2.2.2 Initialisation d'un noeud de cluster"

Arrêter et redémarrer (réinitialiser) un noeud de cluster 

    - Utilisez les commandes scswitch et shutdown

Le noeud doit avoir une connexion fonctionnelle avec l'interconnexion du cluster pour devenir membre de ce dernier. 

"2.2.3 Réinitialisation d'un noeud de cluster"

Initialiser un noeud de sorte qu'il ne soit pas membre du cluster. 

    - Utilisez les commandes scswitch et shutdown, puis boot -x

"2.2.4 Initialisation d'un noeud de cluster en mode hors-cluster"

2.2.1 Arrêt d'un noeud de cluster

  1. (Facultatif). Pour les noeuds du cluster qui exécutent Oracle Parallel Server (OPS), arrêtez toutes les instances de la base de données OPS.

    Reportez-vous à la documentation fournie avec Oracle Parallel Server pour connaître les procédures d'arrêt.

  2. Devenez superutilisateur sur le noeud de cluster à arrêter.

  3. Arrêtez le noeud de cluster à l'aide des commandes scswitch et shutdown.

    Entrez la commande suivante sur le noeud à arrêter :


    # scswitch -S -h noeud 
    
    # shutdown -g 0 -y
    
  4. Vérifiez que le noeud du cluster est à l'invite PROM ok.

  5. Si nécessaire, mettez le noeud hors tension.

2.2.1.1 Exemple : arrêt d'un noeud de cluster

L'exemple suivant reproduit l'affichage de la console lors de l'arrêt du noeud phys-schost-1. L'option -g 0 définit le délai de grâce à 0 ; l'option -y indique au logiciel de répondre automatiquement yes à la demande de confirmation. Les messages d'arrêt de ce noeud apparaissent sur les consoles des autres noeuds du cluster.


# scswitch -S -h phys-schost-1

# shutdown -g 0 -y

Sep  2 10:08:46 phys-schost-1 cl_runtime: WARNING: CMM monitoring disabled.phys-schost-1# 

INIT: New run level: 0

The system is coming down.  Please wait.

Notice: rgmd is being stopped.

Notice: rpc.pmfd is being stopped.

Notice: rpc.fed is being stopped.

umount: /global/.devices/node@1 busy

umount: /global/phys-schost-1 busy

The system is down.

syncing file systems... done

Program terminated

ok

2.2.1.2 Etape suivante

Reportez-vous à la section "2.2.2 Initialisation d'un noeud de cluster" pour redémarrer un noeud de cluster préalablement arrêté.

2.2.2 Initialisation d'un noeud de cluster


Remarque :

la configuration du quorum peut avoir une incidence sur le démarrage des noeuds du cluster. Dans les clusters comportant deux noeuds, vous devez avoir un périphérique de quorum configuré de sorte que le quorum total du cluster soit de 3 (un pour chaque noeud et un pour le périphérique de quorum). Le cas échéant, si le premier noeud est arrêté, le second noeud continue d'avoir un quorum et s'exécute en tant que membre unique du cluster. Pour que le premier noeud revienne dans le cluster en tant que noeud de ce cluster, le second noeud doit être actif et le quorum requis pour le cluster (2) doit être présent.


  1. Pour démarrer un noeud de cluster préalablement arrêté, initialisez-le.


    ok boot
    

    Des messages apparaissent sur la console du noeud initialisé et sur les consoles des noeuds membres à mesure que des composants du cluster sont activés.


    Remarque :

    le noeud du cluster doit avoir une connexion fonctionnelle avec l'interconnexion du cluster pour devenir membre de ce dernier.


  2. Vérifiez que les noeuds sont correctement initialisés et qu'ils sont en ligne.

    La commande scstat(1M) permet d'obtenir un rapport sur l'état d'un noeud.


    # scstat -n
    

2.2.2.1 Exemple : initialisation d'un noeud de cluster

L'exemple suivant reproduit l'affichage de la console lors de l'initialisation du noeud phys-schost-1 dans le cluster.


ok boot

Rebooting with command: boot

...

Hostname: phys-schost-1

Booting as part of a cluster

...

NOTICE: Node 1: attempting to join cluster

...

NOTICE: Node 1: joined cluster

...

The system is coming up.  Please wait.

checking ufs filesystems

...

reservation program successfully exiting

Print services started.

volume management starting.

The system is ready.

phys-schost-1 console login:

2.2.3 Réinitialisation d'un noeud de cluster

  1. (Facultatif). Pour les noeuds du cluster qui exécutent Oracle Parallel Server (OPS), arrêtez toutes les instances de la base de données OPS.

    Reportez-vous à la documentation fournie avec Oracle Parallel Server pour connaître les procédures d'arrêt.

  2. Devenez superutilisateur sur le noeud de cluster à arrêter.

  3. Arrêtez le noeud de cluster à l'aide des commandes scswitch et shutdown.

    Entrez ces commandes sur le noeud de cluster à arrêter.


    # scswitch -S -h noeud 
    
    # shutdown -g 0 -y -i 6
    

    L'option -i 6 de la commande shutdown entraîne une réinitialisation automatique du noeud après son retour à l'invite PROM ok.


    Remarque :

    les noeuds du cluster doivent avoir une connexion fonctionnelle avec l'interconnexion du cluster pour en devenir membres.


  4. Vérifiez que les noeuds sont correctement initialisés et qu'ils sont en ligne.

    La commande scstat(1M) permet d'obtenir un rapport sur l'état d'un noeud.


    # scstat -n
    

2.2.3.1 Exemple : réinitialisation d'un noeud de cluster

L'exemple suivant reproduit l'affichage de la console lors de l'arrêt et du redémarrage du noeud phys-schost-1. L'option -g 0 définit le délai de grâce à 0 ; l'option -y indique au logiciel de répondre automatiquement yes à la demande de confirmation. Les messages d'arrêt et de démarrage de ce noeud apparaissent sur les consoles des autres noeuds du cluster.


# scswitch -S -h phys-schost-1

# shutdown -g 0 -y -i 6

Sep  2 10:08:46 phys-schost-1 cl_runtime: WARNING: CMM monitoring disabled.

phys-schost-1#

INIT: New run level: 6

The system is coming down.  Please wait.

System services are now being stopped.

Notice: rgmd is being stopped.

Notice: rpc.pmfd is being stopped.

Notice: rpc.fed is being stopped.

umount: /global/.devices/node@1 busy

umount: /global/phys-schost-1 busy

The system is down.

syncing file systems... done

rebooting...

Resetting ... 

,,,

Sun Ultra 1 SBus (UltraSPARC 143MHz), No Keyboard

OpenBoot 3.11, 128 MB memory installed, Serial #7982421.

Ethernet address 8:0:20:79:cd:55, Host ID: 8079cd55.

...

Rebooting with command: boot

...

Hostname: phys-schost-1

Booting as part of a cluster

...

NOTICE: Node 1: attempting to join cluster

...

NOTICE: Node 1: joined cluster

...

The system is coming up.  Please wait.

The system is ready.

phys-schost-1 console login: 

2.2.4 Initialisation d'un noeud de cluster en mode hors-cluster

Vous pouvez initialiser un noeud en mode hors-cluster pour qu'il ne fasse pas partie du cluster. Cela peut être utile lors de l'installation du logiciel de cluster ou pour certaines procédures administratives, par exemple l'application d'un patch à un noeud.

  1. Devenez superutilisateur sur le noeud de cluster à démarrer en mode hors-cluster.

  2. Arrêtez le noeud à l'aide des commandes scswitch et shutdown.


    # scswitch -S -h noeud 
    
    # shutdown -g 0 -y 
    
  3. Vérifiez que le noeud est à l'invite PROM ok.

  4. Initialisez le noeud en mode hors-cluster à l'aide de la commande boot(1M) et de l'option -x.


    ok boot -x
    

    Des messages apparaissent sur la console du noeud, indiquant que celui-ci ne fait pas partie du cluster.

2.2.4.1 Exemple : initialisation d'un noeud de cluster en mode hors-cluster

L'exemple suivant reproduit l'affichage de la console lors de l'arrêt du noeud phys-schost-1, puis de son redémarrage en mode hors-cluster. L'option -g -0 définit le délai de grâce à 0 ; l'option -y indique au logiciel de répondre automatiquement yes à la demande de confirmation. Les messages d'arrêt de ce noeud apparaissent sur les consoles des autres noeuds du cluster.


# scswitch -S -h phys-schost-1

# shutdown -g 0 -y

Sep  2 10:08:46 phys-schost-1 cl_runtime: WARNING: CMM monitoring disabled.

phys-schost-1#

...

rg_name = schost-sa-1 ...

offline node = phys-schost-2 ...

num of  node = 0 ...

phys-schost-1#

INIT: New run level: 0

The system is coming down.  Please wait.

System services are now being stopped.

Print services stopped.

syslogd: going down on signal 15

...

The system is down.

syncing file systems... done

WARNING: node 1 is being shut down.

Program terminated

ok boot -x

...

Not booting as part of cluster

...

The system is ready.

phys-schost-1 console login:

2.3 Résolution des problèmes de cluster et de noeud de cluster

Cette section décrit les solutions aux problèmes susceptibles de survenir pendant l'exploitation normale d'un cluster et de noeuds de cluster.

2.3.1 Réparation d'un système de fichiers /var saturé

Solaris et Sun Cluster envoient tous deux des messages d'erreur dans le fichier /var/adm/messages, ce qui, à la longue, risque de saturer le système de fichiers /var. Si cela se produit, Sun Cluster risque de ne pas pouvoir redémarrer sur ce noeud. En outre, vous risquez de ne plus pouvoir vous connecter à ce noeud.

Si un noeud indique que son système de fichiers /var est saturé et continue d'exécuter les services Sun Cluster, procédez comme suit pour vider le système de fichiers.

  1. Devenez superutilisateur sur le noeud du cluster dont le système de fichiers /var est saturé.

  2. Videz le système de fichiers saturé.

    Par exemple, supprimez tous les fichiers superflus du système de fichiers.