Problèmes courants et leurs solutions

Les sous-sections qui suivent décrivent les problèmes qui peuvent avoir une incidence sur la Prise en charge d'Oracle RAC. Chaque sous-section offre des informations sur la cause du problème et une solution au problème.

Echec d'un groupe de ressources de structure Oracle RAC
Panne d'un groupe de ressources de structure de gestionnaire de volumes multipropriétaire
Echec de l'enregistrement de SUNW.qfs car le fichier d'enregistrement est introuvable
Grave erreur de noeud causée par un dépassement du délai d'attente
Echec du démarrage d'une ressource SUNW.rac_framework ou SUNW.vucmm_framework
Messages d'état en cas d'échec du démarrage de SUNW.rac_framework
Messages d'état en cas d'échec du démarrage de SUNW.vucmm_framework
Récupération après le dépassement du délai d'attente de la méthode START
Echec de l'arrêt d'une ressource

Echec d'un groupe de ressources de structure Oracle RAC

Cette section décrit les problèmes qui peuvent avoir une incidence sur le groupe de ressources de structure Oracle RAC.

Grave erreur de noeud lors de l'initialisation de la Prise en charge d'Oracle RAC
Echec de démarrage du démon ucmmd
Récupération après un échec du démon ucmmd ou d'un composant associé

Grave erreur de noeud lors de l'initialisation de la Prise en charge d'Oracle RAC

Si une erreur fatale survient au cours de l'initialisation de la Prise en charge d'Oracle RAC, de graves erreurs de noeuds se produisent avec un message d'erreur similaire à celui qui suit :

panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago

Description : un composant contrôlé par l'UCMM renvoie une erreur à l'UCMM pendant une reconfiguration.

Origine : Ce problème est généralement attribué aux raisons suivantes :

SPARC : le package ORCLudlm qui contient UDLM n'est pas installé.
SPARC : la version d'UDLM n'est pas compatible avec la version de la Prise en charge d'Oracle RAC.
SPARC : la quantité de mémoire partagée est insuffisante pour permettre à UDLM de démarrer.

Une grave erreur de noeud peut également se produire pendant l'initialisation de la Prise en charge d'Oracle RAC parce qu'une étape de reconfiguration a dépassé le délai d'attente. Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.

Solution : Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération après un échec du démon ucmmd ou d'un composant associé.

Remarque - Quand le noeud est un noeud votant de cluster global, une grave erreur de noeud bloque la machine tout entière. Quand le noeud est un noeud de cluster de zones, la grave erreur de noeud bloque uniquement cette zone et n'affecte pas les autres zones.

Echec de démarrage du démon `ucmmd`

Le démon de l'UCMM, ucmmd, gère la reconfiguration de la Prise en charge d'Oracle RAC. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'après la validation de tous les composants de la Prise en charge d'Oracle RAC. Si la validation d'un composant sur un noeud échoue, le démon ucmmd ne parvient pas à démarrer sur le noeud.

Ce problème est généralement attribué aux raisons suivantes :

SPARC : le package ORCLudlm qui contient UDLM n'est pas installé.
Une erreur s'est produite pendant la reconfiguration précédente d'un composant de la Prise en charge d'Oracle RAC.
Le délai d'attente d'une étape dans une reconfiguration précédente de la Prise en charge d'Oracle RAC a été dépassé, provoquant une erreur grave du noeud sur lequel le délai a été dépassé.

Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération après un échec du démon ucmmd ou d'un composant associé.

Récupération après un échec du démon `ucmmd` ou d'un composant associé

Effectuez cette tâche pour corriger les problèmes décrits dans les sections suivantes :

Grave erreur de noeud lors de l'initialisation de la Prise en charge d'Oracle RAC
Echec de démarrage du démon ucmmd

Pour déterminer la cause du problème, examinez les fichiers journaux des reconfigurations UCMM et le fichier de messages système.
Pour connaître l'emplacement des fichiers journaux des reconfigurations UCMM, reportez-vous à la section Sources des informations de diagnostic.
Dans ces fichiers, commencez par examiner le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au manuel Oracle Solaris Cluster Error Messages Guide .
Corrigez le problème à l'origine de l'erreur renvoyée par le composant à l'UCMM.
Par exemple :
- SPARC : si votre version d'Oracle nécessite UDLM et si le package ORCLudlm qui contient UDLM n'est pas installé, installez-le.
  Remarque - UDLM n'est nécessaire que s'il est réellement utilisé.
  1. Assurez-vous d'avoir terminé toutes les procédures précédant l'installation et la configuration du logiciel UDLM.
    Les opérations que vous devez effectuer sont présentées dans le Tableau 1-1.
  2. Assurez-vous que le logiciel UDLM est correctement installé et configuré.
    Pour plus d'informations, reportez-vous à la section SPARC : Installation du UDLM.
- SPARC : si votre version d'UDLM n'est pas compatible avec la version de la Prise en charge d'Oracle RAC, installez une version compatible du package.
  Pour plus d'informations, reportez-vous à la section SPARC : Installation du UDLM.
- SPARC : si la quantité de mémoire partagée est insuffisante pour permettre à UDLM de démarrer, augmentez la quantité de mémoire partagée.
  Pour plus d'informations, reportez-vous à la section Configuration d'une mémoire partagée pour Oracle RAC dans le cluster global.
- Si une étape de reconfiguration a dépassé le délai d'attente, augmentez la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape.
  Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.
Si la solution au problème nécessite une réinitialisation, réinitialisez le noeud sur lequel le problème s'est produit.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour plus d'informations sur la réinitialisation d'un noeud, reportez-vous à la section Fermeture et initialisation d’un nœud unique dans un cluster du manuel Guide d’administration système d’Oracle Solaris Cluster.
Sur le noeud où le problème s'est produit, faites passer le groupe de ressources de structure Oracle RAC hors ligne, puis en ligne.
Cette étape actualise le groupe de ressources avec les modifications apportées à la configuration.
1. Connectez-vous en tant que superutilisateur ou prenez un rôle octroyant l'autorisation RBAC solaris.cluster.admin.
2. Saisissez la commande pour faire passer le groupe de ressources de structure Oracle RAC et ses ressources hors ligne.
```
# clresourcegroup offline -n node rac-fmwk-rg
```
  -n node
  
  Spécifie le nom ou l'identificateur (ID) du noeud sur lequel le problème s'est produit.
  
  rac-fmwk-rg
  
  Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
3. Saisissez la commande pour faire passer le groupe de ressources de structure Oracle RAC et ses ressources en ligne et en mode de gestion.
```
# clresourcegroup online -emM -n node rac-fmwk-rg
```

Panne d'un groupe de ressources de structure de gestionnaire de volumes multipropriétaire

Cette section décrit les problèmes qui peuvent affecter le groupe de ressources de structure de gestionnaire de volumes multipropriétaire.

Grave erreur de noeud au cours de l'initialisation de la structure de gestionnaire de volumes multipropriétaire
Echec de démarrage du démon vucmmd
Récupération après un échec du démon vucmmd ou d'un composant associé

Grave erreur de noeud au cours de l'initialisation de la structure de gestionnaire de volumes multipropriétaire

Si une erreur fatale survient lors de l'initialisation de la structure de gestionnaire de volumes multipropriétaire, de graves erreurs de noeuds se produisent avec un message d'erreur similaire à celui qui suit :

Remarque - Quand le noeud est un noeud votant de cluster global, une grave erreur de noeud bloque la machine tout entière.

panic[cpu0]/thread=40037e60: Failfast: Aborting because "vucmmd" died 30 seconds ago

Description : Un composant contrôlé par la structure de gestionnaire de volumes multipropriétaire a renvoyé une erreur à la structure de gestionnaire de volumes multipropriétaire lors d'une reconfiguration.

Origine : Ce problème est généralement dû au fait que la licence pour Veritas Volume Manager (VxVM) est manquante ou a expiré.

Une grave erreur de noeud peut également se produire pendant l'initialisation de la structure de gestionnaire de volumes multipropriétaire parce qu'une étape de reconfiguration a dépassé le délai d'attente. Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.

Solution : Pour obtenir des instructions sur la résolution du problème, reportez-vous à la section Récupération après un échec du démon vucmmd ou d'un composant associé.

Echec de démarrage du démon `vucmmd`

Le démon de structure de gestionnaire de volumes multipropriétaire, vucmmd, gère la reconfiguration de la structure de gestionnaire de volumes multipropriétaire. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'une fois tous les composants de la structure de gestionnaire de volumes multipropriétaire sont validés. Si la validation d'un composant sur un noeud échoue, le démon vucmmd ne parvient pas à démarrer sur le noeud.

Ce problème est généralement attribué aux raisons suivantes :

Une erreur s'est produite pendant la reconfiguration précédente d'un composant de la structure de gestionnaire de volumes multipropriétaire.
Le délai d'attente d'une étape dans une reconfiguration précédente de la structure de gestionnaire de volumes multipropriétaire a été dépassé, provoquant une erreur grave du noeud sur lequel le délai a été dépassé.

Pour obtenir des instructions sur la résolution du problème, reportez-vous à la section Récupération après un échec du démon vucmmd ou d'un composant associé.

Récupération après un échec du démon `vucmmd` ou d'un composant associé

Effectuez cette tâche pour corriger les problèmes décrits dans les sections suivantes :

Grave erreur de noeud au cours de l'initialisation de la structure de gestionnaire de volumes multipropriétaire
Echec de démarrage du démon vucmmd

Pour déterminer la cause du problème, examinez les fichiers journaux des reconfigurations de structure de gestionnaire de volumes multipropriétaire ainsi que le fichier de messages système.
Pour connaître l'emplacement des fichiers journaux des reconfigurations de structure de gestionnaire de volumes multipropriétaire, reportez-vous à la section Sources des informations de diagnostic.
Dans ces fichiers, commencez par examiner le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au manuel Oracle Solaris Cluster Error Messages Guide .
Corrigez le problème à l'origine de l'erreur renvoyée par le composant à la structure de gestionnaire de volumes multipropriétaire.
Par exemple :
- Si la licence pour VxVM est manquante ou a expiré, assurez-vous que VxVM est correctement installé et sous licence.
  1. Vérifiez que vous avez correctement installé les packages de votre gestionnaire de volumes.
  2. Si vous utilisez VxVM, vérifiez que vous avez installé le logiciel et que la licence pour la fonction cluster de VxVM est valide.
  Remarque - Un cluster de zones ne prend pas en charge VxVM.
- Si une étape de reconfiguration a dépassé le délai d'attente, augmentez la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape.
  Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.
Si la solution au problème nécessite une réinitialisation, réinitialisez le noeud sur lequel le problème s'est produit.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour plus d'informations sur la réinitialisation d'un noeud, reportez-vous à la section Fermeture et initialisation d’un nœud unique dans un cluster du manuel Guide d’administration système d’Oracle Solaris Cluster.
Sur le noeud où le problème s'est produit, faites passer le groupe de ressources de structure de gestionnaire de volumes multipropriétaire hors ligne puis en ligne.
Cette étape actualise le groupe de ressources avec les modifications apportées à la configuration.
1. Connectez-vous en tant que superutilisateur ou prenez un rôle octroyant l'autorisation RBAC solaris.cluster.admin.
2. Saisissez la commande pour faire passer en mode hors ligne le groupe de ressources de structure de gestionnaire de volumes multipropriétaire et ses ressources.
```
# clresourcegroup offline -n node vucmm-fmwk-rg
```
  -n node
  
  Spécifie le nom ou l'identificateur (ID) du noeud sur lequel le problème s'est produit.
  
  vucmm-fmwk-rg
  
  Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
3. Saisissez la commande pour faire passer en ligne et en mode de gestion le groupe de ressources de structure de gestionnaire de volumes multipropriétaire et ses ressources.
```
# clresourcegroup online -emM -n node vucmm-fmwk-rg
```

Echec de l'enregistrement de SUNW.qfs car le fichier d'enregistrement est introuvable

Les fichiers d'enregistrement de type de ressource Oracle Solaris Cluster se trouvent dans le répertoire /opt/cluster/lib/rgm/rtreg/ ou /usr/cluster/lib/rgm/rtreg/. Le fichier d'enregistrement du type de ressource SUNW.qfs se trouve dans le répertoire /opt/SUNWsamfs/sc/etc/.

Si le logiciel Oracle Solaris Cluster est déjà installé lorsque vous installez le logiciel Sun QFS, le mappage nécessaire au fichier d'enregistrement SUNW.qfs est automatiquement créé. Cependant, si le logicielOracle Solaris Cluster n'est pas installé lorsque vous installez le logiciel Sun QFS, le mappage nécessaire au fichier d'enregistrement SUNW.qfs n'est pas créé, même si le logiciel Sun Cluster est installé ultérieurement. Les tentatives d'enregistrement de la ressource SUNW.qfs échouent parce que le logiciel Oracle Solaris Cluster ne connaît pas l'emplacement de son fichier d'enregistrement.

Pour permettre au logiciel Oracle Solaris Cluster de localiser le type de ressource SUNW.qfs, créez un lien symbolique vers le répertoire suivant :

# cd /usr/cluster/lib/rgm/rtreg
# ln -s /opt/SUNWsamfs/sc/etc/SUNW.qfs SUNW.qfs

Grave erreur de noeud causée par un dépassement du délai d'attente

Le dépassement du délai d'attente lors d'une étape de reconfiguration de la Prise en charge d'Oracle RAC provoque une erreur grave du noeud sur lequel le délai a été dépassé.

Pour empêcher les étapes de reconfiguration de dépasser les délais d'attente, réglez les délais d'attente qui dépendent de votre configuration en cluster. Pour plus d'informations, reportez-vous à la section Instructions sur la définition des délais d'attente.

Si le délai d'attente d'une étape de reconfiguration a été dépassé, utilisez les commandes de maintenance d'Oracle Solaris Cluster pour augmenter la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape. Pour plus d'informations, reportez-vous à la section Annexe CPropriétés d'extension de la Prise en charge d'Oracle RAC.

Une fois que vous avez augmenté la valeur de la propriété d'extension, faites passer le groupe de ressources de structure Oracle RAC en ligne sur le noeud qui a subi l'erreur grave.

Echec du démarrage d'une ressource `SUNW.rac_framework` ou `SUNW.vucmm_framework`

Si une ressource SUNW.rac_framework ou SUNW.vucmm_framework ne parvient pas à démarrer, vérifiez l'état de la ressource pour déterminer la cause de la panne. Pour plus d'informations, reportez-vous à la section Vérification de l'état de la Prise en charge d'Oracle RAC.

L'état de la ressource dont le démarrage a échoué est affiché en tant que Start failed. Le message d'état associé indique la cause de l'échec du démarrage.

Cette section contient les informations suivantes :

Messages d'état en cas d'échec du démarrage de `SUNW.rac_framework`

Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.rac_framework :

Faulted - ucmmd is not running

Description : Le démon ucmmd n'est pas exécuté sur le noeud sur lequel se trouve la ressource.

Solution : Pour plus d'informations sur la résolution de ce problème, reportez-vous à la section Echec de démarrage du démon ucmmd.

Degraded - reconfiguration in progress

Description : L'UCMM est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de l'UCMM n'est pas terminée et que l'état endommagé de cette ressource persiste.

Origine : Si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de la Prise en charge d'Oracle RAC.

Solution : La solution à ce problème est différente selon que le message indique un problème ou non :

Si le message indique un problème, résolvez le problème en suivant les instructions détaillées de la section Récupération après un échec du démon ucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.

Online

Description : La reconfiguration d'Oracle RAC ne s'est pas terminée avant le dépassement du délai d'attente de la méthode START de la ressource SUNW.rac_framework.

Solution : Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération après le dépassement du délai d'attente de la méthode START.

Messages d'état en cas d'échec du démarrage de `SUNW.vucmm_framework`

Les messages d'état suivants sont associés à l'échec du redémarrage de la ressource SUNW.vucmm_framework :

Faulted - vucmmd is not running

Description : Le démon vucmmd n'est pas exécuté sur le noeud sur lequel se trouve la ressource.

Solution : Pour plus d'informations sur la résolution de ce problème, reportez-vous à la section Echec de démarrage du démon vucmmd.

Degraded - reconfiguration in progress

Description : La structure de gestionnaire de volumes multipropriétaire est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de la structure de gestionnaire de volumes multipropriétaire n'est pas terminée et que l'état endommagé de cette ressource persiste.

Origine : Si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de la structure de gestionnaire de volumes multipropriétaire.

Solution : La solution à ce problème est différente selon que le message indique un problème ou non :

Si le message indique un problème, résolvez le problème en suivant les instructions détaillées de la section Récupération après un échec du démon vucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.

Online

Description : La reconfiguration d'Oracle RAC ne s'est pas terminée avant le dépassement du délai d'attente de la méthode START de la ressource SUNW.vucmm_framework.

Solution : Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération après le dépassement du délai d'attente de la méthode START.

Récupération après le dépassement du délai d'attente de la méthode `START`

Connectez-vous en tant que superutilisateur ou prenez un rôle octroyant l'autorisation RBAC solaris.cluster.admin.
Sur le noeud où le délai d'attente de la méthode START a été dépassé, mettez hors ligne le groupe de ressources de structure dont le démarrage a échoué.
Pour effectuer cette opération, faites basculer les noeuds principaux du groupe de ressources vers les autres noeuds sur lesquels le groupe est en ligne.
```
# clresourcegroup offline -n nodelist resource-group
```
-n nodelist

Spécifie une liste délimitée par des virgules des autres noeuds du cluster sur lesquels resource-group est en ligne. Retirez de la liste le noeud sur lequel le délai d'attente de la méthode START a été dépassé.

resource-group

Spécifie le nom du groupe de ressources de structure.
Si votre configuration utilise à la fois un groupe de ressources de structure de gestionnaire de volumes multipropriétaire et un groupe de ressources de structure Oracle RAC, commencez par mettre le premier hors ligne. Dès que le groupe de ressources de structure de gestionnaire de volumes multipropriétaire est hors ligne, faites de même avec le groupe de ressources de structure Oracle RAC.
Si le groupe de ressources de structure Oracle RAC a été créé à l'aide de l'utilitaire clsetup, son nom est rac-framework-rg.
Sur tous les autres noeuds du cluster qui exécutent la Prise en charge d'Oracle RAC, mettez en ligne le groupe de ressources de structure qui n'est pas parvenu à passer en ligne.
```
# clresourcegroup online resource-group
```
resource-group

Spécifie que le groupe de ressources que vous avez passé hors ligne lors de l'Étape 2 doit être placé dans l'état MANAGED et mis en ligne.

Echec de l'arrêt d'une ressource

Si une ressource ne parvient pas à s'arrêter, résolvez ce problème en suivant les instructions détaillées de la section Clearing the STOP_FAILED Error Flag on Resources du manuel Oracle Solaris Cluster Data Services Planning and Administration Guide.

Ignorer les liens de navigation
Quitter l'aperu
	Guide du service de données Oracle Solaris Cluster pour Oracle Real Application Clusters Oracle Solaris Cluster 3.3 3/13 (Français)