Problèmes courants et leurs solutions

Les sous-sections qui suivent décrivent les problèmes qui peuvent avoir une incidence sur la Prise en charge d'Oracle RAC. Chaque sous-section offre des informations sur la cause du problème et une solution au problème.

Echec d'un groupe de ressources possédant une structure Oracle RAC
Panne d'un groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire
Grave erreur de noeud causée par un dépassement du délai d'attente
Echec du démarrage d'une ressource SUNW.rac_framework ou SUNW.vucmm_framework
Messages d'état en cas d'échec du démarrage de SUNW.rac_framework
Messages d'état en cas d'échec du démarrage de SUNW.vucmm_framework
Récupération du dépassement du délai d'attente de la méthode START
Echec de l'arrêt d'une ressource

Echec d'un groupe de ressources possédant une structure Oracle RAC

Cette section décrit les problèmes qui peuvent avoir une incidence sur le groupe de ressources possédant une structure Oracle RAC.

Grave erreur de noeud lors de l'initialisation de la Prise en charge d'Oracle RAC
Echec de démarrage du démon ucmmd
Récupération après un échec du démon ucmmd ou d'un composant associé

Grave erreur de noeud lors de l'initialisation de la Prise en charge d'Oracle RAC

Si une erreur fatale survient au cours de l'initialisation de la Prise en charge d'Oracle RAC, de graves erreurs de noeuds se produisent avec un message d'erreur similaire à celui qui suit :

panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago

Description : un composant contrôlé par l'UCMM renvoie une erreur à l'UCMM pendant une reconfiguration.

Origine : ce problème est généralement attribué aux raisons suivantes :

Une grave erreur de noeud peut également se produire pendant l'initialisation de la Prise en charge d'Oracle RAC parce qu'une étape de reconfiguration a dépassé le délai d'attente. Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.

Solution : pour obtenir des instructions sur la résolution du problème, reportez-vous à la section Récupération après un échec du démon ucmmd ou d'un composant associé.

Remarque - Quand le noeud est un noeud votant de cluster global, une grave erreur de noeud bloque la machine tout entière. Quand le noeud est un noeud de cluster de zones, la grave erreur de noeud bloque uniquement cette zone et n'affecte pas les autres zones.

Echec de démarrage du démon `ucmmd`

Le démon de l'UCMM, ucmmd, gère la reconfiguration de la Prise en charge d'Oracle RAC. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'après la validation de tous les composants de la Prise en charge d'Oracle RAC. Si la validation d'un composant sur un noeud échoue, le démon ucmmd ne parvient pas à démarrer sur le noeud.

Ce problème est généralement attribué aux raisons suivantes :

Une erreur s'est produite pendant la reconfiguration précédente d'un composant de la Prise en charge d'Oracle RAC.
Le délai d'attente d'une étape dans une reconfiguration précédente de la Prise en charge d'Oracle RAC a été dépassé, provoquant une erreur grave du noeud sur lequel le délai a été dépassé.

Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération après un échec du démon ucmmd ou d'un composant associé.

Récupération après un échec du démon `ucmmd` ou d'un composant associé

Effectuez cette tâche pour corriger les problèmes décrits dans les sections suivantes :

Grave erreur de noeud lors de l'initialisation de la Prise en charge d'Oracle RAC
Echec de démarrage du démon ucmmd

Pour déterminer la cause du problème, examinez les fichiers journaux des reconfigurations UCMM et le fichier de messages système.
Pour connaître l'emplacement des fichiers journaux des reconfigurations UCMM, reportez-vous à la section Sources des informations de diagnostic.
Dans ces fichiers, commencez par examiner le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfiguration, reportez-vous au manuel Oracle Solaris Cluster Error Messages Guide.
Corrigez le problème à l'origine de l'erreur renvoyée par le composant à l'UCMM.
Par exemple :
- Si une étape de reconfiguration a dépassé le délai d'attente, augmentez la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape.
  Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.
Si la solution au problème nécessite une réinitialisation, réinitialisez le noeud sur lequel le problème s'est produit.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour plus d'informations sur la réinitialisation d'un noeud, reportez-vous à la section Fermeture et initialisation d’un nœud unique dans un cluster du manuel Guide d’administration système d’Oracle Solaris Cluster.
Sur le noeud où le problème s'est produit, faites passer le groupe de ressources possédant une structure Oracle RAC hors ligne, puis en ligne.
Cette étape actualise le groupe de ressources avec les modifications apportées à la configuration.
1. Connectez-vous en tant que superutilisateur ou adoptez un rôle octroyant une autorisation RBAC de type solaris.cluster.admin.
2. Saisissez la commande pour faire passer le groupe de ressources possédant une structure Oracle RAC et ses ressources hors ligne.
```
# clresourcegroup offline -n node rac-fmwk-rg
```
  -n node
  
  Spécifie le nom ou l'identificateur (ID) du noeud sur lequel le problème s'est produit.
  
  rac-fmwk-rg
  
  Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
3. Saisissez la commande pour faire passer le groupe de ressources possédant une structure Oracle RAC et ses ressources en ligne et en mode de gestion.
```
# clresourcegroup online -emM -n node rac-fmwk-rg
```

Panne d'un groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire

Cette section décrit les problèmes qui peuvent affecter le groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire.

Grave erreur de noeud au cours de l'initialisation de la structure de gestionnaire de volumes multipropriétaire
Echec de démarrage du démon vucmmd
Récupération après un échec du démon vucmmd ou d'un composant associé

Grave erreur de noeud au cours de l'initialisation de la structure de gestionnaire de volumes multipropriétaire

Si une erreur fatale survient lors de l'initialisation de la structure de gestionnaire de volumes multipropriétaire, de graves erreurs de noeuds se produisent avec un message d'erreur similaire à celui qui suit :

Remarque - Quand le noeud est un noeud votant de cluster global, une grave erreur de noeud bloque la machine tout entière.

Echec de démarrage du démon `vucmmd`

Le démon de structure de gestionnaire de volumes multipropriétaire, vucmmd, gère la reconfiguration de la structure de gestionnaire de volumes multipropriétaire. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'une fois tous les composants de la structure de gestionnaire de volumes multipropriétaire sont validés. Si la validation d'un composant sur un noeud échoue, le démon vucmmd ne parvient pas à démarrer sur le noeud.

Ce problème est généralement attribué aux raisons suivantes :

Une erreur s'est produite pendant la reconfiguration précédente d'un composant de la structure de gestionnaire de volumes multipropriétaire.
Le délai d'attente d'une étape dans une reconfiguration précédente de la structure de gestionnaire de volumes multipropriétaire a été dépassé, provoquant une erreur grave du noeud sur lequel le délai a été dépassé.

Pour obtenir des instructions sur la résolution du problème, reportez-vous à la section Récupération après un échec du démon vucmmd ou d'un composant associé.

Récupération après un échec du démon `vucmmd` ou d'un composant associé

Effectuez cette tâche pour corriger les problèmes décrits dans les sections suivantes :

Grave erreur de noeud au cours de l'initialisation de la structure de gestionnaire de volumes multipropriétaire
Echec de démarrage du démon vucmmd

Pour déterminer la cause du problème, examinez les fichiers journaux des reconfigurations de structure de gestionnaire de volumes multipropriétaire ainsi que le fichier de messages système.
Pour connaître l'emplacement des fichiers journaux des reconfigurations de structure de gestionnaire de volumes multipropriétaire, reportez-vous à la section Sources des informations de diagnostic.
Dans ces fichiers, commencez par examiner le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au manuel Oracle Solaris Cluster Error Messages Guide .
Corrigez le problème à l'origine de l'erreur renvoyée par le composant à la structure de gestionnaire de volumes multipropriétaire.
Si la solution au problème nécessite une réinitialisation, réinitialisez le noeud sur lequel le problème s'est produit.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour plus d'informations sur la réinitialisation d'un noeud, reportez-vous à la section Fermeture et initialisation d’un nœud unique dans un cluster du manuel Guide d’administration système d’Oracle Solaris Cluster.
Sur le noeud où le problème s'est produit, faites passer le groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire hors ligne puis en ligne.
Cette étape actualise le groupe de ressources avec les modifications apportées à la configuration.
1. Connectez-vous en tant que superutilisateur ou adoptez un rôle octroyant une autorisation RBAC de type solaris.cluster.admin.
2. Saisissez la commande pour faire passer en mode hors ligne le groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire et ses ressources.
```
# clresourcegroup offline -n node vucmm-fmwk-rg
```
  -n node
  
  Spécifie le nom ou l'identificateur (ID) du noeud sur lequel le problème s'est produit.
  
  vucmm-fmwk-rg
  
  Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
3. Saisissez la commande pour faire passer en ligne et en mode de gestion le groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire et ses ressources.
```
# clresourcegroup online -emM -n node vucmm-fmwk-rg
```

Grave erreur de noeud causée par un dépassement du délai d'attente

Le dépassement du délai d'attente lors d'une étape de reconfiguration de la Prise en charge d'Oracle RAC provoque une erreur grave du noeud sur lequel le délai a été dépassé.

Pour empêcher les étapes de reconfiguration de dépasser les délais d'attente, réglez les délais d'attente qui dépendent de votre configuration en cluster. Pour plus d'informations, reportez-vous à la section Instructions sur la définition des délais d'attente.

Si le délai d'attente d'une étape de reconfiguration a été dépassé, utilisez les commandes de maintenance d'Oracle Solaris Cluster pour augmenter la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape. Pour plus d'informations, reportez-vous à la section Annexe CPropriétés d'extension de la Prise en charge d'Oracle RAC.

Une fois que vous avez augmenté la valeur de la propriété d'extension, faites passer le groupe de ressources possédant une structure Oracle RAC en ligne sur le noeud qui a subi l'erreur grave.

Echec du démarrage d'une ressource `SUNW.rac_framework` ou `SUNW.vucmm_framework`

Si une ressource SUNW.rac_framework ou SUNW.vucmm_framework échoue au démarrage, vérifiez son état pour déterminer la cause de l'échec. Pour plus d'informations, reportez-vous à la section Vérification de l'état de la Prise en charge d'Oracle RAC.

L'état d'une ressource dont le démarrage a échoué est Start failed. Le message d'état associé indique la cause de l'échec du démarrage.

Cette section contient les informations suivantes :

Messages d'état en cas d'échec du démarrage de `SUNW.rac_framework`

Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.rac_framework :

Faulted - ucmmd is not running

Description : Le démon ucmmd ne s'exécute pas sur le noeud sur lequel réside la ressource.

Solution : Pour plus d'informations sur la résolution de ce problème, reportez-vous à la section Echec de démarrage du démon ucmmd.

Degraded - reconfiguration in progress

Description : L'UCMM est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de l'UCMM n'est pas terminée et que l'état endommagé de cette ressource persiste.

Origine : Si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de la Prise en charge d'Oracle RAC.

Solution : La solution à ce problème est différente selon que le message indique un problème ou non :

Si le message indique un problème, résolvez le problème en suivant les instructions détaillées de la section Récupération après un échec du démon ucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.

Online

Description : La reconfiguration d'Oracle RAC ne s'est pas terminée avant la fin du délai d'attente de la méthode START de la ressource SUNW.rac_framework.

Solution : Pour obtenir des instructions sur la résolution du problème, reportez-vous à la section Récupération du dépassement du délai d'attente de la méthode START.

Messages d'état en cas d'échec du démarrage de `SUNW.vucmm_framework`

Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.vucmm_framework :

Faulted - vucmmd is not running

Description : Le démon vucmmd ne s'exécute pas sur le noeud sur lequel réside la ressource.

Solution : Pour plus d'informations sur la résolution de ce problème, reportez-vous à la section Echec de démarrage du démon vucmmd.

Degraded - reconfiguration in progress

Description : La structure de gestionnaire de volumes multipropriétaire est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de la structure de gestionnaire de volumes multipropriétaire n'est pas terminée et que l'état endommagé de cette ressource persiste.

Origine : Si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de la structure de gestionnaire de volumes multipropriétaire.

Solution : La solution à ce problème est différente selon que le message indique un problème ou non :

Si le message indique un problème, résolvez le problème en suivant les instructions détaillées de la section Récupération après un échec du démon vucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.

Online

Description : La reconfiguration d'Oracle RAC ne s'est pas terminée avant la fin du délai d'attente de la méthode START de la ressource SUNW.vucmm_framework.

Solution : Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération du dépassement du délai d'attente de la méthode START.

Récupération du dépassement du délai d'attente de la méthode `START`

Connectez-vous en tant que superutilisateur ou adoptez un rôle octroyant une autorisation RBAC de type solaris.cluster.admin.
Sur le noeud où le délai d'attente de la méthode START a été dépassé, mettez hors ligne le groupe de ressources de structure dont le démarrage a échoué.
Pour effectuer cette opération, faites basculer les noeuds principaux du groupe de ressources vers les autres noeuds sur lesquels le groupe est en ligne.
```
# clresourcegroup offline -n nodelist resource-group
```
-n nodelist

Spécifie une liste des autres noeuds du cluster, séparés par des virgules, sur lesquels resource-group est en ligne. Retirez de la liste le noeud sur lequel le délai d'attente de la méthode START a été dépassé.

resource-group

Spécifie le nom du groupe de ressources de structure.
Si votre configuration utilise à la fois un groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire et un groupe de ressources possédant une structure Oracle RAC, commencez par mettre le premier hors ligne. Dès que le groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire est hors ligne, faites de même avec le groupe de ressources possédant une structure Oracle RAC.
Si le groupe de ressources Oracle RAC a été créé à l'aide de l'utilitaire clsetup, son nom est rac-framework-rg.
Sur tous les autres noeuds du cluster qui exécutent la Prise en charge d'Oracle RAC, mettez en ligne le groupe de ressources de structure qui n'est pas parvenu à passer en ligne.
```
# clresourcegroup online resource-group
```
resource-group

Spécifie que le groupe de ressources que vous avez passé hors ligne lors de l'Étape 2 doit être placé dans l'état MANAGED et mis en ligne.

Echec de l'arrêt d'une ressource

Si une ressource ne parvient pas à s'arrêter, résolvez ce problème en suivant les instructions détaillées de la section Clearing the STOP_FAILED Error Flag on Resources du manuel Oracle Solaris Cluster Data Services Planning and Administration Guide.

Ignorer les liens de navigation
Quitter l'aperu
	Guide du service de données Oracle Solaris Cluster pour Oracle Real Application Clusters Oracle Solaris Cluster 4.0 (Français)