Problèmes courants et leurs solutions

Les sous-sections qui suivent décrivent les problèmes qui peuvent affecter Prise en charge d'Oracle RAC. Chaque sous-section offre des informations sur la cause du problème et une solution pour y remédier.

Échec d'un groupe de ressources de structure RAC
Échec d'un groupe de ressources ayant recours à une structure de gestion de volumes multipropriétaires
Échec d'enregistrement de SUNW.qfs car le fichier d'enregistrement est introuvable
Grave erreur de nud causée par un dépassement de délai d'attente
Échec du démarrage d'une ressource SUNW.rac_framework ou SUNW.vucmm_framework
Messages d'état d'échec du démarrage de SUNW.rac_framework
Messages d'état d'échec du démarrage de SUNW.vucmm_framework
Récupération du dépassement du délai d'attente de la méthode de DÉMARRAGE
Échec de l'arrêt d'une ressource

Échec d'un groupe de ressources de structure RAC

Cette section décrit les problèmes qui peuvent affecter le groupe de ressources de structure RAC.

Grave erreur de nud au cours de l'initialisation de Prise en charge d'Oracle RAC
Échec du démarrage du démon ucmmd
Récupération d'un échec du démon ucmmd ou d'un composant associé

Grave erreur de nœud au cours de l'initialisation de Prise en charge d'Oracle RAC

Si une erreur fatale se produit au cours de l'initialisation de Prise en charge d'Oracle RAC, de graves erreurs de nœuds se produisent avec un message d'erreur similaire à celui qui suit :

panic[cpu0]/thread=40037e60: Failfast: abandon suite à l'arrêt de "ucmmd" il y a 30 secondes

Description : un composant contrôlé par l'UCMM renvoie une erreur à l'UCMM pendant une reconfiguration.

Origine : les causes les plus courantes de ce problème sont les suivantes :

SPARC : le package ORCLudlm contenant l'Oracle UDLM n'est pas installé.
SPARC : la version d'Oracle UDLM est incompatible avec la version de Prise en charge d'Oracle RAC.
SPARC : la quantité de mémoire partagée est insuffisante pour permettre le démarrage d'Oracle UDLM.

Une grave erreur de nœud peut également se produire pendant l'initialisation de Prise en charge d'Oracle RAC à cause de l'expiration du délai d'attente d'une étape de reconfiguration. Pour plus d'informations, reportez-vous à la section Grave erreur de n oelig ud causée par un dépassement de délai d'attente.

Solution : Pour obtenir des instructions sur la correction du problème, Récupération d'un échec du démon ucmmd ou d'un composant associé.

Remarque - Quand le nœud est un nœud votant de cluster global, une grave erreur de nœud bloque la machine toute entière. Quand le nœud est un nœud de cluster de zones, la grave erreur de nœud bloque uniquement cette zone et n'affecte pas les autres zones.

Échec du démarrage du démon `ucmmd`

Le démon UCMM, ucmmd, gère la reconfiguration de Prise en charge d'Oracle RAC. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'après la validation de tous les composants de Prise en charge d'Oracle RAC. Si la validation d'un composant sur un nœud échoue, le démon ucmmd ne parvient pas à démarrer sur le nœud.

Les causes les plus courantes de ce problème sont les suivantes :

SPARC : le package ORCLudlm contenant l'Oracle UDLM n'est pas installé.
Une erreur s'est produite pendant la reconfiguration précédente d'un composant de Prise en charge d'Oracle RAC.
Le délai d'attente d'une étape dans une reconfiguration précédente de Prise en charge d'Oracle RAC a expiré, provoquant une erreur grave du nœud sur lequel le délai dépassé s'est produit.

Pour obtenir des instructions sur la correction du problème, Récupération d'un échec du démon ucmmd ou d'un composant associé.

Récupération d'un échec du démon `ucmmd` ou d'un composant associé

Effectuez les tâches suivantes pour corriger les problèmes décrits dans les sections suivantes :

Grave erreur de nud au cours de l'initialisation de Prise en charge d'Oracle RAC
Échec du démarrage du démon ucmmd

Pour déterminer la cause du problème, examinez les fichiers journaux des reconfigurations UCMM et le fichier de messages système.
Pour connaître l'emplacement des fichiers journaux des reconfigurations UCMM, reportez-vous à Sources des informations de diagnostic.
Dans ces fichiers, commencez par le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au Oracle Solaris Cluster Error Messages Guide .
Corrigez le problème à l'origine de l'erreur renvoyée par le composant à l'UCMM.
Par exemple :
- SPARC : si votre version d'Oracle nécessite Oracle UDLM et que le package ORCLudlm contenant l'Oracle UDLM n'est pas installé, veuillez l'installer.
  Remarque - Oracle UDLM est nécessaire uniquement s'il est réellement utilisé.
  1. Assurez-vous d'avoir terminé toutes les procédures qui précèdent l'installation et la configuration du logiciel Oracle UDLM.
    Les procédures que vous devez effectuer sont répertoriées dans le Tableau 1-1.
  2. Veillez à ce que le logiciel Oracle UDLM soit correctement installé et configuré.
    Pour plus d'informations, reportez-vous à la section SPARC : Installation d'Oracle UDLM.
- SPARC : si la version de l'Oracle UDLM est incompatible avec la version de Prise en charge d'Oracle RAC, installez une version compatible du package.
  Pour plus d'informations, reportez-vous à la section SPARC : Installation d'Oracle UDLM.
- SPARC : si la quantité de mémoire partagée est insuffisante pour permettre le démarrage d'Oracle UDLM, augmentez la quantité de mémoire partagée.
  Pour plus d'informations, reportez-vous à la section Configuration d'une mémoire partagée Oracle RAC dans un cluster global.
- Si une étape de reconfiguration a dépassé le délai d'attente, augmentez la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape.
  Pour plus d'informations, reportez-vous à la section Grave erreur de nud causée par un dépassement de délai d'attente.
Si la solution au problème nécessite une réinitialisation, réinitialisez le nœud sur lequel le problème s'est produit.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour en savoir plus sur la réinitialisation d'un nœud, reportez à la section Fermeture et initialisation d’un nœud unique dans un cluster du Guide d’administration système d’Oracle Solaris Cluster.
Sur le nœud où le problème s'est produit, faites passer le groupe de ressources de structure RAC hors ligne puis en ligne.
Cette étape actualise le groupe de ressources avec les modifications de configuration que vous avez apportées.
1. Connectez-vous en tant que superutilisateur ou adoptez un rôle octroyant une autorisation RBAC de type solaris.cluster.admin.
2. Saisissez la commande pour faire passer le groupe de ressources de structure RAC et ses ressources hors ligne.
```
# clresourcegroup offline -n node rac-fmwk-rg
```
  -n node
  
  Spécifie le nom ou l'identificateur (ID) du nœud sur lequel le problème s'est produit.
  
  rac-fmwk-rg
  
  Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
3. Saisissez la commande pour faire passer le groupe de ressources de structure RAC et ses ressources en ligne et en mode de gestion.
```
# clresourcegroup online -emM -n node rac-fmwk-rg
```

Échec d'un groupe de ressources ayant recours à une structure de gestion de volumes multipropriétaires

Cette section décrit les problèmes qui peuvent affecter le groupe de ressources ayant recours à une structure de gestion de volumes multipropriétaires.

Grave erreur de nud au cours de l'initialisation d'une structure de gestion de volumes multipropriétaires
Échec du démarrage du démon vucmmd
Récupération d'un échec du démon vucmmd ou d'un composant associé

Grave erreur de nœud au cours de l'initialisation d'une structure de gestion de volumes multipropriétaires

Si une erreur fatale se produit au cours de l'initialisation de la structure de gestion de volumes multipropriétaires, de graves erreurs de nœuds se produisent avec un message d'erreur similaire à celui qui suit :

Remarque - Quand le nœud est un nœud votant de cluster global, une grave erreur de nœud bloque la machine toute entière.

panic[cpu0]/thread=40037e60: Failfast: abandon suite à l'arrêt de "vucmmd" il y a 30 secondes

Description : un composant contrôlé par la structure de gestion de volumes multipropriétaires renvoie une erreur à cette structure pendant une reconfiguration.

Origine : la cause la plus courante de ce problème est l'absence ou l'expiration de la licence pour Veritas Volume Manager (VxVM).

Une grave erreur de nœud peut également se produire pendant l'initialisation de la structure de gestion de volumes multipropriétaires à cause de l'expiration du délai d'attente d'une étape de reconfiguration. Pour plus d'informations, reportez-vous à la section Grave erreur de n oelig ud causée par un dépassement de délai d'attente.

Solution : pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération d'un échec du démon vucmmd ou d'un composant associé.

Échec du démarrage du démon `vucmmd`

Le démon de structure de gestion de volumes multipropriétaires, vucmmd, gère la reconfiguration de la structure de gestion de volumes multipropriétaires. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'après la validation de tous les composants de la structure de gestion de volumes multipropriétaires. Si la validation d'un composant sur un nœud échoue, le démon vucmmd ne parvient pas démarrer sur le nœud.

Les causes les plus courantes de ce problème sont les suivantes :

Une erreur s'est produite pendant la reconfiguration précédente d'un composant de la structure de gestion de volumes multipropriétaires.
Le délai d'attente d'une étape dans une reconfiguration précédente de la structure de gestion de volumes multipropriétaires a expiré, provoquant une erreur grave du nœud sur lequel le délai dépassé s'est produit.

Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération d'un échec du démon vucmmd ou d'un composant associé.

Récupération d'un échec du démon `vucmmd` ou d'un composant associé

Effectuez les tâches suivantes pour corriger les problèmes décrits dans les sections suivantes :

Grave erreur de nud au cours de l'initialisation d'une structure de gestion de volumes multipropriétaires
Échec du démarrage du démon vucmmd

Pour déterminer la cause du problème, examinez les fichiers journaux des reconfigurations structure de gestion de volumes multipropriétaires et le fichier de messages système.
Pour connaître l'emplacement des fichiers journaux des reconfigurations structure de gestion de volumes multipropriétaires, reportez-vous à Sources des informations de diagnostic.
Dans ces fichiers, commencez par le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au Oracle Solaris Cluster Error Messages Guide .
Corrigez le problème à l'origine de l'erreur renvoyée par le composant à la structure de gestion de volumes multipropriétaires.
Par exemple :
- Si la licence pour VxVM est manquante ou a expiré, vérifiez que VxVM est bien installé et sous licence.
  1. Vérifiez que vous avez correctement installé les packages du gestionnaire de volumes.
  2. Si vous utilisez VxVM, assurez-vous d'avoir également installé le logiciel et que la licence de la fonction de cluster VxVM est valide.
  Remarque - Un cluster de zones ne prend pas en charge VxVM.
- Si une étape de reconfiguration a dépassé le délai d'attente, augmentez la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape.
  Pour plus d'informations, reportez-vous à la section Grave erreur de nud causée par un dépassement de délai d'attente.
Si la solution au problème nécessite une réinitialisation, réinitialisez le nœud sur lequel le problème s'est produit.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour en savoir plus sur la réinitialisation d'un nœud, reportez à la section Fermeture et initialisation d’un nœud unique dans un cluster du Guide d’administration système d’Oracle Solaris Cluster.
Sur le nœud où le problème s'est produit, faites passer le groupe de ressources de structure de gestion de volumes multipropriétaires hors ligne puis en ligne.
Cette étape actualise le groupe de ressources avec les modifications de configuration que vous avez apportées.
1. Connectez-vous en tant que superutilisateur ou adoptez un rôle octroyant une autorisation RBAC de type solaris.cluster.admin.
2. Saisissez la commande pour faire passer le groupe de ressources de structure de gestion de volumes multipropriétaires et ses ressources hors ligne.
```
# clresourcegroup offline -n node vucmm-fmwk-rg
```
  -n node
  
  Spécifie le nom ou l'identificateur (ID) du nœud sur lequel le problème s'est produit.
  
  vucmm-fmwk-rg
  
  Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
3. Saisissez la commande pour faire passer le groupe de ressources de structure de gestion de volumes multipropriétaires et ses ressources en ligne et en mode de gestion.
```
# clresourcegroup online -emM -n node vucmm-fmwk-rg
```

Échec d'enregistrement de SUNW.qfs car le fichier d'enregistrement est introuvable

Les fichiers d'enregistrement de type de ressource Oracle Solaris Cluster sont situés dans le répertoire /opt/cluster/lib/rgm/rtreg/ ou /usr/cluster/lib/rgm/rtreg/. Le fichier d'enregistrement de type de ressource SUNW.qfs est situé dans le répertoire /opt/SUNWsamfs/sc/etc/.

Si le logiciel Oracle Solaris Cluster est déjà installé quand vous installez le logiciel Sun QFS, le mappage nécessaire vers le fichier d'enregistrement SUNW.qfs est créé automatiquement. Mais si le logiciel Oracle Solaris Cluster n'est pas installé quand vous installez le logiciel Sun QFS, le mappage nécessaire vers le fichier d'enregistrement SUNW.qfs n'est pas créé, même si le logiciel Sun Cluster est installé plus tard. Les tentatives d'enregistrement du type de ressource SUNW.qfs échouent donc car le logiciel Oracle Solaris Cluster ne connaît pas l'emplacement de son fichier d'enregistrement.

Pour permettre au logiciel Oracle Solaris Cluster de localiser le type de ressource SUNW.qfs, créez un lien symbolique vers le répertoire :

# cd /usr/cluster/lib/rgm/rtreg
# ln -s /opt/SUNWsamfs/sc/etc/SUNW.qfs SUNW.qfs

Grave erreur de nœud causée par un dépassement de délai d'attente

Le dépassement de délai d'attente d'une étape dans une reconfiguration de Prise en charge d'Oracle RAC provoque une erreur grave du nœud sur lequel le délai dépassé s'est produit.

Pour empêcher les étapes de reconfiguration de dépasser les délais d'attente, réglez les délais d'attente qui dépendent de votre configuration en cluster. Pour plus d'informations, reportez-vous à la section Directives de paramétrage des délais d'attente.

Si une étape de reconfiguration a dépassé le délai d'attente, servez-vous de la commande de maintenance de Oracle Solaris Cluster pour augmenter la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape. Pour plus d'informations, reportez-vous à l'Annexe CPropriétés d'extension de Prise en charge d'Oracle RAC.

Une fois que vous avez augmenté la valeur de la propriété d'extension, faites passer le groupe de ressources de structure RAC en ligne sur le nœud qui a subi l'erreur grave.

Échec du démarrage d'une ressource `SUNW.rac_framework` ou `SUNW.vucmm_framework`

Si une ressource SUNW.rac_framework ou SUNW.vucmm_framework échoue au démarrage, vérifiez l'état de la ressource pour déterminer la cause de l'échec. Pour plus d'informations, reportez-vous à la section Vérification de l'état de Prise en charge d'Oracle RAC.

L'état d'une ressource dont le démarrage a échoué est Start failed. Le message d'état associé indique la cause de l'échec du démarrage.

Cette section contient les informations suivantes :

Messages d'état d'échec du démarrage de `SUNW.rac_framework`

Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.rac_framework.

Faulted - ucmmd is not running

Description : le démon ucmmd n'est pas en cours d'exécution sur le nœud où la ressource se trouve.

Solution : pour plus d'informations sur la correction de ce problème, reportez-vous à la section Échec du démarrage du démon ucmmd.

Degraded - reconfiguration in progress

Description : l'UCMM est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de l'UCMM n'est pas terminée et que l'état de cette ressource reste constamment en état Degraded.

Origine : Si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de Prise en charge d'Oracle RAC.

Solution : la solution à ce problème dépend du fait que le message indique un problème ou non :

Si le message indique un problème, corrigez le problème en suivant les instructions données dans la section Récupération d'un échec du démon ucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.

Online

Description : la reconfiguration d'Oracle RAC ne s'est pas terminée avant l'expiration du délai d'attente de la méthode de START de la ressource SUNW.rac_framework.

Solution : pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération du dépassement du délai d'attente de la méthode de DÉMARRAGE.

Messages d'état d'échec du démarrage de `SUNW.vucmm_framework`

Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.vucmm_framework.

Faulted - vucmmd is not running

Description : le démon vucmmd n'est pas en cours d'exécution sur le nœud où la ressource se trouve.

Solution : pour plus d'informations sur la correction de ce problème, reportez-vous à la section Échec du démarrage du démon vucmmd.

Degraded - reconfiguration in progress

Description : la structure de gestion de volumes multipropriétaires est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de la structure de gestion de volumes multipropriétaires n'est pas terminée et que l'état de cette ressource reste constamment à l'atat Degraded.

Origine : si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de la structure de gestion de volumes multipropriétaires.

Solution : la solution à ce problème dépend du fait que le message indique un problème ou non :

Si le message indique un problème, corrigez le problème en suivant les instructions données dans la section Récupération d'un échec du démon vucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.

Online

Description : La reconfiguration d'Oracle RAC ne s'est pas terminée avant l'expiration du délai d'attente de la méthode de START de la ressource SUNW.vucmm_framework.

Solution : pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération du dépassement du délai d'attente de la méthode de DÉMARRAGE.

Récupération du dépassement du délai d'attente de la méthode de `DÉMARRAGE`

Connectez-vous en tant que superutilisateur ou adoptez un rôle octroyant une autorisation RBAC de type solaris.cluster.admin.
Sur le nœud où la méthode START a dépassé le délai d'attente, mettez hors ligne le groupe de ressources de structure dont le démarrage a échoué.
Pour effectuer cette opération, faites passer les nœuds principaux du groupe de ressources vers les autres nœuds où le groupe est en ligne.
```
# clresourcegroup offline -n nodelist resource-group
```
-n nodelist

Spécifie la liste séparée par des virgules des autres nœuds du cluster sur lesquels resource-group est en ligne. Retirez de la liste le nœud sur lequel la méthode START a dépassé le délai d'attente.

resource-group

Spécifie le nom du groupe de ressources de structure.
Si votre configuration utilise à la fois un groupe de ressources possédant une structure de gestion de volumes multipropriétaires et un groupe de ressources de structure RAC, commencez par faire passer le premier hors ligne. Quand le groupe de ressources possédant une structure de gestion de volumes multipropriétaires est hors ligne, faites de même avec le groupe de ressources de structure RAC.
Si le groupe de ressources RAC a été créé à l'aide de l'utilitaire clsetup, son nom est rac-framework-rg.
Sur tous les autres nœuds du cluster qui exécutent Prise en charge d'Oracle RAC, mettez en ligne le groupe de ressources de structure qui n'est pas parvenu à passer en ligne.
```
# clresourcegroup online resource-group
```
resource-group

Spécifie que le groupe de ressources que vous avez mis hors ligne à l'Étape 2 doit être placé en mode de GESTION et mis en ligne.

Échec de l'arrêt d'une ressource

Si l'arrêt d'une ressource échoue, corrigez ce problème en suivant les instructions données dans la section Clearing the STOP_FAILED Error Flag on Resources du Oracle Solaris Cluster Data Services Planning and Administration Guide.

Ignorer les liens de navigation
Quitter l'aperu
	Guide Service de données Oracle Solaris Cluster pour Oracle Real Application Clusters

Problèmes courants et leurs solutions

Échec d'un groupe de ressources de structure RAC

Grave erreur de nœud au cours de l'initialisation de Prise en charge d'Oracle RAC

Échec du démarrage du démon ucmmd

Récupération d'un échec du démon ucmmd ou d'un composant associé

Échec d'un groupe de ressources ayant recours à une structure de gestion de volumes multipropriétaires

Grave erreur de nœud au cours de l'initialisation d'une structure de gestion de volumes multipropriétaires

Échec du démarrage du démon vucmmd

Récupération d'un échec du démon vucmmd ou d'un composant associé