Ignorer les liens de navigation | |
Quitter l'aperu | |
![]() |
Guide Service de données Oracle Solaris Cluster pour Oracle Real Application Clusters |
1. Installation de Prise en charge d'Oracle RAC
2. Configuration du stockage des fichiers Oracle
3. Enregistrement et configuration des groupes de ressources
4. Exécution d'Oracle RAC dans un cluster
5. Administration de Prise en charge d'Oracle RAC
6. Dépannage de Prise en charge d'Oracle RAC
Vérification de l'état de Prise en charge d'Oracle RAC
Vérification de l'état de Prise en charge d'Oracle RAC
Exemples d'état de Prise en charge d'Oracle RAC
Sources des informations de diagnostic
Problèmes courants et leurs solutions
Échec d'un groupe de ressources de structure RAC
Grave erreur de nud au cours de l'initialisation de Prise en charge d'Oracle RAC
Échec du démarrage du démon ucmmd
Récupération d'un échec du démon ucmmd ou d'un composant associé
Échec du démarrage du démon vucmmd
Récupération d'un échec du démon vucmmd ou d'un composant associé
Échec d'enregistrement de SUNW.qfs car le fichier d'enregistrement est introuvable
Grave erreur de nud causée par un dépassement de délai d'attente
Échec du démarrage d'une ressource SUNW.rac_framework ou SUNW.vucmm_framework
Messages d'état d'échec du démarrage de SUNW.rac_framework
Messages d'état d'échec du démarrage de SUNW.vucmm_framework
Récupération du dépassement du délai d'attente de la méthode de DÉMARRAGE
7. Modification d'une configuration de Prise en charge d'Oracle RAC existante
8. Mise à niveau de Prise en charge d'Oracle RAC
A. Exemples de configuration de ce service de données
B. Actions prédéfinies des erreurs de SGBD et des alertes enregistrées
C. Propriétés d'extension de Prise en charge d'Oracle RAC
Les sous-sections qui suivent décrivent les problèmes qui peuvent affecter Prise en charge d'Oracle RAC. Chaque sous-section offre des informations sur la cause du problème et une solution pour y remédier.
Échec d'enregistrement de SUNW.qfs car le fichier d'enregistrement est introuvable
Grave erreur de nud causée par un dépassement de délai d'attente
Échec du démarrage d'une ressource SUNW.rac_framework ou SUNW.vucmm_framework
Messages d'état d'échec du démarrage de SUNW.vucmm_framework
Récupération du dépassement du délai d'attente de la méthode de DÉMARRAGE
Cette section décrit les problèmes qui peuvent affecter le groupe de ressources de structure RAC.
Grave erreur de nud au cours de l'initialisation de Prise en charge d'Oracle RAC
Récupération d'un échec du démon ucmmd ou d'un composant associé
Si une erreur fatale se produit au cours de l'initialisation de Prise en charge d'Oracle RAC, de graves erreurs de nœuds se produisent avec un message d'erreur similaire à celui qui suit :
panic[cpu0]/thread=40037e60: Failfast: abandon suite à l'arrêt de "ucmmd" il y a 30 secondes
Description : un composant contrôlé par l'UCMM renvoie une erreur à l'UCMM pendant une reconfiguration.
Origine : les causes les plus courantes de ce problème sont les suivantes :
SPARC : le package ORCLudlm contenant l'Oracle UDLM n'est pas installé.
SPARC : la version d'Oracle UDLM est incompatible avec la version de Prise en charge d'Oracle RAC.
SPARC : la quantité de mémoire partagée est insuffisante pour permettre le démarrage d'Oracle UDLM.
Une grave erreur de nœud peut également se produire pendant l'initialisation de
Prise en charge d'Oracle RAC à cause de l'expiration du délai d'attente
d'une étape de reconfiguration. Pour plus d'informations, reportez-vous à la section Grave erreur de nud causée par un dépassement de délai d'attente.
Solution : Pour obtenir des instructions sur la correction du problème, Récupération d'un échec du démon ucmmd ou d'un composant associé.
Remarque - Quand le nœud est un nœud votant de cluster global, une grave erreur de nœud bloque la machine toute entière. Quand le nœud est un nœud de cluster de zones, la grave erreur de nœud bloque uniquement cette zone et n'affecte pas les autres zones.
Le démon UCMM, ucmmd, gère la reconfiguration de Prise en charge d'Oracle RAC. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'après la validation de tous les composants de Prise en charge d'Oracle RAC. Si la validation d'un composant sur un nœud échoue, le démon ucmmd ne parvient pas à démarrer sur le nœud.
Les causes les plus courantes de ce problème sont les suivantes :
SPARC : le package ORCLudlm contenant l'Oracle UDLM n'est pas installé.
Une erreur s'est produite pendant la reconfiguration précédente d'un composant de Prise en charge d'Oracle RAC.
Le délai d'attente d'une étape dans une reconfiguration précédente de Prise en charge d'Oracle RAC a expiré, provoquant une erreur grave du nœud sur lequel le délai dépassé s'est produit.
Pour obtenir des instructions sur la correction du problème, Récupération d'un échec du démon ucmmd ou d'un composant associé.
Effectuez les tâches suivantes pour corriger les problèmes décrits dans les sections suivantes :
Pour connaître l'emplacement des fichiers journaux des reconfigurations UCMM, reportez-vous à Sources des informations de diagnostic.
Dans ces fichiers, commencez par le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au Oracle Solaris Cluster Error Messages Guide .
Par exemple :
Remarque - Oracle UDLM est nécessaire uniquement s'il est réellement utilisé.
Les procédures que vous devez effectuer sont répertoriées dans le Tableau 1-1.
Pour plus d'informations, reportez-vous à la section SPARC : Installation d'Oracle UDLM.
Pour plus d'informations, reportez-vous à la section SPARC : Installation d'Oracle UDLM.
Pour plus d'informations, reportez-vous à la section Configuration d'une mémoire partagée Oracle RAC dans un cluster global.
Pour plus d'informations, reportez-vous à la section Grave erreur de nud causée par un dépassement de délai d'attente.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour en savoir plus sur la réinitialisation d'un nœud, reportez à la section Fermeture et initialisation d’un nœud unique dans un cluster du Guide d’administration système d’Oracle Solaris Cluster.
Cette étape actualise le groupe de ressources avec les modifications de configuration que vous avez apportées.
# clresourcegroup offline -n node rac-fmwk-rg
Spécifie le nom ou l'identificateur (ID) du nœud sur lequel le problème s'est produit.
Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
# clresourcegroup online -emM -n node rac-fmwk-rg
Cette section décrit les problèmes qui peuvent affecter le groupe de ressources ayant recours à une structure de gestion de volumes multipropriétaires.
Si une erreur fatale se produit au cours de l'initialisation de la structure de gestion de volumes multipropriétaires, de graves erreurs de nœuds se produisent avec un message d'erreur similaire à celui qui suit :
Remarque - Quand le nœud est un nœud votant de cluster global, une grave erreur de nœud bloque la machine toute entière.
panic[cpu0]/thread=40037e60: Failfast: abandon suite à l'arrêt de "vucmmd" il y a 30 secondes
Description : un composant contrôlé par la structure de gestion de volumes multipropriétaires renvoie une erreur à cette structure pendant une reconfiguration.
Origine : la cause la plus courante de ce problème est l'absence ou l'expiration de la licence pour Veritas Volume Manager (VxVM).
Une grave erreur de nœud peut également se produire pendant l'initialisation de
la structure de gestion de volumes multipropriétaires à cause de l'expiration du
délai d'attente d'une étape de reconfiguration. Pour plus d'informations, reportez-vous à la
section Grave erreur de nud causée par un dépassement de délai d'attente.
Solution : pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération d'un échec du démon vucmmd ou d'un composant associé.
Le démon de structure de gestion de volumes multipropriétaires, vucmmd, gère la reconfiguration de la structure de gestion de volumes multipropriétaires. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'après la validation de tous les composants de la structure de gestion de volumes multipropriétaires. Si la validation d'un composant sur un nœud échoue, le démon vucmmd ne parvient pas démarrer sur le nœud.
Les causes les plus courantes de ce problème sont les suivantes :
Une erreur s'est produite pendant la reconfiguration précédente d'un composant de la structure de gestion de volumes multipropriétaires.
Le délai d'attente d'une étape dans une reconfiguration précédente de la structure de gestion de volumes multipropriétaires a expiré, provoquant une erreur grave du nœud sur lequel le délai dépassé s'est produit.
Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération d'un échec du démon vucmmd ou d'un composant associé.
Effectuez les tâches suivantes pour corriger les problèmes décrits dans les sections suivantes :
Pour connaître l'emplacement des fichiers journaux des reconfigurations structure de gestion de volumes multipropriétaires, reportez-vous à Sources des informations de diagnostic.
Dans ces fichiers, commencez par le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au Oracle Solaris Cluster Error Messages Guide .
Par exemple :
Remarque - Un cluster de zones ne prend pas en charge VxVM.
Pour plus d'informations, reportez-vous à la section Grave erreur de nud causée par un dépassement de délai d'attente.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour en savoir plus sur la réinitialisation d'un nœud, reportez à la section Fermeture et initialisation d’un nœud unique dans un cluster du Guide d’administration système d’Oracle Solaris Cluster.
Cette étape actualise le groupe de ressources avec les modifications de configuration que vous avez apportées.
# clresourcegroup offline -n node vucmm-fmwk-rg
Spécifie le nom ou l'identificateur (ID) du nœud sur lequel le problème s'est produit.
Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
# clresourcegroup online -emM -n node vucmm-fmwk-rg
Les fichiers d'enregistrement de type de ressource Oracle Solaris Cluster sont situés dans le répertoire /opt/cluster/lib/rgm/rtreg/ ou /usr/cluster/lib/rgm/rtreg/. Le fichier d'enregistrement de type de ressource SUNW.qfs est situé dans le répertoire /opt/SUNWsamfs/sc/etc/.
Si le logiciel Oracle Solaris Cluster est déjà installé quand vous installez le logiciel Sun QFS, le mappage nécessaire vers le fichier d'enregistrement SUNW.qfs est créé automatiquement. Mais si le logiciel Oracle Solaris Cluster n'est pas installé quand vous installez le logiciel Sun QFS, le mappage nécessaire vers le fichier d'enregistrement SUNW.qfs n'est pas créé, même si le logiciel Sun Cluster est installé plus tard. Les tentatives d'enregistrement du type de ressource SUNW.qfs échouent donc car le logiciel Oracle Solaris Cluster ne connaît pas l'emplacement de son fichier d'enregistrement.
Pour permettre au logiciel Oracle Solaris Cluster de localiser le type de ressource SUNW.qfs, créez un lien symbolique vers le répertoire :
# cd /usr/cluster/lib/rgm/rtreg # ln -s /opt/SUNWsamfs/sc/etc/SUNW.qfs SUNW.qfs
Le dépassement de délai d'attente d'une étape dans une reconfiguration de Prise en charge d'Oracle RAC provoque une erreur grave du nœud sur lequel le délai dépassé s'est produit.
Pour empêcher les étapes de reconfiguration de dépasser les délais d'attente, réglez les délais d'attente qui dépendent de votre configuration en cluster. Pour plus d'informations, reportez-vous à la section Directives de paramétrage des délais d'attente.
Si une étape de reconfiguration a dépassé le délai d'attente, servez-vous de la commande de maintenance de Oracle Solaris Cluster pour augmenter la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape. Pour plus d'informations, reportez-vous à l'Annexe CPropriétés d'extension de Prise en charge d'Oracle RAC.
Une fois que vous avez augmenté la valeur de la propriété d'extension, faites passer le groupe de ressources de structure RAC en ligne sur le nœud qui a subi l'erreur grave.
Si une ressource SUNW.rac_framework ou SUNW.vucmm_framework échoue au démarrage, vérifiez l'état de la ressource pour déterminer la cause de l'échec. Pour plus d'informations, reportez-vous à la section Vérification de l'état de Prise en charge d'Oracle RAC.
L'état d'une ressource dont le démarrage a échoué est Start failed. Le message d'état associé indique la cause de l'échec du démarrage.
Cette section contient les informations suivantes :
Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.rac_framework.
Faulted - ucmmd is not running
Description : le démon ucmmd n'est pas en cours d'exécution sur le nœud où la ressource se trouve.
Solution : pour plus d'informations sur la correction de ce problème, reportez-vous à la section Échec du démarrage du démon ucmmd.
Degraded - reconfiguration in progress
Description : l'UCMM est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de l'UCMM n'est pas terminée et que l'état de cette ressource reste constamment en état Degraded.
Origine : Si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de Prise en charge d'Oracle RAC.
Solution : la solution à ce problème dépend du fait que le message indique un problème ou non :
Si le message indique un problème, corrigez le problème en suivant les instructions données dans la section Récupération d'un échec du démon ucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.
Description : la reconfiguration d'Oracle RAC ne s'est pas terminée avant l'expiration du délai d'attente de la méthode de START de la ressource SUNW.rac_framework.
Solution : pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération du dépassement du délai d'attente de la méthode de DÉMARRAGE.
Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.vucmm_framework.
Faulted - vucmmd is not running
Description : le démon vucmmd n'est pas en cours d'exécution sur le nœud où la ressource se trouve.
Solution : pour plus d'informations sur la correction de ce problème, reportez-vous à la section Échec du démarrage du démon vucmmd.
Degraded - reconfiguration in progress
Description : la structure de gestion de volumes multipropriétaires est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de la structure de gestion de volumes multipropriétaires n'est pas terminée et que l'état de cette ressource reste constamment à l'atat Degraded.
Origine : si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de la structure de gestion de volumes multipropriétaires.
Solution : la solution à ce problème dépend du fait que le message indique un problème ou non :
Si le message indique un problème, corrigez le problème en suivant les instructions données dans la section Récupération d'un échec du démon vucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.
Description : La reconfiguration d'Oracle RAC ne s'est pas terminée avant l'expiration du délai d'attente de la méthode de START de la ressource SUNW.vucmm_framework.
Solution : pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération du dépassement du délai d'attente de la méthode de DÉMARRAGE.
Pour effectuer cette opération, faites passer les nœuds principaux du groupe de ressources vers les autres nœuds où le groupe est en ligne.
# clresourcegroup offline -n nodelist resource-group
Spécifie la liste séparée par des virgules des autres nœuds du cluster sur lesquels resource-group est en ligne. Retirez de la liste le nœud sur lequel la méthode START a dépassé le délai d'attente.
Spécifie le nom du groupe de ressources de structure.
Si votre configuration utilise à la fois un groupe de ressources possédant une structure de gestion de volumes multipropriétaires et un groupe de ressources de structure RAC, commencez par faire passer le premier hors ligne. Quand le groupe de ressources possédant une structure de gestion de volumes multipropriétaires est hors ligne, faites de même avec le groupe de ressources de structure RAC.
Si le groupe de ressources RAC a été créé à l'aide de l'utilitaire clsetup, son nom est rac-framework-rg.
# clresourcegroup online resource-group
Spécifie que le groupe de ressources que vous avez mis hors ligne à l'Étape 2 doit être placé en mode de GESTION et mis en ligne.
Si l'arrêt d'une ressource échoue, corrigez ce problème en suivant les instructions données dans la section Clearing the STOP_FAILED Error Flag on Resources du Oracle Solaris Cluster Data Services Planning and Administration Guide.