Ignorer les liens de navigation | |
Quitter l'aperu | |
Guide du service de données Oracle Solaris Cluster pour Oracle Real Application Clusters Oracle Solaris Cluster 4.0 (Français) |
1. Installation de la Prise en charge d'Oracle RAC
2. Configuration du stockage des fichiers Oracle
3. Enregistrement et configuration des groupes de ressources
4. Exécution d'Oracle RAC dans un cluster
5. Administration de la Prise en charge d'Oracle RAC
6. Dépannage de la Prise en charge d'Oracle RAC
Vérification de l'état de la Prise en charge d'Oracle RAC
Vérification de l'état de la Prise en charge d'Oracle RAC
Sources des informations de diagnostic
Problèmes courants et leurs solutions
Echec d'un groupe de ressources possédant une structure Oracle RAC
Grave erreur de noeud lors de l'initialisation de la Prise en charge d'Oracle RAC
Echec de démarrage du démon ucmmd
Récupération après un échec du démon ucmmd ou d'un composant associé
Panne d'un groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire
Echec de démarrage du démon vucmmd
Récupération après un échec du démon vucmmd ou d'un composant associé
Grave erreur de noeud causée par un dépassement du délai d'attente
Echec du démarrage d'une ressource SUNW.rac_framework ou SUNW.vucmm_framework
Messages d'état en cas d'échec du démarrage de SUNW.rac_framework
Messages d'état en cas d'échec du démarrage de SUNW.vucmm_framework
Récupération du dépassement du délai d'attente de la méthode START
7. Modification d'une configuration existante de la Prise en charge d'Oracle RAC
A. Exemples de configuration de ce service de données
B. Actions prédéfinies pour les erreurs SGBD et les alertes journalisées
C. Propriétés d'extension de la Prise en charge d'Oracle RAC
Les sous-sections qui suivent décrivent les problèmes qui peuvent avoir une incidence sur la Prise en charge d'Oracle RAC. Chaque sous-section offre des informations sur la cause du problème et une solution au problème.
Echec d'un groupe de ressources possédant une structure Oracle RAC
Panne d'un groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire
Grave erreur de noeud causée par un dépassement du délai d'attente
Echec du démarrage d'une ressource SUNW.rac_framework ou SUNW.vucmm_framework
Messages d'état en cas d'échec du démarrage de SUNW.rac_framework
Messages d'état en cas d'échec du démarrage de SUNW.vucmm_framework
Récupération du dépassement du délai d'attente de la méthode START
Cette section décrit les problèmes qui peuvent avoir une incidence sur le groupe de ressources possédant une structure Oracle RAC.
Grave erreur de noeud lors de l'initialisation de la Prise en charge d'Oracle RAC
Récupération après un échec du démon ucmmd ou d'un composant associé
Si une erreur fatale survient au cours de l'initialisation de la Prise en charge d'Oracle RAC, de graves erreurs de noeuds se produisent avec un message d'erreur similaire à celui qui suit :
panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago
Description : un composant contrôlé par l'UCMM renvoie une erreur à l'UCMM pendant une reconfiguration.
Origine : ce problème est généralement attribué aux raisons suivantes :
Une grave erreur de noeud peut également se produire pendant l'initialisation de la Prise en charge d'Oracle RAC parce qu'une étape de reconfiguration a dépassé le délai d'attente. Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.
Solution : pour obtenir des instructions sur la résolution du problème, reportez-vous à la section Récupération après un échec du démon ucmmd ou d'un composant associé.
Remarque - Quand le noeud est un noeud votant de cluster global, une grave erreur de noeud bloque la machine tout entière. Quand le noeud est un noeud de cluster de zones, la grave erreur de noeud bloque uniquement cette zone et n'affecte pas les autres zones.
Le démon de l'UCMM, ucmmd, gère la reconfiguration de la Prise en charge d'Oracle RAC. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'après la validation de tous les composants de la Prise en charge d'Oracle RAC. Si la validation d'un composant sur un noeud échoue, le démon ucmmd ne parvient pas à démarrer sur le noeud.
Ce problème est généralement attribué aux raisons suivantes :
Une erreur s'est produite pendant la reconfiguration précédente d'un composant de la Prise en charge d'Oracle RAC.
Le délai d'attente d'une étape dans une reconfiguration précédente de la Prise en charge d'Oracle RAC a été dépassé, provoquant une erreur grave du noeud sur lequel le délai a été dépassé.
Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération après un échec du démon ucmmd ou d'un composant associé.
Effectuez cette tâche pour corriger les problèmes décrits dans les sections suivantes :
Pour connaître l'emplacement des fichiers journaux des reconfigurations UCMM, reportez-vous à la section Sources des informations de diagnostic.
Dans ces fichiers, commencez par examiner le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfiguration, reportez-vous au manuel Oracle Solaris Cluster Error Messages Guide.
Par exemple :
Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour plus d'informations sur la réinitialisation d'un noeud, reportez-vous à la section Fermeture et initialisation d’un nœud unique dans un cluster du manuel Guide d’administration système d’Oracle Solaris Cluster.
Cette étape actualise le groupe de ressources avec les modifications apportées à la configuration.
# clresourcegroup offline -n node rac-fmwk-rg
Spécifie le nom ou l'identificateur (ID) du noeud sur lequel le problème s'est produit.
Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
# clresourcegroup online -emM -n node rac-fmwk-rg
Cette section décrit les problèmes qui peuvent affecter le groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire.
Si une erreur fatale survient lors de l'initialisation de la structure de gestionnaire de volumes multipropriétaire, de graves erreurs de noeuds se produisent avec un message d'erreur similaire à celui qui suit :
Remarque - Quand le noeud est un noeud votant de cluster global, une grave erreur de noeud bloque la machine tout entière.
Le démon de structure de gestionnaire de volumes multipropriétaire, vucmmd, gère la reconfiguration de la structure de gestionnaire de volumes multipropriétaire. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'une fois tous les composants de la structure de gestionnaire de volumes multipropriétaire sont validés. Si la validation d'un composant sur un noeud échoue, le démon vucmmd ne parvient pas à démarrer sur le noeud.
Ce problème est généralement attribué aux raisons suivantes :
Une erreur s'est produite pendant la reconfiguration précédente d'un composant de la structure de gestionnaire de volumes multipropriétaire.
Le délai d'attente d'une étape dans une reconfiguration précédente de la structure de gestionnaire de volumes multipropriétaire a été dépassé, provoquant une erreur grave du noeud sur lequel le délai a été dépassé.
Pour obtenir des instructions sur la résolution du problème, reportez-vous à la section Récupération après un échec du démon vucmmd ou d'un composant associé.
Effectuez cette tâche pour corriger les problèmes décrits dans les sections suivantes :
Pour connaître l'emplacement des fichiers journaux des reconfigurations de structure de gestionnaire de volumes multipropriétaire, reportez-vous à la section Sources des informations de diagnostic.
Dans ces fichiers, commencez par examiner le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.
Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au manuel Oracle Solaris Cluster Error Messages Guide .
Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.
Pour plus d'informations sur la réinitialisation d'un noeud, reportez-vous à la section Fermeture et initialisation d’un nœud unique dans un cluster du manuel Guide d’administration système d’Oracle Solaris Cluster.
Cette étape actualise le groupe de ressources avec les modifications apportées à la configuration.
# clresourcegroup offline -n node vucmm-fmwk-rg
Spécifie le nom ou l'identificateur (ID) du noeud sur lequel le problème s'est produit.
Spécifie le nom du groupe de ressources qui doit être mis hors ligne.
# clresourcegroup online -emM -n node vucmm-fmwk-rg
Le dépassement du délai d'attente lors d'une étape de reconfiguration de la Prise en charge d'Oracle RAC provoque une erreur grave du noeud sur lequel le délai a été dépassé.
Pour empêcher les étapes de reconfiguration de dépasser les délais d'attente, réglez les délais d'attente qui dépendent de votre configuration en cluster. Pour plus d'informations, reportez-vous à la section Instructions sur la définition des délais d'attente.
Si le délai d'attente d'une étape de reconfiguration a été dépassé, utilisez les commandes de maintenance d'Oracle Solaris Cluster pour augmenter la valeur de la propriété d'extension qui spécifie le délai d'attente de cette étape. Pour plus d'informations, reportez-vous à la section Annexe CPropriétés d'extension de la Prise en charge d'Oracle RAC.
Une fois que vous avez augmenté la valeur de la propriété d'extension, faites passer le groupe de ressources possédant une structure Oracle RAC en ligne sur le noeud qui a subi l'erreur grave.
Si une ressource SUNW.rac_framework ou SUNW.vucmm_framework échoue au démarrage, vérifiez son état pour déterminer la cause de l'échec. Pour plus d'informations, reportez-vous à la section Vérification de l'état de la Prise en charge d'Oracle RAC.
L'état d'une ressource dont le démarrage a échoué est Start failed. Le message d'état associé indique la cause de l'échec du démarrage.
Cette section contient les informations suivantes :
Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.rac_framework :
Faulted - ucmmd is not running
Description : Le démon ucmmd ne s'exécute pas sur le noeud sur lequel réside la ressource.
Solution : Pour plus d'informations sur la résolution de ce problème, reportez-vous à la section Echec de démarrage du démon ucmmd.
Degraded - reconfiguration in progress
Description : L'UCMM est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de l'UCMM n'est pas terminée et que l'état endommagé de cette ressource persiste.
Origine : Si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de la Prise en charge d'Oracle RAC.
Solution : La solution à ce problème est différente selon que le message indique un problème ou non :
Si le message indique un problème, résolvez le problème en suivant les instructions détaillées de la section Récupération après un échec du démon ucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.
Description : La reconfiguration d'Oracle RAC ne s'est pas terminée avant la fin du délai d'attente de la méthode START de la ressource SUNW.rac_framework.
Solution : Pour obtenir des instructions sur la résolution du problème, reportez-vous à la section Récupération du dépassement du délai d'attente de la méthode START.
Les messages d'état suivants sont associés à l'échec de démarrage d'une ressource SUNW.vucmm_framework :
Faulted - vucmmd is not running
Description : Le démon vucmmd ne s'exécute pas sur le noeud sur lequel réside la ressource.
Solution : Pour plus d'informations sur la résolution de ce problème, reportez-vous à la section Echec de démarrage du démon vucmmd.
Degraded - reconfiguration in progress
Description : La structure de gestionnaire de volumes multipropriétaire est en cours de reconfiguration. Ce message indique un problème uniquement si la reconfiguration de la structure de gestionnaire de volumes multipropriétaire n'est pas terminée et que l'état endommagé de cette ressource persiste.
Origine : Si ce message indique un problème, la cause de l'échec est une erreur de configuration sur un ou plusieurs composants de la structure de gestionnaire de volumes multipropriétaire.
Solution : La solution à ce problème est différente selon que le message indique un problème ou non :
Si le message indique un problème, résolvez le problème en suivant les instructions détaillées de la section Récupération après un échec du démon vucmmd ou d'un composant associé.
Si ce message n'indique pas de problème, aucune action n'est requise.
Description : La reconfiguration d'Oracle RAC ne s'est pas terminée avant la fin du délai d'attente de la méthode START de la ressource SUNW.vucmm_framework.
Solution : Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération du dépassement du délai d'attente de la méthode START.
Pour effectuer cette opération, faites basculer les noeuds principaux du groupe de ressources vers les autres noeuds sur lesquels le groupe est en ligne.
# clresourcegroup offline -n nodelist resource-group
Spécifie une liste des autres noeuds du cluster, séparés par des virgules, sur lesquels resource-group est en ligne. Retirez de la liste le noeud sur lequel le délai d'attente de la méthode START a été dépassé.
Spécifie le nom du groupe de ressources de structure.
Si votre configuration utilise à la fois un groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire et un groupe de ressources possédant une structure Oracle RAC, commencez par mettre le premier hors ligne. Dès que le groupe de ressources possédant une structure de gestionnaire de volumes multipropriétaire est hors ligne, faites de même avec le groupe de ressources possédant une structure Oracle RAC.
Si le groupe de ressources Oracle RAC a été créé à l'aide de l'utilitaire clsetup, son nom est rac-framework-rg.
# clresourcegroup online resource-group
Spécifie que le groupe de ressources que vous avez passé hors ligne lors de l'Étape 2 doit être placé dans l'état MANAGED et mis en ligne.
Si une ressource ne parvient pas à s'arrêter, résolvez ce problème en suivant les instructions détaillées de la section Clearing the STOP_FAILED Error Flag on Resources du manuel Oracle Solaris Cluster Data Services Planning and Administration Guide.