Guide du service de données Oracle® Solaris Cluster pour Oracle Real Application Clusters

Quitter la vue de l'impression

Mis à jour : Avril 2016
 
 

Panne d'un groupe de ressources de structure Prise en charge d'Oracle RAC

Cette section décrit les problèmes qui peuvent avoir une incidence sur le groupe de ressources de structure Prise en charge d'Oracle RAC.

Grave erreur de noeud lors de l'initialisation de Prise en charge d'Oracle RAC

Si une erreur fatale survient au cours de l'initialisation de Prise en charge d'Oracle RAC, de graves erreurs de noeuds se produisent avec un message d'erreur similaire à celui qui suit :

panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago

Description:  un composant contrôlé par l'UCMM renvoie une erreur à l'UCMM pendant une reconfiguration.

Cause:  Ce problème est généralement attribué aux raisons suivantes : Une grave erreur de noeud peut également se produire pendant l'initialisation de Prise en charge d'Oracle RAC parce qu'une étape de reconfiguration a dépassé le délai d'attente. Pour plus d'informations, reportez-vous à la section Grave erreur de noeud causée par un dépassement du délai d'attente.

Solution:  Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération après un échec du démon ucmmd ou d'un composant associé.


Remarque -  Quand le noeud est un noeud de cluster global, une grave erreur de noeud bloque la machine tout entière. Quand le noeud est un noeud de cluster de zones, la grave erreur de noeud bloque uniquement cette zone et n'affecte pas les autres zones.

Echec de démarrage du démon ucmmd

Le démon UCMM, ucmmd, gère la reconfiguration de la prise en charge du Oracle RAC. Quand un cluster est initialisé ou réinitialisé, le démon n'est démarré qu'après la validation de tous les composants de Prise en charge d'Oracle RAC. Si la validation d'un composant sur un noeud échoue, le démon ucmmd ne parvient pas à démarrer sur le noeud.

Ce problème est généralement attribué aux raisons suivantes :

  • Une erreur s'est produite pendant la reconfiguration précédente d'un composant Support for Oracle RAC.

  • Le délai d'attente d'une étape dans une reconfiguration précédente de Prise en charge d'Oracle RAC a été dépassé, provoquant une erreur grave du noeud sur lequel le délai a été dépassé.

Pour obtenir des instructions sur la correction du problème, reportez-vous à la section Récupération après un échec du démon ucmmd ou d'un composant associé.

Récupération après un échec du démon ucmmd ou d'un composant associé

  1. Pour déterminer la cause du problème, examinez les fichiers journaux des reconfigurations UCMM et le fichier de messages système.

    Pour connaître l'emplacement des fichiers journaux des reconfigurations UCMM, reportez-vous à la section Sources des informations de diagnostic.

    Dans ces fichiers, commencez par examiner le message le plus récent et suivez l'ordre chronologique inverse jusqu'à identifier la cause du problème.

    Pour obtenir plus d'informations sur les messages d'erreur pouvant indiquer la cause d'erreurs de reconfigurations, reportez-vous au manuel Oracle Solaris Cluster Error Messages Guide.

  2. Corrigez le problème à l'origine de l'erreur renvoyée par le composant à l'UCMM.

    Exemple :

  3. Si la solution au problème nécessite une réinitialisation, réinitialisez le noeud sur lequel le problème s'est produit.

    Seules certaines solutions nécessitent une réinitialisation. Par exemple, l'augmentation de la quantité de mémoire partagée nécessite une réinitialisation. En revanche, l'augmentation de la valeur de délai d'attente d'une étape ne nécessite pas de réinitialisation.

    Pour plus d'informations sur la réinitialisation d'un nœud, reportez-vous à la section Arrêt et initialisation d’un noeud unique dans un cluster du manuel Guide d’administration système d’Oracle Solaris Cluster 4.3.

  4. Sur le noeud où le problème s'est produit, faites passer le groupe de ressources de structure Prise en charge d'Oracle RAC hors ligne, puis en ligne.

    Cette étape actualise le groupe de ressources avec les modifications apportées à la configuration.

    1. Octroyez-vous le rôle root ou un rôle octroyant l'autorisation RBAC solaris.cluster.admin.
    2. Saisissez la commande pour faire passer le groupe de ressources de structure Prise en charge d'Oracle RAC et ses ressources hors ligne.
      # clresourcegroup offline -n node rac-fmwk-rg
      –n node

      Spécifie le nom ou l'identificateur (ID) du noeud sur lequel le problème s'est produit.

      rac-fmwk-rg

      Spécifie le nom du groupe de ressources qui doit être mis hors ligne.

    3. Saisissez la commande pour faire passer le groupe de ressources de structure Prise en charge d'Oracle RAC et ses ressources en ligne et en mode de gestion.
      # clresourcegroup online -eM -n node rac-fmwk-rg