Notes de version de Sun Cluster 3.1

Problèmes connus et bogues

Les problèmes connus et les bogues ci-après concernent la version Sun Cluster 3.1. Pour connaître les informations les plus récentes, consultez le Sun Cluster 3.x Release Notes Supplement à l'adresse http://docs.sun.com.

État Largefile incorrect (4419214)

Récapitulatif du problème : le fichier /etc/mnttab n'indique pas l'état largefile actuel d'un système de fichiers VxFS monté globalement.

Solution : pour vérifier l'état largefile du système de fichier, utilisez la commande fsadm plutôt que l'entrée /etc/mnttab.

Le système de fichiers VxFS global ne répertorie pas les mêmes allocations de blocs que le système de fichiers local VxFS (4449437)

Récapitulatif du problème : pour une taille de fichier donnée, le système de fichiers VxFS global semble allouer plus de blocs de disques que le système de fichiers local VxFS.

Solution : en démontant puis remontant le système de fichiers, vous éliminerez les blocs de disques supplémentaires indiqués comme étant alloués à ce fichier.

Noeuds incapables d'activer les chemins qfe (4526883)

Récapitulatif du problème : il arrive que les chemins de transport d'interconnexion privée finissant par un adaptateur qfe ne parviennent pas à se mettre en ligne.

Solution : suivez les étapes indiquées ci-dessous.

Identifiez l'adaptateur défectueux à l'aide de scstat -W. Le résultat affichera tous les chemins de transport avec cet adaptateur comme l'une des extrémités du chemin à l'état faulted ou waiting.
Utilisez la commande scsetup pour supprimer de la configuration de la grappe tous les câbles connectés à cet adaptateur.
Utilisez à nouveau la commande scsetup pour supprimer cet adaptateur de la configuration de la grappe.
Replacez l'adaptateur et les câbles.
Vérifiez que les chemins apparaissent. Si le problème persiste, répétez plusieurs fois les étapes 1 à 5.
Vérifiez que les chemins apparaissent. Si le problème persiste toujours, réinitialisez le noeud où se trouve l'adaptateur défectueux. Avant de réinitialiser le noeud, assurez-vous que le reste de la grappe a suffisamment de votes de quorum pour résister à la réinitialisation du noeud.

Blocs de fichiers non mis à jour après les opérations d'écritures sur les trous du fichier fragmenté (4607142)

Récapitulatif du problème : le nombre de blocs de fichiers n'est pas toujours consistant sur des noeuds de grappe après les opérations d'écriture d'allocation de blocs dans un fichier fragmenté. Pour un système de fichiers de grappes en couches sur UFS (ou VxFS 3.4), l'inconsistance du bloc sur plusieurs noeuds de grappe disparaît au bout de 30 secondes environ.

Solution : les opérations de métadonnée de fichier actualisant l'inode (touch, etc.) doivent synchroniser la valeur st_blocks afin que les opérations de métadonnée qui suivent assurent des valeurs st_blocks consistantes.

Risques d'erreurs graves dus à l'utilisation concurrente de `forcedirectio` et `mmap` (2) (4629536)

Récapitulatif du problème : l'utilisation simultanée de l'option de montage forcedirectio et de la fonction mmap(2) peut entraîner la corruption de données, l'arrêt du système ou des erreurs graves.

Solution : respectez les restrictions ci-dessous.

Ne remontez jamais un système de fichiers avec l'option de montage directio ajoutée au temps de remontage.
Ne paramétrez pas l'option de montage directio sur un seul fichier au moyen de ioctl directio.

Si vous devez utiliser directio, montez l'ensemble du système de fichiers avec les options directio.

Échec du démontage d'un système de fichiers (4656624)

Récapitulatif du problème : il arrive que le démontage d'un système de fichiers de grappes échoue, même si la commande fuser indique qu'il n'y a aucun utilisateur sur les noeuds.

Solution : relancez le remontage après que toutes les E/S asynchrones vers le système de fichiers sous-jacent ont été effectuées.

État inactif des noeuds après une réinitialisation (4664510)

Récapitulatif du problème : après l'arrêt de l'un des tableaux Sun StorEdge T3 et de l'exécution de scshutdown, la réinitialisation des deux noeuds place la grappe à l'état inactif.

Solution : en cas de perte de la moitié des répliques, procédez comme indiqué ci-dessous.

Assurez-vous que la grappe est en mode grappe.

Importez obligatoirement l'ensemble de disques.
# metaset -s set-name -f -C take

Supprimez les répliques endommagées.

# metadb -s set-name -fd /dev/did/dsk/dNsX

Libérez l'ensemble de disques.
# metaset -s set-name -C release
Vous pouvez à présent monter et utiliser le système de fichiers. Néanmoins, vous n'avez pas restauré la redondance dans les répliques. En cas de perte de la seconde moitié des répliques, vous ne pourrez pas restaurer l'état de bon fonctionnement du miroir.

Recréez les bases de données après l'application de la procédure de réparation décrite ci-dessus.

Erreur grave due à la séparation d'un plex d'un groupe de disques (4657088)

Récapitulatif du problème : la dissociation ou séparation d'un plex d'un groupe de disques sous Sun Cluster peut entraîner une erreur grave au niveau du noeud de grappe avec les chaînes d'erreur suivantes :

panic[cpu2]/thread=30002901460: BAD TRAP: type=31 rp=2a101b1d200 addr=40 mmu_fsr=0 occurred in module "vxfs" due to a NULL pointer dereference

Solution : avant de dissocier ou de détacher un plex d'un groupe de disques, démontez les systèmes de fichiers correspondants.

Échec de `scvxinstall -i` pour l'installation d'une clé de licence (4706175)

Récapitulatif du problème : la commande scvxinstall -i accepte une clé de licence avec l'option -L. Cependant, la clé est ignorée et n'est pas installée.

Solution : ne fournissez pas de clé de licence sous la forme -i de scvxinstall, elle ne sera pas installée. Les clés de licence doivent être installées de façon interactive ou à l'aide de l'option -e. Avant de procéder à l'encapsulage de la racine, examinez les conditions de licence et fournissez les clés requises à l'aide de l'option -e ou de façon interactive.

Échec de Sun Cluster HA–Siebel pour contrôler des composants Siebel (4722288)

Récapitulatif du problème : l'agent Sun Cluster HA-Siebel ne contrôle pas les composants Siebel individuels. En cas de détection d'une panne sur un composant Siebel, seul un message d'avertissement est consigné dans syslog.

Solution : redémarrez le groupe de ressources du serveur Siebel sur lequel les composants sont déconnectés à l'aide de la commande scswitch -R -h noeud-g groupe_ressources .

Échec du script `remove` pour désenregistrer le type de ressources `SUNW.gds` (4727699)

Récapitulatif du problème : le script remove ne parvient pas à désenregistrer le type de ressources SUNW.gds et affiche le message indiqué ci-dessous.

Le type de ressources a déjà été désenregistré.

Solution : après avoir utilisé le script remove, désenregistrez manuellement SUNW.gds. Vous pouvez aussi utiliser la commande scsetup ou SunPlex Manager.

Écrasement de `hostname.int` par l'option "Create IPMP group" (4731768)

Récapitulatif du problème : l'option Create IPMP group de SunPlex Manager ne peut être utilisée qu'avec des adaptateurs qui ne sont pas déjà configurés. Si un adaptateur est déjà configuré avec une adresse IP, il doit être configuré manuellement pour IPMP.

Solution : l'option Create IPMP Group de SunPlex Manager ne doit être utilisée qu'avec des adaptateurs qui ne sont pas déjà configurés. Si un adaptateur est déjà configuré avec une adresse IP, il doit être configuré manuellement à l'aide des outils de gestion IPMP de Solaris.

Risque d'erreur grave au niveau des noeuds dû à l'utilisation de la commande Solaris `shutdown` (4745648)

Récapitulatif du problème : l'utilisation de la commande Solaris shutdown ou de commandes similaires (par exemple, uadmin) pour désactiver un noeud de grappe peut entraîner une erreur grave au niveau des noeuds, et l'affichage du message suivant :

CMM: Shutdown timer expired. Halting.

Solution : demandez l'assistance de votre représentant Sun. Cette erreur grave est nécessaire, elle permet à un autre noeud de la grappe de reprendre en toute sécurité les services qui étaient hébergés par le noeud désactivé.

Échec de la commande d'administration pour l'ajout d'un périphérique de quorum à la grappe (4746088)

Récapitulatif du problème : même si une grappe a le nombre minimum de votes requis pour un quorum, une commande d'administration pour l'ajout d'un périphérique de quorum à la grappe échoue, et le message ci-dessous s'affiche.

Cluster could lose quorum

Solution : demandez l'assistance de votre représentant Sun.

Temporisation de chemin lors de l'utilisation d'adaptateurs `ce` sur l'interconnexion privée (4746175)

Récapitulatif du problème : les grappes utilisant des adaptateurs ce sur l'interconnexion privée peuvent rencontrer des problèmes temporisations de chemin suivis d'erreurs graves de noeud, si un ou plusieurs noeuds ont plus de quatre processeurs.

Solution : définissez le paramètre ce_taskq_disable dans le gestionnaire ce en ajoutant set ce:ce_taskq_disable=1 au fichier /etc/system sur tous les noeuds de la grappe, puis réinitialisez les noeuds. Cela permet de toujours envoyer les pulsations (et autres paquets) dans le contexte de l'interruption, et d'éliminer les problèmes de temporisation de chemins suivis d'erreurs graves. Prenez en considération les indications du Quorum lors de la réinitialisation des noeuds.

Temporisation de la sonde de la passerelle Siebel en cas d'échec d'un réseau public (4764204)

Récapitulatif du problème : l'échec d'un réseau public peut provoquer la temporisation de la sonde de la passerelle Siebel et finir par mettre la ressource de la passerelle Siebel hors ligne. Cela peut arriver si le chemin du noeud sur lequel s'exécute la passerelle Siebel commence par /home, qui dépend de ressources réseau telles que NFS et NIS. Sans le réseau public, la sonde de la passerelle Siebel s'interrompt tandis qu'elle tente d'ouvrir un fichier à partir de /home, ce qui provoque sa temporisation.

Solution : suivez les étapes qui suivent pour tous les noeuds pouvant héberger la passerelle Siebel.

Assurez-vous que les entrées passwd, group, et project de /etc/nsswitch.conf ne font référence qu'à des fichiers, et pas à des nis.

Assurez-vous qu'il n'y a aucune dépendance NFS ou NIS pour tout chemin commençant par /home.

Vous pouvez soit monter localement le chemin /home, soit remplacer le point de montage /home par /export/home ou tout autre nom ne commençant pas par /home.

Dans le fichier /etc/auto_master, mettez à l'écart la ligne contenant l'entrée +auto_master. Mettez également à l'écart toute entrée /home qui utilise auto_home.

Dans etc/auto_home, mettez à l'écart la ligne contenant +auto_home.

Interruption des communications entre adresses IP logiques pour chaque noeud dû au vidage de routes avec passerelles (4766076)

Récapitulatif du problème : pour être en mesure de fournir, pour chaque noeud, des communications à haute disponibilité entre adresses IP logiques via une interconnexion privée, le logiciel Sun Cluster utilise des routes avec passerelles sur les noeuds de grappe. Le vidage des routes avec passerelles interrompt les communications entre adresses IP logiques pour chaque noeud.

Solution : réinitialisez les noeuds sur lesquels des routes ont été vidées par inadvertance. Pour restaurer des routes avec passerelles, il suffit de réinitialiser les noeuds de grappe un par un. Les communications entre adresses IP logiques pour chaque noeud restent interrompues tant que les routes n'ont pas été restaurées. Prenez en considération les indications du Quorum lors de la réinitialisation des noeuds.

Erreur due à un échec de basculement (4766781)

Récapitulatif du problème : un échec de basculement ou de commutation d'un système de fichiers peut générer une erreur.

Solution : démontez puis remontez le système de fichiers.

Risque d'altération de données dû à l'activation de la fonction TCP-Selective Acknowledgments (4775631)

Récapitulatif du problème : l'activation de TCP-selective acknowledgements (accusés de réception sélectifs) sur des noeuds de grappe peut entraîner l'altération de données.

Solution : aucune intervention n'est requise. Pour éviter l'altération de données sur le système de fichiers global, ne réactivez pas TCP selective acknowledgements sur les noeuds de la grappe.

`scinstall` affiche à tort que certains services de données ne sont pas pris en charge (4776411)

Récapitulatif du problème : scinstall affiche à tort que les services de données indiqués ci-dessous ne sont pas pris en charge par Solaris 9.

Sun Cluster HA pour SAP
Sun Cluster HA pour SAP liveCache

Solution : Solaris 8 et 9 prennent en charge Sun Cluster HA pour SAP et Sun Cluster HA pour SAP liveCache. Ignorez la liste des fonctions non prises en charge de scinstall.

`scdidadm` affiche une erreur si `/dev/rmt` (4783135) est manquant

Récapitulatif du problème : l'implémentation actuelle de scdidadm(1M) dépend de la présence de /dev/rmt et /dev/(r)dsk pour exécuter correctement scdiadm -r. Solaris les installe tous les deux, sans tenir compte de la présence des périphériques de stockage sous-jacents réels. Si /dev/rmt est manquant, scdidadm affiche l'erreur suivante :

Cannot walk /dev/rmt" during execution of 'scdidadm -r

Solution : sur chaque noeud où /dev/rmt est manquant, utilisez mkdir pour créer un répertoire /dev/rmt. Exécutez ensuite scgdevs à partir d'un noeud.

Altération de données lors de la panne d'un noeud entraînant l'arrêt du noeud primaire du système de fichiers de grappe(4804964)

Récapitulatif du problème : l'altération de données peut se produire sur les systèmes Sun Cluster 3.x exécutant les correctifs 113454-04, 113073-02 et 113276-02 (ou un sous-ensemble de ces correctifs). Ce problème ne survient qu'avec les systèmes de fichiers UFS montés globalement. L'altération de données se traduit par la disparition de certaines données (des zéros apparaissent là où devraient figurer des données), et le nombre de données manquantes est toujours le multiple d'un bloc de disques. Une perte de données peut se produire dès que la panne d'un noeud entraîne l'arrêt du noeud primaire du système de fichiers peu de temps après que le fichier systemclient a accompli (ou rapporte qu'il a accompli) une opération d'écriture. La période de vulnérabilité est limitée et n'est pas systématique.

Solution : utilisez l'option de montage -o syncdir pour obliger les systèmes de fichiers UFS à utiliser des transactions de journaux UFS synchrones.

Interruption des noeuds après initialisation lorsque la commutation est en cours (4806621)

Récapitulatif du problème : si la commutation d'un groupe de périphériques est en cours au moment où un noeud rejoint la grappe, la jonction du noeud et l'opération de commutation risquent de s'interrompre. Toute tentative d'accès à un service du périphérique s'interrompra également. Ce problème est plus susceptible de se produire si la grappe comporte plus de deux noeuds, et si le système de fichiers monté sur le périphérique est un système de fichiers VxFS.

Solution : pour éviter cette situation, ne lancez pas de basculement de groupes de périphériques au moment où un noeud rejoint la grappe. Si vous rencontrez ce problème, réinitialisez tous les noeuds de la grappe pour restaurer l'accès aux groupes de périphériques.

Erreur grave sur un système de fichiers lorsque le système de fichiers de la grappe est plein (4808748)

Récapitulatif du problème : lorsqu'un système de fichiers de grappe est plein, dans certains cas des erreurs graves peuvent survenir sur ce système de fichiers, et l'un des messages indiqués ci-dessous s'affiche. 1)

assertion failed: cur_data_token & PXFS_WRITE_TOKEN or PXFS_READ_TOKEN

ou 2)

vp->v_pages == NULL

. Ces erreurs graves permettent d'éviter l'altération de données lorsqu'un système de fichiers est plein.

Solution : pour réduire les risques d'apparition de ce problème, utilisez dans la mesure du possible un système de fichiers de grappe avec UFS. Il est extrêmement rare qu'une de ces erreurs graves surviennent lorsqu'on utilise un système de fichiers de grappe avec UFS ; le risque est en revanche plus grand si on utilise un système de fichiers de grappes avec VxFS.

Interruption des noeuds de grappe lors de l'initialisation (4809076)

Récapitulatif du problème : lorsque la demande de commutation d'un service de périphérique, à l'aide de scswitch -z -D <device-group> -h <node> , est concurrente à la réinitialisation d'un noeud et que des systèmes de fichiers globaux sont configurés sur le service de périphérique, le système de fichiers global risque de devenir indisponible et les modifications ultérieures de la configuration impliquant tout service de périphérique ou système de fichiers global risquent aussi de s'interrompre, tout comme les jonctions de noeuds de grappe ultérieures.

Solution : pour reprendre, vous devez réinitialiser tous les noeuds de la grappe.

Erreur grave de la grappe dû au retrait d'un périphérique de quorum à l'aide de `scconf -rq` (4811232)

Récapitulatif du problème : si vous exécutez la commande scconf -rq pour supprimer un périphérique de quorum dans une configuration vulnérable, tous les noeuds de la grappe connaîtront un état d'erreur grave avec le message ci-dessous.

CMM lost operational quorum

Solution : avant de supprimer un périphérique de quorum d'une grappe, vérifiez le résultat de scstat -q. Si le périphérique de quorum est répertorié dans la colonne Present comme ayant plus d'un vote, il doit alors d'abord être mis en mode maintenance à l'aide de scconf -cq globaldev=QD,maintstate. Une fois que la commande est terminée et que le périphérique de quorum apparaît dans scstat -qavec 0 vote, il peut être retiré à l'aide de scconf -rq.

Échec du volume mis en miroir lors de l'utilisation de l'indicateur `O_EXCL` (4820273)

Récapitulatif du problème : si on utilise Solstice DiskSuite/Solaris Volume Manager et qu'un volume mis en miroir est ouvert à l'aide de l'indicateur O_EXCL, le basculement du groupe de périphériques contenant ce volume échoue. Cela génère une erreur grave du noeud primaire du nouveau groupe de périphériques, lors du premier accès au volume après le basculement.

Solution : lorsque vous utilisez Solstice DiskSuite/Solaris Volume Manager, n'ouvrez pas de volumes mis en miroir avec l'indicateur O_EXCL.

Interruption de la grappe après la réinitialisation d'un noeud au cours d'une commutation (4823195)

Récapitulatif du problème : lorsque la demande de commutation d'un service de périphérique est concurrente à la réinitialisation ou à la jonction d'un noeud et que des systèmes de fichiers de grappe sont configurés sur le service de périphérique, les systèmes de fichiers risquent de devenir indisponibles et les modifications ultérieures de la configuration impliquant tout service de périphérique ou système de fichiers global risquent aussi de s'interrompre, tout comme les jonctions de noeuds de grappe ultérieures.

Solution : la récupération nécessite la réinitialisation de tous les noeuds de la grappe.

Texte non traduit dans la version localisée française (4840085)

Récapitulatif du problème : des parties de texte non traduites apparaissent lors de l'utilisation de SunPlex Manager pour installer Sun Cluster dans la version localisée française.

Solution : cette erreur n'a pas d'incidence sur les fonctionnalités de SunPlex Manager. Vous pouvez ignorer le texte non traduit ou définir la langue de votre navigateur en anglais pour éviter le mélange de traductions.