第2章 |
|
この章では、SMS 1.5 における既知のバグについて説明します。以下の項目を説明します。
この節では、SMS 1.5 に影響する重大なバグについて簡単に説明します。
cpio アーカイブ内に 4095 個を超えるファイルが存在すると、smsrestore コマンドは失敗します。
回避策としては、不要なファイルを削除したあと、smsbackup を使用して cpio アーカイブを作成し直します。たとえば、ポストログやダンプファイルは不要であれば削除できます。各ドメインのポストログとダンプファイルは、それぞれ最高 1000 個に達する可能性があります。
setcsn コマンドを使用して SC にシャーシシリアル番号 (CSN) を設定せずに Sun Fire ハイエンドサーバーを稼働させると、ドメイン停止 (Dstop) 後に NetConnect に送信される Fault Management Architecture (FMA) イベントレポートでシリアル番号が空のままになります。
回避策 : setcsn コマンドを使用してシャーシシリアル番号を設定し、そのあと SMS を再起動します。イベントレポートに CSN を表示するためには、SMS を再起動する必要があります。
SC にシャーシシリアル番号を設定する方法の詳細は、『System Management Services (SMS) 1.5 インストールマニュアル』を参照してください。
一部のデバイスドライバパラメータは、ndd(1M) コマンドをスーパーユーザーとして実行することにより読み取りと書き込みが実行できます。 scman(7D) (ndd/dev/scman) は、Management (MAN) Network の Starcat SC 側を管理し、ndd(1M) コマンドをサポートします。
scman(7D) の man_pathgroups_report パラメータが正しく解釈されない状況が発生すると、実際にはエラーがソフトウェアに起因するにもかかわらず、一連のハードウェアエラーが発生したかのような報告がなされることがあります。その結果、問題の根本要因を除く手段としてハードウェア交換が必要であるという誤った結論が出される可能性があります。
man_pathgroups_report パラメータを指定した場合、次のような出力が得られます。
最後の行にあるアスタリスク (*) は、「hme1 物理インタフェースが前回使用された際にエラーが検出された」ということを示しています。これまでのところ、このエラーのほとんどはハードウェアではなくソフトウェアに起因しています。
ソフトウェアは、MAN ネットワークピアが「ハートビート」メッセージに応答しなくなるか、あるいは dlpi(7P) に不正な状態変異が発生するとエラーを引き起こします。前述のケースは、次のコマンドをスーパーユーザーとして実行することによって繰り返し発生させることができます (上記とまったく同じ出力が表示されていると想定)。
コマンド (SC0 など) を実行する SC については、その Active Path は eri0 から hme1 に切り替わります。しばらくの間、SC1 は物理インタフェース eri0 上でパケットの送信を続け、SC0 は hme1 でパケットを送信します。すぐに、この 2 つは同じインタフェースを使用して同期をとり、通信するようになります。しかし、エラーが起きた最後のインタフェースを示すために、それぞれの SC にアスタリスクが示されます。この場合、エラーがソフトウェアに起因していることは明白です (つまり、このエラーは実際のところ「ハートビート」メッセージシーケンスに対する応答ではない)。これは、致命的なハードウェアエラーではありません。
致命的なハードウェアエラーが持続する場合はたしかに出力内にアスタリスクが示されますが、アスタリスクの原因がハードウェアだけにあると考えないことです。
Sun Fire システムのドメイン A からボードを除去し、続いて取り付けと割り当てを行い、その後 -d A オプションを指定して showenvironment コマンドを実行すると、次のようなエラーメッセージが返されます。
No board assigned to Domain A.
このエラーメッセージは正しいものではないため、無視してかまいません。この問題が起きるのはドメイン A だけです。
この節には、SMS 1.5 のマニュアルページおよびマニュアルに含まれる誤りを記載しています。
rcfgadm(1M) のマニュアルページ内にある注記は、次のように訂正してください。
rcfgadm コマンドが失敗した場合、ボードはその元の状態に戻りません。dxs または dcs エラーメッセージがドメインのログに記録されます。エラーが回復可能なものである場合は、コマンドをもう一度実行できます。
コマンドを再実行する前に、ドメイン上の /etc/inetd.conf に次に示す dcs エントリが存在することと、それらのエントリが無効になっていないことを確認してください。
エラーが回復不可能なものである場合、そのボードを使用するにはドメインを再起動する必要があります。
testemail(1M) のマニュアルページにある -c オプションの説明は、次のように訂正してください。
イベントを生成するために testemail が使用する fault クラス、またはコンマで区切った fault クラスのリスト。
-c fault_class, fault_class, fault_class
有効な fault クラスの例は、ファイル /etc/opt/SUNWSMS/config/SF15000.dict に挙げられています。
外部キャッシュリソースを使用して testemail を起動する場合は、外部キャッシュを搭載しているシステムボードに電源が入っていることを確認してください。このボードに電源が入っていないと、testemail の起動は失敗し、電子メールは生成されません。
VCMON の説明は、Sun Fire ハイエンドシステムに適したものとなっていません。正しい説明は、この文書の VCMONに記載されています。
showboards コマンドに関するこの説明で、-a オプションは -v に訂正してください。
showenvironment コマンドの説明にあるカテゴリ「デバイス」は削除してください。
showlogs -d domain_indicator -p s
showlogs -d domain_indicator -p c
smsinstall: SMS ソフトウェアをインストールします。
smsupgrade: システムにインストールされている既存の SMS ソフトウェアをアップグレードします。
エラーコード 11300 と 50000 の間に、次のエラーメッセージカテゴリを追加してください。
11500-11699: EFHD メッセージ用に予約されている
11700-11899: ELAD メッセージ用に予約されている
11900-12099: ERD メッセージ用に予約されている
12100-12299: イベントユーティリティーメッセージ用に予約されている
12300-12499: Wcapp メッセージ用に予約されている
12500-12699: FRUID 関連のメッセージ用に予約されている
12700-12799: EBD メッセージ用に予約されている
smsupgrade コマンドを実行し、SMS をインストールし直します。
手順 2 のあとに、次の内容で手順 3 を追加してください。
Solaris OS をアップグレードします。36 ページの「SC で Solaris OS をアップロードする」を参照してください。
手順 3 のあとに、次の内容で手順 4 を追加してください。
メジャーOS アップグレード(38 ページを参照) のあと、smsupgrade を実行してSMS をインストールし直すか、あるいは次の手順に進んでSMS 構成を復元してください。
見出し「SMS 1.5 ソフトウェアを復元する」を「SMS 1.5 構成を復元する」に変更してください。
Copyright© 2005, Sun Microsystems, Inc. All rights reserved.