2


SMS 1.5 のバグ

この章では、SMS 1.5 における既知のバグについて説明します。以下の項目を説明します。


SMS 1.5 ソフトウェアのバグ

この節では、SMS 1.5 に影響する重大なバグについて簡単に説明します。

バックアップ cpio 内に 4095 個を超えるファイルが存在すると smsrestore が中断する (CR ID 6295142)

cpio アーカイブ内に 4095 個を超えるファイルが存在すると、smsrestore コマンドは失敗します。

回避策としては、不要なファイルを削除したあと、smsbackup を使用して cpio アーカイブを作成し直します。たとえば、ポストログやダンプファイルは不要であれば削除できます。各ドメインのポストログとダンプファイルは、それぞれ最高 1000 個に達する可能性があります。

NetConnect に送信される FMA イベントレポートに、変更されたシャーシシリアル番号が報告されない (CR ID 5052078)

setcsn コマンドを使用して SC にシャーシシリアル番号 (CSN) を設定せずに Sun Fire ハイエンドサーバーを稼働させると、ドメイン停止 (Dstop) 後に NetConnect に送信される Fault Management Architecture (FMA) イベントレポートでシリアル番号が空のままになります。

回避策 : setcsn コマンドを使用してシャーシシリアル番号を設定し、そのあと SMS を再起動します。イベントレポートに CSN を表示するためには、SMS を再起動する必要があります。

SC にシャーシシリアル番号を設定する方法の詳細は、『System Management Services (SMS) 1.5 インストールマニュアル』を参照してください。

ndd/dev/scman man_pathgroups_report 出力は詳しい解明が必要である (CR ID 6252771)

一部のデバイスドライバパラメータは、ndd(1M) コマンドをスーパーユーザーとして実行することにより読み取りと書き込みが実行できます。 scman(7D) (ndd/dev/scman) は、Management (MAN) Network の Starcat SC 側を管理し、ndd(1M) コマンドをサポートします。

scman(7D) の man_pathgroups_report パラメータが正しく解釈されない状況が発生すると、実際にはエラーがソフトウェアに起因するにもかかわらず、一連のハードウェアエラーが発生したかのような報告がなされることがあります。その結果、問題の根本要因を除く手段としてハードウェア交換が必要であるという誤った結論が出される可能性があります。

man_pathgroups_report パラメータを指定した場合、次のような出力が得られます。


# ndd /dev/scman man_pathgroups_report
MAN Pathgroup report: (* == error)
Interface       Destination             Active Path     Alternate Paths
----------------------------------------------------------------
scman1          Other SSC               eri0 eri0 exp 0, hme1 exp 0 *

 

最後の行にあるアスタリスク (*) は、「hme1 物理インタフェースが前回使用された際にエラーが検出された」ということを示しています。これまでのところ、このエラーのほとんどはハードウェアではなくソフトウェアに起因しています。

ソフトウェアは、MAN ネットワークピアが「ハートビート」メッセージに応答しなくなるか、あるいは dlpi(7P) に不正な状態変異が発生するとエラーを引き起こします。前述のケースは、次のコマンドをスーパーユーザーとして実行することによって繰り返し発生させることができます (上記とまったく同じ出力が表示されていると想定)。


# ndd -set /dev/scman man_set_active_path '1 0 1'

 

コマンド (SC0 など) を実行する SC については、その Active Path は eri0 から hme1 に切り替わります。しばらくの間、SC1 は物理インタフェース eri0 上でパケットの送信を続け、SC0 は hme1 でパケットを送信します。すぐに、この 2 つは同じインタフェースを使用して同期をとり、通信するようになります。しかし、エラーが起きた最後のインタフェースを示すために、それぞれの SC にアスタリスクが示されます。この場合、エラーがソフトウェアに起因していることは明白です (つまり、このエラーは実際のところ「ハートビート」メッセージシーケンスに対する応答ではない)。これは、致命的なハードウェアエラーではありません。

致命的なハードウェアエラーが持続する場合はたしかに出力内にアスタリスクが示されますが、アスタリスクの原因がハードウェアだけにあると考えないことです。

showenvironment を実行すると、ドメイン A にボードが割り当てられていないという報告のあとレポートが出力される (CR ID 6299795)

Sun Fire システムのドメイン A からボードを除去し、続いて取り付けと割り当てを行い、その後 -d A オプションを指定して showenvironment コマンドを実行すると、次のようなエラーメッセージが返されます。

No board assigned to Domain A.

このエラーメッセージは正しいものではないため、無視してかまいません。この問題が起きるのはドメイン A だけです。


SMS 1.5 ドキュメントの誤り

この節には、SMS 1.5 のマニュアルページおよびマニュアルに含まれる誤りを記載しています。

rcfgadm(1M)

CR ID 4945049

rcfgadm(1M) のマニュアルページ内にある注記は、次のように訂正してください。

rcfgadm コマンドが失敗した場合、ボードはその元の状態に戻りません。dxs または dcs エラーメッセージがドメインのログに記録されます。エラーが回復可能なものである場合は、コマンドをもう一度実行できます。

コマンドを再実行する前に、ドメイン上の /etc/inetd.conf に次に示す dcs エントリが存在することと、それらのエントリが無効になっていないことを確認してください。


sun-dr stream tcp wait root /usr/lib/dcs dcs
sun-dr stream tcp6 wait root /usr/lib/dcs dcs

 

エラーが回復不可能なものである場合、そのボードを使用するにはドメインを再起動する必要があります。

testemail(1M)

CR ID 5047803

testemail(1M) のマニュアルページにある -c オプションの説明は、次のように訂正してください。

イベントを生成するために testemail が使用する fault クラス、またはコンマで区切った fault クラスのリスト。

-c fault_class, fault_class, fault_class

有効な fault クラスの例は、ファイル /etc/opt/SUNWSMS/config/SF15000.dict に挙げられています。

CR ID 6221370

「説明」セクションの注記は、次のように訂正してください。

外部キャッシュリソースを使用して testemail を起動する場合は、外部キャッシュを搭載しているシステムボードに電源が入っていることを確認してください。このボードに電源が入っていないと、testemail の起動は失敗し、電子メールは生成されません。

System Management Services (SMS) 1.5 管理者マニュアル

第 1 章、5 ページ:

VCMON の説明は、Sun Fire ハイエンドシステムに適したものとなっていません。正しい説明は、この文書の VCMONに記載されています。

第 10 章、196 ページ:

showboards コマンドに関するこの説明で、-a オプションは -v に訂正してください。

showenvironment コマンドの説明にあるカテゴリ「デバイス」は削除してください。

第 11 章、207 ページ:

最初の例は、次のように訂正してください。

showlogs -d domain_indicator -p s

2 つ目の例は次のように訂正してください。

showlogs -d domain_indicator -p c

付録 A、253 ページ:

次のコマンドを追加してください。

smsinstall: SMS ソフトウェアをインストールします。

smsupgrade: システムにインストールされている既存の SMS ソフトウェアをアップグレードします。

付録 B (CR 6227544、4943474):

エラーコード 11300 と 50000 の間に、次のエラーメッセージカテゴリを追加してください。

11500-11699: EFHD メッセージ用に予約されている

11700-11899: ELAD メッセージ用に予約されている

11900-12099: ERD メッセージ用に予約されている

12100-12299: イベントユーティリティーメッセージ用に予約されている

12300-12499: Wcapp メッセージ用に予約されている

12500-12699: FRUID 関連のメッセージ用に予約されている

12700-12799: EBD メッセージ用に予約されている

System Management Services (SMS) 1.5 インストールマニュアル

37 ページ:

手順 3 は次のように訂正してください。

smsupgrade コマンドを実行し、SMS をインストールし直します。

49 ページ:

手順 2 のあとに、次の内容で手順 3 を追加してください。

Solaris OS をアップグレードします。36 ページの「SC で Solaris OS をアップロードする」を参照してください。

手順 3 のあとに、次の内容で手順 4 を追加してください。

メジャーOS アップグレード(38 ページを参照) のあと、smsupgrade を実行してSMS をインストールし直すか、あるいは次の手順に進んでSMS 構成を復元してください。

見出し「SMS 1.5 ソフトウェアを復元する」を「SMS 1.5 構成を復元する」に変更してください。