3


DR 操作を実行する前に

この章では、第 1 章、第 2 章に引き続き、DR 操作を正常に実行するために把握しておくべき情報や手順について説明します。



caution icon

注意 - DR 操作の実行手順が不適切だと、DR の実行に失敗して、システムコンポーネントに損傷が生じるおそれがあります。



この章では、以下のトピックについて説明します。


cfgadm(1M) コマンド

cfgadm(1M) コマンドは、ドメインに対して DR 操作を実行します。DR 操作は、libcfgadm(3LIB) ライブラリインタフェースに渡されます。このインタフェースは、実際に DR 操作を実行するハードウェア固有のライブラリプラグインを動的に読み込みます。



注 - DR 操作中に cfgadm(1M) コマンドの実行が失敗すると、対象のボードは元の状態に戻りません。エラーが回復可能であれば、失敗したコマンドを再試行できます。エラーが回復不能な場合、対象のボードを使用するには、ドメインを再起動する必要があります。



ハードウェア固有のプラグイン sbd.so.1 は、各種 DR 機能 (システムボードの接続、構成、構成解除、切り離し) を提供します。これにより、システムを再起動することなく、稼動中のシステムに対するシステムボードの接続や切り離しを行うことが可能になります。

cfgadm(1M) コマンドは、/usr/sbin ディレクトリにあります。
詳細は、cfgadm(1M) のマニュアルページを参照してください。

ボードスロットは、デバイスツリー内の単一の接続点として表示されます。各コンポーネントのタイプ、状態、および条件と、各ボードスロットの状態および条件を表示するには、cfgadm(1M) コマンドを -a オプション付きで実行します。

以下のオプションまたはオペランドを指定することにより、さまざまな機能を実現できます。ap_id は、システムボードまたはコンポーネントの接続点を表しています。


表 3-1 cfgadm オプション

オプションとオペランド

機能

-c connect ap_id

受容体の状態を connected に変更します。

-c disconnect ap_id

受容体の状態を disconnected に変更します。

-c configure ap_id

占有装置の状態を configured に変更します。

-c unconfigure ap_id

占有装置の状態を unconfigured に変更します。

-x assign ap_id

占有装置の状態を assigned に変更します。

-x unassign ap_id

占有装置の状態を unassigned に変更します。

-x poweron ap_id

占有装置の状態を powered on に変更します。

-x poweroff ap_id

占有装置の状態を powered off に変更します。

-l ap_id

システムボードとコンポーネントの状態、
ステータス、および条件を表示します。

-h [ap_id]

ヘルプメッセージテキストを出力します。ap_id が指定された場合は、引数によって示された接続点のハードウェア固有ライブラリのヘルプルーチンが呼び出されます。

-v

冗長モードで実行します。

-n

確認プロンプトを非表示にして、自動的に no と応答します。

-y

確認プロンプトを非表示にして、自動的に yes と応答します。

-s listing_options

listing_options に基づいて、接続点の状態を表示します。-l フラグにリストオプションを渡します。listing_options の引数は、getsubopt(3C) のマニュアルページの構文規則に準拠しており、以下の内容を指定します。

  • 接続点の選択基準 (select=select_string)
  • 対象の照合タイプ (match=match_type)
  • 一覧表示の順序 (sort=field_spec)
  • 表示対象のデータ (cols=field_spec および cols2=field_spec)
  • 列の区切り文字 (delim=string)
  • 列見出しの非表示 (noheadings)

-o hardware_options

メインのコマンドオプションに対してハードウェア固有のオプションを渡します。hardware_options 文字列の書式と内容は完全にハードウェア固有であり、getsubopt(3C) のマニュアルページの構文規則にも準拠しています。

-t ap_id

1 つ以上の接続点のテストを実行します。テスト機能では、接続点の条件を再評価することができます。hardware_options でテストレベルを指定しないと、ハード障害を特定する、実行時間がもっとも短いテストが実行されます。


 


cfgadm(1M) コマンド (ハイエンドシステムのみ)

SMS コマンド rcfgadm(1M) は SC 上で実行され、オプションおよびオペランドは cfgadm(1M) と共通です。ただし、通常、-d domain_id オプションを追加指定する必要があります。rcfgadm(1M)を参照してください。


デバイスのタイプ、状態、条件の確認

ドメインのボードまたはコンポーネントに対して DR 操作を実行する前に、対象となるボードまたはコンポーネントの状態および条件を判定します。


procedure icon  状態、タイプ、条件を表示する

single-step bulletcfgadm(1M) コマンドを -la オプション付きで実行します。


# cfgadm -la

 

procedure icon  ボードスロットおよびコンポーネントの情報を表示する

single-step bulletprtdiag(1M) コマンドを実行します。


# prtdiag 

 

prtdiag(1M) コマンドは、ボード番号を表示します。


ドメインで DR 操作を実行する前に

ドメインの起動後、初めて DR 操作を実行する前に、このドメインでボードが使用可能であることを確認します。


procedure icon  ドメインでボードが使用可能かどうかを表示する

single-step bulletcfgadm(1M) コマンドを -l オプション付きで実行します。


# cfgadm -l

 

ハイエンドシステム上の各ドメインは、使用可能なコンポーネントのリストを保持しています。ミッドレンジシステム上のドメインは、アクセス制御リストを保持しています。どちらも、「ACL」という略称で呼ばれます。

以下のようなボード上で DR 操作を実行しようとすると、エラーが発生する可能性があります。

どちらの場合でも、このドメインでボードを使用することはできません。ハイエンドシステムで使用可能なコンポーネントのリストを表示する方法については、『System Management Services (SMS) 1.4 管理者マニュアル』を参照してください。ミッドレンジシステム上の ACL については、『Sun Fire ミッドレンジシステムプラットフォーム管理ガイド』を参照してください。


システムボードのステータスの表示


procedure icon  システムボードのステータスを表示する

single-step bulletcfgadm(1M) コマンドを実行します。


# cfgadm -a -s "select=class(sbd)"

 

cfgadm(1M) コマンドは、このドメインに割り当てられたボード、または ACL に記載されていて別のドメインに割り当てられていないボードの情報を表示します。-a オプションを指定すると、ボードスロット、SCSI バス、および PCI スロットを含む既知のすべての接続点が一覧表示されます。

以下は、ミッドレンジシステムドメインで得られる標準的な出力例です。


表 3-2 システムボードのステータス表示例

Ap_Id

タイプ

受容体

占有装置

条件

N0.IB6
PCI_I/O_Boa
connected
configured
ok
N0.IB7
PCI_I/O_Boa
connected
configured
ok
N0.IB8
PCI_I/O_Boa
connected
configured
ok
N0.IB9
PCI_I/O_Boa
disconnected
unconfigured
unknown
N0.SB0
CPU_Board
connected
configured
unknown
N0.SB1
CPU_Board
disconnected
unconfigured
failed
N0.SB2
CPU_Board
connected
configured
ok
N0.SB3
unknown
empty
unconfigured
unknown
N0.SB4
unknown
empty
unconfigured
unknown
N0.SB5
unknown
empty
unconfigured
unknown

 

詳細情報を表示するには、cfgadm(1M) コマンドに -v オプションを追加します。


ボードのテスト


procedure icon  システムボードをテストする

single-step bulletcfgadm(1M) コマンドを -t オプション付きで実行します。


# cfgadm -t ap_id

 

ap_id は接続点の識別子です。

single-step bulletcfgadm(1M) コマンドを -t および -o オプション付きで使用し、診断レベルを指定してテストを実行します (ミッドレンジシステムのみ)。


# cfgadm -o platform=diag=<level> -t ap_id

 

level は診断レベル、ap_id は接続点の識別子です。

ミッドレンジシステムで診断レベルを指定しないと、setupdomain コマンドによりデフォルトの診断レベルが設定されます。これについては、『Sun Fire ミッドレンジシステムプラットフォーム管理ガイド』『Sun Fire ミッドレンジシステムコントローラコマンドリファレンスマニュアル』に記載されています。診断レベルは、以下の表のとおりです。


表 3-3 診断レベル

診断レベル

説明

init

システムボード初期化コードを実行しますが、テストは実行しません。このため、短時間で POST を実行できます。

quick

すべてのシステムボードコンポーネントをテストします。ただし、少数のテストを少数のパターンで実行するだけとなります。

default または max

メモリーと Ecache モジュールを除くすべてのシステムボードコンポーネントをテストします。すべてのテストをすべてのパターンで実行します。

mem1

デフォルトのレベルのすべてのテストを実行します。さらに、DRAM と SRAM のテストアルゴリズムも徹底的に実行します。メモリーと Ecache モジュールについては、複数のパターンですべての位置をテストします。このレベルでは、これ以上に時間のかかるアルゴリズムは実行されません。

mem2

mem1 のすべてのテストと、DRAM データを明示的に比較する DRAM テストを実行します。


 

procedure icon  入出力ボードをテストする (ミッドレンジシステムのみ)



注 - 1 つ以上の UltraSPARC IV+ システムボードで構成されたシングルパーティションのミッドレンジシステムでは、DR の接続操作や構成操作を使って、ドメインに入出力ボードを追加することはできません。これは、入出力ボードをテストできる二次ドメインが存在しないからです。しかし、このようなシステムの入出力ボード上で、DR の構成解除コマンドや切り離しコマンドを実行することは可能です。詳細は、Firmware Release 5.19.0 の『Sun Fire ミッドレンジシステムプラットフォーム管理ガイド』を参照してください。



以下の手順では、ドメイン A を現在のアクティブドメイン、ドメイン B をスペアドメインとします。

1. スペアドメイン (ドメイン B) のドメインシェルに入ります。

2. Ctrl キーを押したまま ] キーを押して、telnet> プロンプトを表示します。

3. telnet> プロンプトに send break と入力して、システムコントローラのドメインシェルを表示します。

4. スペアドメイン (ドメイン B) のシェルで、このドメインに I/O アセンブリを追加します。


schostname:B> addboard IBx

 

x は 6、7、8、または 9 です。

5. スペアドメインの仮想キースイッチをオンにします。


schostname:B> setkeyswitch on
.
.
{x} ok

 

x は CPU です。仮想キースイッチをオンにすると、ドメイン上で POST が実行されます。入出力ボードまたは I/O アセンブリが正常に機能している場合、ok プロンプトが表示されます。

6. 待機モードに設定します。


schostname:B> setkeyswitch standby

 

7. ボードを削除します。


schostname:B> deleteboard ibx

 

8. アクティブドメイン (ドメイン A) にボードを追加します。


# cfgadm -c configure N0.IBx

 

procedure icon  入出力ボードで DR 操作を実行する前に (ハイエンドシステムのみ)

ハイエンドシステムドメインの入出力ボードで DR 操作を実行する前に、以下の条件が満たされていることを確認します。

プロセスの割り当てについては、pbind(1M) のマニュアルページを参照してください。

DR を使ってドメインに入出力ボードを構成する (または、cfgadm(1M) コマンドを -t オプション付きで実行して入出力ボードを明示的にテストする) 場合、システムボード上の占有装置になっている単一の CPU がボードのテスト用として選択されます。この CPU には、プロセスを割り当てることができません。また、このドメインには、1 つ以上の追加 CPU を残しておく必要があります。テスト用の CPU がない場合、以下のようなメッセージが表示されます。


WARNING:No CPU available for I/O cage test

 

CPU がドメインから構成解除され、入出力ボードのテストが行われます。テストが完了すると、構成解除された CPU がドメインに再構成されます。CPU が正常に再構成された場合、psrinfo(1M) コマンドで出力されるタイムスタンプと、ドメイン内のほかの CPU のタイムスタンプが一致しなくなります。