IB デバイスのモニタリングとトラブルシューティング
Oracle Solaris 11 リリースでは、新しいコマンドおよびユーティリティーを使って IB ファブリックをより効果的に管理できます。これらのコマンドは、system/io/infiniband/open-fabrics パッケージに含まれており、open-fabrics パッケージのインストール時にマニュアルページも自動的にインストールされます。例:
% man rping
Reformatting page. Please Wait... done
librdmacm RPING(1)
NAME
rping - RDMA CM connection and RDMA ping-pong test.
SYNOPSIS
rping -s [-v] [-V] [-d] [-P] [-a address] [-p port]
[-C message_count] [-S message_size]
rping -c [-v] [-V] [-d] -a address [-p port]
[-C message_count] [-S message_size]
.
.
.
次に示す新しいコマンドおよびユーティリティーを使って、IB デバイスの一覧表示と照会、IB ファブリックの問題の診断と障害追跡、および IB のパフォーマンス測定を行うことができます。
表 7 一般的な IB モニタリングコマンド
|
|
ibv_asyncwatch
|
InfiniBand 非同期イベントをモニターします
|
ibv_devices または ibv_devinfo
|
InfiniBand デバイスとデバイス情報を一覧表示します
|
ibv_rc_pingpong、 ibv_srq_pingpong、または ibv_ud_pingpong
|
RC 接続、SRQ、または UD 接続を使用して、ノード対ノードの接続性をテストします
|
mckey
|
RDMA CM マルチキャスト設定および単純データ転送をテストします
|
rping
|
RDMA CM 接続をテストし、RDMA ping-pong を試みます
|
ucmatose
|
RDMA CM 接続をテストし、単純な ping-pong を試みます
|
udaddy
|
RDMA CM データグラム設定をテストし、単純な ping-pong を試みます
|
|
表 8 一般的な IB パフォーマンステストコマンド
|
|
rdma_bw または rdma_lat
|
RDMA 書き込みトランザクションをテストして、ストリーミングの帯域幅または待機時間を調べます。
|
ib_read_bw または ib_read_lat
|
RDMA 読み込みトランザクションをテストして、帯域幅または待機時間を調べます。
|
ib_send_bw または ib_send_lat
|
RDMA 送信トランザクションをテストして、帯域幅や待機時間を調べます。
|
ib_write_bw または ib_write_bw_postlist
|
RDMA 書き込みトランザクションをテストして帯域幅を調べ、一度に 1 つの入出力要求を表示します。または帯域幅のリストを表示して、入出力要求のリストを示します。
|
ib_write_lat
|
RDMA 書き込みトランザクションをテストして、待機時間を調べます。
|
ib_clock_test
|
システムクロックの正確性をテストします
|
qperf
|
ソケットおよび RDMA のパフォーマンスを測定します
|
|
表 9 RDS のモニタリングおよびテストツール
|
|
rds-info
|
RDS カーネルモジュール情報を表示します
|
rds-ping
|
RDS 経由でリモートノードに到達可能かどうかを判別します
|
rds-stress
|
RDS ソケット経由でプロセス間のメッセージを送信します
|
|
RDSv3 は HCA の構成解除をサポートしていません。DR 時に、システムに RDSv3 ドライバがインストールされていた場合、HCA の構成解除は失敗し、次の例の ib::rdsv3,0 のようなエラーメッセージが表示されます。
# cfgadm -c unconfigure ib::rdsv3,0
This operation will suspend activity on the IB device
Continue (yes/no)? yes
cfgadm: Hardware specific failure: unconfigure operation
failed ap_id: /devices/ib:fabric::rdsv3,0
# cfgadm -c unconfigure PCI-EM0
cfgadm: Component system is busy, try again: unconfigure failed
回避方法:
HCA DR 操作を実行する前に、RDSv3 ドライバを削除して、システムをリブートします。
# rem_drv rdsv3
Device busy
Cannot unload module: rdsv3
Will be unloaded upon reboot.
# init 6
表 10 ファブリック診断ツール
|
|
ibdiagnet
|
ファブリック全体の診断検査を実行します
|
ibaddr
|
1 つまたは複数の InfiniBand アドレスを照会します
|
ibnetdiscover
|
リモートの InfiniBand トポロジを発見します
|
ibping
|
IB ノード間の接続性を検査します
|
ibportstate
|
物理ポートの状態および IB ポートのリンク速度を照会します
|
ibroute
|
InfiniBand スイッチ転送テーブルを表示します
|
ibstat または ibsysstat
|
1 つまたは複数の InfiniBand デバイスのステータス、または IB アドレス上のシステムのステータスを照会します
|
ibtracert
|
IB パスをトレースします
|
perfquery または saquery
|
IB ポートカウンタまたは sIB サブネット管理属性を照会します
|
sminfo
|
IB SMInfo 属性を照会します
|
smpquery または smpdump
|
IB サブネット管理属性を照会またはダンプします
|
ibcheckerrors または ibcheckerrs
|
IB ポート (またはノード) または IB サブネットを検査して、エラーを報告します
|
ibchecknet、ibchecknode、または ibcheckport
|
IB サブネット、ノード、またはポートを検査し、エラーを報告します
|
ibcheckportstate、ibcheckportwidth、 ibcheckstate、または ibcheckwidth
|
リンクが作動しているがアクティブでない IB ポート、リンク幅 1x (2.0 Gbps) のポート、リンクが作動しているがアクティブでない IB サブネットのポート、または IB サブネット内の lx リンクを検査します
|
ibclearcountersibclearerrors または ibclearerrors
|
IB サブネット内のポートカウンタまたはエラーカウンタをクリアします
|
ibdatacountersibdatacounts または ibdatacounts
|
IB サブネットまたは IB ポートデータカウンタ内のデータカウンタを照会します
|
ibdiscover.pl
|
IB トポロジに注釈を付けて、比較します
|
ibhosts
|
トポロジ内の IB ホストノードを表示します
|
iblinkinfo.pl または iblinkinfo
|
ファブリック内のすべてのリンクのリンク情報を表示します
|
ibnodes
|
トポロジ内の IB ノードを表示します
|
ibprintca.pl
|
ibnetdiscover の出力から、指定した CA または CA のリストを表示します
|
ibprintrt.pl
|
ibnetdiscover の出力から、指定したルーターのみ、またはルーターのリストを表示します
|
ibprintswitch.pl
|
ibnetdiscover の出力から、指定したスイッチまたはスイッチのリストを表示します
|
ibqueryerrors.pl
|
0 以外の IB ポートカウンタを照会して報告します
|
ibrouters
|
トポロジ内の IB ルーターノードを表示します
|
ibstatus
|
IB デバイスの基本ステータスを照会します
|
ibswitches
|
トポロジ内の IB スイッチノードを表示します
|
ibswportwatch.pl
|
指定したスイッチまたはポートのカウンタをポーリングして、変更レート情報を報告します
|
set_nodedesc.sh
|
IB HCA (Host Controller Adapter) のノード説明文字列を設定または表示します
|
dump2psl.pl
|
クレジットループ検査に使用される opensm 出力ファイルに基づいて PSL ファイルをダンプします
|
dump2slvl.pl
|
クレジットループ検査に使用される opensm 出力ファイルに基づいて SLVL ファイルをダンプします
|
ibis
|
IB 管理帯域内サービスの拡張 TCL シェル
|
|
注 -
表に記載されているファブリック診断ツールは仮想機能 (VF) からサポートされません。