この項の内容は次のとおりです。
ibswitches
コマンドを使用すると、ExalogicマシンのInfiniBandファブリックでSun Network QDR InfiniBandゲートウェイ・スイッチを識別できます。このコマンドは、各スイッチのGlobal Unique Identifier (GUID)、名前、ローカル識別子(LID)およびLIDマスク制御(LMC)を表示します。このコマンドの出力は、ファブリック内のスイッチのGUIDとLIDのマッピングです。
任意のコマンド行インタフェース(CLI)で、次のコマンドを実行します。
# ibswitches
次の例のような出力が表示されます。
Switch : 0x0021283a8389a0a0 ports 36 "Sun DCS 36 QDR switch localhost" enhancedport 0 lid 15 lmc 0
注意:
InfiniBandファブリックの実際の出力は、前述の例とは異なります。
ibhosts
コマンドを使用すると、サブネット内のInfiniBandファブリックでホスト・チャネル・アダプタ(HCA)のアイデンティティ情報を表示できます。このコマンドは、各HCAのGUIDと名前を表示します。
コマンド行インタフェース(CLI)で、次のコマンドを実行します。
# ibhosts
次の例のような出力が表示されます。
Ca : 0x0003ba000100e388 ports 2 "nsn33-43 HCA-1" Ca : 0x5080020000911310 ports 1 "nsn32-20 HCA-1" Ca : 0x50800200008e532c ports 1 "ib-71 HCA-1" Ca : 0x50800200008e5328 ports 1 "ib-70 HCA-1" Ca : 0x50800200008296a4 ports 2 "ib-90 HCA-1" . . . #
注意:
前述の出力例は、完全な出力の一部分にすぎないため、実際の出力はInfiniBandトポロジによって異なります。
InfiniBandファブリック内で発生するルーティングを把握するために、ibnetdiscover
コマンドでは、ノード間の接続性が表示されます。このコマンドの出力は、ファブリックのサイズによって異なります。また、HCAのLIDを表示するために、このコマンドを使用することもできます。
コマンド行インタフェース(CLI)で、次のコマンドを入力します。
# ibnetdiscover
次の例のような出力が表示されます。
# Topology file: generated on Sat Apr 13 22:28:55 2002 # # Max of 1 hops discovered # Initiated from node 0021283a8389a0a0 port 0021283a8389a0a0 vendid=0x2c9 devid=0xbd36 sysimgguid=0x21283a8389a0a3 switchguid=0x21283a8389a0a0(21283a8389a0a0) Switch 36 "S-0021283a8389a0a0" # "Sun DCS 36 QDR switch localhost" enhanced port 0 lid 15 lmc 0 [23] "H-0003ba000100e388"[2](3ba000100e38a) # "nsn33-43 HCA-1" lid 14 4xQDR vendid=0x2c9 devid=0x673c sysimgguid=0x3ba000100e38b caguid=0x3ba000100e388 Ca 2 "H-0003ba000100e388" # "nsn33-43 HCA-1" [2](3ba000100e38a) "S-0021283a8389a0a0"[23] # lid 14 lmc 0 "Sun DCS 36 QDR switch localhost" lid 15 4xQDR
注意:
InfiniBandファブリックの実際の出力は、前述の例とは異なります。
場合によっては、InfiniBandファブリック内の2つのノード間のルートを把握する必要があります。ibtracert
コマンドは、それらのノードのGUID、ポートおよびLIDを表示することにより、その情報を提供します。コマンド行インタフェース(CLI)で、次のコマンドを実行します。
# ibtracert slid dlid
ここで、slid
はソース・ノードのLID、dlid
はファブリック内の宛先ノードのLIDです。
次の例のような出力が表示されます。
# ibtracert 15 14 # From switch {0x0021283a8389a0a0} portnum 0 lid 15-15 "Sun DCS 36 QDR switch localhost" [23] -> ca port {0x0003ba000100e38a}[2] lid 14-14 "nsn33-43 HCA-1" To ca {0x0003ba000100e388} portnum 2 lid 14-14 "nsn33-43 HCA-1" #
次に例を示します。
ルートはGUID0x0021283a8389a0a0
のスイッチで始まり、ポート0
を使用しています。スイッチはLID 15
で、スイッチ・ホストの名前はSun DCS 36 QDR switch localhost
であると説明されています。ルートはGUID0x0003ba000100e38a
のHCAのポート23
で始まり、ポート2
で終了します。HCAはLID 14
です。
注意:
InfiniBandファブリックの実際の出力は、前述の例とは異なります。
InfiniBandファブリック内のノードのリンク・ステータスを知る必要がある場合は、ibportstate
コマンドを実行して、そのノードの状態、幅および通信速度を表示します。
コマンド行インタフェース(CLI)で、次のコマンドを実行します。
# ibportstate lid port
ここで、lid
はファブリック内のノードのLID、port
はノードのポートです。
次の例のような出力が表示されます。
# ibportstate 15 23 PortInfo: # Port info: Lid 15 port 23 LinkState:.......................Active PhysLinkState:...................LinkUp LinkWidthSupported:..............1X or 4X LinkWidthEnabled:................1X or 4X LinkWidthActive:.................4X LinkSpeedSupported:..............2.5 Gbps or 5.0 Gbps or 10.0 Gbps LinkSpeedEnabled:................2.5 Gbps or 5.0 Gbps or 10.0 Gbps LinkSpeedActive:.................10.0 Gbps Peer PortInfo: # Port info: Lid 15 DR path slid 15; dlid 65535; 0,23 LinkState:.......................Active PhysLinkState:...................LinkUp LinkWidthSupported:..............1X or 4X LinkWidthEnabled:................1X or 4X LinkWidthActive:.................4X LinkSpeedSupported:..............2.5 Gbps or 5.0 Gbps or 10.0 Gbps LinkSpeedEnabled:................2.5 Gbps or 5.0 Gbps or 10.0 Gbps LinkSpeedActive:.................10.0 Gbps #
注意:
InfiniBandファブリックの実際の出力は、前述の例とは異なります。
ファブリック内のノードのヘルス状態を確認するために、perfquery
コマンドを使用して、そのノードのパフォーマンス、エラーおよびデータ・カウンタを表示します。
コマンド行インタフェース(CLI)で、次のコマンドを入力します。
# perfquery lid port
ここで、lid
はファブリック内のノードのLID、port
はノードのポートです。
注意:
スイッチ・ノードに対してポート値255を指定した場合、カウンタはすべてのスイッチ・ポートの合計になります。
次に例を示します。
# perfquery 15 23 # # Port counters: Lid 15 port 23 PortSelect:......................23 CounterSelect:...................0x1b01 SymbolErrors:....................0 . . . VL15Dropped:.....................0 XmtData:.........................20232 RcvData:.........................20232 XmtPkts:.........................281 RcvPkts:.........................281
注意:
前述の出力例は、完全な出力の一部分にすぎません。
ファブリック内のノードのデータ・カウンタを一覧表示するには、ibdatacounts
コマンドを使用します。
コマンド行インタフェース(CLI)で、次のコマンドを入力します。
# ibdatacounts lid port
ここで、lid
はファブリック内のノードのLID、port
はノードのポートです。
次に例を示します。
# ibdatacounts 15 23 # XmtData:.........................6048 RcvData:.........................6048 XmtPkts:.........................84 RcvPkts:.........................84
注意:
InfiniBandファブリックの実際の出力は、前述の例とは異なります。
問題を解決するために徹底したトラブルシューティングが必要な場合は、smpquery
コマンドを使用して、ファブリック内のノードに関する詳細情報を表示できます。
コマンド行インタフェース(CLI)で、次のコマンドを入力します。
# smpquery switchinfo lid
ここで、lid
はファブリック内のノードのLIDです。
次に例を示します。
# smpquery switchinfo 15 # # Switch info: Lid 15 LinearFdbCap:....................49152 RandomFdbCap:....................0 McastFdbCap:.....................4096 LinearFdbTop:....................16 DefPort:.........................0 DefMcastPrimPort:................255 DefMcastNotPrimPort:.............255 LifeTime:........................18 StateChange:.....................0 LidsPerPort:.....................0 PartEnforceCap:..................32 InboundPartEnf:..................1 OutboundPartEnf:.................1 FilterRawInbound:................1 FilterRawOutbound:...............1 EnhancedPort0:...................1 # # smpquery portinfo lid port
注意:
InfiniBandファブリックの実際の出力は、前述の例とは異なります。
問題を解決するために徹底したトラブルシューティングが必要な場合は、smpquery
コマンドを使用して、ポートに関する詳細情報を表示できます。
コマンド行インタフェース(CLI)で、次のコマンドを入力します。
# smpquery portinfo lid port
ここで、lid
はファブリック内のノードのLIDです。
次に例を示します。
# smpquery portinfo 15 23 # Mkey:............................0x0000000000000000 GidPrefix:.......................0x0000000000000000 Lid:.............................0x0000 SMLid:...........................0x0000 CapMask:.........................0x0 DiagCode:........................0x0000 MkeyLeasePeriod:.................0 LocalPort:.......................0 LinkWidthEnabled:................1X or 4X LinkWidthSupported:..............1X or 4X LinkWidthActive:.................4X LinkSpeedSupported:..............2.5 Gbps or 5.0 Gbps or 10.0 Gbps LinkState:.......................Active PhysLinkState:...................LinkUp LinkDownDefState:................Polling ProtectBits:.....................0 LMC:.............................0 . . . SubnetTimeout:...................0 RespTimeVal:.....................0 LocalPhysErr:....................8 OverrunErr:......................8 MaxCreditHint:...................85 RoundTrip:.......................16777215 #
注意:
InfiniBandファブリックの実際の出力は、前述の例とは異なります。これは、完全な出力の一部分にすぎません。
ExalogicマシンのInfiniBandファブリックでは、サブネット・マネージャおよびサブネット管理者として、ファブリック内のノードにサブネット固有のLIDを割り当てることができます。InfiniBandコマンドの使用時には、特定のInfiniBandデバイスに対してコマンドを発行するためにLIDを指定することがよくあります。
また、コマンドの出力で、InfiniBandデバイスがそのLIDによって識別されていることがあります。ノードのLIDとGUIDのマッピング・ファイルを作成して、InfiniBandファブリックの管理に役立てることができます。
注意:
マッピング・ファイルの作成は、InfiniBand管理の要件ではありません。
次の手順では、16進数のLIDとGUID、およびノードの説明を一覧表示するファイルを作成します。
注意:
前述の出力例は、ファイル全体の一部分にすぎません。
InfiniBandファブリックの完全なテストを実行する必要がある場合は、ibdiagnet
コマンドを使用して、詳細な結果を示す数多くのテストを実行できます。このコマンドは、InfiniBandファブリックの全般的なヘルス状態の判別に役立つツールです。
コマンド行インタフェース(CLI)で、次のコマンドを実行します。
# ibdiagnet -v -r
ibdiagnet.log
ファイルには、テストのログが含まれます。
ibdiagpath
コマンドを使用すると、特定のルートに対していくつかの同様な包括的テストを実行できます。
コマンド行インタフェース(CLI)で、次のコマンドを実行します。
# ibdiagpath -v -l slid dlid
ここで、slid
はファブリック内のソース・ノードのLID、dlid
は宛先ノードのLIDです。
ibdiagpath.log
ファイルには、テストのログが含まれます。
障害が疑われる複数のノードがファブリックに存在する場合は、osmtest
コマンドを使用すると、ファブリックのスナップショット(インベントリ・ファイル)を取得して、後でそのファイルを現在の状態と比較できます。
注意:
この手順の実行は、サブネット・マネージャを初期化した後が最も有効ですが、いつでも実行できます。
次の手順を実行します。
ibdiagnet
コマンドを使用してパケットを注入することにより、どのリンクでシンボル・エラーとリカバリ・エラーが発生しているかを判別できます。
コマンド行インタフェース(CLI)で、次のコマンドを実行します。
# ibdiagnet -c 100 -P all=1
ibdiagnet
コマンドのこのインスタンスでは、それぞれのリンクに100個のテスト・パケットが注入され、テスト中に増分するすべてのカウンタが-P all=1
オプションによって返されます。
ibdiagnet
コマンドの出力で、symbol_error_counter
文字列を検索してください。その行には、16進数のシンボル・エラー・カウントが含まれます。その直前の行では、エラーが発生しているノードとポートが示されます。シンボル・エラーはマイナー・エラーであるため、診断の結果、比較的少ないことが判明した場合は、それらをモニターできます。
注意:
InfiniBand仕様10E-12 BERによると、最大許容シンボル・エラー率は1時間当たり120個のエラーです。
さらに、ibdiagnet
コマンドの出力で、link_error_recovery_counter
文字列を検索してください。
その行には、16進数のリカバリ・エラー・カウントが含まれます。その直前の行では、エラーが発生しているノードとポートが示されます。リカバリ・エラーは重大なエラーであるため、シンボル・エラーが急速に伝播した原因について、各リンクで調査する必要があります。
また、ibdiagnet.log
ファイルには、テストのログが含まれます。
InfiniBandファブリック内のすべてのノードで、すべてのポートの簡単な確認を実行するには、ibcheckstate
コマンドを使用できます。
コマンド行インタフェース(CLI)で、次のコマンドを実行します。
# ibcheckstate -v
次の例のような出力が表示されます。
# Checking Switch: nodeguid 0x0021283a8389a0a0 Node check lid 15: OK Port check lid 15 port 23: OK Port check lid 15 port 19: OK . . . # Checking Ca: nodeguid 0x0003ba000100e388 Node check lid 14: OK Port check lid 14 port 2: OK ## Summary: 5 nodes checked, 0 bad nodes found ## 10 ports checked, 0 ports with bad state found #
注意:
InfiniBandファブリックのサイズによっては、ibcheckstate
コマンドの完了には時間がかかります。-v
オプションを指定しない場合、出力には障害が発生したポートのみが表示されます。前述の出力例は、実際の出力の一部分にすぎません。