4.8.4 InfiniBandネットワーク・ファブリックの動作の検証

基礎となるハードウェアを変更した後にInfiniBandネットワーク・ファブリックのネットワークが適切に動作しているかどうかを検証します。

InfiniBandネットワーク・ファブリックのネットワーク内の任意のコンポーネントを使用してハードウェアのメンテナンス(サーバー、InfiniBandネットワーク・ファブリックのスイッチまたはInfiniBandネットワーク・ファブリックのケーブル上のInfiniBand HCAの交換を含む)が行われたか、InfiniBandネットワーク・ファブリックの操作が基準を満たしていない疑いがある場合、InfiniBandネットワーク・ファブリックが適切に動作しているかどうかを検証します。次の手順は、ネットワーク動作の確認方法を示しています。

ノート:

InfiniBandネットワーク・ファブリックが予測を下回るパフォーマンスの場合は、常に次の手順を使用できます。
  1. InfiniBandネットワーク・ファブリック構成の検証のステップを完了します。
  2. ibdiagnetコマンドを実行して、InfiniBandネットワーク・ファブリックの動作を検証します。
    # ibdiagnet -c 1000

    このコマンドで報告されるすべてのエラーが調査されます。このコマンドにより生成されるネットワーク・トラフィックは少量であるため、通常のワークロードの実行中に実行してもかまいません。

  3. ibqueryerrors.plコマンドを実行して、スイッチ・ポート・エラーのカウンタとポート構成情報を報告します。
    #  ibqueryerrors.pl -rR -s RcvSwRelayErrors,XmtDiscards,XmtWait,VL15Dropped

    前述のコマンドを使用すると、LinkDownedRcvSwRelayErrorsXmtDiscardsおよびXmtWaitなどのエラーが無視されます。

    ノート:

    • InfiniBandネットワーク・ファブリックのカウンタは、累計カウンタであるためエラーは過去のいずれかの時点で発生したものです。エラーが報告された場合は、ibclearcountersコマンドを使用してInfiniBandネットワーク・ファブリックのカウンタをクリアすることをお薦めします。コマンドの実行後、負荷の下で数分間システムを動作させてから、ibquerryerrorsコマンドを実行してください。

    • サーバーを再起動すると、SymbolErrorsまたはRcvErrorsなどのカウンタにより数値が変更される場合があります。これらのカウンタの値がLinkDownedカウンタよりも少ない場合、一般的に問題はありません。LinkDownedカウンタは、通常、再起動などの有効な理由でポートが停止した回数を表し、これ自体がエラー・インジケータとなることはありません。

    • 多量で永続的なエラーならどれでも、特にSymbolErrorsLinkRecoversRcvErrorsまたはLinkIntegrityErrorsは、ケーブルまたはポートが壊れているまたは緩んでいることを示します。

    • 多量で永続的なInfiniBandネットワーク・ファブリックのエラー・カウンタがある場合は、問題を調査して修正してください。

  4. 実行中のデータベースがないなど、InfiniBandネットワーク・ファブリックの一部で実行されるロードがない場合は、infinicheckコマンドを実行して、完全なInfiniBandネットワーク・ファブリックの構成、接続およびパフォーマンス評価を行います。

    ノート:

    このコマンドは、完全なネットワークの最大スループットを評価します。InfiniBandネットワーク・ファブリックのシステムで実行されているワークロードがある場合は実行しないでください。

    このコマンドは、完全に構成されたシステムに依存します。最初のコマンドでは、前回のinfinicheckコマンドの実行時に作成されたファイルをクリアします。

    # /opt/oracle.SupportTools/ibdiagtools/infinicheck -z 
    
    # /opt/oracle.SupportTools/ibdiagtools/infinicheck

    次に、コマンドの出力例を示します。

    Verifying User Equivalance of user=root to all hosts.
    (If it isn't setup correctly, an authentication prompt will appear to push keys
     to all the nodes)
     
     Verifying User Equivalance of user=root to all cells.
    (If it isn't setup correctly, an authentication prompt will appear to push keys
     to all the nodes)
     
     
                        ####  CONNECTIVITY TESTS  ####
                        [COMPUTE NODES -> STORAGE CELLS]
                               (30 seconds approx.)
    [SUCCESS]..............Connectivity verified
     
    [SUCCESS]....... All hosts can talk to all storage cells
     
            Verifying Subnet Masks on Hosts and Cells
    [SUCCESS] ......... Subnet Masks is same across the network
     
            Checking for bad links in the fabric
    [SUCCESS].......... No bad fabric links found
     
                        [COMPUTE NODES -> COMPUTE NODES]
                               (30 seconds approx.)
    [SUCCESS]..............Connectivity verified
     
    [SUCCESS]....... All hosts can talk to all other nodes
     
     
                        ####  PERFORMANCE TESTS  ####
     
                        [(1) Every COMPUTE NODE to its STORAGE CELL]
                              (15 seconds approx.)
    [SUCCESS]........ Network Bandwidth looks OK.
    .......... To view only performance results run ./infinicheck -d -p
     
                        [(2) Every COMPUTE NODE to another COMPUTE NODE]
                              (10 seconds approx.)
    [SUCCESS]........ Network Bandwidth looks OK.
    ...... To view only performance results run ./infinicheck -d -p
     
                        [(3) Every COMPUTE NODE to ALL STORAGE CELLS]
                      (45 seconds approx.) (looking for SymbolErrors)
     
    [SUCCESS]....... No port errors found