複数のRoCEネットワーク・ファブリック・ラックの配線

RoCEネットワーク・ファブリックを使用する既存のマルチラック・システムに別のラックを追加するには、この手順を使用します。

この手順は、Oracle Exadata System Softwareリリース20.1.0以降を使用したRoCEネットワーク・ファブリック(X8M以降)があるシステムを対象としています。

警告:

実装前に、この手順を読んで理解してください。コマンドの例のみでなく、すべての手順に注意してください。手順が正しく適用されない場合、システム停止が発生する可能性があります。

この手順では、既存のラックはR1、R2、…、Rnで、新しいラックはRn+1です。

ノート:

3つ以上のラックを配線する場合、既存のラックR1、R2、…、Rnに停止時間は必要となりません。新しいラックRn+1の電源のみを切断します

システムに応じて、適用可能な配線表を使用します。

以降のステップでは、次のサンプル・スイッチ名が新しいラック(Rn+1)に使用されます。

  • rack5sw-roces0: ラック5のスパイン・スイッチ(R5SS)
  • rack5sw-rocea0: ラック5の下位リーフ・スイッチ(R5LL)
  • rack5sw-roceb0: ラック5の上位リーフ・スイッチ(R5UL)
  1. 新しいラックが既存のラック(R1、R2、…、Rn)の近くにあることを確認します。
    RDMAネットワーク・ファブリック・ケーブルは、各ラックのサーバーに到達できる必要があります。
  2. 既存のラックおよび新しいラックの各スイッチの現在のスイッチ構成のバックアップがあることを確認します。
    スイッチごとに、『Oracle Exadata Database Machineメンテナンス・ガイド』のRoCEネットワーク・ファブリック・スイッチ設定のバックアップの項で示されているステップを完了します。
  3. 新しいラック(R n+1)のすべてのサーバーを停止します。
    Oracle Exadataラックの電源オフを参照してください。スイッチはオンラインのままで、使用可能な状態である必要があります。
  4. 既存のRoCEネットワーク・ファブリック・スイッチの構成を確認します。

    新しいラック(Rn+1)でRoCEネットワーク・ファブリック・スイッチを構成する前に、既存のラック(R1、R2、...、Rn)内のRoCEネットワーク・ファブリック・スイッチの構成を確認します。すべてのスイッチが確実に一意のループバック・オクテットを使用するようにするために必要です。ループバック・オクテットは、スイッチ・ループバックIPアドレスの最後のオクテットです。

    1. 既存のRoCEネットワーク・ファブリック・リーフ・スイッチに接続し、スイッチのループバック・オクテットを決定します。

      次の例に示されたコマンドを使用します。

      rack1sw-rocea0# show interface loopback 1 | grep Address
      
      Internet Address is 192.128.10.101/32

      この例では、ループバック・オクテットは101です。

    2. 他のすべてのリーフ・スイッチのループバック・オクテットを決定します。

      次の例に示されたコマンドを使用します。

      rack1sw-rocea0# show nve peers
      
      Interface Peer-IP                                State LearnType
      --------- -------------------------------------- ----- ---------
      nve1      192.128.10.102                         Up    CP
      nve1      192.128.10.103                         Up    CP
      nve1      192.128.10.104                         Up    CP
      nve1      192.128.10.105                         Up    CP
      nve1      192.128.10.106                         Up    CP
      nve1      192.128.10.107                         Up    CP
      nve1      192.128.10.108                         Up    CP

      この例では、出力に、ループバック・オクテット値が102から108である他の7つのリーフ・スイッチが示されています。この出力は、4つのラックを含む既存のシステムと一致しています。

    3. すべてのスパイン・スイッチのループバック・オクテットを決定します。

      次の例に示されたコマンドを使用します。

      rack1sw-rocea0# show bgp l2vpn evpn summary | egrep -v
      "BGP|Idle|I|Neighbor|memory"
      
      192.128.10.201 4 65502 9161 581 75716 0 0 08:53:23 3687
      192.128.10.202 4 65502 9160 582 75716 0 0 08:34:20 3687
      192.128.10.203 4 65502 9162 582 75716 0 0 08:41:22 3687
      192.128.10.204 4 65502 9163 582 75716 0 0 08:50:27 3687

      この例では、出力に、ループバック・オクテット値が201から204である他の4つのスパイン・スイッチが示されています。この出力は、4つのラックを含む既存のシステムとも一致しています。

    4. 既存のRoCEネットワーク・ファブリック・スイッチの構成を検証します。

      既存のRoCEネットワーク・ファブリック・スイッチから収集された情報を確認して、すべてのスイッチが一意のループバック・オクテット値を使用していること、およびすべての値が期待どおりであることを確認します。

      既存のRoCEネットワーク・ファブリック・スイッチから収集された情報が、次の規則に準拠していることを確認します。

      • リーフ・スイッチでは、ループバック・オクテット値の全体的な範囲は101で始まり、リーフ・スイッチごとに段階的に(1ずつ)増加する必要があります。

        ベスト・プラクティスの規則に従って、各リーフ・スイッチのループバック・オクテット値を次のように構成する必要があります。

        • 101 - ラック1の下位リーフ・スイッチ(R1LL)

        • 102 - ラック1の上位リーフ・スイッチ(R1UL)

        • 103 - ラック2の下位リーフ・スイッチ(R2LL)

        • 104 - ラック2の上位リーフ・スイッチ(R2UL)

        • 105 - ラック3の下位リーフ・スイッチ(R3LL)

        • 106 - ラック3の上位リーフ・スイッチ(R3UL)など。

      • スパイン・スイッチでは、ループバック・オクテット値の範囲は201で始まり、スパイン・スイッチごとに段階的に(1ずつ)増加する必要があります。

        ベスト・プラクティスの規則に従って、各スパイン・スイッチのループバック・オクテット値を次のように構成する必要があります。

        • 201 - ラック1のスパイン・スイッチ(R1SS)

        • 202 - ラック2のスパイン・スイッチ(R2SS)

        • 203 - ラック3のスパイン・スイッチ(R3SS)

        • 204 - ラック4のスパイン・スイッチ(R4SS)など。

      注意:

      既存のラック内のスイッチ(R1、R2、...、Rn)が前述の規則に従っていない場合は、(次のステップで)ゴールデン構成設定の適用の一環として、新しいラック(Rn+1)内のスイッチに一意のループバック・オクテット値を割り当てるよう特に注意する必要があります。

      複数のスイッチが同じループバック・オクテットを使用すると、RoCEネットワーク・ファブリックは正しく機能しないため、システムが停止します。

  5. 新しいラック(R n+1)のRoCEネットワーク・ファブリック・スイッチにゴールデン構成設定を適用します。

    前のステップで収集した既存のRoCEネットワーク・ファブリック・スイッチに関する情報と、RoCEネットワーク・ファブリック・スイッチへのGolden構成設定の適用(Oracle Exadata Database Machineメンテナンス・ガイド)で説明されている手順を組み合せます。

    注意:

    RoCEネットワーク・ファブリックの構成ミスによってシステムが停止する可能性があるため、この手順を実行するときは注意してください。

    たとえば、マルチラック構成のすべてのスイッチには、一意のループバック・オクテットが必要です。複数のスイッチが同じループバック・オクテットを使用すると、RoCEネットワーク・ファブリックは正しく機能しないため、システムが停止します。

  6. 新しいラック(Rn+1)のRoCEネットワーク・ファブリック・リーフ・スイッチのリーフ・スイッチ・サーバー・ポートを有効にします。

    前のステップでマルチラック・ゴールデン構成設定を適用した結果、リーフ・スイッチ・サーバー・ポートが無効になっている場合があります。

    リーフ・スイッチ・サーバー・ポートが有効になっていることを確認するには、新しいラックでリーフ・スイッチそれぞれにログインし、各スイッチで次のコマンドを実行します:

    rack5sw-rocea0# config term
    rack5sw-rocea0# int eth1/8-30
    rack5sw-rocea0# no shut
    rack5sw-rocea0# copy running-config startup-config
  7. 新しいラック(Rn+1)のスイッチの物理的な配線を実行します。

    注意:

    重大な破損を避けるために、ライブ・ネットワーク内の配線を慎重に行う必要があります。
    1. 新しいラック(Rn+1)の各リーフ・スイッチの間にある、8つの既存のスイッチ間接続(ポート4、5、6、7および30、31、32、33)を取り外します。
    2. 該当する配線表に従って、新しいラックでリーフ・スイッチを配線します。

      たとえば、Exadata X9M (またはそれ以降のモデル)ラックを使用してシステムに5番目のラックを追加する場合は、表22-17 5ラック・システムの5番目のラックのリーフ・スイッチ接続を使用します。

  8. 既存のラックのスイッチに新しいラックを追加します(R1からRn)。
    1. 既存のラック(Rx)の場合、該当する配線表に従って、下部のリーフ・スイッチRxLLを配線します。
    2. 同じラックの場合、該当する配線表に従って、上部のリーフ・スイッチRxULを配線します。
    3. これらのステップを既存の各ラック(R1からRn)で繰り返します。
  9. 各スイッチが使用可能で、接続されていることを確認します。

    ラックR1、R2、…、Rn、Rn+1の各スイッチについて、スイッチのshow interface statusコマンドの出力にconnected100Gが表示されることを確認します。

    スパイン・スイッチから実行すると、出力は次のようになります。

    rack1sw-roces0# show interface status
    --------------------------------------------------------------------------------
    Port          Name               Status    Vlan      Duplex  Speed   Type
    --------------------------------------------------------------------------------
    mgmt0         --                 connected routed    full    1000    -- 
    --------------------------------------------------------------------------------
    Port          Name               Status    Vlan      Duplex  Speed   Type
    --------------------------------------------------------------------------------
    ...
    Eth1/5        RouterPort5        connected routed    full    100G    QSFP-100G-CR4
    Eth1/6        RouterPort6        connected routed    full    100G    QSFP-100G-SR4
    Eth1/7        RouterPort7        connected routed    full    100G    QSFP-100G-CR4
    Eth1/8        RouterPort8        connected routed    full    100G    QSFP-100G-SR4
    Eth1/9        RouterPort9        connected routed    full    100G    QSFP-100G-CR4
    Eth1/10       RouterPort10       connected routed    full    100G    QSFP-100G-SR4
    Eth1/11       RouterPort11       connected routed    full    100G    QSFP-100G-CR4
    Eth1/12       RouterPort12       connected routed    full    100G    QSFP-100G-SR4
    Eth1/13       RouterPort13       connected routed    full    100G    QSFP-100G-CR4
    Eth1/14       RouterPort14       connected routed    full    100G    QSFP-100G-SR4
    Eth1/15       RouterPort15       connected routed    full    100G    QSFP-100G-CR4
    Eth1/16       RouterPort16       connected routed    full    100G    QSFP-100G-SR4
    Eth1/17       RouterPort17       connected routed    full    100G    QSFP-100G-CR4
    Eth1/18       RouterPort18       connected routed    full    100G    QSFP-100G-SR4
    Eth1/19       RouterPort19       connected routed    full    100G    QSFP-100G-CR4
    Eth1/20       RouterPort20       connected routed    full    100G    QSFP-100G-SR4
    Eth1/21       RouterPort21       xcvrAbsen      routed    full    100G    --
    ...

    リーフ・スイッチから実行すると、出力は次のようになります。

    rack1sw-rocea0# show interface status
    --------------------------------------------------------------------------------
    Port          Name               Status    Vlan      Duplex  Speed   Type
    --------------------------------------------------------------------------------
    mgmt0         --                 connected routed    full    1000    -- 
    --------------------------------------------------------------------------------
    Port          Name               Status    Vlan      Duplex  Speed   Type
    --------------------------------------------------------------------------------
    ...
    Eth1/4        RouterPort1        connected routed    full    100G    QSFP-100G-CR4
    Eth1/5        RouterPort2        connected routed    full    100G    QSFP-100G-CR4
    Eth1/6        RouterPort3        connected routed    full    100G    QSFP-100G-CR4
    Eth1/7        RouterPort4        connected routed    full    100G    QSFP-100G-CR4
    Eth1/8        celadm14           connected 3888      full    100G    QSFP-100G-CR4
    ...
    Eth1/29       celadm01           connected 3888      full    100G    QSFP-100G-CR4
    Eth1/30       RouterPort5        connected routed    full    100G    QSFP-100G-SR4
    Eth1/31       RouterPort6        connected routed    full    100G    QSFP-100G-SR4
    Eth1/32       RouterPort7        connected routed    full    100G    QSFP-100G-SR4
    Eth1/33       RouterPort8        connected routed    full    100G    QSFP-100G-SR4
    ...
  10. ラックR1、R2、…、Rn、Rn+1のすべてのスイッチで、近隣探索をチェックします。
    各スイッチにログインし、show lldp neighborsコマンドを使用します。すべてのスイッチが表示されることを確認し、スイッチのポートの割当て(リーフ・スイッチ: ポートEth1/4 - Eth1/7、Eth1/30 - Eth1/33、スパイン・スイッチ: ポートEth1/5 - Eth1/20)を、該当する配線表に対して確認します。

    各スパイン・スイッチでは、各ラックのすべてのリーフ・スイッチが表示されますが、他のスパイン・スイッチは表示されません。スパイン・スイッチの出力は次のようになります。

    ノート:

    右端の出力列のインタフェース(Ethernet1/5など)は、該当する配線表に基づいて各スイッチで異なります。
    rack1sw-roces0# show lldp neighbors | grep roce
    rack1sw-roceb0 Eth1/5 120 BR Ethernet1/5
    rack2sw-roceb0 Eth1/6 120 BR Ethernet1/5
    rack1sw-roceb0 Eth1/7 120 BR Ethernet1/7
    rack2sw-roceb0 Eth1/8 120 BR Ethernet1/7
    rack1sw-roceb0 Eth1/9 120 BR Ethernet1/4
    rack2sw-roceb0 Eth1/10 120 BR Ethernet1/4
    rack3sw-roceb0 Eth1/11 120 BR Ethernet1/5
    rack3sw-roceb0 Eth1/12 120 BR Ethernet1/7
    rack1sw-rocea0 Eth1/13 120 BR Ethernet1/5
    rack2sw-rocea0 Eth1/14 120 BR Ethernet1/5
    rack1sw-rocea0 Eth1/15 120 BR Ethernet1/7
    rack2sw-rocea0 Eth1/16 120 BR Ethernet1/7
    rack3sw-rocea0 Eth1/17 120 BR Ethernet1/5
    rack2sw-rocea0 Eth1/18 120 BR Ethernet1/4
    rack3sw-rocea0 Eth1/19 120 BR Ethernet1/7
    rack3sw-rocea0 Eth1/20 120 BR Ethernet1/4 
    ...

    各リーフ・スイッチでは、すべてのラックのスパイン・スイッチが表示されますが、他のリーフ・スイッチは表示されません。リーフ・スイッチの出力は次のようになります。

    ノート:

    右端の出力列のインタフェース(Ethernet1/13など)は、該当する配線表に基づいて各スイッチで異なります。
    rack1sw-rocea0# show lldp neighbors | grep roce
    rack3sw-roces0 Eth1/4 120 BR Ethernet1/13
    rack1sw-roces0 Eth1/5 120 BR Ethernet1/13
    rack3sw-roces0 Eth1/6 120 BR Ethernet1/15
    rack1sw-roces0 Eth1/7 120 BR Ethernet1/15
    rack2sw-roces0 Eth1/30 120 BR Ethernet1/17
    rack2sw-roces0 Eth1/31 120 BR Ethernet1/13
    rack3sw-roces0 Eth1/32 120 BR Ethernet1/17
    rack2sw-roces0 Eth1/33 120 BR Ethernet1/15
    ...
  11. 新しいラック(Rn+1)のすべてのサーバーの電源をオンにします。
  12. 各ラックで、verify_roce_cables.pyスクリプトを実行して、マルチラック配線を確認します。

    ダウンロードおよび使用方法については、My Oracle SupportのDoc ID 2587717.1を参照してください。

    verify_roce_cables.pyスクリプトの出力を、該当する配線表と照合して確認します。また、CABLE OK?列の出力にOKステータスが含まれていることを確認します。

    スクリプトの実行時には、ノード用とスイッチ用の2つの入力ファイルが使用されます。各ファイルには、サーバーまたはスイッチが別々の行に含まれている必要があります。サーバーおよびスイッチごとに完全修飾ドメイン名またはIPアドレスを使用します。

    次の出力は、コマンドの結果の部分的な例を示しています。

    # ./verify_roce_cables.py -n nodes.rack1 -s switches.rack1
    SWITCH PORT (EXPECTED PEER)  LEAF-1 (rack1sw-rocea0)     : CABLE OK?  LEAF-2 (rack1sw-roceb0)    : CABLE OK?
    ----------- --------------   --------------------------- : --------   -----------------------    : ---------
    Eth1/4 (ISL peer switch)   : rack1sw-roces0 Ethernet1/17 : OK         rack1sw-roces0 Ethernet1/9 : OK
    Eth1/5 (ISL peer switch)   : rack1sw-roces0 Ethernet1/13 : OK         rack1sw-roces0 Ethernet1/5 : OK
    Eth1/6 (ISL peer switch)   : rack1sw-roces0 Ethernet1/19 : OK         rack1sw-roces0 Ethernet1/11: OK
    Eth1/7 (ISL peer switch)   : rack1sw-roces0 Ethernet1/15 : OK         rack1sw-roces0 Ethernet1/7 : OK
    Eth1/12 (celadm10)         : rack1celadm10 port-1        : OK         rack1celadm10 port-2       : OK
    Eth1/13 (celadm09)         : rack1celadm09 port-1        : OK         rack1celadm09 port-2       : OK
    Eth1/14 (celadm08)         : rack1celadm08 port-1        : OK         rack1celadm08 port-2       : OK
    ...
    Eth1/15 (adm08)            : rack1dbadm08 port-1         : OK         rack1dbadm08 port-2        : OK
    Eth1/16 (adm07)            : rack1dbadm07 port-1         : OK         rack1dbadm07 port-2        : OK
    Eth1/17 (adm06)            : rack1dbadm06 port-1         : OK         rack1dbadm06 port-2        : OK
    ...
    Eth1/30 (ISL peer switch)  : rack2sw-roces0 Ethernet1/17 : OK         rack2sw-roces0 Ethernet1/9 : OK
    Eth1/31 (ISL peer switch)  : rack2sw-roces0 Ethernet1/13 : OK         rack2sw-roces0 Ethernet1/5 : OK
    Eth1/32 (ISL peer switch)  : rack2sw-roces0 Ethernet1/19 : OK         rack2sw-roces0 Ethernet1/11: OK
    Eth1/33 (ISL peer switch)  : rack2sw-roces0 Ethernet1/15 : OK         rack2sw-roces0 Ethernet1/7 : OK
    
  13. infinicheckコマンドを使用して、RoCEネットワーク・ファブリック操作を検証します。

    次の推奨コマンド・シーケンスを使用してください。各コマンドのhosts.lstにはデータベース・サーバーRoCEネットワーク・ファブリックのIPアドレス(各データベース・サーバーの2つのRoCEネットワーク・ファブリックのIPアドレス)のリストが含まれ、cells.lstにはストレージ・サーバーのRoCEネットワーク・ファブリックのIPアドレス(各ストレージ・サーバーの2つのRoCEネットワーク・ファブリックのIPアドレス)のリストが含まれます。

    • -zオプションを指定してinfinicheckを使用し、前回のinfinicheckコマンドの実行中に作成されたファイルをクリアします。たとえば:

      # /opt/oracle.SupportTools/ibdiagtools/infinicheck -g hosts.lst -c cells.lst -z
    • -sオプションを指定してinfinicheckを使用し、RoCEネットワーク・ファブリック全体でパスワードなしSSHのユーザー等価を設定します。たとえば:

      # /opt/oracle.SupportTools/ibdiagtools/infinicheck -g hosts.lst -c cells.lst -s
    • 最後に、-bオプションを指定してinfinicheckを使用し、RoCEネットワーク・ファブリック操作を検証します。これは、cellip.oraおよびcellinit.ora構成チェックの抑制が許容される新しくイメージ化されたマシンで推奨されます。たとえば:

      # /opt/oracle.SupportTools/ibdiagtools/infinicheck -g hosts.lst -c cells.lst -b
      
      INFINICHECK                    
              [Network Connectivity, Configuration and Performance]        
                     
                ####  FABRIC TYPE TESTS  #### 
      System type identified: RoCE
      Verifying User Equivalance of user=root from all DBs to all CELLs.
           ####  RoCE CONFIGURATION TESTS  ####       
           Checking for presence of RoCE devices on all DBs and CELLs 
      [SUCCESS].... RoCE devices on all DBs and CELLs look good
           Checking for RoCE Policy Routing settings on all DBs and CELLs 
      [SUCCESS].... RoCE Policy Routing settings look good
           Checking for RoCE DSCP ToS mapping on all DBs and CELLs 
      [SUCCESS].... RoCE DSCP ToS settings look good
           Checking for RoCE PFC settings and DSCP mapping on all DBs and CELLs
      [SUCCESS].... RoCE PFC and DSCP settings look good
           Checking for RoCE interface MTU settings. Expected value : 2300
      [SUCCESS].... RoCE interface MTU settings look good
           Verifying switch advertised DSCP on all DBs and CELLs ports ( )
      [SUCCESS].... Advertised DSCP settings from RoCE switch looks good  
          ####  CONNECTIVITY TESTS  ####
          [COMPUTE NODES -> STORAGE CELLS] 
            (60 seconds approx.)       
          (Will walk through QoS values: 0-6) [SUCCESS]..........Results OK
      [SUCCESS]....... All  can talk to all storage cells          
          [COMPUTE NODES -> COMPUTE NODES]               
      ...