13 サーバー・ディスクの交換

この章は次の項で構成されています:

注意:

ディスクの障害がOracle Big Data Applianceにとって致命的になることはありません。ユーザー・データは何も失われません。HDFSまたはOracle NoSQL Databaseに格納されているデータは、自動的にレプリケートされます。

物理ディスクの修理では、Oracle Big Data Applianceを停止する必要はありません。ただし、個々のサーバーは一時的にクラスタの外部に取り出すことがあり、停止時間が必要です。

関連項目:

My Oracle SupportドキュメントID 1581331.1 My Oracle SupportドキュメントID 1581331.1

13.1 サーバー構成の確認

各Oracle Big Data Applianceサーバーの12のディスク・ドライブは、LSI MegaRAID SAS 92610-8iディスク・コントローラによって制御されます。パフォーマンス低下の可能性や機能停止を避けるため、RAIDデバイスのステータスを確認することをお薦めします。RAIDデバイスを検証することによるサーバーに対する影響は、ごくわずかです。修正作業はサーバーの操作に影響する可能性があり、その範囲は、検出された特定の問題に応じて単純な再構成から機能停止にまで及びます。

13.1.1 ディスク・コントローラ構成の確認

ディスク・コントローラ構成を確認するには、次のコマンドを入力します。

# MegaCli64 -AdpAllInfo -a0 | grep "Device Present" -A 8

次に、コマンドからの出力例を示します。通常は、12の仮想ドライブがあり、縮退ドライブやオフライン・ドライブはなく、14の物理デバイスがあります。14のデバイスは、コントローラと12のディスク・ドライブです。

                Device Present
                ================
Virtual Drives    : 12 
  Degraded        : 0 
  Offline         : 0 
Physical Devices  : 14 
  Disks           : 12 
  Critical Disks  : 0 
  Failed Disks    : 0 

出力が異なる場合、調査して問題を修正してください。

13.1.2 仮想ドライブ構成の確認

仮想ドライブ構成を確認するには、次のコマンドを入力します。

# MegaCli64 -LDInfo -lAll -a0

次に、仮想ドライブ0に関する出力例を示します。StateがOptimalであることを確認してください。

Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name                :
RAID Level          : Primary-0, Secondary-0, RAID Level Qualifier-0
Size                : 1.817 TB
Parity Size         : 0
State               : Optimal
Strip Size          : 64 KB
Number Of Drives    : 1
Span Depth          : 1
Default Cache Policy: WriteBack, ReadAheadNone, Cached, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Cached, No Write Cache if Bad BBU
Access Policy       : Read/Write
Disk Cache Policy   : Disk's Default
Encryption Type     : None

13.1.3 物理ドライブ構成の確認

次のコマンドを使用して、物理ドライブ構成を検証します。

# MegaCli64 -PDList -a0 | grep Firmware

次に、コマンドからの出力例を示します。通常、12のドライブに、Online, Spun Upが表示されます。出力が異なる場合、調査して問題を修正してください。

Firmware state: Online, Spun Up
Device Firmware Level: 061A
Firmware state: Online, Spun Up
Device Firmware Level: 061A
Firmware state: Online, Spun Up
Device Firmware Level: 061A
     .
     .
     .

13.2 ディスク・ドライブ識別子について

Oracle Big Data Applianceサーバーには、ホスト・バス・アダプタ(HBA)によって制御されるディスク・エンクロージャ・ケージが含まれます。エンクロージャには、スロット番号0から11で識別される12のディスク・ドライブがあります。ドライブは、表13-1に示すような固有の機能専用にすることができます。

Oracle Big Data Applianceでは、ディスクのスロット番号を識別するために、/dev/disk/by_hba_slotで定義されるシンボリック・リンクを使用します。リンクの形式は、snpmであり、nはスロット番号、mはパーティション番号です。たとえば、/dev/disk/by_hba_slot/s0p1は初期状態で/dev/sda1に対応します。

ディスクがホット・スワップされる場合、オペレーティング・システムでは、カーネル・デバイス名を再利用できません。かわりに、新しいデバイス名が割り当てられます。たとえば、/dev/sdaをホット・スワップすると、/dev/disk/by-hba-slot/s0に対応するディスクは、/dev/sdaのかわりに/dev/sdnにリンクされます。したがって、/dev/disk/by-hba-slot/のリンクは、デバイスの追加または削除時に自動的に更新されます。

コマンド出力では、デバイス名がシンボリック・リンク名ではなくカーネル・デバイス名でリストされます。つまり、/dev/disk/by-hba-slot/s0は、コマンド出力では/dev/sdaとして識別される場合があります。

13.2.1 標準ディスク・ドライブ・マッピング

表13-1に、RAID論理ドライブとオペレーティング・システム識別子との間の通常の初期マッピングを示します。ただし、システムに存在するマッピング(ここにリストしたものとは異なる可能性があります)を使用する必要があります。表には、Oracle Big Data Applianceサーバーの各ドライブの専用機能も示します。障害ドライブのあるサーバーは、CDHクラスタ(HDFS)またはOracle NoSQL Databaseクラスタの一部です。

表13-1 ディスク・ドライブ識別子

物理スロットに対するシンボリック・リンク 一般的な初期カーネル・デバイス名 固有の機能

/dev/disk/by-hba-slot/s0

/dev/sda

オペレーティング・システム

/dev/disk/by-hba-slot/s1

/dev/sdb

オペレーティング・システム

/dev/disk/by-hba-slot/s2

/dev/sdc

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s3

/dev/sdd

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s4

/dev/sde

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s5

/dev/sdf

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s6

/dev/sdg

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s7

/dev/sdh

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s8

/dev/sdi

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s9

/dev/sdj

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s10

/dev/sdk

HDFSまたはOracle NoSQL Database

/dev/disk/by-hba-slot/s11

/dev/sdl

HDFSまたはOracle NoSQL Database

13.2.2 標準マウント・ポイント

表13-2に、HDFSパーティションとマウント・ポイントとの間のマッピングを示します。

表13-2 マウント・ポイント

物理スロットおよびパーティションに対するシンボリック・リンク HDFSパーティション マウント・ポイント

/dev/disk/by-hba-slot/s0p4

/dev/sda4

/u01

/dev/disk/by-hba-slot/s1p4

/dev/sdb4

/u02

/dev/disk/by-hba-slot/s2p1

/dev/sdc1

/u03

/dev/disk/by-hba-slot/s3p1

/dev/sdd1

/u04

/dev/disk/by-hba-slot/s4p1

/dev/sde1

/u05

/dev/disk/by-hba-slot/s5p1

/dev/sdf1

/u06

/dev/disk/by-hba-slot/s6p1

/dev/sdg1

/u07

/dev/disk/by-hba-slot/s7p1

/dev/sdh1

/u08

/dev/disk/by-hba-slot/s8p1

/dev/sdi1

/u09

/dev/disk/by-hba-slot/s9p1

/dev/sdj1

/u10

/dev/disk/by-hba-slot/s10p1

/dev/sdk1

/u11

/dev/disk/by-hba-slot/s11p1

/dev/sdl1

/u12

13.2.3 ディスク・ドライブの物理スロット番号の取得

次のMegaCli64コマンドを使用して、仮想ドライブ番号と物理スロット番号のマッピングを確認します。「ディスク・ドライブの交換」を参照してください。

# MegaCli64 LdPdInfo a0 | more 

13.3 ディスク交換プロセスの概要

  1. 障害ディスク・ドライブを交換します。
  2. Bdaconfigurediskユーティリティを実行して、新しいディスク・ドライブを構成します。

Bdaconfigurediskユーティリティは、残りの処理を自動化します。その操作は次のとおりです。

  • 新しいディスクの基本構成ステップを実行します。
  • 障害ディスクの固有の機能がオペレーティング・システム・ディスク、HDFSディスクまたはOracle NoSQL Databaseディスクのいずれであるかを識別します。
  • ディスクをその固有の機能用に構成します。
  • 構成が正しいことを確認します。
  • ディスクをプロビジョニングします(Oracle Big Data Applianceソフトウェアをインストールします)。

関連項目:

次の場所にあるOracle Server X7-2Lサービス・マニュアルのストレージ・ドライブの修理に関する項

http://docs.oracle.com/cd/E62172_01/html/E62184/z400001c165586.html#scrolltoc

次の場所にあるOracle Server X6-2Lサービス・マニュアルのストレージ・ドライブおよびリア・ドライブの修理に関する項

http://docs.oracle.com/cd/E62172_01/html/E62184/z400001c165586.html#scrolltoc

次の場所にあるOracle Server X5-2Lサービス・マニュアルのストレージ・ドライブおよびリア・ドライブの修理に関する項

http://docs.oracle.com/cd/E41033_01/html/E48325/cnpsm.z40000091011460.html#scrolltoc

次の場所にあるSun Fire X4270 M2 Serverサービス・マニュアルのストレージ・ドライブおよびブート・ドライブの修理に関する項を参照してください。

http://docs.oracle.com/cd/E19245-01/E21671/hotswap.html#50503714_61628

13.4 サーバーが再起動しない場合の対処方法

サーバーは、ディスク交換手順の最中に、ユーザーがrebootコマンドを発行したため、またはMegaCli64コマンドでエラーが発生したために再起動することがあります。ほとんどの場合、サーバーは正常に再起動し、作業を継続できます。ただし、それ以外の場合、エラーが発生するためにSSHを使用して再接続できなくなります。この場合、Oracle ILOMを使用して再起動を完了する必要があります。

Oracle ILOMを使用してサーバーを再起動するには、次の手順を実行します。

  1. ブラウザで、Oracle ILOMを使用してサーバーに対する接続を開きます。次に例を示します。

    http://bda1node12-c.example.com

    注意:

    ブラウザには、JDKプラグインがインストールされている必要があります。ログイン・ページにJavaのコーヒー・カップが表示されない場合、作業を続行する前にプラグインをインストールする必要があります。

  2. Oracle ILOM資格証明を使用してログインします。

  3. 「Remote Control」タブを選択します。

  4. 「Launch Remote Console」ボタンをクリックします。

  5. [Ctrl]を押しながら[D]を押し、再起動を続行します。

  6. 再起動に失敗した場合、プロンプトでサーバーのrootパスワードを入力し、問題の修正を試みます。

  7. サーバーが正常に再起動したら、「Redirection」メニューを開いて「Quit」を選択し、コンソール・ウィンドウを閉じます。

関連項目:

Oracle Integrated Lights Out Manager (ILOM) 3.0のドキュメント

http://docs.oracle.com/cd/E19860-01/

13.5 ディスク・ドライブの交換

障害が発生または障害状態にあるディスク・ドライブを交換するには、次の手順を実行します。

  1. 障害ディスクを交換する前に、「障害ディスクを交換するための前提条件」を参照してください。

  2. 障害ディスク・ドライブを交換します。

    「Oracle Big Data Applianceサーバーの部品」を参照してください。

  3. 障害ディスクを交換するためにサーバーの電源を切断した場合、電源を投入します。

  4. KVMまたはラップトップとのSSL接続を使用して、rootとしてサーバーに接続します。

  5. ファイルに物理ドライブの情報を保存します。

    # MegaCli64 pdlist a0 > pdinfo.tmp
    

    注意: このコマンドによって、出力がファイルにリダイレクトされるため、テキスト・エディタを使用して複数の検索を実行できます。必要に応じて、moreまたはgrepコマンドを通じて出力をパイプ処理できます。

    ユーティリティによって、スロットごとに次の情報が返されます。次の例は、Firmware StateがUnconfigured(good), Spun Upであることを示しています。

    Enclosure Device ID: 20
    Slot Number: 8
    Drive's postion: DiskGroup: 8, Span: 0, Arm: 0
    Enclosure position: 0
    Device Id: 11
    WWN: 5000C5003487075C
    Sequence Number: 2
    Media Error Count: 0
    Other Error Count: 0
    Predictive Failure Count: 0
    Last Predictive Failure Event Seq Number: 0
    PD Type: SAS
    Raw Size: 1.819 TB [0xe8e088b0 Sectors]
    Non Coerced Size: 1.818 TB [0xe8d088b0 Sectors]
    Coerced Size: 1.817 TB [0xe8b6d000 Sectors]
    Firmware state: Unconfigured(good), Spun Up
    Is Commissioned Spare : NO
    Device Firmware Level: 061A
    Shield Counter: 0
    Successful diagnostics completion on :  N/A
    SAS Address(0): 0x5000c5003487075d
    SAS Address(1): 0x0
    Connected Port Number: 0(path0)
    Inquiry Data: SEAGATE ST32000SSSUN2.0T061A1126L6M3WX
    FDE Enable: Disable
    Secured: Unsecured
    Locked: Unlocked
    Needs EKM Attention: No
    Foreign State: None
    Device Speed: 6.0Gb/s
    Link Speed: 6.0Gb/s
    Media Type: Hard Disk Device
    .
    .
    .
    
  6. ステップ5で作成したファイルをテキスト・エディタで開き、次の項目を検索します。

    • Foreign StateがForeignであるディスク

    • Firmware StateがUnconfiguredであるディスク

  7. Foreign StateがForeignのディスクでは、そのステータスを消去します。

    # MegaCli64 CfgForeign clear a0
    

    外部ディスクは、コントローラが以前認識していたディスクです(再挿入されたディスクなど)。

  8. Firmware StateがUnconfigured (Bad)のディスクでは、次のステップを実行します。

    1. エンクロージャ・デバイスのID番号とスロット番号を書き留めます。

    2. 次の書式でコマンドを入力します。

      # MegaCli64 pdmakegood physdrv[enclosure:slot] a0
      

      たとえば、[20:10]では、スロット10のエンクロージャ20によって識別されるディスクが修復されます。

    3. もう一度Foreign Stateの現在のステータスを確認します。

      # MegaCli64 pdlist a0 | grep foreign
      
    4. Foreign StateがまだForeignの場合は、clearコマンドを繰り返します。

      # MegaCli64 CfgForeign clear a0
      
  9. Firmware StateがUnconfigured (Good)のディスクでは、次のコマンドを使用します。複数のディスクが未構成の場合、最小のスロット番号から最大のスロット番号へと向かう順序でそれらを構成します。

    # MegaCli64 CfgLdAdd r0[enclosure:slot] a0
     
    Adapter 0: Created VD 1
     
    Adapter 0: Configured the Adapter!!
     
    Exit Code: 0x00
    

    たとえば、[20:5]では、スロット5のエンクロージャ20によって識別されるディスクが修復されます。

  10. ステップ9CfgLdAddコマンドがキャッシュされたデータにより失敗した場合は、キャッシュを消去します。

    # MegaCli64 discardpreservedcache l1 a0 
    
  11. ディスクがオペレーティング・システムによって認識されることを確認します。

    # lsscsi
    

    ディスクは、その元のデバイス名(/dev/sdcなど)で表示されるか、新しいデバイス名(/dev/sdnなど)で表示されます。オペレーティング・システムでディスクが認識されない場合、そのディスクはlsscsiコマンドによって生成されるリストに含まれません。

    lssci出力が正しい順序で表示されない場合もありますが、構成は続行できます。同じ物理ディスクから論理ディスクへのマッピングが必要な場合には、カーネルに対して同じディスクからデバイスへのマッピングは不要です。ディスク構成は、/dev/disks/by-hba-slotのデバイス名に基づいて行われます。

    次の出力例は、新しいデバイス名の2つのディスクを示しています(スロット5の/dev/sdnおよびスロット10の/dev/sdo )。

    [0:0:20:0]   enclosu ORACLE  CONCORD14        0960  -
    [0:2:0:0]    disk    LSI      MR9261-8i        2.12  /dev/sda
    [0:2:1:0]    disk    LSI      MR9261-8i        2.12  /dev/sdb
    [0:2:2:0]    disk    LSI      MR9261-8i        2.12  /dev/sdc
    [0:2:3:0]    disk    LSI      MR9261-8i        2.12  /dev/sdd
    [0:2:4:0]    disk    LSI      MR9261-8i        2.12  /dev/sde
    [0:2:5:0]    disk    LSI      MR9261-8i        2.12  /dev/sdn
    [0:2:6:0]    disk    LSI      MR9261-8i        2.12  /dev/sdg
    [0:2:7:0]    disk    LSI      MR9261-8i        2.12  /dev/sdh
    [0:2:8:0]    disk    LSI      MR9261-8i        2.12  /dev/sdi
    [0:2:9:0]    disk    LSI      MR9261-8i        2.12  /dev/sdj
    [0:2:10:0]   disk    LSI      MR9261-8i        2.12  /dev/sdo
    [0:2:11:0]   disk    LSI      MR9261-8i        2.12  /dev/sdl
    [7:0:0:0]    disk    ORACLE   UNIGEN-UFD       PMAP  /dev/sdm
    [
  12. サーバーのハードウェア・プロファイルを確認し、エラーがあれば修正します。

    # bdacheckhw
    
  13. サーバーのソフトウェア・プロファイルを確認し、エラーがあれば修正します。

    # bdachecksw
    

    「Wrong mounted partitions」エラーが表示され、デバイスがリストにない場合は、エラーを無視して続行できます。ただし、「Duplicate mount points」エラーが表示されるか、またはスロット番号が切り替わった場合は、「マウントされているパーティションのエラーの修正」を参照してください。

  14. ドライブを適切に構成できるように、その機能を識別します。「ディスク・ドライブの機能の識別」を参照してください。

13.6 マウントされているパーティションのエラーの修正

bdacheckswユーティリティで見つかる問題は通常、マウントされているパーティションに関係しています。

古いマウント・ポイントがmountコマンドの出力として表示される場合があるため、たとえば/u03など、同じマウント・ポイントが2回表示されることもあります。

重複しているマウント・ポイントを修正するには、次の手順を実行します。

  1. umountコマンドを2回使用して、両方のマウント・ポイントをディスマウントします。この例では、重複している2つの/u03をディスマウントしています。

    # umount /u03
    # umount /u03
    
  2. マウント・ポイントを再マウントします。この例では、/u03を再マウントしています。

    # mount /u03
    

ディスクが誤ったスロット(つまり、仮想ドライブ番号)にある場合には、2つのドライブを切り替えることができます。

スロットを切り替えるには、次の手順を実行します。

  1. 両方のドライブのマッピングを削除します。この例では、スロット4および10からドライブを削除しています。

    # MegaCli64 cfgLdDel L4 a0
    # MegaCli64 cfgLdDel L10 a0
    
  2. 表示しようとする順序でドライブを追加します。最初のコマンドで、使用可能な最初のスロット番号が取得されます。

    # MegaCli64 cfgLdAdd [20:4] a0
    # MegaCli64 cfgLdAdd [20:5] a0
    
  3. スロット番号が正しい場合であってもマウント・エラーが続く場合には、サーバーを再起動してください。

13.7 ディスク・ドライブの構成

bdaconfigurediskユーティリティを使用して、Oracle Big Data Applianceサーバー上のディスク・ドライブを構成または再構成します。

bdaconfigurediskユーティリティは、完全に自動化された処理でディスクを構成します。このユーティリティは、HadoopシステムとNoSQLシステムのオペレーティング・システムおよびデータ・ディスクで動作するようになりました。

関連項目: