ストレージ・サーバーの物理ディスクの保守

この項には次のトピックが含まれます:

関連項目:

保守のベスト・プラクティスの詳細は、http://www.oracle.com/goto/maaOracle Maximum Availability Architecture (MAA) Webサイトを参照してください。

システム・ディスクおよびデータ・ディスクについて

ストレージ・サーバーの最初の2枚のディスクは、システム・ディスクです。ストレージ・サーバー・ソフトウェアのシステム・ソフトウェアは、各システム・ディスクに割り当てられます。システム・ディスクのこの割り当てられた部分は、システム領域と呼ばれます。システム・ディスクのシステム領域以外は、データ・パーティションと呼ばれ、通常のデータ・ストレージに使用されます。ストレージ・サーバーのその他のディスクはすべて、データ・ディスクと呼ばれます。

物理ディスクのステータスのモニタリング

CellCLI LIST PHYSICALDISKコマンドで属性を確認して、物理ディスクをモニターできます。たとえば、failedまたはwarning - predictive failureステータスの物理ディスクに問題が発生し、交換が必要と思われる場合です。内部しきい値を超えると、ディスク・ファームウェアによってエラー・カウンタが保守され、ドライブはPredictive Failureとマーク付けされます。交換が必要かどうかは、サーバー・ソフトウェアではなくドライブによって決定されます。

次のリストは、ストレージ・サーバーの物理ディスク・ステータスを示しています。

ストレージ・サーバーの物理ディスク・ステータス

  • 物理ディスクのステータス
  • 正常
  • 正常 - 交換のため切断
  • 正常 - 制限されたオンライン
  • 正常 - 制限されたオンライン - 交換のため切断
  • 存在しない
  • 障害
  • 障害 - 交換のため切断
  • 障害 - 不適切なディスク・モデルのため拒否
  • 障害 - 不適切なディスク・モデルのため拒否 - 交換のため切断
  • 障害 - 間違ったスロットのため拒否
  • 障害 - 間違ったスロットのため拒否 - 交換のため切断
  • 警告 - 制限されたオンライン
  • 警告 - 制限されたオンライン - 交換のため切断
  • 警告 - ピア障害
  • 警告 - 低いパフォーマンス
  • 警告 - 低いパフォーマンス - 交換のため切断
  • 警告 - 低いパフォーマンス、ライトスルー・キャッシュ
  • 警告 - 予測障害、低いパフォーマンス
  • 警告 - 予測障害、低いパフォーマンス - 交換のため切断
  • 警告 - 予測障害、ライトスルー・キャッシュ
  • 警告 - 予測障害
  • 警告 - 予測障害 - 交換のため切断
  • 警告 - 予測障害、低いパフォーマンス、ライトスルー・キャッシュ
  • 警告 - ライトスルー・キャッシュ

ディスク・エラー発生時の状況

Oracle ASMはハードウェア・エラーによる読取りエラーの障害範囲の修理を実行します。ディスクはオンラインのままで、アラートは送信されません。

ディスクに障害が発生した場合:

  • 関連するOracle ASMディスクがFORCEオプションで自動的に削除され、Oracle ASMリバランスでデータの冗長性がリストアされます。

  • ドライブの青色のLEDとアンバーのLEDが点灯し、この場合、ディスクの交換を進めてもかまいません。ドライブのLEDは純色のままになります。予測障害および低いパフォーマンスのLEDステータス・ライトの詳細は、「LEDステータスの説明」を参照してください。

  • サーバーによってアラートが生成され、それにはディスクを交換する特定の手順が含まれます。システムのアラート通知を構成している場合、電子メールでアラートが指定したアドレスに送信されます。

ディスクに障害ステータスがある場合:

  • 物理ドライブのグリッド・ディスクに関連するOracle ASMディスクが自動的に削除されます。

  • Oracle ASMリバランスは予測障害ディスクから他のディスクにデータを再配置します。

  • ドライブの青色のLEDが点灯し、この場合、ディスクの交換を進めてもかまいません。

Oracle ASMが物理的に対処されたメタデータ・ブロックに関する読取りエラーを取得すると、ブロックはミラーリングされません。

  • Oracle ASMはディスクをオフラインにします。

  • Oracle ASMはFORCEオプションでディスクを削除します。

  • ストレージ・サーバー・ソフトウェアは、ディスクが交換できることを示すアラートを送信します。

パフォーマンスの低いディスクの検出について

ASRは、パフォーマンスの低いディスクをアクティブ構成から自動的に識別して削除します。次に、リカバリ・アプライアンスで一連のパフォーマンス・テストが実行されます。CELLSRVでパフォーマンスの低いディスクが検出されると、セル・ディスクのステータスがnormal - confinedOnlineに変更され、物理ディスクのステータスがwarning - confinedOnlineに変更されます。表13-2に、ディスク制限のトリガーとなる状況を示します。

表13-2 パフォーマンスの低いディスクを示すアラート

アラート・コード 原因

CD_PERF_HANG

ディスクの応答停止

CD_PERF_SLOW_ABS

サービス時間のしきい値が高い(スロー・ディスク)

CD_PERF_SLOW_RLTV

相対的サービス時間のしきい値が高い(スロー・ディスク)

CD_PERF_SLOW_LAT_WT

書込みでの長いレイテンシ

CD_PERF_SLOW_LAT_RD

読取りでの長いレイテンシ

CD_PERF_SLOW_LAT_RW

読取りおよび書込みでの長いレイテンシ

CD_PERF_SLOW_LAT_ERR

個々のI/Oでの頻繁な長い絶対レイテンシ

CD_PERF_IOERR

I/Oエラー

問題が一時的なものであり、ディスクがテストに合格した場合は、そのディスクは構成に戻されます。ディスクがテストに合格しない場合は、poor performanceとしてマークされ、ASRによりディスク交換のためのサービス・リクエストが送信されます。可能な場合は、Oracle ASMによりグリッド・ディスクがテスト用にオフラインに変更されます。そうでない場合、セル・ディスクのステータスは、ディスクを安全にオフラインに変更できるようになるまで、normal - confinedOnlineのまま変わりません。「パフォーマンスの低い物理ディスクの取外し」を参照してください。

ディスク・ステータスの変更はサーバー・アラート履歴に記録されます。

MESSAGE ID date_time info "Hard disk entered confinement status. The LUN
 n_m changed status to warning - confinedOnline. CellDisk changed status to normal
 - confinedOnline. Status: WARNING - CONFINEDONLINE  Manufacturer: name  Model
 Number: model  Size: size  Serial Number: serial_number  Firmware: fw_release 
 Slot Number: m  Cell Disk: cell_disk_name  Grid Disk: grid disk 1, grid disk 2
     .
     .
     .
Reason for confinement: threshold for service time exceeded"

次のメッセージがストレージ・セルのアラート・ログに入力されます。

CDHS: Mark cd health state change cell_disk_name  with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
     .
     .
     .

データのリバランスについて

物理ディスクを交換したら、そのスロットの前のディスクにあったグリッド・ディスクとセル・ディスクを再作成する必要があります。これらのグリッド・ディスクがOracle ASMグループの一部である場合、ディスク・グループの冗長性およびASM_POWER_LIMITパラメータに基づいて、ディスクをディスク・グループに追加し直して、データをリバランスします。

ディスクを削除または追加すると、Oracle ASMリバランスが発生します。リバランスのステータスを確認するには:

  • リバランス操作は正しく実行されましたか。

    Oracle ASMアラート・ログを確認してください。

  • リバランス操作は現在実行中ですか。

    GV$ASM_OPERATIONビューを確認してください。

  • リバランス操作は失敗しましたか。

    V$ASM_OPERATION.ERRORビューを確認してください。

障害の発生した物理ディスクに複数のディスク・グループのASMディスクが含まれる場合、複数のディスク・グループのリバランス操作を同じクラスタの異なるOracle ASMインスタンスで実行できます。Oracle ASMインスタンスは、一度に1つのリバランス操作を実行できます。すべてのOracle ASMインスタンスがビジー状態の場合、リバランス操作がキューに入れられます。

ハード・ディスク・コントローラのライトスルー・キャッシュ・モードのモニタリング

各ストレージ・サーバーのハード・ディスク・コントローラは、定期的にコントローラのバッテリの放電と充電を実行します。操作中は、書込みキャッシュ・ポリシーにより、ライトバック・キャッシュからライトスルー・キャッシュに変更されます。ライトスルー・キャッシュ・モードはライトバック・キャッシュ・モードより時間を要します。ただし、ストレージ・サーバーの電源が落ちたり障害が発生したりすると、ライトバック・キャッシュ・モードの場合はデータ損失のリスクがあります。操作は、たとえば1月、4月、7月および10月の17日の01:00、のように3か月ごとに実行されます。

次の例は、論理ドライブのキャッシュ・モードのステータスに関してストレージ・サーバーによって生成されるアラート情報を示しています。

HDD disk controller battery on disk contoller at adapter 0 is going into a learn
cycle. This is a normal maintenance activity that occurs quarterly and runs for
approximately 1 to 12 hours. The disk controller cache might go into WriteThrough
caching mode during the learn cycle. Disk write throughput might be temporarily
lower during this time. The message is informational only, no action is required.

次のコマンドを使用して、定期的な書込みキャッシュ・ポリシーへの変更を管理します。

  • 学習サイクルの開始時間を変更するには、次の例のようなコマンドを使用します。

    CellCLI> ALTER CELL bbuLearnCycleTime="2013-01-22T02:00:00-08:00"
    

    サイクルが終了すると、時間はデフォルト学習時間に戻ります。

  • 次の学習サイクルの時間を確認するには:

    CellCLI> LIST CELL ATTRIBUTES bbuLearnCycleTime
    
  • バッテリのステータスを表示するには:

    # /opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -a0
    
    BBU status for Adapter: 0
     
    BatteryType: iBBU08
    Voltage: 3721 mV
    Current: 541 mA
    Temperature: 43 C
     
    BBU Firmware Status:
    Charging Status : Charging
    Voltage : OK
    Temperature : OK
    Learn Cycle Requested : No
    Learn Cycle Active : No
    Learn Cycle Status : OK
    Learn Cycle Timeout : No
    I2c Errors Detected : No
    Battery Pack Missing : No
    Battery Replacement required : No
    Remaining Capacity Low : Yes
    Periodic Learn Required : No
    Transparent Learn : No
     
    Battery state:
     
    GasGuageStatus:
    Fully Discharged : No
    Fully Charged : No
    Discharging : No
    Initialized : No
    Remaining Time Alarm : Yes
    Remaining Capacity Alarm: No
    Discharge Terminated : No
    Over Temperature : No
    Charging Terminated : No
    Over Charged : No
     
    Relative State of Charge: 7 %
    Charger System State: 1
    Charger System Ctrl: 0
    Charging current: 541 mA
    Absolute state of charge: 0 %
    Max Error: 0 %
     
    Exit Code: 0x00

障害が発生した物理ディスクの交換

物理ディスクの停止により、パフォーマンスの低下およびデータの冗長性が発生する場合があります。したがって、できるだけ早く障害が発生したディスクを新しいディスクに交換します。

障害発生時にディスクを交換するには、次のようにします。

  1. 障害が発生したディスクを特定します。
    CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status=failed DETAIL
    
             name:                   28:5
             deviceId:               21
             diskType:               HardDisk
             enclosureDeviceId:      28
             errMediaCount:          0
             errOtherCount:          0
             foreignState:           false
             luns:                   0_5
             makeModel:              "SEAGATE ST360057SSUN600G"
             physicalFirmware:       0705
             physicalInterface:      sas
             physicalSerial:         A01BC2
             physicalSize:           558.9109999993816G
             slotNumber:             5
             status:                 failed
    

    スロット番号はディスクの場所、ステータスはディスクに障害が発生したことを示します。

  2. ディスクを取り外す前に、ディスクの青い取外しOKのLEDが点灯していることを確認してください。
  3. ストレージ・サーバー上の物理ディスクを交換し、3分待ちます。物理ディスクはホット・プラガブルで、電源の投入時に交換できます。
  4. ディスクがオンラインでステータスがNORMALであることを確認します。
    CellCLI> LIST PHYSICALDISK WHERE name=28:5 ATTRIBUTES status
    

    物理ディスクを交換する際、使用できるようになるには、RAIDコントローラが交換ディスクを認識する必要があります。認識はすぐに終了します。

  5. ファームウェアが正しいことを確認します。
    ALTER CELL VALIDATE CONFIGURATION
    

    ファームウェアが更新され、論理ユニット番号(LUN)が再ビルドされたことを確認するため、ms-odl.trcファイルも参照できます。

  6. そのスロットの前のディスクにあったグリッド・ディスクとセル・ディスクを再作成します。「データのリバランスについて」を参照してください。

関連項目:

障害のある物理ディスクの交換

ディスクがwarning - predictive failureステータスのため、物理ディスクの交換が必要な場合があります。このステータスは、物理ディスクに障害が発生する可能性があり、できるだけすぐに交換する必要があることを示します。

交換する前にドライブに障害が発生した場合は、「障害が発生した物理ディスクの交換」を参照してください。

障害発生前にディスクを交換するには、次のようにします。

  1. 障害のあるディスクを特定します。
    CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status= \
            "warning - predictive failure" DETAIL
    
             name:                   28:3
             deviceId:               19
             diskType:               HardDisk
             enclosureDeviceId:      28
             errMediaCount:          0
             errOtherCount:          0
             foreignState:           false
             luns:                   0_3
             makeModel:              "SEAGATE ST360057SSUN600G"
             physicalFirmware:       0705
             physicalInterface:      sas
             physicalSerial:         E07L8E
             physicalSize:           558.9109999993816G
             slotNumber:             3
             status:                 warning - predictive failure
    

    前のコマンドの出力例で、スロット番号はディスクの場所、ステータスはディスクに障害が発生する可能性があることを示します。

  2. ディスクを取り外す前に、ディスクの青い取外しOKのLEDが点灯していることを確認してください。
  3. 影響を受けるOracle ASMディスクが削除されるまで待機します。ステータスを確認するには、Oracle ASMインスタンスでV$ASM_DISK_STATビューに問合せを行います。

    注意:

    最初の2つのスロットのディスクは、オペレーティング・システムおよびリカバリ・アプライアンス・ストレージ・サーバー・ソフトウェアを格納するシステム・ディスクです。1つのシステム・ディスクを稼働して、サーバーを作動する必要があります。

    他のシステム・ディスクを交換する前に、ALTER CELL VALIDATE CONFIGURATIONにRAID mdadmエラーが表示されなくなるまで待機します。この出力は、システム・ディスクの再同期化が完了したことを示します。

    関連項目:

    V$ASM_DISK_STATビューの問合せの詳細は、『Oracle Databaseリファレンス』を参照してください。

  4. ストレージ・サーバー上の物理ディスクを交換し、3分待ちます。物理ディスクはホット・プラガブルで、電源の投入時に交換できます。
  5. ディスクがオンラインでステータスがNORMALであることを確認します。
    CellCLI> LIST PHYSICALDISK WHERE name=28:5 ATTRIBUTES status
    

    物理ディスクを交換する際、使用できるようになるには、RAIDコントローラが交換ディスクを認識する必要があります。認識はすぐに終了します。

  6. ファームウェアが正しいことを確認します。
    ALTER CELL VALIDATE CONFIGURATION
    
  7. そのスロットの前のディスクにあったグリッド・ディスクとセル・ディスクを再作成します。「データのリバランスについて」を参照してください。

関連項目:

パフォーマンスの低い物理ディスクの取外し

不良物理ディスクが、他の正常なディスクのパフォーマンスを低下させることがあります。問題のあるディスクはシステムから取り外す必要があります。

不良ディスクの識別後に物理ディスクを削除するには、次のようにします。

  1. 物理ドライブ・サービスLEDを点灯し、交換するドライブを識別します。
    cellcli -e 'alter physicaldisk disk_name serviceled on'
    

    前述のコマンドでdisk_nameは、20:2などの交換する物理ディスクの名前です。

  2. 不良ディスク上のすべてのグリッド・ディスクを識別して、その使用を停止するようにOracle ASMに指示します。
    ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name
    
  3. ディスクの青い取外しOKのLEDが点灯していることを確認してください。
  4. V$ASM_DISK_STATビューの問合せを実行して、不良ディスクの影響を受けるOracle ASMディスクが正しく削除されたことを確認します。
  5. 不良ディスクを取り外します。

    ディスクを削除すると、アラートが送信されます。

  6. 新しいディスクを使用できる場合、それをシステムに設置します。セル・ディスクおよびグリッド・ディスクが新しい物理ディスクに自動的に作成されます。
  7. ディスクがオンラインでステータスがNORMALであることを確認します。
    CellCLI> LIST PHYSICALDISK WHERE name=28:5 ATTRIBUTES status
    

    物理ディスクを交換する際、使用できるようになるには、RAIDコントローラが交換ディスクを認識する必要があります。認識はすぐに終了します。

ストレージ・サーバーから別のストレージ・サーバーへのすべてのドライブの移動

ストレージ・サーバーから別のストレージ・サーバーへのすべてのドライブの移動が必要になることがあります。この状況になる可能性があるのは、マザーボードやOracle ILOMなどのシャーシレベルのコンポーネント障害がある場合、またはハードウェアの問題のトラブルシューティングを行う場合です。

ストレージ・サーバー間でドライブを移動するには、次のようにします。

  1. 次のディレクトリのファイルをバックアップします。
    • /etc/hosts

    • /etc/modprobe.conf

    • /etc/sysconfig/network

    • /etc/sysconfig/network-scripts

  2. すべてのグリッド・ディスクを非アクティブにして、ストレージ・サーバーを停止します。「ストレージ・サーバーの停止」を参照してください。
  3. 別のストレージ・サーバーでグリッド・ディスクをアクティブ化する前にOracle ASMによってディスクが削除されないように、Oracle ASMのdisk_repair_time属性に大きい値が設定されていることを確認してください。
  4. 物理ディスク、フラッシュ・ディスク、ディスク・コントローラおよびUSBフラッシュ・ドライブを元のストレージ・サーバーから新しいストレージ・サーバーに移動します。

    注意:

    • システム・ディスクの最初の2つのディスクが同じ最初の2つのスロットにあることを確認してください。そうしないと、ストレージ・サーバーが正常に機能しません。

    • フラッシュ・カードが元のストレージ・サーバーと同じPCIeスロットに設置されていることを確認してください。

  5. 新しいストレージ・サーバーの電源を投入します。サービス・プロセッサ・インタフェースを使用するか、電源ボタンを押すことができます。
  6. サービス・プロセッサを使用して、コンソールにログインします。
  7. 次のディレクトリのファイルを確認します。バックアップから破損ファイルをリストアします。
    • /etc/hosts

    • /etc/modprobe.conf

    • /etc/sysconfig/network

    • /etc/sysconfig/network-scripts

  8. ifconfigコマンドを使用して、eth0、eth1、eth2およびeth3の新しいMACアドレスを取得します。この例は、eth0 MACアドレス(HWaddr)が00:14:4F:CA:D9:AEであることを示しています。
    # ifconfig eth0
    eth0      Link encap:Ethernet  HWaddr 00:14:4F:CA:D9:AE
              inet addr:10.204.74.184  Bcast:10.204.75.255  Mask:255.255.252.0
              inet6 addr: fe80::214:4fff:feca:d9ae/64 Scope:Link
              UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
              RX packets:141455 errors:0 dropped:0 overruns:0 frame:0
              TX packets:6340 errors:0 dropped:0 overruns:0 carrier:0
              collisions:0 txqueuelen:1000
              RX bytes:9578692 (9.1 MiB)  TX bytes:1042156 (1017.7 KiB)
              Memory:f8c60000-f8c80000
    
  9. /etc/sysconfig/network-scriptsディレクトリで、次のファイルを編集してHWADDRをステップ8で返された値に変更します。
    • ifcfg-eth0
    • ifcfg-eth1
    • ifcfg-eth2
    • ifcfg-eth3

    次に、編集されたifcfg-eth0ファイルの例を示します。

    #### DO NOT REMOVE THESE LINES ####
    #### %GENERATED BY CELL% ####
    DEVICE=eth0
    BOOTPROTO=static
    ONBOOT=yes
    IPADDR=10.204.74.184
    NETMASK=255.255.252.0
    NETWORK=10.204.72.0
    BROADCAST=10.204.75.255
    GATEWAY=10.204.72.1
    HOTPLUG=no
    IPV6INIT=no
    HWADDR=00:14:4F:CA:D9:AE
    
  10. ストレージ・サーバーを再起動します。
  11. グリッド・ディスクをアクティブ化します。
    CellCLI> ALTER GRIDDISK ALL ACTIVE
    

    Oracle ASMディスクが削除されていなかった場合は、自動的にオンラインになって使用が開始されます。

  12. 構成を検証します:
    CellCLI> ALTER CELL VALIDATE CONFIGURATION
    
  13. ASRのOracle ILOMをアクティブ化します。

同じ物理ディスクの取外しおよび交換

誤った物理ディスクを取り外してそれを置き直した場合、Recovery ApplianceはそのディスクをOracle ASMディスク・グループに自動的に追加し直して、そのデータを再同期化します。

ノート:

障害のある、または障害が発生したディスクを交換する際は、ディスク上の点灯するLEDを探します。LEDの点灯によって、不良ディスクを特定することができます。

拒否された物理ディスクの再有効化

Recovery Applianceは、物理ディスクが誤ったスロット内にあるとそのディスクを拒否します。

注意:

物理ディスクの再有効化では、そのディスクに格納されたすべてのデータが削除されます。

  • 拒否された物理ディスクを再有効化するには、次のコマンドで、hard_disk_nameおよびhard_disk_idを適切な値に置き換えます。

    CellCLI> ALTER PHYSICALDISK hard_disk_name/hard_disk_id reenable force
    Physical disk hard_disk_name/hard_disk_id  was reenabled.