3.3.4 低いパフォーマンスによるハード・ディスクの交換

1つの不良ハード・ディスクが、他の正常なディスクのパフォーマンスを低下させることがあります。不良ディスクはそのままにしないでシステムから削除する必要があります。

Oracle Exadata System Softwareリリース11.2.3.2以降では、パフォーマンスの低いディスクが自動的に識別され、アクティブな構成から削除されます。その後、Oracle Exadata Database Machineにより一連のパフォーマンス・テストが実行されます。CELLSRVでパフォーマンスの低いディスクが検出されると、セル・ディスクのステータスが正常 - 制限されたオンラインに変更され、ハード・ディスクのステータスが警告 - 制限されたオンラインに変更されます。

次の状況はディスク制限のトリガーとなります。

  • ディスクの応答停止。ストレージ・アラート・ログ内の原因コードはCD_PERF_HANGです。

  • セル・ディスクの速度低下。次に例を示します。

    • サービス時間のしきい値が高い(原因コードCD_PERF_SLOW_ABS)

    • 相対的サービス時間のしきい値が高い(原因コードCD_PERF_SLOW_RLTV)

  • 読取りまたは書込みでの長期待機時間。次に例を示します。

    • 書込みでの待機時間が長い(原因コードCD_PERF_SLOW_LAT_WT)

    • 読取りでの待機時間が長い(原因コードCD_PERF_SLOW_LAT_RD)

    • 読取りおよび書込みでの待機時間が長い(原因コードCD_PERF_SLOW_LAT_RW)

    • 頻繁に発生する個々のI/Oでの絶対的待機時間が非常に長い(原因コードCD_PERF_SLOW_LAT_ERR)

  • I/Oエラーなどのエラー(原因コードCD_PERF_IOERR)。

ディスクの問題が一時的なものであり、テストに合格した場合は、そのディスクは構成に戻されます。ディスクがテストに合格しない場合は、poor performanceとしてマークされ、Oracle Auto Service Request (ASR)によりディスク交換のためのサービス・リクエストが送信されます。可能な場合は、Oracle ASMによりグリッド・ディスクがテスト用にオフラインに変更されます。Oracle ASMがディスクをオフラインに変更できない場合、セル・ディスクのステータスは、ディスクを安全にオフラインに変更できるようになるまで、normal - confinedOnlineのまま変わりません。

ディスクのステータスの変更は、セルのアラート履歴にある次のエントリに関連付けられています。

MESSAGE ID date_time info "Hard disk entered confinement status. The LUN
 n_m changed status to warning - confinedOnline. CellDisk changed status to normal
 - confinedOnline. Status: WARNING - CONFINEDONLINE  Manufacturer: name  Model
 Number: model  Size: size  Serial Number: serial_number  Firmware: fw_release 
 Slot Number: m  Cell Disk: cell_disk_name  Grid Disk: grid disk 1, grid disk 2
 ... Reason for confinement: threshold for service time exceeded"

ストレージ・セルのアラート・ログには次の情報が記録されます。

CDHS: Mark cd health state change cell_disk_name  with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
...

ノート:

Oracle Exadata System Softwareリリース11.2.3.2より前のリリースでは、CALIBRATEコマンドを使用して不良ハード・ディスクを識別し、各ハード・ディスクについてスループットやIOPSが極端に低くないか調べてください。

次の手順は、不良ディスクが確認された場合のハード・ディスクの取外し方法を示しています。

  1. 次のようなコマンドを使用してハード・ドライブのサービスLEDを点灯させ、交換対象のドライブを特定します。ここで、disk_nameは交換対象のハード・ディスクの名前です(20:2など)。
    cellcli -e 'alter physicaldisk disk_name serviceled on'
    
  2. 不良ディスクのすべてのグリッド・ディスクを確認します。

    次に例を示します:

    [root@exa05celadm03 ~]# cellcli -e "list physicaldisk 20:11 attributes name, id"
            20:11 RD58EA 
    [root@exa05celadm03 ~]# cellcli -e "list celldisk where physicalDisk='RD58EA'"
            CD_11_exa05celadm03 normal 
    [root@exa05celadm03 ~]# cellcli -e "list griddisk where cellDisk='CD_11_exa05celadm03'"
            DATA_CD_11_exa05celadm03 active
            DBFS_CD_11_exa05celadm03 active
            RECO_CD_11_exa05celadm03 active
            TPCH_CD_11_exa05celadm03 active
  3. Oracle ASMに不良ディスクの使用をただちに停止するよう指示します。
    SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name;
    
  4. ディスクを取り外す前に、ディスクの青い取外しOKのLEDが点灯していることを確認してください。
  5. V$ASM_DISK_STATビューの問合せを実行して、不良ディスクのグリッド・ディスクに関連するOracle ASMディスクが正しく削除されたことを確認します。
  6. 不良ディスクを取り外します。ディスクを削除すると、アラートが送信されます。
  7. 新しいディスクを使用できる場合、システムに新しいディスクを設置します。セル・ディスクおよびグリッド・ディスクが新しいハード・ディスクに自動的に作成されます。

    ノート:

    交換したハード・ディスクは、RAIDコントローラによって認識されるまで使用できません。承認処理に時間はかかりませんが、LIST PHYSICALDISKコマンドを使用してステータスがNORMALであることを確認してください。

関連項目: