3.4.2 フラッシュ・ディスクの低下したパフォーマンス・ステータスについて
フラッシュ・ディスクのパフォーマンスが低下している場合は、ディスクを交換する必要があることがあります。
ディスクが次のステータスのいすれかになるため、フラッシュ・ディスクの交換が必要な場合があります。
warning - predictive failure
warning - poor performance
warning - write-through caching
warning - peer failure
ノート:
リリース11.2.3.2.2より前のOracle Exadata System Softwareリリースの場合、ステータスはnot present
です。
フラッシュ・ディスクがpredictive failure
、poor performance
、write-through caching
またはpeer failure
ステータスの場合、アラートが生成されます。アラートには、フラッシュ・ディスクを交換する特定の手順が含まれます。システムのアラート通知を構成している場合、電子メール・メッセージでアラートが指定したアドレスに送信されます。
予測障害
フラッシュ・ディスクのpredictive failure
ステータスは、フラッシュ・ディスクに障害が発生する可能性があり、できるだけすぐに交換する必要があることを示します。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、引き続きフラッシュ・キャッシュとして使用されます。グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクに関連するOracle ASMディスクが自動的に削除され、Oracle ASMリバランスで障害が発生する可能性のあるディスクから他のディスクにデータが移動されます。
フラッシュ・ディスクが1つのため、フラッシュ・ディスクがpredictive failure
になると、データがコピーされます。グリッド・ディスクにフラッシュ・ディスクを使用する場合、Oracle ASMと関連パートナが再びパートナになり、リバランスが実行されます。ライトバック・フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、フラッシュ・ディスクからグリッド・ディスクにデータがフラッシュされます。
predictive failure
のフラッシュ・ディスクを確認するには、次のコマンドを使用します。
CellCLI> LIST PHYSICALDISK WHERE DISKTYPE=flashdisk AND STATUS= \
'warning - predictive failure' DETAIL
name: FLASH_1_1
deviceName: /dev/nvme3n1
diskType: FlashDisk
luns: 1_1
makeModel: "Oracle Flash Accelerator F160 PCIe Card"
physicalFirmware: 8DV1RA13
physicalInsertTime: 2016-11-30T21:24:45-08:00
physicalSerial: CVMD519000251P6KGN
physicalSize: 1.4554837569594383T
slotNumber: "PCI Slot: 1; FDOM: 1"
status: warning - predictive failure
低いパフォーマンス
フラッシュ・ディスクのpoor performance
ステータスは、フラッシュ・ディスクのパフォーマンスが非常に低く、できるだけすぐに交換する必要があることを示します。Oracle Exadata System Softwareリリース11.2.3.2以降では、パフォーマンスの低いディスクが自動的に識別され、アクティブな構成から削除されます。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、このディスクからフラッシュ・キャッシュが削除され、ストレージ・サーバーの有効なフラッシュ・キャッシュ・サイズが縮小します。グリッド・ディスクにフラッシュ・ディスクを使用する場合、このフラッシュ・ディスクのグリッド・ディスクに関連するOracle ASMディスクがFORCE
オプションによって可能な場合に自動的に削除されます。オフライン・パートナのためにDROP...FORCE
が失敗した場合、通常グリッド・ディスクが自動的に削除され、Oracle ASMリバランスでパフォーマンスの低いディスクから他のディスクにデータが移動されます。
その後、Oracle Exadata Database Machineにより一連のパフォーマンス・テストが実行されます。CELLSRVでパフォーマンスの低いディスクが検出されると、セル・ディスクのステータスがnormal - confinedOnline
に変更され、物理ディスクのステータスがwarning - confinedOnline
に変更されます。次の状況はディスク制限のトリガーとなります。
- ディスクの応答停止。ストレージ・アラート・ログ内の原因コードはCD_PERF_HANGです。
- セル・ディスクの速度低下。次に例を示します。
- サービス時間のしきい値が高い(原因コードCD_PERF_SLOW_ABS)
- 相対的サービス時間のしきい値が高い(原因コードCD_PERF_SLOW_RLTV)
- 読取りまたは書込みでの長期待機時間。次に例を示します。
- 書込みでの待機時間が長い(原因コードCD_PERF_SLOW_LAT_WT)
- 読取りでの待機時間が長い(原因コードCD_PERF_SLOW_LAT_RD)
- 読取りおよび書込みでの待機時間が長い(原因コードCD_PERF_SLOW_LAT_RW)
- 頻繁に発生する個々のI/Oでの絶対的待機時間が非常に長い(原因コードCD_PERF_SLOW_LAT_ERR)
- I/Oエラーなどのエラー(原因コードCD_PERF_IOERR)。
ディスクの問題が一時的なものであり、テストに合格した場合は、そのディスクは構成に戻されます。ディスクがテストに合格しない場合は、poor performance
としてマークされ、Oracle Auto Service Request (ASR)によりディスク交換のためのサービス・リクエストが送信されます。可能な場合は、Oracle ASMによりグリッド・ディスクがテスト用にオフラインに変更されます。Oracle ASMがディスクをオフラインに変更できない場合、セル・ディスクのステータスは、ディスクを安全にオフラインに変更できるようになるまで、normal - confinedOnline
のまま変わりません。
poor performance
のフラッシュ・ディスクを確認するには、次のコマンドを使用します。
CellCLI> LIST PHYSICALDISK WHERE DISKTYPE=flashdisk AND STATUS= \
'warning - poor performance' DETAIL
name: FLASH_1_4
diskType: FlashDisk
luns: 1_4
makeModel: "Sun Flash Accelerator F20 PCIe Card"
physicalFirmware: D20Y
physicalInsertTime: 2012-09-27T13:11:16-07:00
physicalSerial: 508002000092e70FMOD2
physicalSize: 22.8880615234375G
slotNumber: "PCI Slot: 1; FDOM: 3"
status: warning - poor performance
ディスクのステータスの変更は、セルのアラート履歴にある次のエントリに関連付けられています。
MESSAGE ID date_time info "Hard disk entered confinement status. The LUN
n_m changed status to warning - confinedOnline. CellDisk changed status to normal
- confinedOnline. Status: WARNING - CONFINEDONLINE Manufacturer: name Model
Number: model Size: size Serial Number: serial_number Firmware: fw_release
Slot Number: m Cell Disk: cell_disk_name Grid Disk: grid disk 1, grid disk 2
... Reason for confinement: threshold for service time exceeded"
ストレージ・サーバーのアラート・ログには次の情報が記録されます。
CDHS: Mark cd health state change cell_disk_name with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
...
ノート:
11.2.3.2より前のOracle Exadata System Softwareリリースでは、CALIBRATE
コマンドを使用して不良フラッシュ・ディスクを識別し、各フラッシュ・ディスクについてスループットやIOPSが極端に低くないか調べてください。
フラッシュ・ディスクのパフォーマンスが非常に低い場合、poor performance
としてマークされます。該当するフラッシュ・ディスクのフラッシュ・キャッシュが自動的に無効になり、そのフラッシュ・ディスクのグリッド・ディスクがOracle ASMディスク・グループから自動的に削除されます。
ライトスルー・キャッシュ
フラッシュ・ディスクのwrite-through caching
ステータスは、PCIeカードのデータ・キャッシュのサポートに使用するキャパシタに障害が発生したため、できるだけすぐにカードを交換する必要があることを示します。
ピア障害
フラッシュ・ディスクのpeer failure
ステータスは、同じSun Flash Accelerator PCIeカードのいずれかのフラッシュ・ディスクに障害または問題が発生したことを示します。たとえば、FLASH_5_3に障害が発生すると、FLASH_5_0、FLASH_5_1およびFLASH_5_2がpeer failureステータスになります。次に、例を示します。
CellCLI> LIST PHYSICALDISK
36:0 L45F3A normal
36:1 L45WAE normal
36:2 L45WQW normal
...
FLASH_5_0 5L0034XM warning - peer failure
FLASH_5_1 5L0034JE warning - peer failure
FLASH_5_2 5L002WJH warning - peer failure
FLASH_5_3 5L002X4P failed
CellSRVにより、ライトバック・フラッシュ・キャッシュに使用されているフラッシュ・ディスクで予測障害またはピア障害が検出され、不良FDOMが1つのみの場合は、その不良FDOMのデータが復元され、残りの3つのFDOMのデータはフラッシュされます。その後、有効なグリッド・ディスクが存在する場合、CellSRVはディスクに対してOracle ASMリバランスを開始します。不良ディスクは、タスクが完了するまで交換できません。ディスク交換が可能になると、MSによりアラートが送信されます。