2.6.1 障害が発生したストレージ・デバイスの交換

ストレージ・デバイスの障害は、パフォーマンスおよびデータの冗長性に影響する可能性があります。そのため、障害が発生したストレージ・デバイスはできるだけ早く交換する必要があります。

次の状況では、ストレージ・デバイスに障害が発生したと見なされます:

  • ハードウェアまたはファームウェアの障害により、デバイスの機能が停止する。

  • デバイスが予測障害状態になる。

    この場合、デバイスはまだ使用可能ですが、デバイスがすぐに機能しなくなる可能性があるという兆候が見られます。たとえば、ハード・ディスク・ドライブ(HDD)にスペア・セクターがなかったり、フラッシュ・デバイスが摩耗限度に近づいている可能性があります。

  • Exadataソフトウェアによってデバイスが制限され、デバイスが制限後のチェックに失敗する。

    Exadataは、重大なパフォーマンスの問題または機能の異常を検出すると、ストレージ・デバイスを自動的に制限します。制限後、Exadataは問題の解決を試みて、デバイスを再チェックします。ただし、制限後のチェックが失敗した場合、デバイスは障害が発生したと見なされます。

ストレージ・デバイスに障害が発生すると、Exadataはストレージ・デバイスに含まれるすべてのグリッド・ディスクを自動的に削除します。グリッド・ディスクがExascaleプール・ディスクとして使用されている場合、Exascaleはそれを自動的に削除し、ストレージ・プールをリバランスしてデータの冗長性をリストアします。

また、ストレージ・デバイスに障害が発生すると、Exadataによってアラートが生成されます。アラート・メッセージには、ディスクを交換するための具体的な手順が含まれます。ストレージ・サーバーでアラート通知が構成されている場合、アラート通知は電子メールおよびSNMPを使用して自動的に送信されます。

障害が発生したストレージ・デバイスの交換後、Exadataによってセル・ディスクおよびグリッド・ディスクが新しいデバイスに自動的に作成されます。グリッド・ディスクがExascaleプール・ディスクとして構成されている場合、ストレージ・プールに自動的に追加され、ストレージ・プールはリバランスされます。

次のステップに、障害が発生したストレージ・デバイスを交換する手順の概要を示します:

  1. 障害が発生したデバイスの場所を確認します。

    次のCellCLI LIST PHYSICALDISKコマンドを使用します:

    CellCLI> list physicaldisk where status!=normal detail

    出力のslotNumber値は、デバイスの物理的な場所を示します。

    status値を調べて障害タイプを分類することもできます。

    • failedまたはfailed - dropped for replacement - ハードウェアまたはファームウェアの障害により、デバイスの機能が停止したことを示します。

    • warning - predictive failure - デバイスが予測障害状態になったことを示します。

    • warning - poor performance - Exadataソフトウェアによってデバイスが制限され、デバイスが制限後のチェックに失敗したことを示します。

    たとえば、次の出力は、ハードウェアまたはファームウェアの障害により、スロット5のハード・ディスク・ドライブ(HDD)の機能が停止したことを示しています。

    CellCLI> list physicaldisk where status!=normal detail
             name:                   0:5
             deviceName:             /dev/sdi
             diskType:               HardDisk
             enclosureDeviceId:      0
             luns:                   0_5
             makeModel:              "WDC W7222A520ORA022T"
             physicalFirmware:       A7B0
             physicalInsertTime:     2023-07-07T17:20:44-07:00
             physicalInterface:      sas
             physicalSerial:         70SP8E
             physicalSize:           20.009765625T
             slotNumber:             5
             status:                 failed
    
  2. ストレージ・サーバーのサービス不可LEDが点灯していないことを確認します。
  3. 障害が発生したデバイスを取り外す準備ができていることを確認します。
    • 障害の発生したデバイスが、サーバーの前面にあるホットスワップ対応のドライブ・ベイのいずれかにあるHDDまたはフラッシュ・ドライブの場合は、デバイスを取り外す前に、デバイスの青い取外しOK LEDが点灯していることを確認します。

    • 障害が発生したデバイスがサーバー内に含まれるホットスワップ対応のフラッシュ・カードである場合は、デバイスを取り外す前に、フラッシュ・カードの電源LEDが点灯していないことを確認します。Exadata Storage Server X7-2以降では、すべてのストレージ・サーバー・モデルにホットスワップ対応のフラッシュ・カードが含まれています。

  4. 障害の発生したストレージ・デバイスを取り外し、交換品を取り付けます。

    物理的なハードウェアの交換の詳細は、関連するサーバーのハードウェア・ガイドを参照してください。

  5. サーバーが交換したデバイスを認識するまで待機します。

    ホットスワップ対応のストレージ・デバイスを物理的に交換する場合、サーバーが新しいデバイスを認識するのに数分かかることがあります。

  6. 交換デバイスのステータスを確認します。

    CellCLI LIST PHYSICALDISKコマンドを使用して、交換デバイスのステータスがnormalであることを確認します。

    次に例を示します:

    CellCLI> list physicaldisk 0:5 detail
             name:                   0:5
             deviceName:             /dev/sdi
             diskType:               HardDisk
             enclosureDeviceId:      0
             luns:                   0_5
             makeModel:              "WDC W7222A520ORA022T"
             physicalFirmware:       A7B0
             physicalInsertTime:     2023-09-01T12:00:25-07:00
             physicalInterface:      sas
             physicalSerial:         75X8RD
             physicalSize:           20.009765625T
             slotNumber:             5
             status:                 normal
    
  7. ストレージ・プールのリバランス操作をモニタリングします。

    交換用ストレージ・デバイスのExascaleプール・ディスクの再統合の一環として、影響を受けるストレージ・プールはリバランス操作を実行します。

    ESCLI lsstoragepooloperationコマンドを使用して、ストレージ・プールのリバランス操作をモニタリングします。

  8. Exascaleが交換デバイスを使用していることを確認します。

    ESCLI lspooldiskコマンドを使用して、status属性を確認します。

    最初は、交換デバイスがオンラインになると、プール・ディスクのステータスがBEING ADDEDに一時的に設定されます。ただし、Exascaleによって交換デバイスが再統合されると、ステータス値はONLINEに遷移します。