3.5.2 パフォーマンスの低下によるPMEMデバイスの交換

PMEMデバイスのパフォーマンスが低下している場合は、モジュールの交換が必要になることがあります。

PMEMデバイスでパフォーマンスの低下が検出された場合、モジュール・ステータスはwarning - predictive failureに設定され、アラートが生成されます。このアラートには、PMEMデバイスの交換に関する特定の手順が含まれています。システムのアラート通知を構成している場合、電子メール・メッセージでアラートが指定したアドレスに送信されます。

predictive failure (予測障害)ステータスは、PMEMデバイスに障害が発生する可能性があり、できるだけ早く交換する必要があることを示しています。新しいデータは、交換されるまでPMEMデバイスにキャッシュされません。

ステータスがpredictive failure (予測障害)のPMEMデバイスの特定には、次のコマンドを使用することもできます。

CellCLI> LIST PHYSICALDISK WHERE disktype=PMEM AND status='warning - predictive failure' DETAIL

         name:               PMEM_0_6
         diskType:           PMEM
         luns:               P0_D6
         makeModel:          "Intel NMA1XBD128GQS"
         physicalFirmware:   1.02.00.5365
         physicalInsertTime: 2019-11-30T21:24:45-08:00
         physicalSerial:     8089-A2-1838-00001234
         physicalSize:       126.375G
         slotNumber:         "CPU: 0; DIMM: 6"
         status:             warning - predictive failure

そのPMEMデバイスは、LIST DISKMAPコマンドで次の情報によって特定することもできます。

CellCLI> LIST DISKMAP
Name      PhysicalSerial         SlotNumber        Status       PhysicalSize
   CellDisk       DevicePartition    GridDisks
PMEM_0_1  8089-a2-0000-00000460  "CPU: 0; DIMM: 1"  normal      126G
   PM_00_cel01    /dev/dax5.0        PMEMCACHE_PM_00_cel01
PMEM_0_3  8089-a2-0000-000004c2  "CPU: 0; DIMM: 3"  normal      126G
   PM_02_cel01    /dev/dax4.0        PMEMCACHE_PM_02_cel01
PMEM_0_5  8089-a2-0000-00000a77  "CPU: 0; DIMM: 5"  normal      126G
   PM_03_cel01    /dev/dax3.0        PMEMCACHE_PM_03_cel01
PMEM_0_6  8089-a2-0000-000006ff  "CPU: 0; DIMM: 6"  warning -   126G
   PM_04_cel01    /dev/dax0.0        PMEMCACHE_PM_04_cel01
PMEM_0_8  8089-a2-0000-00000750  "CPU: 0; DIMM: 8"  normal      126G
   PM_05_cel01    /dev/dax1.0        PMEMCACHE_PM_05_cel01
PMEM_0_10 8089-a2-0000-00000103  "CPU: 0; DIMM: 10" normal      126G
   PM_01_cel01    /dev/dax2.0        PMEMCACHE_PM_01_cel01
PMEM_1_1  8089-a2-0000-000008f6  "CPU: 1; DIMM: 1"  normal      126G
   PM_06_cel01    /dev/dax11.0       PMEMCACHE_PM_06_cel01
PMEM_1_3  8089-a2-0000-000003bb  "CPU: 1; DIMM: 3"  normal      126G
   PM_08_cel01    /dev/dax10.0       PMEMCACHE_PM_08_cel01
PMEM_1_5  8089-a2-0000-00000708  "CPU: 1; DIMM: 5"  normal      126G
   PM_09_cel01    /dev/dax9.0        PMEMCACHE_PM_09_cel01
PMEM_1_6  8089-a2-0000-00000811  "CPU: 1; DIMM: 6"  normal      126G
   PM_10_cel01    /dev/dax6.0        PMEMCACHE_PM_10_cel01
PMEM_1_8  8089-a2-0000-00000829  "CPU: 1; DIMM: 8"   normal     126G
   PM_11_cel01    /dev/dax7.0        PMEMCACHE_PM_11_cel01
PMEM_1_10 8089-a2-0000-00000435  "CPU: 1; DIMM: 10"   normal    126G
   PM_07_cel01    /dev/dax8.0        PMEMCACHE_PM_07_cel01

PMEMデバイスがライトバック・キャッシュに使用されている場合、データはPMEMデバイスからフラッシュ・キャッシュにフラッシュされます。PMEMデバイスからデータがフラッシュされていることを確認するには、すべてのグリッド・ディスクのcachedBy属性を調べて、影響を受けたPMEMデバイスがリストされていないことを確認します。

  1. 障害が発生したPMEMデバイスが含まれているストレージ・サーバーを特定します。
    白色のロケータLEDが点灯し、影響を受けているストレージ・サーバーを特定できます。サーバーを特定したら、障害検知ボタンを使用して、障害が発生したDIMMを特定します。

    注意:

    サービス不可LEDインジケータが点灯しているときに、障害が発生したDCPMM DIMMを取り外さないでください。
  2. 障害が発生したPMEMデバイスがあるストレージ・サーバーの電源をオフにして、サーバーの電源コードを取り外します。
  3. 障害が発生したPMEMデバイスを交換します。
  4. ストレージ・サーバーを再起動します。

    ノート:

    再起動時に、ストレージ・サーバーは新しいPMEMデバイスの初期化を完了するために再度シャットダウンします。

新しいPMEMデバイスがシステムによって自動的に使用されています。キャッシュにPMEMデバイスを使用している場合は、有効なキャッシュ・サイズが増加します。PMEMデバイスをコミット・アクセラレーションに使用すると、デバイス上でコミット・アクセラレーションが有効になります。