ストレージ・サーバーのフラッシュ・ディスクの保守
この項では、フラッシュ・ディスクの保守を実行する方法について説明します。この付録には、次の項があります。
フラッシュ・ディスクについて
リカバリ・アプライアンスではストレージ・サーバー間でデータがミラー化され、少なくとも2つのストレージ・サーバーに書込み操作が送信されます。1つのストレージ・サーバーのフラッシュ・カードに問題が発生すると、リカバリ・アプライアンスでは別のストレージ・サーバーのミラー化されたデータを使用して読取りおよび書込み操作が実行されます。サービスは中断されません。
フラッシュ・カードに障害が発生すると、ストレージ・サーバー・ソフトウェアは、残存ミラーからデータを読み取り、フラッシュ・キャッシュのデータを確認します。次に、障害が発生したフラッシュ・カードのあるサーバーにデータが書き込まれます。障害の発生時、障害が発生したフラッシュ・キャッシュ内での損失データの場所がソフトウェアによって保存されます。復元では次に損失データがミラー・コピーに置き換えられます。復元中、グリッド・ディスクのステータスはACTIVE -- RESILVERING WORKING
になります。
各ストレージ・サーバーには、4枚のPCIeカードがあります。各カードに4個のフラッシュ・ディスク(FDOM)があり、合計16個のフラッシュ・ディスクが提供されます。4枚のPCIeカードは、PCIスロット番号1、2、4および5にあります。
障害が発生したフラッシュ・ディスクを確認するには、次のコマンドを使用します。
CellCLI> LIST PHYSICALDISK WHERE DISKTYPE=flashdisk AND STATUS=failed DETAIL
name: FLASH_5_3
diskType: FlashDisk
luns: 5_3
makeModel: "Sun Flash Accelerator F40 PCIe Card"
physicalFirmware: TI35
physicalInsertTime: 2012-07-13T15:40:59-07:00
physicalSerial: 5L002X4P
physicalSize: 93.13225793838501G
slotNumber: "PCI Slot: 5; FDOM: 3"
status: failed
カードのname
およびslotNumber
属性は、PCIスロットおよびFDOM番号を示します。
サーバー・ソフトウェアによって障害が検出されると、フラッシュ・ディスク(およびそのディスク上のLUN)に障害が発生したことを示すアラートが生成されます。アラート・メッセージには、フラッシュ・カードのPCIスロット番号および正確なFDOM番号が含まれています。これらの番号により、フィールド交換可能ユニット(FRU)が一意に識別されます。システムのアラート通知を構成している場合は、指定したアドレスにアラートが電子メール・メッセージで送信されます。
フラッシュ・ディスクの停止により、パフォーマンスの低下およびデータの冗長性が発生する場合があります。障害が発生したディスクをできるだけ早く交換します。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、サーバーの有効なキャッシュ・サイズが縮小します。フラッシュ・ログにフラッシュ・ディスクを使用する場合、ディスクでフラッシュ・ログが無効になり、有効なフラッシュ・ログ・サイズが縮小します。グリッド・ディスクにフラッシュ・ディスクを使用する場合、FORCE
オプションによって関連するOracle ASMディスクがOracle ASMディスク・グループから自動的に削除され、Oracle ASMリバランスでデータの冗長性のリストアが開始されます。
関連項目:
-
部品番号情報およびサービス・ガイドのリンクは、「ストレージ・サーバーの部品」を参照してください
-
V$ASM_OPERATION
ビューの詳細は、『Oracle Databaseリファレンス』を参照してください -
次のWebサイトの『Sun Flash Accelerator F80 PCIe Card User's Guide』
障害ステータス・インジケータ
次のステータス・インジケータはアラートを生成します。アラートには、フラッシュ・ディスクを交換する特定の手順が含まれます。システムのアラート通知を構成している場合は、指定したアドレスにアラートが電子メール・メッセージで送信されます。
- 警告 - ピア障害
-
同じSun Flash Accelerator PCIeカード上のフラッシュ・ディスクの1つに、障害が発生したか、問題があります。たとえば、FLASH5_3に障害が発生すると、FLASH5_0、FLASH5_1およびFLASH5_2がpeer failureステータスになります。
CellCLI> LIST PHYSICALDISK 36:0 L45F3A normal 36:1 L45WAE normal 36:2 L45WQW normal . . . FLASH_5_0 5L0034XM warning - peer failure FLASH_5_1 5L0034JE warning - peer failure FLASH_5_2 5L002WJH warning - peer failure FLASH_5_3 5L002X4P failed
- 警告 - 予測障害
-
フラッシュ・ディスクに障害が発生する可能性があり、できるだけすぐに交換する必要があります。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、引き続きフラッシュ・キャッシュとして使用されます。グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクに関連するOracle ASMディスクが自動的に削除され、Oracle ASMリバランスで障害が発生する可能性のあるディスクから他のディスクにデータが移動されます。
1つのフラッシュ・ディスクがpredictive failureステータスになると、データがコピーされます。ライトバック・フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、フラッシュ・ディスクからグリッド・ディスクにデータがフラッシュされます。
- 警告 - 低いパフォーマンス
-
フラッシュ・ディスクが極端に低いパフォーマンスを示しており、できるだけすぐに交換する必要があります。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、このディスクからフラッシュ・キャッシュが削除され、ストレージ・サーバーの有効なフラッシュ・キャッシュ・サイズが縮小します。グリッド・ディスクにフラッシュ・ディスクを使用する場合、このフラッシュ・ディスクのグリッド・ディスクに関連するOracle ASMディスクが
FORCE
オプションによって可能な場合に自動的に削除されます。オフライン・パートナのためにDROP...FORCE
が失敗した場合、通常グリッド・ディスクが削除され、Oracle ASMリバランスでパフォーマンスの低いディスクから他のディスクにデータが移動されます。 - 警告 - ライトスルー・キャッシュ
-
PCIeカードでデータ・キャッシュのサポートに使用されるキャパシタに障害が発生しており、カードをできるだけすぐに交換する必要があります。
状態の悪いフラッシュ・ディスクの識別
特定の状態ステータスのフラッシュ・ディスクを識別するには、LIST PHYSICALDISK
コマンドを使用します。この例では、warning - predictive failure
ステータスの問合せが行われます。
CellCLI> LIST PHYSICALDISK WHERE DISKTYPE=flashdisk AND STATUS= \ 'warning - predictive failure' DETAIL name: FLASH_5_3 diskType: FlashDisk luns: 5_3 makeModel: "Sun Flash Accelerator F40 PCIe Card" physicalFirmware: TI35 physicalInsertTime: 2012-07-13T15:40:59-07:00 physicalSerial: 5L002X4P physicalSize: 93.13225793838501G slotNumber: "PCI Slot: 1; FDOM: 2" status: warning - predictive failure
パフォーマンスの低いフラッシュ・ディスクの識別
ASRは、パフォーマンスの低いディスクをアクティブ構成から自動的に識別して削除します。次に、リカバリ・アプライアンスで一連のパフォーマンス・テストが実行されます。CELLSRV
でパフォーマンスの低いディスクが検出されると、セル・ディスクのステータスがnormal - confinedOnline
に変更され、物理ディスクのステータスがwarning - confinedOnline
に変更されます。表13-2に、ディスク制限のトリガーとなる状況を示します。状況は、物理ディスクおよびフラッシュ・ディスクの両方とも同じです。
問題が一時的なものであり、ディスクがテストに合格した場合は、そのディスクは構成に戻されます。ディスクがテストに合格しない場合は、poor performance
としてマークされ、ASRによりディスク交換のためのサービス・リクエストが送信されます。可能な場合は、Oracle ASMによりグリッド・ディスクがテスト用にオフラインに変更されます。そうでない場合、セル・ディスクのステータスは、ディスクを安全にオフラインに変更できるようになるまで、normal - confinedOnline
のまま変わりません。
ディスク・ステータスの変更はサーバー・アラート履歴に記録されます。
MESSAGE ID
date_time
info "Hard disk entered confinement status. The LUN n_m changed status to warning - confinedOnline. CellDisk changed status to normal - confinedOnline. Status: WARNING - CONFINEDONLINE Manufacturer:name
Model Number:model
Size:size
Serial Number:serial_number
Firmware:fw_release
Slot Number:m
Cell Disk:cell_disk_name
Grid Disk: grid disk 1, grid disk 2 ... Reason for confinement: threshold for service time exceeded"
次のメッセージがストレージ・セルのアラート・ログに入力されます。
CDHS: Mark cd health state change cell_disk_name
with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
.
.
.
障害のあるフラッシュ・ディスクの安全な交換時期
サーバー・ソフトウェアがライト・バック・フラッシュ・キャッシュに使用されるフラッシュ・ディスクで予測障害またはピア障害を検出し、1つのFDOMだけに問題がある場合、サーバー・ソフトウェアは不良FDOMでデータを復元し、他の3つのFDOMでデータをフラッシュします。有効なグリッド・ディスクがある場合は、サーバー・ソフトウェアはディスクのOracle ASMリバランスを開始します。タスクが完了し、ディスクの準備完了がアラートで示されるまで、不良ディスクを交換することはできません。
Oracle ASMディスクが削除されている場合は、アラートが送信され、フラッシュ・ディスクを安全に交換できます。フラッシュ・ディスクをライトバック・フラッシュ・キャッシュに使用する場合、フラッシュ・ディスクによってキャッシュされるグリッド・ディスクがなくなるまで待機します。
障害が発生したフラッシュ・ディスクの交換
注意:
PCIeカードはホット・プラガブルではないため、フラッシュ・ディスクまたはカードを交換する前にストレージ・サーバーの電源を切断する必要があります。
次の手順を実行する前に、サーバーを停止します。「ストレージ・サーバーの停止」を参照してください。
障害が発生したフラッシュ・ディスクを交換するには、次のようにします。
関連項目:
-
部品番号およびサービス・ガイドのリンクは、「ストレージ・サーバーの部品」を参照してください
-
V$ASM_OPERATION
ビューの詳細は、『Oracle Databaseリファレンス』を参照してください -
次のWebサイトの『Sun Flash Accelerator F80 PCIe Card User's Guide』
障害のあるフラッシュ・ディスクの交換
注意:
PCIeカードはホット・プラガブルではないため、フラッシュ・ディスクまたはカードを交換する前にストレージ・サーバーの電源を切断する必要があります。
次の手順を実行する前に、「障害のあるフラッシュ・ディスクの安全な交換時期」のトピックを確認してください。
障害のあるフラッシュ・ディスクを交換するには、次のようにします。
次のように、新しいフラッシュ・ディスクがシステムによって自動的に使用されます。
-
フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、有効なキャッシュ・サイズが拡張します。
-
グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクが新しいフラッシュ・ディスクに再作成されます。
-
グリッド・ディスクがOracle ASMディスク・グループの一部だった場合は、ディスクはディスク・グループに追加し直されます。ディスク・グループの冗長性および
ASM_POWER_LIMIT
パラメータに基づいて、データがそこでリバランスされます。
パフォーマンスの低いフラッシュ・ディスクの取外し
1つの不良フラッシュ・ディスクが、他の正常なフラッシュ・ディスクのパフォーマンスを低下させることがあります。問題のあるフラッシュ・ディスクは取り外す必要があります。「パフォーマンスの低いフラッシュ・ディスクの識別」を参照してください。
パフォーマンスの低いフラッシュ・ドライブを取り外すには、次のようにします。
-
フラッシュ・ディスクがフラッシュ・キャッシュに使用される場合:
-
ディスクと同期されていないデータ(ダーティ・データ)が、フラッシュ・キャッシュからグリッド・ディスクにフラッシュされるようにします。
CellCLI> ALTER FLASHCACHE ... FLUSH
-
フラッシュ・キャッシュを無効化して、新しいフラッシュ・キャッシュを作成します。フラッシュ・キャッシュを作成する場合、不良フラッシュ・ディスクを使用しないでください。
CellCLI > DROP FLASHCACHE CellCLI > CREATE FLASHCACHE CELLDISK='fd1,fd2,fd3,fd4, ...'
-
-
グリッド・ディスクにフラッシュ・ディスクを使用する場合、不良ディスクの使用をすぐに停止するようOracle ASMに指示します。
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name FORCE
オフライン・パートナによって、
FORCE
オプションを使用したDROP
コマンドが失敗する可能性があります。前述のコマンドが失敗した場合、次のいずれかを実行してください。-
他のサーバーまたはディスクの障害を修正して、Oracle ASMデータ冗長性をリストアします。その後、
DROP...FORCE
コマンドを再試行してください。 -
データを不良ディスクからリバランスするようにOracle ASMに指示します。
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name NOFORCE
-
-
不良フラッシュ・ディスクに関連するOracle ASMディスクが正しく削除されるまで待機します。フラッシュ・ディスクを安全に交換できるようになると、ストレージ・サーバー・ソフトウェアによって自動的にアラートが送信されます。
-
サービスを停止します:
CellCLI> ALTER CELL SHUTDOWN SERVICES ALL
前述のコマンドでは、オフラインのディスクがないか、predictive failureステータスのディスクがないか、またはミラーにコピーする必要があるディスクがないかをチェックします。Oracle ASM冗長性が損なわれていない場合は、コマンドによりOracle ASMでグリッド・ディスクがオフラインに変更され、サービスが停止されます。
次のエラーは、サービスの停止によって冗長性の問題が引き起こされ、ディスク・グループが強制的にマウント解除される可能性を示しています。
Stopping the RS, CELLSRV, and MS services... The SHUTDOWN of ALL services was not successful. CELL-01548: Unable to shut down CELLSRV because disk group DATA, RECO may be forced to dismount due to reduced redundancy. Getting the state of CELLSRV services... running Getting the state of MS services... running Getting the state of RS services... running
このエラーが発生した場合は、Oracle ASMディスク・グループの冗長性がリストアされます。すべてのディスクのステータスが正常のときはコマンドを再試行します。
-
サーバーを停止します。「ストレージ・サーバーの停止」を参照してください。
-
不良フラッシュ・ディスクを取り外して、新しいフラッシュ・ディスクと交換します。
-
サーバーの電源を投入します。サービスが自動的に開始されます。サーバーの起動の一環として、Oracle ASMですべてのグリッド・ディスクが自動的にオンラインになります。
-
新規フラッシュ・ディスクをフラッシュ・キャッシュに追加します。
CellCLI> DROP FLASHCACHE CellCLI> CREATE FLASHCACHE ALL
-
すべてのグリッド・ディスクがオンラインであることを確認します。
CellCLI> LIST GRIDDISK ATTRIBUTES asmmodestatus
すべてのグリッド・ディスクの
asmmodestatus
がONLINE
またはUNUSED
になるまで待機します。
次のようにフラッシュ・ディスクが追加されます。
-
グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクが新しいフラッシュ・ディスクに再作成されます。
-
これらのグリッド・ディスクがOracle ASMディスク・グループの一部であり、
DROP...FORCE
をステップ2で使用した場合、ディスク・グループの冗長性およびASM_POWER_LIMIT
パラメータに基づいて、ディスクがディスク・グループに追加し直され、データがリバランスされます。 -
ステップ
2
でDROP...NOFORCEが使用された場合、グリッド・ディスクをOracle ASMディスク・グループに手動で追加し直す必要があります。