ストレージ・サーバーの物理ディスクの保守
この項には次のトピックが含まれます:
関連項目:
保守のベスト・プラクティスの詳細は、http://www.oracle.com/goto/maa
のOracle Maximum Availability Architecture (MAA) Webサイトを参照してください。
システム・ディスクおよびデータ・ディスクについて
ストレージ・サーバーの最初の2枚のディスクは、システム・ディスクです。ストレージ・サーバー・ソフトウェアのシステム・ソフトウェアは、各システム・ディスクに割り当てられます。システム・ディスクのこの割り当てられた部分は、システム領域と呼ばれます。システム・ディスクのシステム領域以外は、データ・パーティションと呼ばれ、通常のデータ・ストレージに使用されます。ストレージ・サーバーのその他のディスクはすべて、データ・ディスクと呼ばれます。
物理ディスクのステータスのモニタリング
CellCLI LIST PHYSICALDISK
コマンドで属性を確認して、物理ディスクをモニターできます。たとえば、failed
またはwarning - predictive failure
ステータスの物理ディスクに問題が発生し、交換が必要と思われる場合です。内部しきい値を超えると、ディスク・ファームウェアによってエラー・カウンタが保守され、ドライブはPredictive Failure
とマーク付けされます。交換が必要かどうかは、サーバー・ソフトウェアではなくドライブによって決定されます。
ストレージ・サーバーの物理ディスク・ステータス
- 物理ディスクのステータス
- 正常
- 正常 - 交換のため切断
- 正常 - 制限されたオンライン
- 正常 - 制限されたオンライン - 交換のため切断
- 存在しない
- 障害
- 障害 - 交換のため切断
- 障害 - 不適切なディスク・モデルのため拒否
- 障害 - 不適切なディスク・モデルのため拒否 - 交換のため切断
- 障害 - 間違ったスロットのため拒否
- 障害 - 間違ったスロットのため拒否 - 交換のため切断
- 警告 - 制限されたオンライン
- 警告 - 制限されたオンライン - 交換のため切断
- 警告 - ピア障害
- 警告 - 低いパフォーマンス
- 警告 - 低いパフォーマンス - 交換のため切断
- 警告 - 低いパフォーマンス、ライトスルー・キャッシュ
- 警告 - 予測障害、低いパフォーマンス
- 警告 - 予測障害、低いパフォーマンス - 交換のため切断
- 警告 - 予測障害、ライトスルー・キャッシュ
- 警告 - 予測障害
- 警告 - 予測障害 - 交換のため切断
- 警告 - 予測障害、低いパフォーマンス、ライトスルー・キャッシュ
- 警告 - ライトスルー・キャッシュ
ディスク・エラー発生時の状況
Oracle ASMはハードウェア・エラーによる読取りエラーの障害範囲の修理を実行します。ディスクはオンラインのままで、アラートは送信されません。
ディスクに障害が発生した場合:
-
関連するOracle ASMディスクが
FORCE
オプションで自動的に削除され、Oracle ASMリバランスでデータの冗長性がリストアされます。 -
ドライブの青色のLEDとアンバーのLEDが点灯し、この場合、ディスクの交換を進めてもかまいません。ドライブのLEDは純色のままになります。予測障害および低いパフォーマンスのLEDステータス・ライトの詳細は、「LEDステータスの説明」を参照してください。
-
サーバーによってアラートが生成され、それにはディスクを交換する特定の手順が含まれます。システムのアラート通知を構成している場合、電子メールでアラートが指定したアドレスに送信されます。
ディスクに障害ステータスがある場合:
-
物理ドライブのグリッド・ディスクに関連するOracle ASMディスクが自動的に削除されます。
-
Oracle ASMリバランスは予測障害ディスクから他のディスクにデータを再配置します。
-
ドライブの青色のLEDが点灯し、この場合、ディスクの交換を進めてもかまいません。
Oracle ASMが物理的に対処されたメタデータ・ブロックに関する読取りエラーを取得すると、ブロックはミラーリングされません。
-
Oracle ASMはディスクをオフラインにします。
-
Oracle ASMは
FORCE
オプションでディスクを削除します。 -
ストレージ・サーバー・ソフトウェアは、ディスクが交換できることを示すアラートを送信します。
パフォーマンスの低いディスクの検出について
ASRは、パフォーマンスの低いディスクをアクティブ構成から自動的に識別して削除します。次に、リカバリ・アプライアンスで一連のパフォーマンス・テストが実行されます。CELLSRV
でパフォーマンスの低いディスクが検出されると、セル・ディスクのステータスがnormal - confinedOnline
に変更され、物理ディスクのステータスがwarning - confinedOnline
に変更されます。表13-2に、ディスク制限のトリガーとなる状況を示します。
表13-2 パフォーマンスの低いディスクを示すアラート
アラート・コード | 原因 |
---|---|
CD_PERF_HANG |
ディスクの応答停止 |
CD_PERF_SLOW_ABS |
サービス時間のしきい値が高い(スロー・ディスク) |
CD_PERF_SLOW_RLTV |
相対的サービス時間のしきい値が高い(スロー・ディスク) |
CD_PERF_SLOW_LAT_WT |
書込みでの長いレイテンシ |
CD_PERF_SLOW_LAT_RD |
読取りでの長いレイテンシ |
CD_PERF_SLOW_LAT_RW |
読取りおよび書込みでの長いレイテンシ |
CD_PERF_SLOW_LAT_ERR |
個々のI/Oでの頻繁な長い絶対レイテンシ |
CD_PERF_IOERR |
I/Oエラー |
問題が一時的なものであり、ディスクがテストに合格した場合は、そのディスクは構成に戻されます。ディスクがテストに合格しない場合は、poor performance
としてマークされ、ASRによりディスク交換のためのサービス・リクエストが送信されます。可能な場合は、Oracle ASMによりグリッド・ディスクがテスト用にオフラインに変更されます。そうでない場合、セル・ディスクのステータスは、ディスクを安全にオフラインに変更できるようになるまで、normal - confinedOnline
のまま変わりません。「パフォーマンスの低い物理ディスクの取外し」を参照してください。
ディスク・ステータスの変更はサーバー・アラート履歴に記録されます。
MESSAGE ID
date_time
info "Hard disk entered confinement status. The LUN n_m changed status to warning - confinedOnline. CellDisk changed status to normal - confinedOnline. Status: WARNING - CONFINEDONLINE Manufacturer:name
Model Number:model
Size:size
Serial Number:serial_number
Firmware:fw_release
Slot Number:m
Cell Disk:cell_disk_name
Grid Disk: grid disk 1, grid disk 2 . . . Reason for confinement: threshold for service time exceeded"
次のメッセージがストレージ・セルのアラート・ログに入力されます。
CDHS: Mark cd health state change cell_disk_name
with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
.
.
.
データのリバランスについて
物理ディスクを交換したら、そのスロットの前のディスクにあったグリッド・ディスクとセル・ディスクを再作成する必要があります。これらのグリッド・ディスクがOracle ASMグループの一部である場合、ディスク・グループの冗長性およびASM_POWER_LIMIT
パラメータに基づいて、ディスクをディスク・グループに追加し直して、データをリバランスします。
ディスクを削除または追加すると、Oracle ASMリバランスが発生します。リバランスのステータスを確認するには:
-
リバランス操作は正しく実行されましたか。
Oracle ASMアラート・ログを確認してください。
-
リバランス操作は現在実行中ですか。
GV$ASM_OPERATION
ビューを確認してください。 -
リバランス操作は失敗しましたか。
V$ASM_OPERATION.ERROR
ビューを確認してください。
障害の発生した物理ディスクに複数のディスク・グループのASMディスクが含まれる場合、複数のディスク・グループのリバランス操作を同じクラスタの異なるOracle ASMインスタンスで実行できます。Oracle ASMインスタンスは、一度に1つのリバランス操作を実行できます。すべてのOracle ASMインスタンスがビジー状態の場合、リバランス操作がキューに入れられます。
ハード・ディスク・コントローラのライトスルー・キャッシュ・モードのモニタリング
各ストレージ・サーバーのハード・ディスク・コントローラは、定期的にコントローラのバッテリの放電と充電を実行します。操作中は、書込みキャッシュ・ポリシーにより、ライトバック・キャッシュからライトスルー・キャッシュに変更されます。ライトスルー・キャッシュ・モードはライトバック・キャッシュ・モードより時間を要します。ただし、ストレージ・サーバーの電源が落ちたり障害が発生したりすると、ライトバック・キャッシュ・モードの場合はデータ損失のリスクがあります。操作は、たとえば1月、4月、7月および10月の17日の01:00、のように3か月ごとに実行されます。
次の例は、論理ドライブのキャッシュ・モードのステータスに関してストレージ・サーバーによって生成されるアラート情報を示しています。
HDD disk controller battery on disk contoller at adapter 0 is going into a learn cycle. This is a normal maintenance activity that occurs quarterly and runs for approximately 1 to 12 hours. The disk controller cache might go into WriteThrough caching mode during the learn cycle. Disk write throughput might be temporarily lower during this time. The message is informational only, no action is required.
次のコマンドを使用して、定期的な書込みキャッシュ・ポリシーへの変更を管理します。
-
学習サイクルの開始時間を変更するには、次の例のようなコマンドを使用します。
CellCLI> ALTER CELL bbuLearnCycleTime="2013-01-22T02:00:00-08:00"
サイクルが終了すると、時間はデフォルト学習時間に戻ります。
-
次の学習サイクルの時間を確認するには:
CellCLI> LIST CELL ATTRIBUTES bbuLearnCycleTime
-
バッテリのステータスを表示するには:
# /opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -a0 BBU status for Adapter: 0 BatteryType: iBBU08 Voltage: 3721 mV Current: 541 mA Temperature: 43 C BBU Firmware Status: Charging Status : Charging Voltage : OK Temperature : OK Learn Cycle Requested : No Learn Cycle Active : No Learn Cycle Status : OK Learn Cycle Timeout : No I2c Errors Detected : No Battery Pack Missing : No Battery Replacement required : No Remaining Capacity Low : Yes Periodic Learn Required : No Transparent Learn : No Battery state: GasGuageStatus: Fully Discharged : No Fully Charged : No Discharging : No Initialized : No Remaining Time Alarm : Yes Remaining Capacity Alarm: No Discharge Terminated : No Over Temperature : No Charging Terminated : No Over Charged : No Relative State of Charge: 7 % Charger System State: 1 Charger System Ctrl: 0 Charging current: 541 mA Absolute state of charge: 0 % Max Error: 0 % Exit Code: 0x00
障害が発生した物理ディスクの交換
物理ディスクの停止により、パフォーマンスの低下およびデータの冗長性が発生する場合があります。したがって、できるだけ早く障害が発生したディスクを新しいディスクに交換します。
関連項目:
-
Oracle Databaseリファレンス(
V$ASM_OPERATION
ビューの詳細)
障害のある物理ディスクの交換
ディスクがwarning - predictive failure
ステータスのため、物理ディスクの交換が必要な場合があります。このステータスは、物理ディスクに障害が発生する可能性があり、できるだけすぐに交換する必要があることを示します。
交換する前にドライブに障害が発生した場合は、「障害が発生した物理ディスクの交換」を参照してください。
障害発生前にディスクを交換するには、次のようにします。
関連項目:
-
V$ASM_OPERATION
ビューの詳細は、『Oracle Databaseリファレンス』を参照してください
パフォーマンスの低い物理ディスクの取外し
不良物理ディスクが、他の正常なディスクのパフォーマンスを低下させることがあります。問題のあるディスクはシステムから取り外す必要があります。
不良ディスクの識別後に物理ディスクを削除するには、次のようにします。
関連項目: