12 リカバリ・アプライアンス・ハードウェアの保守
この章では、リカバリ・アプライアンス・ラックのコンポーネントの保守方法について説明します。この付録には、次の項があります。
関連項目:
注意事項と警告
リカバリ・アプライアンス・ハードウェアの保守時には、次の注意に従ってください。
警告:
この製品の高圧電力を使用する部分には触れないでください。触れた場合、重傷を負う可能性があります。
注意:
-
緊急時でないかぎり、リカバリ・アプライアンスの電源を切断しないでください。緊急時は、「緊急時の電源切断の手順」に従ってください。
-
キャビネットの前のドアと後のドアを閉めた状態にしてください。ドアを閉めないと、システム障害や、ハードウェア・コンポーネントの破損が生じることがあります。
-
空気が適切に循環し、コンポーネントが過熱しないように、キャビネットの上部、前部および後部に障害物がない状態にしてください。
リカバリ・アプライアンス・ラックの電源の投入と切断
この項の内容は次のとおりです。
緊急時の電源切断の手順
緊急時には、リカバリ・アプライアンスへの電源供給をすぐに停止します。次のような緊急時に、リカバリ・アプライアンスの電源切断が必要な場合があります。
-
地震、洪水、ハリケーン、竜巻、またはサイクロンなどの自然災害の場合
-
システムから異常な騒音、臭い、または煙が発生した場合
-
人の安全を脅かす場合
緊急時の電源切断
緊急時には、次のいずれかの作業を実行します。
-
サーキット・ブレーカで電源を切断します。
-
コンピュータ・ルームで緊急時の電源切断スイッチを作動させます。
その後、システムの電源の復旧についてOracleサポート・サービスに連絡します。
リカバリ・アプライアンスの停止
緊急でない通常の状況下では、ソフトウェア・サービスおよびハードウェアの電源を正常に切断できます。
ラック・コンポーネントを停止する前にすべてのソフトウェア・サービスを停止します。
リカバリ・アプライアンス・サービスの停止
リカバリ・アプライアンス・サービス、Oracle Databaseファイル・システム、Oracle Databaseおよびクラスタ・サービスを停止する必要があります。
リカバリ・アプライアンス・サービスを停止するには:
-
アプライアンスの停止の一環としてキーストアを無効にします。キーストアが作成されていない場合は、このステップをスキップしてください。
キーストアが作成されている場合は、クラウド暗号化へのコピーのためにHSMウォレットを停止するのにこれが必要です。
アプライアンスを停止する前に、次のコマンドを実行します。
[root@myhost ~]# racli disable keystore [root@myhost ~]# racli status keystore Node: zdlra41 Wallet Type: HSM Status: Closed Node: zdlra42 Wallet Type: HSM Status: Closed
-
oracle
としてリカバリ・アプライアンス計算サーバーにログインします。 -
rasys
ユーザーとしてOracle DatabaseへのSQL接続を開きます。$ sqlplus rasys
-
サービスのステータスをチェックします。
SQL> SELECT state FROM ra_server; STATE ------------ ON
-
リカバリ・アプライアンス・サービスを停止します。
SQL> exec dbms_ra.shutdown;
-
Oracle Databaseから切断します。
SQL> exit
-
Oracle Secure Backupが構成されている場合、次の手順を実行します。
-
root
ユーザーに切り替えます。 -
Oracle Secure Backupの現在のステータスをチェックします。
# $GRID_HOME/bin/crsctl status res osbadmin NAME=osbadmin TYPE=cluster_resource TARGET=ONLINE STATE=ONLINE on example01adm04
-
Oracle Secure Backupがオンラインである場合は、停止します。
# $GRID_HOME/bin/crsctl stop res osbadmin
-
oracle
ユーザーに切り替えます。
-
-
Oracle Databaseのステータスをチェックします。
$ srvctl status database -d zdlra5 Instance zdlra51 is running on node radb07 Instance zdlra52 is running on node radb08
-
Oracle Databaseを停止します。
$ srvctl stop database -d zdlra5
-
Oracle Databaseが停止していることを確認します。
$ srvctl status database -d zdlra5 Instance zdlra51 is not running on node radb07 Instance zdlra52 is not running on node radb08
-
root
ユーザーに切り替えます。 -
クラスタのすべてのノード上のOracle Clusterwareスタックを停止します。
# $GRID_HOME/bin/crsctl stop cluster -all CRS-2673: Attempting to stop 'ora.crsd' on 'zdlradb07' CRS-2790: Starting shutdown of Cluster Ready Services-managed resources on 'zdlradb07' CRS-2673: Attempting to stop 'ora.LISTENER_SCAN2.lsnr' on 'zdlradb07' CRS-2673: Attempting to stop 'ora.LISTENER_SCAN1.lsnr' on 'zdlradb07' . . . #
コマンドが失敗した場合は、
-f
オプションを使用してコマンドを再入力します。 -
計算サーバーごとに、次のコマンドを実行してOracle Cluster Ready Services (CRS)を停止します。
# $GRID_HOME/bin/crsctl stop crs CRS-2791: Starting shutdown of Oracle High Availability Services-managed resources on 'radb08' CRS-2673: Attempting to stop 'ora.crf' on 'radb08' CRS-2673: Attempting to stop 'ora.mdnsd' on 'radb08' . . . CRS-2677: Stop of 'ora.crf' on 'radb08' succeeded CRS-2677: Stop of 'ora.mdnsd' on 'radb08' succeeded CRS-2793: Shutdown of Oracle High Availability Services-managed resources on 'radb08' has completed CRS-4133: Oracle High Availability Services has been stopped.
-
必要に応じて、次の順序でハードウェアを停止または再起動します。
-
計算サーバー
-
ストレージ・サーバー
-
ラックおよびスイッチ
-
サーバーの電源切断
サーバーの電源を切断する前に、「リカバリ・アプライアンスの停止」の説明に従って、サーバー上で動作しているサービスを停止します。
計算サーバーまたはストレージ・サーバーを停止するには:
例12-1 dcliユーティリティを使用したリカバリ・アプライアンスの電源の切断
-
すべての計算サーバー上のOracle Clusterwareを停止します。
# GRID_HOME/grid/bin/crsctl stop cluster -all
-
ラック内の他の計算サーバーを停止します。
# dcli -l root -g ra-adm02 shutdown -h -y now
前述のコマンドで、
ra01adm02
は2番目の計算サーバーの名前です。 -
すべてのストレージ・サーバーを停止します。
# dcli -l root -g cell_group shutdown -h -y now
前述のコマンドの
cell_group
は、すべてのストレージ・サーバーをリストするファイルです。 -
ローカルの計算サーバーを停止します。
shutdown -h -y now
-
ラックの電源を切断します。
dcli
ユーティリティを使用して、複数のサーバーで同時にshutdown
コマンドを実行します。コマンドによって電源が停止するサーバーからはdcli
を実行しないでください。
次の例では、cell_group
というファイルにリストされたストレージ・サーバーのグループが停止します。
# dcli -l root -g cell_group shutdown -h -y now
例12-1に、dcli
ユーティリティを使用して同時に複数のサーバーを停止する場合のラックの電源切断手順を示します。コマンドは計算サーバーから実行されます。
リカバリ・アプライアンスの起動
最初にラック・コンポーネントに電源を投入してから、ソフトウェア・サービスを起動します。
リカバリ・アプライアンス・コンポーネントの起動
ラック・コンポーネントに電源を投入するには、次のいずれかの方法を使用します。
-
コンポーネントの前面にある電源ボタンを押します。
-
Oracle ILOMにログインして、システムに電源を供給します。「リモート・サーバーの電源投入」を参照してください。
起動順序
次の手順でラック・コンポーネントに電源を投入します。
-
ラックおよびスイッチ
スイッチが初期化するのを数分待ってから、ストレージ・サーバーを起動します。
-
ストレージ・サーバー
ストレージ・サーバーですべてのサービスが開始されるまで5から10分待ちます。必ず初期化が終了してから、計算サーバーを起動します。
-
計算サーバー
計算サーバーの電源が投入されると、オペレーティング・システムとOracle Clusterwareが自動的に起動します。Oracle Clusterwareは、自動的に起動する構成のすべてのリソースを起動します。
リモート・サーバーの電源投入
Oracle ILOMインタフェースを使用すると、リモートでリカバリ・アプライアンス・サーバーの電源を投入できます。Oracle ILOMにアクセスするには、Webコンソール、コマンドライン・インタフェース(CLI)、Intelligent Platform Management Interface (IPMI)またはSimple Network Management Protocol (SNMP)を使用します。
たとえば、IPMIを使用してサーバーra01cel01
に電源を供給するには、次のようなコマンドでそのOracle ILOMを使用します。
# ipmitool -H ra01cel01-ilom -U root chassis power on
コマンドを使用するサーバーにIPMItoolがインストールされている必要があります。
関連項目:
Oracle ILOMを使用してサーバーの電源を投入する方法の詳細は、Oracle Integrated Lights Out Manager (ILOM) 3.0ドキュメントを参照してください。
リカバリ・アプライアンス・ソフトウェアの起動
-
root
としてリカバリ・アプライアンス計算サーバーにログインします。 -
Oracle Cluster Ready Services (CRS)が実行されていることを確認します。
# $GRID_HOME/bin/crsctl status server NAME=radb07 STATE=ONLINE NAME=radb08 STATE=ONLINE
-
CRSが実行されていない場合は、起動します。
# $GRID_HOME/bin/crsctl start cluster -all CRS-2672: Attempting to start 'ora.evmd' on 'radb07' CRS-2672: Attempting to start 'ora.cssdmonitor' on 'radb07' CRS-2672: Attempting to start 'ora.cssdmonitor' on 'radb08' . . . #
-
oracle
ユーザーに切り替えます。 -
Oracle Databaseが実行されていることを確認します。
$ srvctl status database -d zdlra5 Instance zdlra51 is not running on node radb07 Instance zdlra52 is not running on node radb08
-
Oracle Databaseが実行されていない場合:
-
Oracle Databaseを起動します。
$ srvctl start database -d zdlra5
-
Oracle Databaseが実行されていることを確認します。
$ srvctl status database -d zdlra5 Instance zdlra51 is running on node radb07 Instance zdlra52 is running on node radb08
-
-
Oracle Secure Backupが有効である場合は、起動します。
# $GRID_HOME/bin/crsctl start res osbadmin
-
RASYS
ユーザーとしてOracle Databaseに接続します。$ sqlplus rasys
-
リカバリ・アプライアンス・サービスのステータスをチェックします。
SQL> SELECT state FROM ra_server; STATE ------------ OFF
-
サービスがオフである場合は、起動します。
SQL> exec dbms_ra.startup;
-
サービスが起動したことを確認します。
SQL> / STATE ------------ ON
-
アプライアンスの起動の一環としてキーストアを有効にします。これは、クラウド暗号化へのコピーのためにHSMウォレットをオープンするのに必要なステップです。アプライアンスの再起動後、次のコマンドを実行します。
[root@myhost ~]# racli enable keystore [root@myhost ~]# racli status keystore Node: zdlra42 Wallet Type: HSM Status: Open Node: zdlra41 Wallet Type: HSM Status: Open
ディスク・コントローラ・バッテリの交換
ストレージ・サーバーおよび計算サーバーのディスク・コントローラには、書込みパフォーマンスを高速化するバッテリ・バックアップ式の書込みキャッシュがあります。充電容量が低下して48時間以上電力の供給されないキャッシュ・データをバッテリで保護できない場合、書込みキャッシュが無効になり、ディスク・コントローラがライトスルー・モードに切り替わります。書込みパフォーマンスは低下しますが、データは失われません。
バッテリの充電容量は徐々に低下し、寿命は動作温度と反比例します。表12-1に、リカバリ・アプライアンスにおけるバッテリの寿命の最短のケースを示します。
表12-1 バッテリの寿命
注入温度 | バッテリの寿命 |
---|---|
< 摂氏25度(華氏77度) |
3年 |
< 摂氏32度(華氏89.6度) |
2年 |
計算サーバーのバッテリのモニタリング
計算サーバーのバッテリの変更容量をモニターするには:
# /opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -a0 | grep "Full Charge" -A5 | sort \ | grep Full -A1
次に、コマンドの出力例を示します。
Full Charge Capacity: 1357 mAh Max Error: 2 %
容量が800ミリアンペア時(mAh)を下回り、最大エラー率が10%を下回る場合は、予防的にバッテリを交換してください。容量が674mAhを下回るか、最大エラー率が10%を超えた場合は、ただちにバッテリを交換してください。
バッテリの温度をモニターするには:
/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -a0 | grep BatteryType; \ /opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -a0 | grep -i temper
次に、コマンドの出力例を示します。
BatteryType: iBBU08 Temperature: 38 C Temperature : OK Over Temperature : No
バッテリの温度が摂氏55度以上である場合は、原因を特定し、問題を解決してください。
ノート:
充電容量が不十分である、温度が高い、またはバッテリの交換が必要である場合などに、ストレージ・サーバーはアラートを生成します。
配電ユニットの交換
配電ユニット(PDU)は、Recovery Applianceがオンライン状態でも交換できます。ラック内の2番目のPDUは、ラック内のすべてのコンポーネントに電力を維持します。PDU-Aは、ラックを背面から見て左側、PDU-Bは右側にあります。
PDU交換のガイドライン
安全に手順を実行して可用性を損なわないために、PDUを交換する前に、次のガイドラインを確認してください。
-
PDU-Aの取外しまたは挿入中に、InfiniBandケーブルのラッチを解除すると、サーバーがクラスタから削除されるため、ラックが使用不可になります。通常、InfiniBandケーブルはラッチでしっかりと固定されているため、取扱いには注意してください。InfiniBandケーブルを無理な力で引っ張らないでください。
-
間違った電源フィードのフックを外すと、ラックが停止します。交換するPDUから電力ケーブルを電源までたどり、それらのフィードのみを抜いてください。
-
PDU交換部品の開梱と再梱包は慌てずに行ってください。故障したユニットを同じように再梱包できるように、電源コードが梱包品の中でどのように巻かれているかに注意してください。
-
サイド・パネルを外すと、PDUの交換に必要な時間を短縮できます。ただし、サイド・パネルの取り外しは任意です。
-
コードレス・ドリルまたは電動ドライバを使用すると、PDUの交換に必要な時間を短縮できます。ハンド・レンチを使用する場合はさらに交換に時間をかけてください。ドライバにはTorx T30ビットおよびT25ビットが必要です。
-
電力ケーブルを移動するには、サーバーのケーブル・アームの取外しが必要になる場合があります。このような場合は、ケーブル・アームのクリップを外さなくても済むように、プラグ接続をねじり、ケーブル・アーム・コネクタを曲げます。ケーブル・アームのクリップを外す必要がある場合は、片方の手でケーブルを支えて電源コードを外し、ケーブル・アームをクリップで留めます。ケーブル・アームはつるしたままにしないでください。
-
T30ねじをL金具から外す場合は、PDUをラックから取り外すまで、PDUと金具を取り付けているT25ねじまたはナットを外さないでください。
PDUの交換
PDUを交換するには、次のようにします。
-
PDUモニターを再起動してネットワーク設定を識別します。
-
カウント(5から0)が開始されるまで、リセット・ボタンを20秒押します。カウントダウン中にボタンを放し、再度押します。
-
モニターが再起動したら、LCDに表示される設定やファームウェア・バージョンなどを記録します。
PDUモニターが機能していない場合は、ネットワーク経由でPDUに接続してネットワーク設定を取得するか、ネットワーク管理者から取得します。
-
-
すべてのPDUブレーカをオフにします。
-
PDUの電源プラグをACコンセントから抜きます。
高くした床にラックがある場合は、床の切抜き部分から電源コードを出します。最初にラックを切抜き部分の上に動かすことが必要な場合もあります。
警告:
電源コードが頭上の配線を使用している場合は、人に落ちたり当たったりしない場所に置きます。
-
サイド・パネル・アクセスがなく、ラックにInfiniBandケーブル・ハーネスがないときにPDU-Bを交換する場合:
ノート:
ケーブル・アームに取り付けられているケーブルのストラップを外さないでください。
-
四角のケーブル・アームをラックに留めているT25ねじを外します。
-
InfiniBandケーブルを邪魔にならないように中央に動かします。
-
-
サーバーおよびスイッチからPDUに接続されているすべての電力ケーブルを外します。電源ケーブルをグループの束にしてまとめておきます。
-
L金具の上部と下部からT30ねじを外し、ねじの使用位置をノートにとっておきます。
-
ラック・フレーム内のPDUの設置位置をノートにとっておきます。
ブレーカ・スイッチを使用できるようにするために、PDUは一般的にラック・フレームから後ろに1インチの位置にします。
-
PDUを斜めにしてラックから取り出します。
-
PDUを持ったまま(十分な空間がある場合は下ろし)、AC電源コードをラックに通します。ACコード・フラッシュをPDUの下部に固定するケーブル・タイを切断する必要が生じる場合があります。
-
ラックの下部または上部のできるかぎり近くにコードを引っ張ります。サーバーの間にはコンセント・プラグを配線用の穴に通すための空間があります。
-
小さい方のTorx T25ねじを外し、上部および下部のナットを緩めてPDUをL金具から取り外します。ナットを外す必要はありません。
-
L金具を新しいPDUに取り付けます。
-
新しいPDUをラックの横に置きます。
-
ACコードをラックに通してコンセントまで配線します。
ノート:
ACコードを新しいPDUにケーブル・タイしないでください。
-
L金具が上部および下部のレールの上に来るまで、角度と位置を調整して、新しいPDUをラック内に置きます。
-
穴とスロットの位置を整列し、PDUがラック・フレームの後ろ約1インチの位置になるようにします。
-
コードのラベルに従って、電源コードを取り付けます。たとえば、G5-0は、PDUのPDUグループ5のコンセント0を示しています。
-
ステップ4でInfiniBandケーブル・ホルダを取り外した場合は、取り付けます。ねじがすり減らないようにするには、最初にホルダのねじを手で締めることをお薦めします。
-
AC電源コードをコンセントに接続します。
-
ブレーカをオンにします。
-
PDUモニターのケーブルを配線し、必要に応じてネットワークをプログラムします。
関連項目:
PDUモニターのプログラミングの詳細は、次のWebサイトのOracle Sun Rack II配電ユニット・ユーザーズ・ガイドを参照してください。
テープ・ドライブの交換
テープ・ドライブは、Recovery Applianceがオンラインのときに交換できます。
ノート:
ブリッジ・テープ・ドライブは、基本モジュールの上位ドライブ・スロットにあります。ロボット制御は、ブリッジ・テープ・ドライブ上でLUN 1として表示されるSCSIメディア・チェンジャ・デバイスです。ライブラリがパーティション分割されている場合、ベース・モジュールに2つのテープ・ドライブが必要になり、各テープ・ドライブがその割り当てられたパーティションのロボット制御を提供します。障害の発生したドライブがブリッジ・ドライブの場合、テープ・ドライブを交換するとホストからSL150ライブラリへの接続が失われるため、SL150ライブラリをホストに対してオフラインにする必要があります。テープ・ドライブがブリッジ・ドライブでない場合は、ホット・スワップが可能です。テープ・ドライブを交換するには、次のようにします。
-
リカバリ・アプライアンスの
sbt_library
を一時停止します。exec dbms_ra.pause_sbt_library(lib_name=>'ROBOT0');
- このテープ・ドライブのアクティビティを静止します。
- ブラウザを使用して、SL150リモート・インタフェースにログインします。
- (オプション)位置特定ライブラリ・インジケータを有効にします
- テープ・ドライブを取り外すための準備をします。
- リモート・インタフェースの左側にある「ライブラリ」をクリックします。
- 交換するドライブにカーソルを移動します。
- ドライブ・アイコンをクリックして、ドライブの取外しを選択します。
- 確認ダイアログ・ボックスで「OK 」をクリックします。ドライブ・トレーの背面にある物理的なLEDが点灯して、ドライブの取外し準備ができていることを示します。
- テープ・ドライブを取り外します。
- ライブラリの背面にアクセスします(該当する場合はラックの背面ドアを開けます)。
- 青色のLED (ドライブの取外し準備ができていることを示す)が点灯しているテープ・ドライブを見つけます。
- インタフェース・ケーブルにラベルが付いていることを確認します。必要に応じて、ラベルを貼り付けます。
- ドライブ・トレーの左側にあるジャックからケーブルを取り外します。
- ドライブ・トレーの脱落防止機構付きつまみねじを緩めます。
- ドライブ・トレーをつかみ、ライブラリのドライブ・スロットから引き出し、静電気防止面に平らな状態で立てて置きます。
注意:
ESDの損傷。電子部品または電気接点に触れないでください。 - 交換用のドライブをパッケージから取り出します。
- テープ・ドライブを交換します。
- ドライブ・トレーの背面の角をつかみます。
- ドライブ・トレーの前面をモジュール・ドライブ・スロット内に導きます。
- ドライブ・トレーをドライブ・スロットに完全に押し込みます。
- ドライブ・トレーの背面にあるLEDがアクティブになっていることを確認します。
- ドライブ・トレーの両側にある脱落防止機能付きつまみねじをしっかりと締めて、トレーがどの方向にも動かないようにします。
- ロボットCRUの位置特定インジケータを押して、消灯します(点灯している場合)。
- Web GUIまたはフロント操作パネルから、ライブラリがそのドライブを認識していることを確認します。
- ドライブ・ポートが有効にされていることを確認します。ドライブのプロパティを表示し、必要に応じてドライブの設定を変更します。
- インタフェースとイーサネット・ケーブルをドライブ・トレーの左側にある適切なジャックにつなぎます。
- SL150リモート・インタフェースからログアウトするか、タッチ・スクリーンをホームに戻します。
obtool
を実行して、ドライブ・オブジェクトのシリアル番号を更新します。obtool chdev -S <drive_object_replaced> | obtool chdev -S robot0_tape03
-
ZDLRAの
sbt_ library
を再開します。exec dbms_ra.resume_sbt_library(lib_name=>'ROBOT0');
前述のステップの多くは、StorageTek SL150 Modular Tape Library [VCAP]のテープ・ドライブCRUの取外し/交換を行う方法(ドキュメントID 1473764.1)で説明されています。
ファームウェアを更新する前に構成を保存する
Oracle ILOMシステム・ファームウェアを更新する際には、既存のリカバリ・アプライアンス構成を保持してください。
Oracle ILOMシステム・ファームウェアの更新は、ホストの電源が入っているときに行えます。Oracle ILOMファームウェア・イメージには、サービス・プロセッサ(SP、Oracle ILOM)のファームウェアおよびサーバーのホスト・コンポーネント(FPGA)が含まれています。Oracle ILOMファームウェアの更新はただちに有効になります。一方、ホスト・コンポーネントの更新は、影響を受けるホストの電源が再投入されるまでは有効になりません。Oracle ILOMの更新はホストの電源が入っている間に行えるため、この機能によってシステムの合計停止時間が短縮されます。
Oracle ILOMコマンド行インタフェースを使用してファームウェアを更新します。
ノート:
ファームウェアのアップグレード中にリカバリ・アプライアンスの構成を保存するには、「Preserve existing SP configuration (y/n)?
」と尋ねられたときに「y
」(はい)と答えます。-
管理者権限のあるアカウントでOracle ILOMにログインします。
-
load -source
コマンドの後ろにインストールするファームウェア・イメージのディレクトリ・パスを指定して、ファームウェア・イメージを格納されている場所から読み込みます。次のように入力します。->
load -source
protocol://server_IPaddress/<path_to_image>/<image.pkg>ここで、protocolには
http、https、ftp、tftp、sftp、scp
のいずれかを指定可能たとえば、IPアドレスが198.xxx.yyy.123で、
ilom/jdoe
ディレクトリにあり、firmware.pkg
という名前の<image.pkg>
を持つtftpサーバーを介してサーバーにアクセスする場合なら、次のコマンドを入力します。-> load -source tftp://198.xxx.yyy.123/tftpboot/ilom/jdoe/firmware.pkg
次の情報が表示されます:
An upgrade takes several minutes to complete. Oracle ILOM will enter a special mode to load new firmware. No other tasks can be performed in Oracle ILOM until the firmware upgrade is complete and Oracle ILOM is reset.
You can choose to postpone the server BIOS upgrade until the next server power off. If you do not do that, you should perform a clean shutdown of the server before continuing.
-
次のプロンプトに対して入力します:
Are you sure you want to load the specified file?
y
Preserve existing SP configuration (y/n)?
y
ノート:
このプロンプトは、ファームウェアの更新が完了した後も既存のOracle ILOM設定を保持します。「y
」(はい)と答えると、既存のリカバリ・アプライアンス構成が保持されます。Preserve existing BIOS configuration (y/n)?
y
ノート:
このプロンプトは、ファームウェアのアップグレードが完了した後も既存のBIOS構成設定を保持します。Delay BIOS upgrade until the next poweroff or reset (y/n)?
y
Delay BIOS Upgradeの質問に「Y」(はい)と答えると、ホストの電源が入っており、更新するホスト・コンポーネントがある場合、ホストの電源は投入されたままになり、ホストの電源が次回切断されて再投入されるまで(次回のリセット/リブートまで)ホスト・コンポーネントは更新されません。
Delay BIOS Upgradeの質問に「N」(いいえ)と答えると、ホストの電源が入っており、更新するホスト・コンポーネントがある場合、ホスト・コンポーネントの更新をただちに適用できるように、強制的にホストの電源が切られます。ホストの電源が強制的に切られた場合、Oracle ILOMがリブートした後に、ホストの電源が自動的に投入されます。
ノート:
サーバーに保留中のBIOSアップグレードがある場合は、電源のリセットが完了するまでの時間が長くなる可能性があります。BIOSファームウェアをアップグレードするためにはサーバーの電源を切って再投入することが必要であり、これは予期された動作です。アップグレードにFPGA更新が含まれている場合は、処理が完了するまでに26分かかることがあります。 -
Oracle ILOMのステータス・メッセージが表示されるまで待って、処理が完了したことを確認してください。
ノート:
詳細は、Oracle ILOMを使用してシステム・ファームウェアを更新するを参照してください。無反応になったOracle ILOMのリセット
Oracle Integrated Lights Out Manager (Oracle ILOM)は無反応になる場合があります。その場合は、手動でOracle ILOMのサービス・プロセッサ(SP)をリセットする必要があります。
次の手順でOracle ILOMのリセット方法を示します。
関連項目:
次のWebサイトのOracle Integrated Lights Out Manager (ILOM) 3.0のドキュメント
http://docs.oracle.com/cd/E19860-01/E21549/bbgiedhj.html#z4000b491400243
リモート・コンソールを使用したOracle ILOMのリセット
SSHを使用してOracle ILOMに接続できない場合は、リモート・コンソールにログインします。
リモート・コンソールを使用してOracle ILOMをリセットするには、次のようにします。
- Oracle ILOMリモート・コンソールにログインします。
- 「メンテナンス」タブからSPのリセットを選択します。
- 「SPのリセット」をクリックします。
IPMItoolを使用したOracle ILOMのリセット
SSHまたはリモート・コンソールのどちらを使用してもOracle ILOMに接続できない場合は、IPMItoolを使用します。
IPMItoolを使用してOracle ILOMをリセットするには、次のようにします。
計算サーバーの保守
物理ディスクの修理のために、リカバリ・アプライアンスの計算サーバーを停止する必要はありません。ラックの停止時間は必要ありませんが、個々のサーバーに停止時間が必要になり、一時的にクラスタ外にすることが必要な場合があります。
LSI MegaRAID SAS 9261-8iディスク・コントローラは各計算サーバーのディスク・ドライブを管理します。ディスクにはRAID-5構成があります。各計算サーバーには4つのディスク・ドライブがあります。1つの仮想ドライブがRAIDセットを構成します。
関連項目:
-
LEDの詳細は、「LEDステータスの説明」を参照してください
-
修理手順は、「計算サーバーの部品」を参照してください
計算サーバーの再イメージ化
計算サーバーが復旧不可能なダメージを負った場合は、そのサーバーを交換して、交換したサーバーを再イメージ化します。再イメージ化手順の実行中に、クラスタ内の他の計算サーバーは使用できます。クラスタに新しいサーバーを追加する際、作業中の計算サーバーから新しいサーバーにソフトウェアをコピーします。
次のタスクは計算サーバーの再イメージ化の方法を示しています:
Oracleサポート・サービスへの連絡
Oracleサポート・サービスでサポート・リクエストを開きます。サポート・エンジニアが障害が発生したサーバーを確認し、交換サーバーを送ります。サポート・エンジニアは、作業中の計算サーバーから実行したimagehistory
コマンドの出力結果も要求します。出力結果により、元の計算サーバーのイメージ化に使用され、システムのリストアに使用されるcomputeImageMaker
ファイルへのリンクが提供されます。
クラスタの障害が発生した計算サーバーの削除
障害が発生した計算サーバーは、Oracle Real Application Clusters (Oracle RAC)から削除する必要があります。
このステップで、working_serverはクラスタ内の動作している計算サーバー、failed_serverは交換される計算サーバー、replacement_serverは新規サーバーです。
障害が発生した計算サーバーをOracle RACクラスタから削除するには、次のようにします。
-
oracleユーザーとして、
working_server
にログインします。 -
障害が発生したサーバーで実行されているリスナーを無効化します。
$ srvctl disable listener -n failed_server $ srvctl stop listener -n failed_server
-
インベントリからOracleホーム・ディレクトリを削除します。
$ cd $ORACLE_HOME/oui/bin $ ./runInstaller -updateNodeList ORACLE_HOME= \ /u01/app/oracle/product/12.1.0/dbhome_1 "CLUSTER_NODES=list_of_working_servers"
前述のコマンドのlist_of_working_serversは、
ra01db02
やra01db03
などのクラスタで動作している計算サーバーのリストです。 -
障害が発生したサーバーがクラスタから削除された(つまり、ピン解除された)ことを確認します。
$ olsnodes -s -t ra01db01 Inactive Unpinned ra01db02 Active Unpinned
-
障害が発生した計算サーバーの仮想IP (VIP)リソースを停止して削除します。
# srvctl stop vip -i failed_server-vip PRCC-1016 : failed_server-vip.example.com was already stopped # srvctl remove vip -i failed_server-vip Please confirm that you intend to remove the VIPs failed_server-vip (y/[n]) y
-
クラスタから計算サーバーを削除します。
# crsctl delete node -n failed_server CRS-4661: Node failed_server successfully deleted.
次のようなエラー・メッセージを受領したら、投票ディスクを移動します。
CRS-4662: Error while trying to delete node ra01db01. CRS-4000: Command Delete failed, or completed with errors.
投票ディスクを移動するには、次のようにします。
-
投票ディスクの現在の場所を特定します。出力例では現在の場所がDBFS_DGであると示されています。
# crsctl query css votedisk ## STATE File Universal Id File Name Disk group -- ----- ----------------- --------- ---------- 1. ONLINE 123456789abab (o/192.168.73.102/DATA_CD_00_ra01cel07) [DBFS_DG] 2. ONLINE 123456789cdcd (o/192.168.73.103/DATA_CD_00_ra01cel08) [DBFS_DG] 3. ONLINE 123456789efef (o/192.168.73.100/DATA_CD_00_ra01cel05) [DBFS_DG] Located 3 voting disk(s).
-
投票ディスクを別のディスク・グループに移動します。
# ./crsctl replace votedisk +DATA Successful addition of voting disk 2345667aabbdd. ... CRS-4266: Voting file(s) successfully replaced
-
投票ディスクを元の場所に戻します。この例ではDBFS_DGに戻されています。
# ./crsctl replace votedisk +DBFS_DG
-
crsctl
コマンドを繰り返してクラスタからサーバーを削除します。
-
-
Oracleインベントリを更新します。
$ cd $ORACLE_HOME/oui/bin $ ./runInstaller -updateNodeList ORACLE_HOME=/u01/app/12.1.0/grid \ "CLUSTER_NODES=list_of_working_servers" CRS=TRUE
-
サーバーが正常に削除されたことを確認します。
$ cluvfy stage -post nodedel -n failed_server -verbose Performing post-checks for node removal Checking CRS integrity... The Oracle clusterware is healthy on node "ra01db02" CRS integrity check passed Result: Node removal check passed Post-check for node removal was successful.
関連項目:
計算サーバーのクラスタからの削除の詳細は、Oracle Real Application Clusters管理およびデプロイメント・ガイドを参照してください
イメージ化に使用するUSBフラッシュ・ドライブの準備
USBフラッシュ・ドライブを使用して、イメージを新しい計算サーバーにコピーします。
使用するUSBフラッシュ・ドライブを準備するには、次のようにします。
新規計算サーバーへのイメージのコピー
次の手順を実行する前に、障害のあった計算サーバーを新しいサーバーに交換します。「ストレージ・サーバーの追加によるリカバリ・アプライアンス・ラックの拡張」を参照してください。
イメージを交換サーバー上にロードするには、次のようにします。
-
交換サーバーのUSBポートにUSBフラッシュ・ドライブを挿入します。
-
サービス・プロセッサを使用してコンソールにログインし、進捗状況をモニターします。
-
電源ボタンを押すか、Oracle ILOMを使用することで、計算サーバーの電源を投入します。
-
マザーボードを交換した場合:
-
BIOS中に[F2]を押します
-
「BIOS Setup」を選択します
-
USBフラッシュ・ドライブを最初に設定してから、RAIDコントローラを設定します。
そうでない場合は、BIOS中に[F8]を押して、ワンタイム起動選択メニューを選択してからUSBフラッシュ・ドライブを選択します。
-
-
システムを起動できるようにします。
システムが起動すると、CELLUSBINSTALLメディアが検出されます。イメージ化プロセスには、2つのフェーズがあります。両方のフェーズを完了してから次のステップに進んでください。
イメージ化プロセスの1つ目のフェーズでは、古いBIOSまたはファームウェアを識別し、イメージに対応するレベルにコンポーネントをアップグレードします。コンポーネントがアップグレードまたはダウングレードされると、システムは自動的に再起動します。
イメージ化プロセスの2つ目のフェーズでは、交換計算サーバーの工場出荷時のイメージをインストールします。
-
システムで要求された場合、USBフラッシュ・ドライブを取り外します。
-
[Enter]を押してサーバーの電源を切断します。
交換計算サーバーの構成
交換計算サーバーには、ホスト名、IPアドレス、DNSまたはNTP設定がありません。このタスクは、交換計算サーバーの構成方法を示しています。
情報はリカバリ・アプライアンス内のすべての計算サーバーで同じである必要があります。IPアドレスはDNSから取得できます。初期インストールからインストレーション・テンプレートのコピーも取得する必要があります。
交換計算サーバーを構成するには、次のようにします。
ノート:
-
計算サーバーがすべてのネットワーク・インタフェースを使用していない場合は、構成プロセスが停止し、いずれかのネットワーク・インタフェースが切断されているという警告が出されます。検出プロセスを再試行するかどうかの確認を求められます。環境に応じて、
yes
またはno
と入力します。 -
収集ネットワークにボンディングが使用される場合、この時点でデフォルトのアクティブ/パッシブ・モードに設定されます。
クラスタの交換計算サーバーの準備
リカバリ・アプライアンスの初期インストールでは各種ファイルが変更されました。
交換計算サーバー上のファイルを変更するには、次のようにします。
-
クラスタ内の動作している計算サーバーから、次のファイルの内容をレプリケートします。
-
/etc/security/limits.conf
ファイルをコピーします。 -
/etc/hosts
ファイルの内容をマージします。 -
/etc/oracle/cell/network-config/cellinit.ora
ファイルをコピーします。 -
交換計算サーバーのBONDIB0インタフェースのIPアドレスでIPアドレスを更新します。
-
/etc/oracle/cell/network-config/cellip.ora
ファイルをコピーします。 -
10GbEなど、追加ネットワーク要件を構成します。
-
/etc/modprobe.conf
ファイルをコピーします。 -
/etc/sysctl.conf
ファイルをコピーします。 -
計算サーバーを再起動し、ネットワーク変更を有効にします。
-
-
ユーザー名を1つ以上のグループに追加して、交換計算サーバーのOracleソフトウェア所有者を設定します。所有者は通常、
oracle
ユーザーです。-
動作している計算サーバーから現在のグループ情報を取得します。
# id oracle uid=1000(oracle) gid=1001(oinstall) groups=1001(oinstall),1002(dba),1003(oper),1004(asmdba)
-
groupadd
コマンドを使用して、グループ情報を交換計算サーバーに追加します。この例では、前のステップで識別されたグループが追加されます。# groupadd –g 1001 oinstall # groupadd –g 1002 dba # groupadd –g 1003 oper # groupadd –g 1004 asmdba
-
動作している計算サーバーから現在のユーザー情報を取得します。
# id oracle uid=1000(oracle) gid=1001(oinstall) \ groups=1001(oinstall),1002(dba),1003(oper),1004(asmdba)
-
ユーザー情報を交換計算サーバーに追加します。この例では、前のステップのグループIDが
oracle
ユーザーIDに追加されます。# useradd -u 1000 -g 1001 -G 1001,1002,1003,1004 -m -d /home/oracle -s \ /bin/bash oracle
-
ORACLE_BASE
およびGrid Infrastructureディレクトリを作成します。この例では、/u01/app/oracle
および/u01/app/12.1.0/grid
が作成されます。# mkdir -p /u01/app/oracle # mkdir -p /u01/app/12.1.0/grid # chown -R oracle:oinstall /u01/app
-
cellip.ora
およびcellinit.ora
ファイルの所有権を変更します。所有者は通常、oracle:dba
です。# chown -R oracle:dba /etc/oracle/cell/network-config
-
リストアされた計算サーバーの安全を確保します。
$ chmod u+x /opt/oracle.SupportTools/harden_passwords_reset_root_ssh $ /opt/oracle.SupportTools/harden_passwords_reset_root_ssh
計算サーバーが再起動します。
-
root
ユーザーとしてログインします。新しいパスワードを要求されたら、他の計算サーバーのroot
パスワードと一致するように設定します。 -
Oracleソフトウェア所有者のパスワードを設定します。所有者は通常、
oracle
です。# passwd oracle
-
-
oracle
アカウントにSSHを設定します。-
交換計算サーバー上の
oracle
アカウントに変更します。# su - oracle
-
Oracleクラスタのサーバーをリストする交換計算サーバーの
dcli
グループ・ファイルを作成します。 -
交換計算サーバーで
setssh-Linux.sh
スクリプトを実行します。この例ではスクリプトがインタラクティブに実行されます。$ /opt/oracle.SupportTools/onecommand/setssh-Linux.sh -s
スクリプトによってサーバーの
oracle
パスワードが要求されます。-s
オプションにより、スクリプトはサイレント・モードで実行されます。 -
交換計算サーバー上の
oracle
ユーザーに変更します。# su - oracle
-
SSHの同等性を検証します。
$ dcli -g dbs_group -l oracle date
-
-
動作している計算サーバーから交換計算サーバーにカスタム・ログイン・スクリプトを設定またはコピーします。
$ scp .bash* oracle@replacement_server:.
前述のコマンドのreplacement_serverは、
ra01db01
などの新しいサーバーの名前です。
交換計算サーバーへのパッチ・バンドルの適用
オラクル社では、リカバリ・アプライアンス用のソフトウェアのパッチ・バンドルを定期的にリリースしています。動作している計算サーバーにcomputeImageMaker
ファイルのリリースよりも新しいパッチ・バンドルがある場合、パッチ・バンドルを交換計算サーバーに適用する必要があります。
パッチ・バンドルが適用されたかどうか判断するには、imagehistory
コマンドを使用します。交換計算サーバーの情報を、動作している計算サーバーの情報と比較します。動作しているデータベースのリリースが新しい場合、ストレージ・サーバー・パッチ・バンドルを交換計算サーバーに適用します。
Oracle Grid Infrastructureのクローニング
次の手順では、交換計算サーバーにOracle Grid Infrastructureをクローニングする方法について説明します。コマンドのworking_serverは動作している計算サーバー、replacement_serverは交換計算サーバーです。
Oracle Grid Infrastructureをクローニングするには、次のようにします。
-
root
として、クラスタの動作している計算サーバーにログインします。 -
クラスタ検証ユーティリティ(
cluvfy
)を使用して、ハードウェアおよびオペレーティング・システムのインストールを検証します。$ cluvfy stage -post hwos -n replacement_server,working_server –verbose
レポートの最後に
Post-check for hardware and operating system setup was successful
のフレーズが表示されます。 -
ピア互換性を検証します。
$ cluvfy comp peer -refnode working_server -n replacement_server \ -orainv oinstall -osdba dba | grep -B 3 -A 2 mismatched
次に、出力の例を示します。
Compatibility check: Available memory [reference node: ra01db02] Node Name Status Ref. node status Comment ------------ ----------------------- ----------------------- ---------- ra01db01 31.02GB (3.2527572E7KB) 29.26GB (3.0681252E7KB) mismatched Available memory check failed Compatibility check: Free disk space for "/tmp" [reference node: ra01db02] Node Name Status Ref. node status Comment ------------ ----------------------- ---------------------- ---------- ra01db01 55.52GB (5.8217472E7KB) 51.82GB (5.4340608E7KB) mismatched Free disk space check failed
障害が発生したコンポーネントだけが物理メモリー、スワップ領域およびディスク領域に関連している場合は、手順を継続できます。
-
サーバーを追加するために必要な確認を行います。
-
GRID_HOME
/network/admin/samples
ディレクトリの権限が750に設定されていることを確認します。 -
計算サーバーの追加を検証します。
$ cluvfy stage -ignorePrereq -pre nodeadd -n replacement_server \ -fixup -fixupdir /home/oracle/fixup.d
障害が発生したコンポーネントだけがスワップ領域に関連している場合は、手順を継続できます。
次のように、投票ディスクにエラーが発生する場合があります。
ERROR: PRVF-5449 : Check of Voting Disk location "o/192.168.73.102/ \ DATA_CD_00_ra01cel07(o/192.168.73.102/DATA_CD_00_ra01cel07)" \ failed on the following nodes: Check failed on nodes: ra01db01 ra01db01:No such file or directory ... PRVF-5431 : Oracle Cluster Voting Disk configuration check failed
このエラーが発生する場合は、次のステップで
addnode
スクリプトの実行時に-ignorePrereq
オプションを使用します。
-
-
交換計算サーバーをクラスタに追加します。
$ cd /u01/app/12.1.0/grid/addnode/ $ ./addnode.sh -silent "CLUSTER_NEW_NODES={replacement_server}" \ "CLUSTER_NEW_VIRTUAL_HOSTNAMES={replacement_server-vip}"[-ignorePrereq]
addnode
スクリプトでは、Oracle Universal InstallerによってOracle Clusterwareソフトウェアが交換計算サーバーにコピーされます。次のようなメッセージが表示されます。WARNING: A new inventory has been created on one or more nodes in this session. However, it has not yet been registered as the central inventory of this system. To register the new inventory please run the script at '/u01/app/oraInventory/orainstRoot.sh' with root privileges on nodes 'ra01db01'. If you do not register the inventory, you may not be able to update or patch the products you installed. The following configuration scripts need to be executed as the "root" user in each cluster node: /u01/app/oraInventory/orainstRoot.sh #On nodes ra01db01 /u01/app/12.1.0/grid/root.sh #On nodes ra01db01
-
構成スクリプトを実行します。
-
端末のウィンドウを開きます。
-
root
ユーザーとしてログインします。 -
各クラスタ・サーバーでスクリプトを実行します。
スクリプトの実行後、次のメッセージが表示されます。
The Cluster Node Addition of /u01/app/12.1.0/grid was successful. Please check '/tmp/silentInstall.log' for more details.
-
-
orainstRoot.sh
およびroot.sh
スクリプトを実行します。# /u01/app/oraInventory/orainstRoot.sh Creating the Oracle inventory pointer file (/etc/oraInst.loc) Changing permissions of /u01/app/oraInventory. Adding read,write permissions for group. Removing read,write,execute permissions for world. Changing groupname of /u01/app/oraInventory to oinstall. The execution of the script is complete. # /u01/app/12.1.0/grid/root.sh
/u01/app/12.1.0/grid/install/
のログ・ファイルで、root.sh
スクリプトの出力結果を確認します。出力ファイルで、交換した計算サーバーのリスナー・リソースの起動が失敗したことが報告されます。これは予測される出力の例です。/u01/app/12.1.0/grid/bin/srvctl start listener -n ra01db01 \ ...Failed /u01/app/12.1.0/grid/perl/bin/perl \ -I/u01/app/12.1.0/grid/perl/lib \ -I/u01/app/12.1.0/grid/crs/install \ /u01/app/12.1.0/grid/crs/install/rootcrs.pl execution failed
-
「クラスタの障害が発生した計算サーバーの削除」で停止したリスナー・リソースを再有効化します。
# GRID_HOME/grid/bin/srvctl enable listener -l LISTENER \ -n replacement_server # GRID_HOME/grid/bin/srvctl start listener -l LISTENER \ -n replacement_server
関連項目:
クローニングの詳細は、Oracle Real Application Clusters管理およびデプロイメント・ガイドを参照してください。
ストレージ・サーバーの保守
この項では、ストレージ・サーバーの保守を実行する方法について説明します。この付録には、次の項があります。
ストレージ・サーバーの停止
ストレージ・サーバーの保守を実行する場合、サーバーの電源切断または再起動が必要になることがあります。ストレージ・サーバーを停止する前に、サーバーのオフラインによるOracle ASMディスク・グループおよびデータベース可用性への影響がないことを確認してください。データベース可用性の継続は、影響するディスク・グループで使用されるOracle ASM冗長性のレベルと、同じデータのミラー・コピーを含む他のストレージ・サーバーでのディスクの現在のステータスによって異なります。
注意:
-
リカバリ・アプライアンスで保守中のセルが完全に機能するようになる前に、別のセルのディスクに障害が発生した場合、二重のディスク障害が発生する可能性があります。リカバリ・アプライアンスが
DELTA
ディスク・グループについてNORMAL
の冗長性でデプロイされており、このディスク障害が恒久的な場合、リカバリ・アプライアンス上のすべてのバックアップが失われます。 -
保守中のセルが長時間オフラインでないことを確認してください。そうしないと、リバランス操作が発生し、操作の完了に十分な領域がないために問題が引き起こされます。デフォルトで、リバランス操作はセルがオフラインになってから24時間後に開始されます。
ストレージ・サーバーの電源を停止するには、次のようにします。
関連項目:
My Oracle SupportのドキュメントID 1188080.1「ASMに影響を与えずにExadataのストレージ・セルを停止または再起動するステップ」
診断ISOを使用したネットワーク接続の有効化
正常に再起動できないストレージ・サーバーにアクセスするため、診断ISOの使用が必要になる場合があります。サーバーの起動後、ファイルをISOからサーバーにコピーすることで破損ファイルを置き換えます。
ISOは、すべてのリカバリ・アプライアンス・サーバー上の/opt/oracle.SupportTools/diagnostics.iso
にあります。
注意:
USBドライブの使用など、他の再起動方法が失敗した後でのみ、診断ISOを使用してください。この手順を開始する前に、アドバイスとガイダンスを得るためOracle Supportに連絡してください。
診断ISOを使用するには、次のようにします。
ストレージ・サーバーの物理ディスクの保守
この項の内容は次のとおりです。
関連項目:
保守のベスト・プラクティスの詳細は、http://www.oracle.com/goto/maa
のOracle Maximum Availability Architecture (MAA) Webサイトを参照してください。
システム・ディスクおよびデータ・ディスクについて
ストレージ・サーバーの最初の2枚のディスクは、システム・ディスクです。ストレージ・サーバー・ソフトウェアのシステム・ソフトウェアは、各システム・ディスクに割り当てられます。システム・ディスクのこの割り当てられた部分は、システム領域と呼ばれます。システム・ディスクのシステム領域以外は、データ・パーティションと呼ばれ、通常のデータ・ストレージに使用されます。ストレージ・サーバーのその他のディスクはすべて、データ・ディスクと呼ばれます。
物理ディスクのステータスのモニタリング
CellCLI LIST PHYSICALDISK
コマンドで属性を確認して、物理ディスクをモニターできます。たとえば、failed
またはwarning - predictive failure
ステータスの物理ディスクに問題が発生し、交換が必要と思われる場合です。内部しきい値を超えると、ディスク・ファームウェアによってエラー・カウンタが保守され、ドライブはPredictive Failure
とマーク付けされます。交換が必要かどうかは、サーバー・ソフトウェアではなくドライブによって決定されます。
ストレージ・サーバーの物理ディスク・ステータス
- 物理ディスク・ステータス
- normal
- normal - dropped for replacement
- normal - confinedOnline
- normal - confinedOnline - dropped for replacement
- not present
- failed
- failed - dropped for replacement
- failed - rejected due to incorrect disk model
- failed - rejected due to incorrect disk model - dropped for replacement
- failed - rejected due to wrong slot
- failed - rejected due to wrong slot - dropped for replacement
- warning - confinedOnline
- warning - confinedOnline - dropped for replacement
- warning - peer failure
- warning - poor performance
- warning - poor performance - dropped for replacement
- warning - poor performance, write-through caching
- warning - predictive failure, poor performance
- warning - predictive failure, poor performance - dropped for replacement
- warning - predictive failure, write-through caching
- warning - predictive failure
- warning - predictive failure - dropped for replacement
- warning - predictive failure, poor performance, write-through caching
- warning - write-through caching
ディスク・エラー発生時の状況
Oracle ASMはハードウェア・エラーによる読取りエラーの障害範囲の修理を実行します。ディスクはオンラインのままで、アラートは送信されません。
ディスクに障害が発生した場合:
-
関連するOracle ASMディスクが
FORCE
オプションで自動的に削除され、Oracle ASMリバランスでデータの冗長性がリストアされます。 -
ドライブの青色のLEDとアンバーのLEDが点灯し、この場合、ディスクの交換を進めてもかまいません。ドライブのLEDは純色のままになります。予測障害および低いパフォーマンスのLEDステータス・ライトの詳細は、「LEDステータスの説明」を参照してください。
-
サーバーによってアラートが生成され、それにはディスクを交換する特定の手順が含まれます。システムのアラート通知を構成している場合、電子メールでアラートが指定したアドレスに送信されます。
ディスクに障害ステータスがある場合:
-
物理ドライブのグリッド・ディスクに関連するOracle ASMディスクが自動的に削除されます。
-
Oracle ASMリバランスは予測障害ディスクから他のディスクにデータを再配置します。
-
ドライブの青色のLEDが点灯し、この場合、ディスクの交換を進めてもかまいません。
Oracle ASMが物理的に対処されたメタデータ・ブロックに関する読取りエラーを取得すると、ブロックはミラーリングされません。
-
Oracle ASMはディスクをオフラインにします。
-
Oracle ASMは
FORCE
オプションでディスクを削除します。 -
ストレージ・サーバー・ソフトウェアは、ディスクが交換できることを示すアラートを送信します。
パフォーマンスの低いディスクの検出について
ASRは、パフォーマンスの低いディスクをアクティブ構成から自動的に識別して削除します。次に、リカバリ・アプライアンスで一連のパフォーマンス・テストが実行されます。CELLSRV
でパフォーマンスの低いディスクが検出されると、セル・ディスクのステータスがnormal - confinedOnline
に変更され、物理ディスクのステータスがwarning - confinedOnline
に変更されます。表12-2に、ディスク制限のトリガーとなる状況を示します。
表12-2 パフォーマンスの低いディスクを示すアラート
アラート・コード | 原因 |
---|---|
CD_PERF_HANG |
ディスクの応答停止 |
CD_PERF_SLOW_ABS |
サービス時間のしきい値が高い(スロー・ディスク) |
CD_PERF_SLOW_RLTV |
相対的サービス時間のしきい値が高い(スロー・ディスク) |
CD_PERF_SLOW_LAT_WT |
書込みでの長いレイテンシ |
CD_PERF_SLOW_LAT_RD |
読取りでの長いレイテンシ |
CD_PERF_SLOW_LAT_RW |
読取りおよび書込みでの長いレイテンシ |
CD_PERF_SLOW_LAT_ERR |
個々のI/Oでの頻繁な長い絶対レイテンシ |
CD_PERF_IOERR |
I/Oエラー |
問題が一時的なものであり、ディスクがテストに合格した場合は、そのディスクは構成に戻されます。ディスクがテストに合格しない場合は、poor performance
としてマークされ、ASRによりディスク交換のためのサービス・リクエストが送信されます。可能な場合は、Oracle ASMによりグリッド・ディスクがテスト用にオフラインに変更されます。そうでない場合、セル・ディスクのステータスは、ディスクを安全にオフラインに変更できるようになるまで、normal - confinedOnline
のまま変わりません。「パフォーマンスの低い物理ディスクの取外し」を参照してください。
ディスク・ステータスの変更はサーバー・アラート履歴に記録されます。
MESSAGE ID
date_time
info "Hard disk entered confinement status. The LUN n_m changed status to warning - confinedOnline. CellDisk changed status to normal - confinedOnline. Status: WARNING - CONFINEDONLINE Manufacturer:name
Model Number:model
Size:size
Serial Number:serial_number
Firmware:fw_release
Slot Number:m
Cell Disk:cell_disk_name
Grid Disk: grid disk 1, grid disk 2 . . . Reason for confinement: threshold for service time exceeded"
次のメッセージがストレージ・セルのアラート・ログに入力されます。
CDHS: Mark cd health state change cell_disk_name
with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
.
.
.
データのリバランスについて
物理ディスクを交換したら、そのスロットの前のディスクにあったグリッド・ディスクとセル・ディスクを再作成する必要があります。これらのグリッド・ディスクがOracle ASMグループの一部である場合、ディスク・グループの冗長性およびASM_POWER_LIMIT
パラメータに基づいて、ディスクをディスク・グループに追加し直して、データをリバランスします。
ディスクを削除または追加すると、Oracle ASMリバランスが発生します。リバランスのステータスを確認するには:
-
リバランス操作は正しく実行されましたか。
Oracle ASMアラート・ログを確認してください。
-
リバランス操作は現在実行中ですか。
GV$ASM_OPERATION
ビューを確認してください。 -
リバランス操作は失敗しましたか。
V$ASM_OPERATION.ERROR
ビューを確認してください。
障害の発生した物理ディスクに複数のディスク・グループのASMディスクが含まれる場合、複数のディスク・グループのリバランス操作を同じクラスタの異なるOracle ASMインスタンスで実行できます。Oracle ASMインスタンスは、一度に1つのリバランス操作を実行できます。すべてのOracle ASMインスタンスがビジー状態の場合、リバランス操作がキューに入れられます。
ハード・ディスク・コントローラのライトスルー・キャッシュ・モードのモニタリング
各ストレージ・サーバーのハード・ディスク・コントローラは、定期的にコントローラのバッテリの放電と充電を実行します。操作中は、書込みキャッシュ・ポリシーにより、ライトバック・キャッシュからライトスルー・キャッシュに変更されます。ライトスルー・キャッシュ・モードはライトバック・キャッシュ・モードより時間を要します。ただし、ストレージ・サーバーの電源が落ちたり障害が発生したりすると、ライトバック・キャッシュ・モードの場合はデータ損失のリスクがあります。操作は、たとえば1月、4月、7月および10月の17日の01:00、のように3か月ごとに実行されます。
次の例は、論理ドライブのキャッシュ・モードのステータスに関してストレージ・サーバーによって生成されるアラート情報を示しています。
HDD disk controller battery on disk contoller at adapter 0 is going into a learn cycle. This is a normal maintenance activity that occurs quarterly and runs for approximately 1 to 12 hours. The disk controller cache might go into WriteThrough caching mode during the learn cycle. Disk write throughput might be temporarily lower during this time. The message is informational only, no action is required.
次のコマンドを使用して、定期的な書込みキャッシュ・ポリシーへの変更を管理します。
-
学習サイクルの開始時間を変更するには、次の例のようなコマンドを使用します。
CellCLI> ALTER CELL bbuLearnCycleTime="2013-01-22T02:00:00-08:00"
サイクルが終了すると、時間はデフォルト学習時間に戻ります。
-
次の学習サイクルの時間を確認するには:
CellCLI> LIST CELL ATTRIBUTES bbuLearnCycleTime
-
バッテリのステータスを表示するには:
# /opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -a0 BBU status for Adapter: 0 BatteryType: iBBU08 Voltage: 3721 mV Current: 541 mA Temperature: 43 C BBU Firmware Status: Charging Status : Charging Voltage : OK Temperature : OK Learn Cycle Requested : No Learn Cycle Active : No Learn Cycle Status : OK Learn Cycle Timeout : No I2c Errors Detected : No Battery Pack Missing : No Battery Replacement required : No Remaining Capacity Low : Yes Periodic Learn Required : No Transparent Learn : No Battery state: GasGuageStatus: Fully Discharged : No Fully Charged : No Discharging : No Initialized : No Remaining Time Alarm : Yes Remaining Capacity Alarm: No Discharge Terminated : No Over Temperature : No Charging Terminated : No Over Charged : No Relative State of Charge: 7 % Charger System State: 1 Charger System Ctrl: 0 Charging current: 541 mA Absolute state of charge: 0 % Max Error: 0 % Exit Code: 0x00
障害が発生した物理ディスクの交換
物理ディスクの停止により、パフォーマンスの低下およびデータの冗長性が発生する場合があります。したがって、できるだけ早く障害が発生したディスクを新しいディスクに交換します。
関連項目:
-
Oracle Databaseリファレンス(
V$ASM_OPERATION
ビューの詳細)
障害のある物理ディスクの交換
ディスクがwarning - predictive failure
ステータスのため、物理ディスクの交換が必要な場合があります。このステータスは、物理ディスクに障害が発生する可能性があり、できるだけすぐに交換する必要があることを示します。
交換する前にドライブに障害が発生した場合は、「障害が発生した物理ディスクの交換」を参照してください。
障害発生前にディスクを交換するには、次のようにします。
関連項目:
-
V$ASM_OPERATION
ビューの詳細は、『Oracle Databaseリファレンス』を参照してください
パフォーマンスの低い物理ディスクの取外し
不良物理ディスクが、他の正常なディスクのパフォーマンスを低下させることがあります。問題のあるディスクはシステムから取り外す必要があります。
不良ディスクの識別後に物理ディスクを削除するには、次のようにします。
関連項目:
ストレージ・サーバーのフラッシュ・ディスクの保守
この項では、フラッシュ・ディスクの保守を実行する方法について説明します。内容は次のとおりです。
フラッシュ・ディスクについて
リカバリ・アプライアンスではストレージ・サーバー間でデータがミラー化され、少なくとも2つのストレージ・サーバーに書込み操作が送信されます。1つのストレージ・サーバーのフラッシュ・カードに問題が発生すると、リカバリ・アプライアンスでは別のストレージ・サーバーのミラー化されたデータを使用して読取りおよび書込み操作が実行されます。サービスは中断されません。
フラッシュ・カードに障害が発生すると、ストレージ・サーバー・ソフトウェアは、残存ミラーからデータを読み取り、フラッシュ・キャッシュのデータを確認します。次に、障害が発生したフラッシュ・カードのあるサーバーにデータが書き込まれます。障害の発生時、障害が発生したフラッシュ・キャッシュ内での損失データの場所がソフトウェアによって保存されます。復元では次に損失データがミラー・コピーに置き換えられます。復元中、グリッド・ディスクのステータスはACTIVE -- RESILVERING WORKING
になります。
各ストレージ・サーバーには、4枚のPCIeカードがあります。各カードに4個のフラッシュ・ディスク(FDOM)があり、合計16個のフラッシュ・ディスクが提供されます。4枚のPCIeカードは、PCIスロット番号1、2、4および5にあります。
障害が発生したフラッシュ・ディスクを確認するには、次のコマンドを使用します。
CellCLI> LIST PHYSICALDISK WHERE DISKTYPE=flashdisk AND STATUS=failed DETAIL
name: FLASH_5_3
diskType: FlashDisk
luns: 5_3
makeModel: "Sun Flash Accelerator F40 PCIe Card"
physicalFirmware: TI35
physicalInsertTime: 2012-07-13T15:40:59-07:00
physicalSerial: 5L002X4P
physicalSize: 93.13225793838501G
slotNumber: "PCI Slot: 5; FDOM: 3"
status: failed
カードのname
およびslotNumber
属性は、PCIスロットおよびFDOM番号を示します。
サーバー・ソフトウェアによって障害が検出されると、フラッシュ・ディスク(およびそのディスク上のLUN)に障害が発生したことを示すアラートが生成されます。アラート・メッセージには、フラッシュ・カードのPCIスロット番号および正確なFDOM番号が含まれています。これらの番号により、フィールド交換可能ユニット(FRU)が一意に識別されます。システムのアラート通知を構成している場合は、指定したアドレスにアラートが電子メール・メッセージで送信されます。
フラッシュ・ディスクの停止により、パフォーマンスの低下およびデータの冗長性が発生する場合があります。障害が発生したディスクをできるだけ早く交換します。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、サーバーの有効なキャッシュ・サイズが縮小します。フラッシュ・ログにフラッシュ・ディスクを使用する場合、ディスクでフラッシュ・ログが無効になり、有効なフラッシュ・ログ・サイズが縮小します。グリッド・ディスクにフラッシュ・ディスクを使用する場合、FORCE
オプションによって関連するOracle ASMディスクがOracle ASMディスク・グループから自動的に削除され、Oracle ASMリバランスでデータの冗長性のリストアが開始されます。
関連項目:
-
部品番号情報およびサービス・ガイドのリンクは、「ストレージ・サーバーの部品」を参照してください
-
V$ASM_OPERATION
ビューの詳細は、『Oracle Databaseリファレンス』を参照してください -
次のWebサイトの『Sun Flash Accelerator F80 PCIe Card User's Guide』
障害ステータス・インジケータ
次のステータス・インジケータはアラートを生成します。アラートには、フラッシュ・ディスクを交換する特定の手順が含まれます。システムのアラート通知を構成している場合は、指定したアドレスにアラートが電子メール・メッセージで送信されます。
- warning - peer failure
-
同じSun Flash Accelerator PCIeカード上のフラッシュ・ディスクの1つに、障害が発生したか、問題があります。たとえば、FLASH5_3に障害が発生すると、FLASH5_0、FLASH5_1およびFLASH5_2がpeer failureステータスになります。
CellCLI> LIST PHYSICALDISK 36:0 L45F3A normal 36:1 L45WAE normal 36:2 L45WQW normal . . . FLASH_5_0 5L0034XM warning - peer failure FLASH_5_1 5L0034JE warning - peer failure FLASH_5_2 5L002WJH warning - peer failure FLASH_5_3 5L002X4P failed
- warning - predictive failure
-
フラッシュ・ディスクに障害が発生する可能性があり、できるだけすぐに交換する必要があります。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、引き続きフラッシュ・キャッシュとして使用されます。グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクに関連するOracle ASMディスクが自動的に削除され、Oracle ASMリバランスで障害が発生する可能性のあるディスクから他のディスクにデータが移動されます。
1つのフラッシュ・ディスクがpredictive failureステータスになると、データがコピーされます。ライトバック・フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、フラッシュ・ディスクからグリッド・ディスクにデータがフラッシュされます。
- warning - poor performance
-
フラッシュ・ディスクが極端に低いパフォーマンスを示しており、できるだけすぐに交換する必要があります。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、このディスクからフラッシュ・キャッシュが削除され、ストレージ・サーバーの有効なフラッシュ・キャッシュ・サイズが縮小します。グリッド・ディスクにフラッシュ・ディスクを使用する場合、このフラッシュ・ディスクのグリッド・ディスクに関連するOracle ASMディスクが
FORCE
オプションによって可能な場合に自動的に削除されます。オフライン・パートナのためにDROP...FORCE
が失敗した場合、通常グリッド・ディスクが削除され、Oracle ASMリバランスでパフォーマンスの低いディスクから他のディスクにデータが移動されます。 - warning - write-through caching
-
PCIeカードでデータ・キャッシュのサポートに使用されるキャパシタに障害が発生しており、カードをできるだけすぐに交換する必要があります。
状態の悪いフラッシュ・ディスクの識別
特定の状態ステータスのフラッシュ・ディスクを識別するには、LIST PHYSICALDISK
コマンドを使用します。この例では、warning - predictive failure
ステータスの問合せが行われます。
CellCLI> LIST PHYSICALDISK WHERE DISKTYPE=flashdisk AND STATUS= \ 'warning - predictive failure' DETAIL name: FLASH_5_3 diskType: FlashDisk luns: 5_3 makeModel: "Sun Flash Accelerator F40 PCIe Card" physicalFirmware: TI35 physicalInsertTime: 2012-07-13T15:40:59-07:00 physicalSerial: 5L002X4P physicalSize: 93.13225793838501G slotNumber: "PCI Slot: 1; FDOM: 2" status: warning - predictive failure
パフォーマンスの低いフラッシュ・ディスクの識別
ASRは、パフォーマンスの低いディスクをアクティブ構成から自動的に識別して削除します。次に、リカバリ・アプライアンスで一連のパフォーマンス・テストが実行されます。CELLSRV
でパフォーマンスの低いディスクが検出されると、セル・ディスクのステータスがnormal - confinedOnline
に変更され、物理ディスクのステータスがwarning - confinedOnline
に変更されます。表12-2に、ディスク制限のトリガーとなる状況を示します。状況は、物理ディスクおよびフラッシュ・ディスクの両方とも同じです。
問題が一時的なものであり、ディスクがテストに合格した場合は、そのディスクは構成に戻されます。ディスクがテストに合格しない場合は、poor performance
としてマークされ、ASRによりディスク交換のためのサービス・リクエストが送信されます。可能な場合は、Oracle ASMによりグリッド・ディスクがテスト用にオフラインに変更されます。そうでない場合、セル・ディスクのステータスは、ディスクを安全にオフラインに変更できるようになるまで、normal - confinedOnline
のまま変わりません。
ディスク・ステータスの変更はサーバー・アラート履歴に記録されます。
MESSAGE ID
date_time
info "Hard disk entered confinement status. The LUN n_m changed status to warning - confinedOnline. CellDisk changed status to normal - confinedOnline. Status: WARNING - CONFINEDONLINE Manufacturer:name
Model Number:model
Size:size
Serial Number:serial_number
Firmware:fw_release
Slot Number:m
Cell Disk:cell_disk_name
Grid Disk: grid disk 1, grid disk 2 ... Reason for confinement: threshold for service time exceeded"
次のメッセージがストレージ・セルのアラート・ログに入力されます。
CDHS: Mark cd health state change cell_disk_name
with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
.
.
.
障害のあるフラッシュ・ディスクの安全な交換時期
サーバー・ソフトウェアがライト・バック・フラッシュ・キャッシュに使用されるフラッシュ・ディスクで予測障害またはピア障害を検出し、1つのFDOMだけに問題がある場合、サーバー・ソフトウェアは不良FDOMでデータを復元し、他の3つのFDOMでデータをフラッシュします。有効なグリッド・ディスクがある場合は、サーバー・ソフトウェアはディスクのOracle ASMリバランスを開始します。タスクが完了し、ディスクの準備完了がアラートで示されるまで、不良ディスクを交換することはできません。
Oracle ASMディスクが削除されている場合は、アラートが送信され、フラッシュ・ディスクを安全に交換できます。フラッシュ・ディスクをライトバック・フラッシュ・キャッシュに使用する場合、フラッシュ・ディスクによってキャッシュされるグリッド・ディスクがなくなるまで待機します。
障害が発生したフラッシュ・ディスクの交換
注意:
PCIeカードはホット・プラガブルではないため、フラッシュ・ディスクまたはカードを交換する前にストレージ・サーバーの電源を切断する必要があります。
次の手順を実行する前に、サーバーを停止します。「ストレージ・サーバーの停止」を参照してください。
障害が発生したフラッシュ・ディスクを交換するには、次のようにします。
関連項目:
-
部品番号およびサービス・ガイドのリンクは、「ストレージ・サーバーの部品」を参照してください
-
V$ASM_OPERATION
ビューの詳細は、『Oracle Databaseリファレンス』を参照してください -
次のWebサイトの『Sun Flash Accelerator F80 PCIe Card User's Guide』
障害のあるフラッシュ・ディスクの交換
注意:
PCIeカードはホット・プラガブルではないため、フラッシュ・ディスクまたはカードを交換する前にストレージ・サーバーの電源を切断する必要があります。
次の手順を実行する前に、「障害のあるフラッシュ・ディスクの安全な交換時期」のトピックを確認してください。
障害のあるフラッシュ・ディスクを交換するには、次のようにします。
次のように、新しいフラッシュ・ディスクがシステムによって自動的に使用されます。
-
フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、有効なキャッシュ・サイズが拡張します。
-
グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクが新しいフラッシュ・ディスクに再作成されます。
-
グリッド・ディスクがOracle ASMディスク・グループの一部だった場合は、ディスクはディスク・グループに追加し直されます。ディスク・グループの冗長性および
ASM_POWER_LIMIT
パラメータに基づいて、データがそこでリバランスされます。
パフォーマンスの低いフラッシュ・ディスクの取外し
1つの不良フラッシュ・ディスクが、他の正常なフラッシュ・ディスクのパフォーマンスを低下させることがあります。問題のあるフラッシュ・ディスクは取り外す必要があります。「パフォーマンスの低いフラッシュ・ディスクの識別」を参照してください。
パフォーマンスの低いフラッシュ・ドライブを取り外すには、次のようにします。
-
フラッシュ・ディスクがフラッシュ・キャッシュに使用される場合:
-
ディスクと同期されていないデータ(ダーティ・データ)が、フラッシュ・キャッシュからグリッド・ディスクにフラッシュされるようにします。
CellCLI> ALTER FLASHCACHE ... FLUSH
-
フラッシュ・キャッシュを無効化して、新しいフラッシュ・キャッシュを作成します。フラッシュ・キャッシュを作成する場合、不良フラッシュ・ディスクを使用しないでください。
CellCLI > DROP FLASHCACHE CellCLI > CREATE FLASHCACHE CELLDISK='fd1,fd2,fd3,fd4, ...'
-
-
グリッド・ディスクにフラッシュ・ディスクを使用する場合、不良ディスクの使用をすぐに停止するようOracle ASMに指示します。
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name FORCE
オフライン・パートナによって、
FORCE
オプションを使用したDROP
コマンドが失敗する可能性があります。前述のコマンドが失敗した場合、次のいずれかを実行してください。-
他のサーバーまたはディスクの障害を修正して、Oracle ASMデータ冗長性をリストアします。その後、
DROP...FORCE
コマンドを再試行してください。 -
データを不良ディスクからリバランスするようにOracle ASMに指示します。
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name NOFORCE
-
-
不良フラッシュ・ディスクに関連するOracle ASMディスクが正しく削除されるまで待機します。フラッシュ・ディスクを安全に交換できるようになると、ストレージ・サーバー・ソフトウェアによって自動的にアラートが送信されます。
-
サービスを停止します。
CellCLI> ALTER CELL SHUTDOWN SERVICES ALL
前述のコマンドでは、オフラインのディスクがないか、predictive failureステータスのディスクがないか、またはミラーにコピーする必要があるディスクがないかをチェックします。Oracle ASM冗長性が損なわれていない場合は、コマンドによりOracle ASMでグリッド・ディスクがオフラインに変更され、サービスが停止されます。
次のエラーは、サービスの停止によって冗長性の問題が引き起こされ、ディスク・グループが強制的にマウント解除される可能性を示しています。
Stopping the RS, CELLSRV, and MS services... The SHUTDOWN of ALL services was not successful. CELL-01548: Unable to shut down CELLSRV because disk group DATA, RECO may be forced to dismount due to reduced redundancy. Getting the state of CELLSRV services... running Getting the state of MS services... running Getting the state of RS services... running
このエラーが発生した場合は、Oracle ASMディスク・グループの冗長性がリストアされます。すべてのディスクのステータスが正常のときはコマンドを再試行します。
-
サーバーを停止します。「ストレージ・サーバーの停止」を参照してください。
-
不良フラッシュ・ディスクを取り外して、新しいフラッシュ・ディスクと交換します。
-
サーバーの電源を投入します。サービスが自動的に開始されます。サーバーの起動の一環として、Oracle ASMですべてのグリッド・ディスクが自動的にオンラインになります。
-
新規フラッシュ・ディスクをフラッシュ・キャッシュに追加します。
CellCLI> DROP FLASHCACHE CellCLI> CREATE FLASHCACHE ALL
-
すべてのグリッド・ディスクがオンラインであることを確認します。
CellCLI> LIST GRIDDISK ATTRIBUTES asmmodestatus
すべてのグリッド・ディスクの
asmmodestatus
がONLINE
またはUNUSED
になるまで待機します。
次のようにフラッシュ・ディスクが追加されます。
-
グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクが新しいフラッシュ・ディスクに再作成されます。
-
これらのグリッド・ディスクがOracle ASMディスク・グループの一部であり、
DROP...FORCE
をステップ2で使用した場合、ディスク・グループの冗長性およびASM_POWER_LIMIT
パラメータに基づいて、ディスクがディスク・グループに追加し直され、データがリバランスされます。 -
ステップ
2
でDROP...NOFORCEが使用された場合、グリッド・ディスクをOracle ASMディスク・グループに手動で追加し直す必要があります。
ディスク・コントローラ・バッテリ・バックアップ・ユニットの交換
ディスク・コントローラ・バッテリ・バックアップ・ユニット(ディスク・コントローラBBU)は、計算サーバーおよびストレージ・サーバーのドライブ・トレイにあります。ディスク・コントローラBBUを停止時間なしで交換できます。次の手順では、ディスク・コントローラBBUを交換する方法について説明します。
ノート:
この項の手順は、コントローラに内蔵のバッテリ・バックアップ・ユニットには適用されません。これらのユニットを交換する場合は、システムを開いてコントローラ・カードにアクセスするため、システムを停止する必要があります。
ストレージ・サーバーのレスキュー手順の使用
各ストレージ・サーバーはソフトウェアのコピーをUSBスティックに保管します。システム構成が変更されるときは常にサーバーがUSBスティックを更新します。このUSBスティックは、ハードウェア交換またはソフトウェア障害の後のサーバーのリカバリに使用できます。システムをリストアするのは、システム・ディスクに障害が発生した場合、オペレーティング・システムに破損ファイル・システムがある場合、または起動エリアがダメージを負っている場合です。ディスク、カード、CPU、メモリーなどを交換して、サーバーをリカバリすることができます。USBスティックを別のサーバーに挿入すると、そのサーバーで古いサーバーが複製されます。
1つのシステム・ディスクのみで障害が発生した場合、リカバリにCellCLIコマンドを使用します。両方のシステム・ディスクで同時に障害が発生するまれな事例の場合、ストレージ・サーバーのCELLBOOT USBフラッシュ・ドライブで提供されるレスキュー機能を使用します。
この項の内容は次のとおりです。
ストレージ・サーバーのレスキュー前の最初のステップ
ストレージ・サーバーのレスキュー前に、そのサーバーに格納されているデータを保護するためのステップを踏む必要があります。このステップは、システムが通常の冗長性または高い冗長性のどちらで設定されているかによって異なります。
サーバーに通常の冗長性がある場合
通常の冗長性を使用している場合、サーバーにあるミラー・コピーは1つです。レスキュー手順の実行中にこのミラーでも障害が発生すると、リカバリできないデータの損失が発生する可能性があります。
ミラー・コピーの複製を作成することをお薦めします。
-
ミラー・コピーのデータの完全なバックアップを作成します。
-
ただちにミラー・コピー・サーバーをオフラインにします。これによって、レスキューを始める前の新たなデータの変更を防ぎます。
この手順により、レスキュー・プロセス中は、障害が発生したサーバーのグリッド・ディスクのすべてのデータおよびそのミラー・コピーにアクセスできなくなります。
Oracle ASMディスク修復タイマーのデフォルトの修復時間は、3.6時間です。この時間内にレスキュー手順を実行できないことがわかった場合、レスキュー手順を実行できるまで、Oracle ASMリバランス手順を使用してディスクをリバランスします。
関連項目:
タイマーのリセットの詳細は、『Oracle Exadata Storage Server Softwareユーザーズ・ガイド』を参照してください。
レスキュー手順について
レスキュー手順を使用する前に、次の点に注意してください。
-
レスキュー手順により、セルの一部またはすべてのディスクが書き換えられる可能性があります。この場合、リカバリできずにそれらのディスクのすべての内容を失うおそれがあります。レスキューを開始する前に、必ず適切な事前ステップを済ませておいてください。「サーバーに通常の冗長性がある場合」または「サーバーに高い冗長性がある場合」を参照してください。
-
この手順を使用する場合は十分に注意し、プロンプトを確認してください。一部またはすべてのディスクのデータを損失してもかまわない場合にOracleサポート・サービスの支援だけでレスキュー手順を使用することが理想的です。
-
レスキュー手順の実行中に明示的に選択しないかぎり、レスキュー手順により、データ・ディスクの内容またはシステム・ディスクのデータ・パーティションの内容は破棄されません。
-
レスキュー手順は、最後の正常な起動中にサーバー上に存在したパッチを含めて、ストレージ・サーバー・ソフトウェアを同じリリースにリストアします。
-
レスキュー手順は次の構成設定をリストアしません。
-
アラート構成、SMTP情報、管理者の電子メール・アドレスなどのサーバー構成
-
ILOM構成。ただし、サーバー・ソフトウェアに障害が発生してもILOM構成は一般的に損われません。
-
-
リカバリ手順は次の構成設定をリストアします。
-
レスキュー手順により、データ・ディスクまたはシステム・ディスクのデータ・パーティションの確認または再構築は行われません。グリッド・ディスクにデータの破損がある場合、このレスキュー手順は使用しないでください。かわりに、Oracle DatabaseおよびOracle ASMのレスキュー手順を使用してください。
レスキューが正常に完了したら、サーバーを再構成する必要があります。データを保存する場合は、セル・ディスクをインポートします。それ以外の場合は、新規のセル・ディスクおよびグリッド・ディスクを作成します。
関連項目:
CellCLIユーティリティを使用したセル、セル・ディスクおよびグリッド・ディスクの構成の詳細は、Oracle Exadata Storage Server Softwareユーザーズ・ガイドを参照してください
CELLBOOT USBフラッシュ・ドライブを使用したサーバーのレスキュー
注意:
データを損失しないように注意して、レスキュー手順に従います。
CELLBOOT USBフラッシュ・ドライブを使用してサーバーをレスキューするには、次のようにします。
ノート:
機能が制限されたレスキュー・モードのLinuxログイン・シェルを入力できる追加オプションを使用できる場合があります。Oracleサポート・サービスから提供されたパスワードを使用してroot
ユーザーとしてシェルにログインして、サーバーの追加診断および修復を手動で実行できます。詳細は、Oracleサポート・サービスの担当者に連絡してください。
レスキューされたストレージ・サーバーの再構成
レスキューが成功した後、サーバーを構成する必要があります。データ・パーティションを維持した場合は、レスキュー手順の実行時にセル・ディスクが自動的にインポートされます。
関連項目:
IORMプランおよびメトリックしきい値の詳細は、『Oracle Exadata Storage Server Softwareユーザーズ・ガイド』を参照してください