12 Recovery Applianceハードウェアの保守

この章では、Recovery Applianceラックのコンポーネントの保守方法について説明します。この付録には、次の項があります。

関連項目:

交換ユニット

12.1 注意事項と警告

Recovery Applianceハードウェアの保守時には、次の注意に従ってください。

警告:

この製品の高圧電力を使用する部分には触れないでください。触れた場合、重傷を負う可能性があります。

注意:

緊急時でないかぎり、Recovery Applianceの電源を切断しないでください。緊急時は、「緊急時の電源切断の手順」に従ってください。
キャビネットの前のドアと後のドアを閉めた状態にしてください。ドアを閉めないと、システム障害や、ハードウェア・コンポーネントの破損が生じることがあります。
空気が適切に循環し、コンポーネントが過熱しないように、キャビネットの上部、前部および後部に障害物がない状態にしてください。

12.2 サーバー・モデルの判別

次のコマンドを使用して、計算サーバーまたはストレージ・サーバーのモデルを判別します。

dmidecode -s system-product-name

12.3 Recovery Applianceラックの電源の投入と切断

この項の内容は次のとおりです。

12.3.1 緊急時の電源切断の手順

緊急時には、Recovery Applianceへの電源供給をすぐに停止します。次のような緊急時に、Recovery Applianceの電源切断が必要な場合があります。

地震、洪水、ハリケーン、竜巻、またはサイクロンなどの自然災害の場合
システムから異常な騒音、臭い、または煙が発生した場合
人の安全を脅かす場合

12.3.1.1 緊急時の電源切断

緊急時には、次のいずれかの作業を実行します。

サーキット・ブレーカで電源を切断します。
コンピュータ・ルームで緊急時の電源切断スイッチを作動させます。

その後、システムの電源の復旧についてOracleサポート・サービスに連絡します。

12.3.1.2 緊急時の電源切断スイッチについて

緊急時の電源切断スイッチ(EPO)を使用すると、Recovery Applianceの電源を停止できます。

EPOスイッチは、5分より長く750を超えるボルトアンペアを供給できるバッテリがコンピュータ機器に含まれる場合に必要になります。このようなバッテリがシステムで使用される場合、そのシステムには、サイトのEPOスイッチまたはリレーに接続するための内部EPOハードウェアがあります。

12.3.2 Recovery Applianceの停止

緊急でない通常の状況下では、ソフトウェア・サービスおよびハードウェアの電源を正常に切断できます。

ラック・コンポーネントを停止する前にすべてのソフトウェア・サービスを停止します。

12.3.2.1 Recovery Applianceサービスの停止

Recovery Applianceサービス、Oracle Databaseファイル・システム、Oracle Databaseおよびクラスタ・サービスを停止する必要があります。

Recovery Applianceサービスを停止する手順:

oracleとしてRecovery Appliance計算サーバーにログインします。
rasysユーザーとしてOracle DatabaseへのSQL接続を開きます。
```
$ sqlplus rasys
```

サービスのステータスをチェックします。

		SQL> SELECT state FROM ra_server;
		
		STATE
		------------
		ON

Recovery Applianceサービスを停止します。
```
		SQL> exec dbms_ra.shutdown;
```
Oracle Databaseから切断します。
```
SQL> exit
```
Oracle Secure Backupが構成されている場合、次の手順を実行します。
1. rootユーザーに切り替えます。
2. Oracle Secure Backupの現在のステータスをチェックします。
```
# $GRID_HOME/bin/crsctl status res osbadmin
  NAME=osbadmin
  TYPE=cluster_resource
  TARGET=ONLINE
  STATE=ONLINE on example01adm04
```
3. Oracle Secure Backupがオンラインである場合は、停止します。
```
# $GRID_HOME/bin/crsctl stop res osbadmin
```
4. oracleユーザーに切り替えます。

Oracle Databaseファイル・システム(DBFS)マウントのステータスをチェックします。

$ $GRID_HOME/bin/crsctl status res ob_dbfs rep_dbfs
		NAME=ob_dbfs
		TYPE=local_resource
		TARGET=ONLINE               , ONLINE
		STATE=ONLINE on radb07, ONLINE on radb08

NAME=rep_dbfs
		TYPE=local_resource
		TARGET=ONLINE               , ONLINE
		STATE=ONLINE on radb07, ONLINE on radb08

DBFSを停止します。

$ $GRID_HOME/bin/crsctl stop res ob_dbfs rep_dbfs
		CRS-2673: Attempting to stop 'ob_dbfs' on 'radb08'
		CRS-2673: Attempting to stop 'rep_dbfs' on 'radb07'
		CRS-2673: Attempting to stop 'ob_dbfs' on 'radb07'
		CRS-2673: Attempting to stop 'rep_dbfs' on 'radb08'
		CRS-2677: Stop of 'rep_dbfs' on 'radb07' succeeded
		CRS-2677: Stop of 'ob_dbfs' on 'radb07' succeeded
		CRS-2677: Stop of 'rep_dbfs' on 'radb08' succeeded
		CRS-2677: Stop of 'ob_dbfs' on 'radb08' succeeded

DBFSマウントがオフラインであることを確認します。

		$ $GRID_HOME/bin/crsctl status res ob_dbfs 		rep_dbfs
		NAME=ob_dbfs
		TYPE=local_resource
		TARGET=OFFLINE, OFFLINE
		STATE=OFFLINE, OFFLINE
		
		NAME=rep_dbfs
		TYPE=local_resource
		TARGET=OFFLINE, OFFLINE
		STATE=OFFLINE, OFFLINE

Oracle Databaseのステータスをチェックします。

		$ srvctl status database -d zdlra5
		Instance zdlra51 is running on node radb07
		Instance zdlra52 is running on node radb08

Oracle Databaseを停止します。
```
$ srvctl stop database -d zdlra5
```

Oracle Databaseが停止していることを確認します。

		$ srvctl status database -d zdlra5
		Instance zdlra51 is not running on node radb07
		Instance zdlra52 is not running on node radb08

rootユーザーに切り替えます。

クラスタのすべてのノード上のOracle Clusterwareスタックを停止します。

	# $GRID_HOME/bin/crsctl stop cluster -all
	CRS-2673: Attempting to stop 'ora.crsd' on 'zdlradb07'
	CRS-2790: Starting shutdown of Cluster Ready Services-managed resources on
	'zdlradb07'
	CRS-2673: Attempting to stop 'ora.LISTENER_SCAN2.lsnr' on 'zdlradb07'
	CRS-2673: Attempting to stop 'ora.LISTENER_SCAN1.lsnr' on 'zdlradb07'
     .
     .
     .
#

コマンドが失敗した場合は、-fオプションを使用してコマンドを再入力します。

計算サーバーごとに、次のコマンドを実行してOracle Cluster Ready Services (CRS)を停止します。

# $GRID_HOME/bin/crsctl stop crs
CRS-2791: Starting shutdown of Oracle High Availability Services-managed resources on 'radb08'
CRS-2673: Attempting to stop 'ora.crf' on 'radb08'
CRS-2673: Attempting to stop 'ora.mdnsd' on 'radb08'
     .
     .
     .
CRS-2677: Stop of 'ora.crf' on 'radb08' succeeded
CRS-2677: Stop of 'ora.mdnsd' on 'radb08' succeeded
CRS-2793: Shutdown of Oracle High Availability Services-managed resources on 'radb08' has completed
CRS-4133: Oracle High Availability Services has been stopped.

必要に応じて、次の順序でハードウェアを停止または再起動します。
1. 計算サーバー
2. ストレージ・サーバー
3. ラックおよびスイッチ

12.3.2.2 サーバーの電源切断

サーバーの電源を切断する前に、「Recovery Applianceの停止」の説明に従って、サーバー上で動作しているサービスを停止します。

計算サーバーまたはストレージ・サーバーを停止する手順:

サーバーにrootとしてログインします。
オペレーティング・システムを停止します。
```
# shutdown -h -y now
```
または、オペレーティング・システムを再起動します。
```
# shutdown -r -y now
```

例12-1 dcliユーティリティを使用したRecovery Applianceの電源の切断

すべての計算サーバー上のOracle Clusterwareを停止します。
```
# GRID_HOME/grid/bin/crsctl stop cluster -all
```
ラック内の他の計算サーバーを停止します。
```
# dcli -l root -g ra-adm02 shutdown -h -y now
```
前述のコマンドで、ra01adm02は2番目の計算サーバーの名前です。
すべてのストレージ・サーバーを停止します。
```
# dcli -l root -g cell_group shutdown -h -y now
```
前述のコマンドのcell_groupは、すべてのストレージ・サーバーをリストするファイルです。
ローカルの計算サーバーを停止します。
```
shutdown -h -y now
```
ラックの電源を切断します。

dcliユーティリティを使用して、複数のサーバーで同時にshutdownコマンドを実行します。コマンドによって電源が停止するサーバーからはdcliを実行しないでください。

次の例では、cell_groupというファイルにリストされたストレージ・サーバーのグループが停止します。

# dcli -l root -g cell_group shutdown -h -y now

例12-1に、dcliユーティリティを使用して同時に複数のサーバーを停止する場合のラックの電源切断手順を示します。コマンドは計算サーバーから実行されます。

12.3.2.3 ネットワーク・スイッチの電源の投入

ゲートウェイおよびスパイン・スイッチには電源制御がありません。PDUやデータ・センターのブレーカをオフにして電力が投入されなくなると、これらの電源は切断されます。

12.3.3 Recovery Applianceの起動

最初にラック・コンポーネントに電源を投入してから、ソフトウェア・サービスを起動します。

12.3.3.1 Recovery Applianceコンポーネントの起動

ラック・コンポーネントに電源を投入するには、次のいずれかの方法を使用します。

コンポーネントの前面にある電源ボタンを押します。
Oracle ILOMにログインして、システムに電源を供給します。「リモート・サーバーの電源投入」を参照してください。

12.3.3.2 起動順序

次の手順でラック・コンポーネントに電源を投入します。

ラックおよびスイッチ

スイッチが初期化するのを数分待ってから、ストレージ・サーバーを起動します。
ストレージ・サーバー

ストレージ・サーバーですべてのサービスが開始されるまで5から10分待ちます。必ず初期化が終了してから、計算サーバーを起動します。
計算サーバー

計算サーバーの電源が投入されると、オペレーティング・システムとOracle Clusterwareが自動的に起動します。Oracle Clusterwareは、自動的に起動する構成のすべてのリソースを起動します。

12.3.3.3 リモート・サーバーの電源投入

Oracle ILOMインタフェースを使用すると、リモートでRecovery Applianceサーバーの電源を投入できます。Oracle ILOMにアクセスするには、Webコンソール、コマンドライン・インタフェース(CLI)、Intelligent Platform Management Interface (IPMI)またはSimple Network Management Protocol (SNMP)を使用します。

たとえば、IPMIを使用してサーバーra01cel01に電源を供給するには、次のようなコマンドでそのOracle ILOMを使用します。

# ipmitool -H ra01cel01-ilom -U root chassis power on

コマンドを使用するサーバーにIPMItoolがインストールされている必要があります。

関連項目:

Oracle ILOMを使用してサーバーの電源を投入する方法の詳細は、Oracle Integrated Lights Out Manager (ILOM) 3.0ドキュメントを参照してください。

http://docs.oracle.com/cd/E19860-01/index.html

12.3.3.4 Recovery Applianceソフトウェアの起動

rootとしてRecovery Appliance計算サーバーにログインします。

Oracle Cluster Ready Services (CRS)が実行されていることを確認します。

	# $GRID_HOME/bin/crsctl status server
	  NAME=radb07
	  STATE=ONLINE
	
	  NAME=radb08
	  STATE=ONLINE

CRSが実行されていない場合は、起動します。

# $GRID_HOME/bin/crsctl start cluster -all
CRS-2672: Attempting to start 'ora.evmd' on 'radb07'
CRS-2672: Attempting to start 'ora.cssdmonitor' on 'radb07'
CRS-2672: Attempting to start 'ora.cssdmonitor' on 'radb08'
     .
     .
     .
#

oracleユーザーに切り替えます。

Oracle Databaseが実行されていることを確認します。

$ srvctl status database -d zdlra5
Instance zdlra51 is not running on node radb07
Instance zdlra52 is not running on node radb08

Oracle Databaseが実行されていない場合:

Oracle Databaseを起動します。
```
$ srvctl start database -d zdlra5
```

Oracle Databaseが実行されていることを確認します。

$ srvctl status database -d zdlra5
Instance zdlra51 is running on node radb07
Instance zdlra52 is running on node radb08

データベース・ファイル・システム(DBFS)マウントがオフラインであることを確認します。

$ $GRID_HOME/bin/crsctl status res ob_dbfs rep_dbfs
    NAME=ob_dbfs
    TYPE=local_resource
    TARGET=OFFLINE, OFFLINE
    STATE=OFFLINE, OFFLINE
 
    NAME=rep_dbfs
    TYPE=local_resource
    TARGET=OFFLINE, OFFLINE
    STATE=OFFLINE, OFFLINE

DBFSがオフラインである場合は、起動します。

$ $GRID_HOME/bin/crsctl start res ob_dbfs rep_dbfs
CRS-2672: Attempting to start 'rep_dbfs' on 'zdlradb07'
CRS-2672: Attempting to start 'ob_dbfs' on 'zdlradb07'
CRS-2672: Attempting to start 'ob_dbfs' on 'zdlradb08'
     .
     .
     .
$

RASYSユーザーとしてOracle Databaseに接続します。
```
$ sqlplus rasys
```
Recovery Applianceサービスのステータスをチェックします。
```
SQL> SELECT state FROM ra_server;
 
STATE
------------
OFF
```
サービスがオフである場合は、起動します。
```
SQL> exec dbms_ra.startup;
```
サービスが起動したことを確認します。
```
SQL> /
 
STATE
------------
ON
```

12.4 ディスク・コントローラ・バッテリの交換

ストレージ・サーバーおよび計算サーバーのディスク・コントローラには、書込みパフォーマンスを高速化するバッテリ・バックアップ式の書込みキャッシュがあります。充電容量が低下して48時間以上電力の供給されないキャッシュ・データをバッテリで保護できない場合、書込みキャッシュが無効になり、ディスク・コントローラがライトスルー・モードに切り替わります。書込みパフォーマンスは低下しますが、データは失われません。

バッテリの充電容量は徐々に低下し、寿命は動作温度と反比例します。表12-1に、Recovery Applianceにおけるバッテリの寿命の最短のケースを示します。

表12-1 バッテリの寿命

注入温度	バッテリの寿命
< 摂氏25度(華氏77度)	3年
< 摂氏32度(華氏89.6度)	2年

12.4.1 計算サーバーのバッテリのモニタリング

計算サーバーのバッテリの変更容量をモニターする場合:

# /opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -a0 | grep "Full Charge" -A5 | sort \
| grep Full -A1

次に、コマンドの出力例を示します。

Full Charge Capacity: 1357 mAh
Max Error: 2 %

容量が800ミリアンペア時(mAh)を下回り、最大エラー率が10%を下回る場合は、予防的にバッテリを交換してください。容量が674mAhを下回るか、最大エラー率が10%を超えた場合は、ただちにバッテリを交換してください。

バッテリの温度をモニターする場合:

/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -a0 | grep BatteryType; \
/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -a0 | grep -i temper

次に、コマンドの出力例を示します。

BatteryType: iBBU08
Temperature: 38 C
  Temperature                  : OK
  Over Temperature        : No

バッテリの温度が摂氏55度以上である場合は、原因を特定し、問題を解決してください。

注意:

充電容量が不十分である、温度が高い、またはバッテリの交換が必要である場合などに、ストレージ・サーバーはアラートを生成します。

12.4.2 ディスク・コントローラのバッテリの交換

オラクル社は次の条件下で、故障したバッテリを無償で交換します。

ディスク・コントローラ内のバッテリの充電容量が最小しきい値を下回る場合
システムがOracle Premier Support for Systemsでカバーされているか、保証期間中の事象の場合。

Premier Support for Systemsのお客様を対象に、ベスト・エフォート原則に基づいて寿命が終わる前にRecovery Applianceのバッテリを事前に交換します。

12.5 配電ユニットの交換

配電ユニット(PDU)は、Recovery Applianceがオンライン状態でも交換できます。ラック内の2番目のPDUは、ラック内のすべてのコンポーネントに電力を維持します。PDU-Aは、ラックを背面から見て左側、PDU-Bは右側にあります。

12.5.1 PDU交換のガイドライン

安全に手順を実行して可用性を損なわないために、PDUを交換する前に、次のガイドラインを確認してください。

PDU-Aの取外しまたは挿入中に、InfiniBandケーブルのラッチを解除すると、サーバーがクラスタから削除されるため、ラックが使用不可になります。通常、InfiniBandケーブルはラッチでしっかりと固定されているため、取扱いには注意してください。InfiniBandケーブルを無理な力で引っ張らないでください。
間違った電源フィードのフックを外すと、ラックが停止します。交換するPDUから電力ケーブルを電源までたどり、それらのフィードのみを抜いてください。
PDU交換部品の開封と再梱包は慌てずに行ってください。故障したユニットを同じように再梱包できるように、電源コードが梱包品の中でどのように巻かれているかに注意してください。
サイド・パネルを外すと、PDUの交換に必要な時間を短縮できます。ただし、サイド・パネルの取り外しは任意です。
コードレス・ドリルまたは電動ドライバを使用すると、PDUの交換に必要な時間を短縮できます。ハンド・レンチを使用する場合はさらに交換に時間をかけてください。ドライバにはTorx T30ビットおよびT25ビットが必要です。
電力ケーブルを移動するには、サーバーのケーブル・アームの取外しが必要になる場合があります。このような場合は、ケーブル・アームのクリップを外さなくても済むように、プラグ接続をねじり、ケーブル・アーム・コネクタを曲げます。ケーブル・アームのクリップを外す必要がある場合は、片方の手でケーブルを支えて電源コードを外し、ケーブル・アームをクリップで留めます。ケーブル・アームはつるしたままにしないでください。
T30ねじをL金具から外す場合は、PDUをラックから取り外すまで、PDUと金具を取り付けているT25ねじまたはナットを外さないでください。

12.5.2 PDUの交換

PDUを交換するには、次のようにします。

PDUモニターを再起動してネットワーク設定を識別します。
1. カウント(5から0)が開始されるまで、リセット・ボタンを20秒押します。カウントダウン中にボタンを放し、再度押します。
2. モニターが再起動したら、LCDに表示される設定やファームウェア・バージョンなどを記録します。
PDUモニターが機能していない場合は、ネットワーク経由でPDUに接続してネットワーク設定を取得するか、ネットワーク管理者から取得します。
すべてのPDUブレーカをオフにします。
PDUの電源プラグをACコンセントから抜きます。

高くした床にラックがある場合は、床の切抜き部分から電源コードを出します。最初にラックを切抜き部分の上に動かすことが必要な場合もあります。

警告:
電源コードが頭上の配線を使用している場合は、人に落ちたり当たったりしない場所に置きます。
サイド・パネル・アクセスがなく、ラックにInfiniBandケーブル・ハーネスがないときにPDU-Bを交換する場合:

注意:
ケーブル・アームに取り付けられているケーブルのストラップを外さないでください。
1. 四角のケーブル・アームをラックに留めているT25ねじを外します。
2. InfiniBandケーブルを邪魔にならないように中央に動かします。
サーバーおよびスイッチからPDUに接続されているすべての電力ケーブルを外します。電源ケーブルをグループの束にしてまとめておきます。
L金具の上部と下部からT30ねじを外し、ねじの使用位置をメモしておきます。
ラック・フレーム内のPDUの設置位置をメモしておきます。

ブレーカ・スイッチを使用できるようにするために、PDUは一般的にラック・フレームから後ろに1インチの位置にします。
PDUを斜めにしてラックから取り出します。
PDUを持ったまま(十分な空間がある場合は下ろし)、AC電源コードをラックに通します。ACコード・フラッシュをPDUの下部に固定するケーブル・タイを切断する必要が生じる場合があります。
ラックの下部または上部のできるかぎり近くにコードを引っ張ります。サーバーの間にはコンセント・プラグを配線用の穴に通すための空間があります。
小さい方のTorx T25ねじを外し、上部および下部のナットを緩めてPDUをL金具から取り外します。ナットを外す必要はありません。
L金具を新しいPDUに取り付けます。
新しいPDUをラックの横に置きます。
ACコードをラックに通してコンセントまで配線します。

注意:
ACコードを新しいPDUにケーブル・タイしないでください。
L金具が上部および下部のレールの上に来るまで、角度と位置を調整して、新しいPDUをラック内に置きます。
穴とスロットの位置を整列し、PDUがラック・フレームの後ろ約1インチの位置になるようにします。
コードのラベルに従って、電源コードを取り付けます。たとえば、G5-0は、PDUのPDUグループ5のコンセント0を示しています。
手順4でInfiniBandケーブル・ホルダを取り外した場合は、取り付けます。ねじがすり減らないようにするには、最初にホルダのねじを手で締めることをお薦めします。
AC電源コードをコンセントに接続します。
ブレーカをオンにします。
PDUモニターのケーブルを配線し、必要に応じてネットワークをプログラムします。

関連項目:
PDUモニターのプログラミングの詳細は、次のWebサイトのOracle Sun Rack II配電ユニット・ユーザーズ・ガイドを参照してください。

http://docs.oracle.com/cd/E19844-01/html/E23956/index.html

12.6 無反応になったOracle ILOMのリセット

Oracle Integrated Lights Out Manager (Oracle ILOM)は無反応になる場合があります。その場合は、手動でOracle ILOMのサービス・プロセッサ(SP)をリセットする必要があります。

次の手順でOracle ILOMのリセット方法を示します。

関連項目:

次のWebサイトのOracle Integrated Lights Out Manager (ILOM) 3.0のドキュメント

http://docs.oracle.com/cd/E19860-01/E21549/bbgiedhj.html#z4000b491400243

12.6.1 SSHを使用したOracle ILOMのリセット

SSHを使用してOracle ILOMをリセットするには、次のようにします。

別のシステムからSSHを使用してOracle ILOMに接続します。
ILOMプロンプトで次のコマンドを入力します。
```
reset /SP
```

12.6.2 リモート・コンソールを使用したOracle ILOMのリセット

SSHを使用してOracle ILOMに接続できない場合は、リモート・コンソールにログインします。

リモート・コンソールを使用してOracle ILOMをリセットするには、次のようにします。

Oracle ILOMリモート・コンソールにログインします。
「メンテナンス」タブからSPのリセットを選択します。
「SPのリセット」をクリックします。

12.6.3 IPMItoolを使用したOracle ILOMのリセット

SSHまたはリモート・コンソールのどちらを使用してもOracle ILOMに接続できない場合は、IPMItoolを使用します。

IPMItoolを使用してOracle ILOMをリセットするには、次のようにします。

ローカル・ホスト、または管理ネットワーク上の別のホストにログインします。
次のIPMItoolコマンドを使用します。
- ローカル・ホスト上の場合:
```
$ ipmitool mc reset cold
Sent cold reset command to MC
```
- 別のホスト上の場合:
```
$ ipmitool -H ILOM_host_name -U ILOM_user mc reset cold
Sent cold reset command to MC
```
  前述のコマンドのILOM_host_nameは使用中のホスト名、ILOM_userはOracle ILOMのユーザー名です。

12.6.4 電源の停止によるOracle ILOMのリセット

前述のオプションを使用してOracle ILOMをリセットできない場合:

電源からサーバーのプラグを抜きます。
電源にサーバーのプラグを入れ直します。

この処置により、サーバーおよびOracle ILOMの電源が入れ直されます。

12.7 計算サーバーの保守

物理ディスクの修理のために、Recovery Applianceの計算サーバーを停止する必要はありません。ラックの停止時間は必要ありませんが、個々のサーバーに停止時間が必要になり、一時的にクラスタ外にすることが必要な場合があります。

関連項目:

LEDの詳細は、「LEDステータスの説明」を参照してください
修理手順は、「計算サーバーの部品」を参照してください

LSI MegaRAID SAS 9261-8iディスク・コントローラは各計算サーバーのディスク・ドライブを管理します。ディスクにはRAID-5構成があります。各計算サーバーには4つのディスク・ドライブがあります。1つの仮想ドライブがRAIDセットを構成します。

12.7.1 計算サーバーのRAIDステータスの確認

計算サーバーのRAIDデバイスのステータスを定期的に確認することをお薦めします。影響は最小限です。対照的に、是正処置による影響は未対応の特定の問題によって異なり、単純な再構成から停止が必要になる場合があります。

rootとして各計算サーバーにログインして、次の手順を実行します。

RAIDステータスを検証するには、次のようにします。

現在のディスク・コントローラ構成を確認します。
```
# /opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -aALL | grep "Device Present" -A 8

                Device Present
                ================
Virtual Drives    : 1 
  Degraded        : 0 
  Offline         : 0 
Physical Devices  : 5 
  Disks           : 4 
  Critical Disks  : 0 
  Failed Disks    : 0 
```
出力が、1つの仮想ドライブ、1つもパフォーマンスが低下したりオフラインになっていないこと、5つの物理デバイス(1つのコントローラと4つのディスク)、4つのディスク、およびクリティカルまたは障害のないディスクを示すことを確認します。

出力が異なる場合は、問題点を調査して修正します。パフォーマンスが低下した仮想ドライブは、通常は存在しない物理ディスクまたは障害が発生したディスクです。クリティカル・ディスクや障害が発生したディスクはただちに交換します。そうしないと、サーバー内の作業中ディスクの数が、通常業務の維持に必要な数を下回る場合に、データが消失する恐れがあります。

現在の仮想ドライブ構成を確認します。

# /opt/MegaRAID/MegaCli/MegaCli64 CfgDsply -aALL | grep "Virtual Drive:";    \
/opt/MegaRAID/MegaCli/MegaCli64 CfgDsply -aALL | grep "Number Of Drives";  \
/opt/MegaRAID/MegaCli/MegaCli64 CfgDsply -aALL | grep "^State" 

Virtual Drive                 : 0 (Target Id: 0)
Number Of Drives              : 4
State                         : Optimal

仮想デバイス0に4つのドライブがあり、状態がOptimalであることを確認します。出力が異なる場合は、問題点を調査して修正します。

現在の物理ドライブ構成を確認します。
```
# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL | grep "Firmware state"
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
Firmware state: Online, Spun Up
```
すべてのドライブがOnline, Spun Upであることを確認します。出力が異なる場合は、問題点を調査して修正します。

出力が異なる場合は、問題点を調査して修正します。パフォーマンスが低下した仮想ドライブは、通常は存在しない物理ディスクまたは障害が発生したディスクです。クリティカル・ディスクや障害が発生したディスクはただちに交換します。そうしないと、サーバー内の作業中ディスクの数が、通常業務の維持に必要な数を下回る場合に、データが消失する恐れがあります。

12.8 計算サーバーの再イメージ化

計算サーバーが復旧不可能なダメージを負った場合は、そのサーバーを交換して、交換したサーバーを再イメージ化します。再イメージ化手順の実行中に、クラスタ内の他の計算サーバーは使用できます。クラスタに新しいサーバーを追加する際、作業中の計算サーバーから新しいサーバーにソフトウェアをコピーします。

次の作業は計算サーバーの再イメージ化の方法を示しています。

12.8.1 Oracleサポート・サービスへの連絡

Oracleサポート・サービスでサポート・リクエストを開きます。サポート・エンジニアが障害が発生したサーバーを確認し、交換サーバーを送ります。サポート・エンジニアは、作業中の計算サーバーから実行したimagehistoryコマンドの出力結果も要求します。出力結果により、元の計算サーバーのイメージ化に使用され、システムのリストアに使用されるcomputeImageMakerファイルへのリンクが提供されます。

12.8.2 クラスタ検証ユーティリティの最新リリースのダウンロード

クラスタ検証ユーティリティ(cluvfy)の最新リリースは、My Oracle Support Doc ID 316817.1で入手できます。

12.8.3 クラスタの障害が発生した計算サーバーの削除

障害が発生した計算サーバーは、Oracle Real Application Clusters (Oracle RAC)から削除する必要があります。

関連項目:

計算サーバーのクラスタからの削除の詳細は、Oracle Real Application Clusters管理およびデプロイメント・ガイドを参照してください

この手順で、working_serverはクラスタ内の動作している計算サーバー、failed_serverは交換される計算サーバー、replacement_serverは新規サーバーです。

障害が発生した計算サーバーをOracle RACクラスタから削除するには、次のようにします。

oracleユーザーとして、working_serverにログインします。
障害が発生したサーバーで実行されているリスナーを無効化します。
```
$ srvctl disable listener -n failed_server
$ srvctl stop listener -n failed_server
```
インベントリからOracleホーム・ディレクトリを削除します。
```
$ cd $ORACLE_HOME/oui/bin
$ ./runInstaller -updateNodeList ORACLE_HOME= \
/u01/app/oracle/product/12.1.0/dbhome_1 "CLUSTER_NODES=list_of_working_servers"
```
前述のコマンドのlist_of_working_serversは、ra01db02やra01db03などのクラスタで動作している計算サーバーのリストです。
障害が発生したサーバーがクラスタから削除された(つまり、ピン解除された)ことを確認します。
```
$ olsnodes -s -t

ra01db01     Inactive        Unpinned
ra01db02        Active          Unpinned
```

障害が発生した計算サーバーの仮想IP (VIP)リソースを停止して削除します。

# srvctl stop vip -i failed_server-vip
PRCC-1016 : failed_server-vip.example.com was already stopped

# srvctl remove vip -i failed_server-vip
Please confirm that you intend to remove the VIPs failed_server-vip (y/[n]) y

クラスタから計算サーバーを削除します。

# crsctl delete node -n failed_server
CRS-4661: Node failed_server successfully deleted.

次のようなエラー・メッセージを受領したら、投票ディスクを移動します。

CRS-4662: Error while trying to delete node ra01db01.
CRS-4000: Command Delete failed, or completed with errors.

投票ディスクを移動するには、次のようにします。

投票ディスクの現在の場所を特定します。出力例では現在の場所がDBFS_DGであると示されています。

# crsctl query css votedisk

##  STATE    File Universal Id          File Name                Disk group
--  -----    -----------------          ---------                ----------
1. ONLINE   123456789abab (o/192.168.73.102/DATA_CD_00_ra01cel07) [DBFS_DG]
2. ONLINE   123456789cdcd (o/192.168.73.103/DATA_CD_00_ra01cel08) [DBFS_DG]
3. ONLINE   123456789efef (o/192.168.73.100/DATA_CD_00_ra01cel05) [DBFS_DG]
Located 3 voting disk(s).

投票ディスクを別のディスク・グループに移動します。

# ./crsctl replace votedisk +DATA

Successful addition of voting disk 2345667aabbdd.
...
CRS-4266: Voting file(s) successfully replaced

投票ディスクを元の場所に戻します。この例ではDBFS_DGに戻されています。
```
# ./crsctl replace votedisk +DBFS_DG
```
crsctlコマンドを繰り返してクラスタからサーバーを削除します。

Oracleインベントリを更新します。

$ cd $ORACLE_HOME/oui/bin
$ ./runInstaller -updateNodeList ORACLE_HOME=/u01/app/12.1.0/grid \
  "CLUSTER_NODES=list_of_working_servers" CRS=TRUE

サーバーが正常に削除されたことを確認します。

$ cluvfy stage -post nodedel -n failed_server -verbose

Performing post-checks for node removal
Checking CRS integrity...
The Oracle clusterware is healthy on node "ra01db02"
CRS integrity check passed
Result:
Node removal check passed
Post-check for node removal was successful.

12.8.4 イメージ化に使用するUSBフラッシュ・ドライブの準備

USBフラッシュ・ドライブを使用して、イメージを新しい計算サーバーにコピーします。

使用するUSBフラッシュ・ドライブを準備するには、次のようにします。

空のUSBフラッシュ・ドライブをクラスタの動作している計算サーバーに挿入します。
rootユーザーとしてログインします。

computeImageファイルを解凍します。

# unzip computeImageMaker_release_LINUX.X64_release_date.platform.tar.zip

# tar -xvf computeImageMaker_release_LINUX.X64_release_date.platform.tar

イメージをUSBフラッシュ・ドライブ上にロードします。
```
# cd dl360
# ./makeImageMedia.sh -dualboot no
```
makeImageMedia.shスクリプトにより、情報を要求されます。
計算サーバーからUSBフラッシュ・ドライブを取り外します。
動作している計算サーバーから解凍したd1360ディレクトリおよびcomputeImageMakerファイルを削除します。ディレクトリおよびファイルには、約2GBのディスク領域が必要です。

12.8.5 新規計算サーバーへのイメージのコピー

イメージを交換サーバー上にロードするには、次のようにします。

障害が発生した計算サーバーを新規サーバーに置き換えます。「ストレージ・サーバーの追加によるRecovery Applianceラックの拡張」を参照してください。
交換サーバーのUSBポートにUSBフラッシュ・ドライブを挿入します。
サービス・プロセッサを使用してコンソールにログインし、進捗状況をモニターします。
電源ボタンを押すか、Oracle ILOMを使用することで、計算サーバーの電源を投入します。
マザーボードを交換した場合:
1. BIOS中に[F2]を押します
2. 「BIOS Setup」を選択します
3. USBフラッシュ・ドライブを最初に設定してから、RAIDコントローラを設定します。
そうでない場合は、BIOS中に[F8]を押して、ワンタイム起動選択メニューを選択してからUSBフラッシュ・ドライブを選択します。
システムを起動できるようにします。

システムが起動すると、CELLUSBINSTALLメディアが検出されます。イメージ化プロセスには、2つのフェーズがあります。両方のフェーズを完了してから次の手順に進んでください。

イメージ化プロセスの1つ目のフェーズでは、古いBIOSまたはファームウェアを識別し、イメージに対応するレベルにコンポーネントをアップグレードします。コンポーネントがアップグレードまたはダウングレードされると、システムは自動的に再起動します。

イメージ化プロセスの2つ目のフェーズでは、交換計算サーバーの工場出荷時のイメージをインストールします。
システムで要求された場合、USBフラッシュ・ドライブを取り外します。
[Enter]を押してサーバーの電源を切断します。

12.8.6 交換計算サーバーの構成

交換計算サーバーには、ホスト名、IPアドレス、DNSまたはNTP設定がありません。この作業は、交換計算サーバーの構成方法を示しています。

情報はRecovery Appliance内のすべての計算サーバーで同じである必要があります。IPアドレスはDNSから取得できます。初期インストールからインストレーション・テンプレートのコピーも取得する必要があります。

交換計算サーバーを構成するには、次のようにします。

次の情報を組み立てます。
- ネーム・サーバー
- 南北アメリカ/シカゴなどのタイムゾーン
- NTPサーバー
- 管理ネットワークのIPアドレス情報
- クライアント・アクセス・ネットワークのIPアドレス情報
- InfiniBandネットワークのIPアドレス情報
- 標準的なホスト名
- デフォルトのゲートウェイ
交換計算サーバーの電源を投入します。システムが起動すると、構成スクリプトが自動的に実行され、情報が要求されます。
要求された場合は情報を入力して、設定を確認します。続いて起動プロセスが続行されます。

注意:

計算サーバーがすべてのネットワーク・インタフェースを使用していない場合は、構成プロセスが停止し、いずれかのネットワーク・インタフェースが切断されているという警告が出されます。検出プロセスを再試行するかどうかの確認を求められます。環境に応じて、yesまたはnoと入力します。
収集ネットワークにボンディングが使用される場合、この時点でデフォルトのアクティブ/パッシブ・モードに設定されます。

12.8.7 クラスタの交換計算サーバーの準備

Recovery Applianceの初期インストールでは各種ファイルが変更されました。

交換計算サーバー上のファイルを変更するには、次のようにします。

クラスタ内の動作している計算サーバーから、次のファイルの内容をレプリケートします。
1. /etc/security/limits.confファイルをコピーします。
2. /etc/hostsファイルの内容をマージします。
3. /etc/oracle/cell/network-config/cellinit.oraファイルをコピーします。
4. 交換計算サーバーのBONDIB0インタフェースのIPアドレスでIPアドレスを更新します。
5. /etc/oracle/cell/network-config/cellip.oraファイルをコピーします。
6. 10GbEなど、追加ネットワーク要件を構成します。
7. /etc/modprobe.confファイルをコピーします。
8. /etc/sysctl.confファイルをコピーします。
9. 計算サーバーを再起動し、ネットワーク変更を有効にします。
ユーザー名を1つ以上のグループに追加して、交換計算サーバーのOracleソフトウェア所有者を設定します。所有者は通常、oracleユーザーです。
1. 動作している計算サーバーから現在のグループ情報を取得します。
```
# id oracle
uid=1000(oracle) gid=1001(oinstall) groups=1001(oinstall),1002(dba),1003(oper),1004(asmdba)
```
2. groupaddコマンドを使用して、グループ情報を交換計算サーバーに追加します。この例では、前の手順で識別されたグループが追加されます。
```
# groupadd –g 1001 oinstall
# groupadd –g 1002 dba
# groupadd –g 1003 oper
# groupadd –g 1004 asmdba
```
3. 動作している計算サーバーから現在のユーザー情報を取得します。
```
# id oracle uid=1000(oracle) gid=1001(oinstall) \
  groups=1001(oinstall),1002(dba),1003(oper),1004(asmdba)
```
4. ユーザー情報を交換計算サーバーに追加します。この例では、前の手順のグループIDがoracleユーザーIDに追加されます。
```
# useradd -u 1000 -g 1001 -G 1001,1002,1003,1004 -m -d /home/oracle -s \
  /bin/bash oracle
```
5. ORACLE_BASEおよびGrid Infrastructureディレクトリを作成します。この例では、/u01/app/oracleおよび/u01/app/12.1.0/gridが作成されます。
```
# mkdir -p /u01/app/oracle
# mkdir -p /u01/app/12.1.0/grid
# chown -R oracle:oinstall /u01/app
```
6. cellip.oraおよびcellinit.oraファイルの所有権を変更します。所有者は通常、oracle:dbaです。
```
# chown -R oracle:dba /etc/oracle/cell/network-config
```
7. リストアされた計算サーバーの安全を確保します。
```
$ chmod u+x /opt/oracle.SupportTools/harden_passwords_reset_root_ssh
$ /opt/oracle.SupportTools/harden_passwords_reset_root_ssh
```
  計算サーバーが再起動します。
8. rootユーザーとしてログインします。新しいパスワードを要求されたら、他の計算サーバーのrootパスワードと一致するように設定します。
9. Oracleソフトウェア所有者のパスワードを設定します。所有者は通常、oracleです。
```
# passwd oracle
```
oracleアカウントにSSHを設定します。
1. 交換計算サーバー上のoracleアカウントに変更します。
```
# su - oracle
```
2. Oracleクラスタのサーバーをリストする交換計算サーバーのdcliグループ・ファイルを作成します。
3. 交換計算サーバーでsetssh-Linux.shスクリプトを実行します。この例ではスクリプトがインタラクティブに実行されます。
```
$ /opt/oracle.SupportTools/onecommand/setssh-Linux.sh -s
```
  スクリプトによってサーバーのoracleパスワードが要求されます。-sオプションにより、スクリプトはサイレント・モードで実行されます。
4. 交換計算サーバー上のoracleユーザーに変更します。
```
# su - oracle
```
5. SSHの同等性を検証します。
```
$ dcli -g dbs_group -l oracle date
```
動作している計算サーバーから交換計算サーバーにカスタム・ログイン・スクリプトを設定またはコピーします。
```
$ scp .bash* oracle@replacement_server:. 
```
前述のコマンドのreplacement_serverは、ra01db01などの新しいサーバーの名前です。

12.8.8 交換計算サーバーへのパッチ・バンドルの適用

オラクル社では、Recovery Appliance用のソフトウェアのパッチ・バンドルを定期的にリリースしています。動作している計算サーバーにcomputeImageMakerファイルのリリースよりも新しいパッチ・バンドルがある場合、パッチ・バンドルを交換計算サーバーに適用する必要があります。

パッチ・バンドルが適用されたかどうか判断するには、imagehistoryコマンドを使用します。交換計算サーバーの情報を、動作している計算サーバーの情報と比較します。動作しているデータベースのリリースが新しい場合、ストレージ・サーバー・パッチ・バンドルを交換計算サーバーに適用します。

12.8.9 Oracle Grid Infrastructureのクローニング

次の手順では、交換計算サーバーにOracle Grid Infrastructureをクローニングする方法について説明します。コマンドのworking_serverは動作している計算サーバー、replacement_serverは交換計算サーバーです。

関連項目:

クローニングの詳細は、Oracle Real Application Clusters管理およびデプロイメント・ガイドを参照してください。

Oracle Grid Infrastructureをクローニングするには、次のようにします。

rootとして、クラスタの動作している計算サーバーにログインします。
クラスタ検証ユーティリティ(cluvfy)を使用して、ハードウェアおよびオペレーティング・システムのインストールを検証します。
```
$ cluvfy stage -post hwos -n replacement_server,working_server –verbose
```
レポートの最後にPost-check for hardware and operating system setup was successfulのフレーズが表示されます。

ピア互換性を検証します。

$ cluvfy comp peer -refnode working_server -n replacement_server  \
  -orainv oinstall -osdba dba | grep -B 3 -A 2 mismatched

次に、出力の例を示します。

Compatibility check: Available memory [reference node: ra01db02]
Node Name Status Ref. node status Comment
------------ ----------------------- ----------------------- ----------
ra01db01 31.02GB (3.2527572E7KB) 29.26GB (3.0681252E7KB) mismatched
Available memory check failed
Compatibility check: Free disk space for "/tmp" [reference node: ra01db02]
Node Name Status Ref. node status Comment
------------ ----------------------- ---------------------- ----------
ra01db01 55.52GB (5.8217472E7KB) 51.82GB (5.4340608E7KB) mismatched
Free disk space check failed

障害が発生したコンポーネントだけが物理メモリー、スワップ領域およびディスク領域に関連している場合は、手順を継続できます。

サーバーを追加するために必要な確認を行います。
1. GRID_HOME/network/admin/samplesディレクトリの権限が750に設定されていることを確認します。
2. 計算サーバーの追加を検証します。
```
$ cluvfy stage -ignorePrereq -pre nodeadd -n replacement_server \
-fixup -fixupdir  /home/oracle/fixup.d
 
```
  障害が発生したコンポーネントだけがスワップ領域に関連している場合は、手順を継続できます。
  
  次のように、投票ディスクにエラーが発生する場合があります。
```
ERROR: 
PRVF-5449 : Check of Voting Disk location "o/192.168.73.102/ \
DATA_CD_00_ra01cel07(o/192.168.73.102/DATA_CD_00_ra01cel07)" \
failed on the following nodes:
Check failed on nodes: 
        ra01db01
        ra01db01:No such file or directory
...
PRVF-5431 : Oracle Cluster Voting Disk configuration check failed
```
  このエラーが発生する場合は、次の手順でaddnodeスクリプトの実行時に-ignorePrereqオプションを使用します。

交換計算サーバーをクラスタに追加します。

$ cd /u01/app/12.1.0/grid/addnode/
$ ./addnode.sh -silent "CLUSTER_NEW_NODES={replacement_server}" \
  "CLUSTER_NEW_VIRTUAL_HOSTNAMES={replacement_server-vip}"[-ignorePrereq]

addnodeスクリプトでは、Oracle Universal InstallerによってOracle Clusterwareソフトウェアが交換計算サーバーにコピーされます。次のようなメッセージが表示されます。

WARNING: A new inventory has been created on one or more nodes in this session.
However, it has not yet been registered as the central inventory of this
system. To register the new inventory please run the script at
'/u01/app/oraInventory/orainstRoot.sh' with root privileges on nodes
'ra01db01'. If you do not register the inventory, you may not be able to 
update or patch the products you installed.

The following configuration scripts need to be executed as the "root" user in
each cluster node:
 
/u01/app/oraInventory/orainstRoot.sh #On nodes ra01db01
 
/u01/app/12.1.0/grid/root.sh #On nodes ra01db01

構成スクリプトを実行します。
1. 端末のウィンドウを開きます。
2. rootユーザーとしてログインします。
3. 各クラスタ・サーバーでスクリプトを実行します。
スクリプトの実行後、次のメッセージが表示されます。
```
The Cluster Node Addition of /u01/app/12.1.0/grid was successful.
Please check '/tmp/silentInstall.log' for more details.
```

orainstRoot.shおよびroot.shスクリプトを実行します。

# /u01/app/oraInventory/orainstRoot.sh
Creating the Oracle inventory pointer file (/etc/oraInst.loc)
Changing permissions of /u01/app/oraInventory.
Adding read,write permissions for group.
Removing read,write,execute permissions for world.
Changing groupname of /u01/app/oraInventory to oinstall.
The execution of the script is complete.
 
# /u01/app/12.1.0/grid/root.sh

/u01/app/12.1.0/grid/install/のログ・ファイルで、root.shスクリプトの出力結果を確認します。出力ファイルで、交換した計算サーバーのリスナー・リソースの起動が失敗したことが報告されます。これは予測される出力の例です。

/u01/app/12.1.0/grid/bin/srvctl start listener -n ra01db01 \
...Failed
/u01/app/12.1.0/grid/perl/bin/perl \
-I/u01/app/12.1.0/grid/perl/lib \
-I/u01/app/12.1.0/grid/crs/install \
/u01/app/12.1.0/grid/crs/install/rootcrs.pl execution failed

「クラスタの障害が発生した計算サーバーの削除」で停止したリスナー・リソースを再有効化します。

# GRID_HOME/grid/bin/srvctl enable listener -l LISTENER \
  -n replacement_server

# GRID_HOME/grid/bin/srvctl start listener -l LISTENER  \
  -n replacement_server

12.8.10 交換計算サーバーへのOracle Databaseホームのクローニング

交換サーバーへOracle Databaseホームをクローニングするには、次のようにします。

Oracle Database ORACLE_HOMEを交換計算サーバーに追加します。

$ cd /u01/app/oracle/product/12.1.0/db_home/addnode/
$ ./addnode.sh -silent "CLUSTER_NEW_NODES={replacement_server}" -ignorePrereq

addnodeスクリプトでは、Oracle Universal InstallerによってOracle Databaseソフトウェアが交換計算サーバーにコピーされます。

WARNING: The following configuration scripts need to be executed as the "root"
user in each cluster node.
/u01/app/oracle/product/12.1.0/dbhome_1/root.sh #On nodes ra01db01
To execute the configuration scripts:
Open a terminal window.
Log in as root.
Run the scripts on each cluster node.

スクリプトの完了後、次のメッセージが表示されます。

The Cluster Node Addition of /u01/app/oracle/product/12.1.0/dbhome_1 was
successful.
Please check '/tmp/silentInstall.log' for more details.

交換計算サーバーでroot.shスクリプトを実行します。
```
# /u01/app/oracle/product/12.1.0/dbhome_1/root.sh
 
```
スクリプトの出力に/u01/app/oracle/product/12.1.0/dbhome_1/install/root_replacement_server.company.com_date.logファイルを確認します。

インスタンス・パラメータが交換したデータベース・インスタンスに設定されていることを確認します。次に、CLUSTER_INTERCONNECTSパラメータの例を示します。

SQL> SHOW PARAMETER cluster_interconnects

NAME                                 TYPE        VALUE
------------------------------       --------    -------------------------
cluster_interconnects                string
 
SQL> ALTER SYSTEM SET cluster_interconnects='192.168.73.90' SCOPE=spfile SID='dbm1';

構成ファイルを検証し、必要に応じて修正します。
- ORACLE_HOME/dbs/initSID.oraファイルは、Oracle ASM共有ストレージ内のサーバー・パラメータ・ファイル(SPFILE)を示します。
- ORACLE_HOME/dbディレクトリにコピーされるパスワードは、orapwSIDに変更されています。
データベース・インスタンスを再起動します。

関連項目:

Oracle Real Application Clusters管理およびデプロイメント・ガイド

12.9 ストレージ・サーバーの保守

この項では、ストレージ・サーバーの保守を実行する方法について説明します。この付録には、次の項があります。

12.9.1 ストレージ・サーバーの停止

ストレージ・サーバーの保守を実行する場合、サーバーの電源切断または再起動が必要になることがあります。ストレージ・サーバーを停止する前に、サーバーのオフラインによるOracle ASMディスク・グループおよびデータベース可用性への影響がないことを確認してください。データベース可用性の継続は、影響するディスク・グループで使用されるOracle ASM冗長性のレベルと、同じデータのミラー・コピーを含む他のストレージ・サーバーでのディスクの現在のステータスによって異なります。

注意:

Recovery Applianceで保守中のセルが完全に機能するようになる前に、別のセルのディスクに障害が発生した場合、二重のディスク障害が発生する可能性があります。Recovery ApplianceがDELTAディスク・グループについてNORMALの冗長性でデプロイされており、このディスク障害が恒久的な場合、Recovery Appliance上のすべてのバックアップが失われます。
保守中のセルが長時間オフラインでないことを確認してください。そうしないと、リバランス操作が発生し、操作の完了に十分な領域がないために問題が引き起こされます。デフォルトで、リバランス操作はセルがオフラインになってから24時間後に開始されます。

ストレージ・サーバーの電源を停止するには、次のようにします。

rootとして、ストレージ・サーバーにログインします。
(オプション)ストレージ・サーバーの再起動後にグリッド・ディスクがオフラインのままになるようにします。
```
CellCLI> ALTER GRIDDISK ALL INACTIVE
```
複数の再起動を行う場合、またはセルが再度アクティブになったときに制御するには、このコマンドを使用します。たとえば、サーバーを使用する前に、計画保守アクティビティが成功したことを検証できます。
セル・サービスを停止します。
```
CellCLI> ALTER CELL SHUTDOWN SERVICES ALL
```
前述のコマンドでは、オフラインのディスクがないか、predictive failureステータスのディスクがないか、またはミラーにコピーする必要があるディスクがないかをチェックします。Oracle ASM冗長性が損なわれていない場合は、コマンドによりOracle ASMでグリッド・ディスクがオフラインに変更され、サービスが停止されます。

次のエラーは、サービスの停止によって冗長性の問題が引き起こされ、ディスク・グループが強制的にマウント解除される可能性を示しています。
```
Stopping the RS, CELLSRV, and MS services...
The SHUTDOWN of ALL services was not successful.
CELL-01548: Unable to shut down CELLSRV because disk group DATA, RECO may be
forced to dismount due to reduced redundancy.
Getting the state of CELLSRV services... running
Getting the state of MS services... running
Getting the state of RS services... running
```
このエラーが発生した場合は、Oracle ASMディスク・グループの冗長性がリストアされます。すべてのディスクのステータスが正常のときはコマンドを再試行します。
サーバーを停止します。「サーバーの電源切断」を参照してください。
保守作業が完了したら、サーバーの電源を投入します。サービスは自動的に開始されます。起動中、Oracle ASMですべてのグリッド・ディスクが自動的にオンラインになります。
すべてのグリッド・ディスクがオンラインであることを確認します。
```
CellCLI> LIST GRIDDISK ATTRIBUTES name, asmmodestatus
```
すべてのグリッド・ディスクのasmmodestatusがONLINEまたはUNUSEDになるまで待機します。
手順2でグリッド・ディスクを非アクティブにした場合は、再度アクティブにします。
```
CellCLI> ALTER GRIDDISK ALL ACTIVE
```
手順2をスキップした場合は、グリッド・ディスクは自動的にアクティブになります。

関連項目:

My Oracle SupportのドキュメントID 1188080.1「ASMに影響を与えずにExadataのストレージ・セルを停止または再起動する手順」

12.9.2 診断ISOを使用したネットワーク接続の有効化

正常に再起動できないストレージ・サーバーにアクセスするため、診断ISOの使用が必要になる場合があります。サーバーの起動後、ファイルをISOからサーバーにコピーすることで破損ファイルを置き換えます。

ISOは、すべてのRecovery Applianceサーバー上の/opt/oracle.SupportTools/diagnostics.isoにあります。

注意:

USBドライブの使用など、他の再起動方法が失敗した後でのみ、診断ISOを使用してください。この手順を開始する前に、アドバイスとガイダンスを得るためOracle Supportに連絡してください。

診断ISOを使用するには、次のようにします。

TelnetまたはpuTTYなどの、Webインタフェースまたはシリアル・コンソールのどちらかを使用して、サービス・プロセッサで1回のCD-ROMブートを有効にします。たとえば、シリアル・コンソールから次のコマンドを使用します。
```
set boot_device=cdrom
```
サービス・プロセッサ・インタフェースを使用して、diagnostics.isoのローカル・コピーをCD-ROMとしてマウントします。
rebootコマンドを使用してサーバーを再起動します。
rootユーザーとして、診断ISOのパスワードを使用してサーバーにログインします。
pingを避けるには、次のようにします。
```
alias ping="ping -c"
```
/etc/networkという名前のディレクトリを作成します。
/etc/network/if-pre-up.dという名前のディレクトリを作成します。
次の設定を/etc/network/interfacesファイルに追加して、サーバーの実際のIPアドレスおよびネットマスク、そしてゲートウェイのIPアドレスを入力します。
```
iface eth0 inet static
address IP address of server
netmask netmask of server
gateway gateway IP address of server
```
eth0インタフェースを起動します。
```
# ifup eth0
 
```
警告メッセージは無視します。
FTPまたはwgetコマンドを使用して、サーバーの修理に必要なファイルを取得します。

12.10 ストレージ・サーバーの物理ディスクの保守

この項の内容は次のとおりです。

関連項目:

保守のベスト・プラクティスの詳細は、http://www.oracle.com/goto/maaのOracle Maximum Availability Architecture (MAA) Webサイトを参照してください。

12.10.1 システム・ディスクおよびデータ・ディスクについて

ストレージ・サーバーの最初の2枚のディスクは、システム・ディスクです。ストレージ・サーバー・ソフトウェアのシステム・ソフトウェアは、各システム・ディスクに割り当てられます。システム・ディスクのこの割り当てられた部分は、システム領域と呼ばれます。システム・ディスクのシステム領域以外は、データ・パーティションと呼ばれ、通常のデータ・ストレージに使用されます。ストレージ・サーバーのその他のディスクはすべて、データ・ディスクと呼ばれます。

12.10.2 物理ディスクのステータスのモニタリング

CellCLI LIST PHYSICALDISKコマンドで属性を確認して、物理ディスクを監視できます。たとえば、failedまたはwarning - predictive failureステータスの物理ディスクに問題が発生し、交換が必要と思われる場合です。内部しきい値を超えると、ディスク・ファームウェアによってエラー・カウンタが保守され、ドライブはPredictive Failureとマーク付けされます。交換が必要かどうかは、サーバー・ソフトウェアではなくドライブによって決定されます。

次のリストは、ストレージ・サーバーの物理ディスク・ステータスを示しています。

ストレージ・サーバーの物理ディスク・ステータス

物理ディスク・ステータス
normal
normal - dropped for replacement
normal - confinedOnline
normal - confinedOnline - dropped for replacement
not present
failed
failed - dropped for replacement
failed - rejected due to incorrect disk model
failed - rejected due to incorrect disk model - dropped for replacement
failed - rejected due to wrong slot
failed - rejected due to wrong slot - dropped for replacement
warning - confinedOnline
warning - confinedOnline - dropped for replacement
warning - peer failure
warning - poor performance
warning - poor performance - dropped for replacement
warning - poor performance, write-through caching
warning - predictive failure, poor performance
warning - predictive failure, poor performance - dropped for replacement
warning - predictive failure, write-through caching
warning - predictive failure
warning - predictive failure - dropped for replacement
warning - predictive failure, poor performance, write-through caching
warning - write-through caching

12.10.3 ディスク・エラー発生時の状況

Oracle ASMはハードウェア・エラーによる読取りエラーの障害範囲の修理を実行します。ディスクはオンラインのままで、アラートは送信されません。

ディスクに障害が発生した場合:

関連するOracle ASMディスクがFORCEオプションで自動的に削除され、Oracle ASMリバランスでデータの冗長性がリストアされます。
ドライブの青色のLEDと黄色のLEDが点灯し、この場合、ディスクの交換を進めてもかまいません。ドライブのLEDは純色のままになります。予測障害および低いパフォーマンスのLEDステータス・ライトの詳細は、「LEDステータスの説明」を参照してください。
サーバーによってアラートが生成され、それにはディスクを交換する特定の手順が含まれます。システムのアラート通知を構成している場合、電子メールでアラートが指定したアドレスに送信されます。

「障害が発生した物理ディスクの交換」。

ディスクに障害ステータスがある場合:

物理ドライブのグリッド・ディスクに関連するOracle ASMディスクが自動的に削除されます。
Oracle ASMリバランスは予測障害ディスクから他のディスクにデータを再配置します。
ドライブの青色のLEDが点灯し、この場合、ディスクの交換を進めてもかまいません。

「障害のある物理ディスクの交換」を参照してください。

Oracle ASMが物理的に対処されたメタデータ・ブロックに関する読取りエラーを取得すると、ブロックはミラーリングされません。

Oracle ASMはディスクをオフラインにします。
Oracle ASMはFORCEオプションでディスクを削除します。
ストレージ・サーバー・ソフトウェアは、ディスクが交換できることを示すアラートを送信します。

12.10.4 パフォーマンスの低いディスクの検出について

ASRは、パフォーマンスの低いディスクをアクティブ構成から自動的に識別して削除します。次に、Recovery Applianceで一連のパフォーマンス・テストが実行されます。CELLSRVでパフォーマンスの低いディスクが検出されると、セル・ディスクのステータスがnormal - confinedOnlineに変更され、物理ディスクのステータスがwarning - confinedOnlineに変更されます。表12-2に、ディスク制限のトリガーとなる状況を示します。

表12-2 パフォーマンスの低いディスクを示すアラート

アラート・コード	原因
CD_PERF_HANG	ディスクの応答停止
CD_PERF_SLOW_ABS	サービス時間のしきい値が高い(スロー・ディスク)
CD_PERF_SLOW_RLTV	相対的サービス時間のしきい値が高い(スロー・ディスク)
CD_PERF_SLOW_LAT_WT	書込みでの長いレイテンシ
CD_PERF_SLOW_LAT_RD	読取りでの長いレイテンシ
CD_PERF_SLOW_LAT_RW	読取りおよび書込みでの長いレイテンシ
CD_PERF_SLOW_LAT_ERR	個々のI/Oでの頻繁な長い絶対レイテンシ
CD_PERF_IOERR	I/Oエラー

問題が一時的なものであり、ディスクがテストに合格した場合は、そのディスクは構成に戻されます。ディスクがテストに合格しない場合は、poor performanceとしてマークされ、ASRによりディスク交換のためのサービス・リクエストが送信されます。可能な場合は、Oracle ASMによりグリッド・ディスクがテスト用にオフラインに変更されます。そうでない場合、セル・ディスクのステータスは、ディスクを安全にオフラインに変更できるようになるまで、normal - confinedOnlineのまま変わりません。「パフォーマンスの低い物理ディスクの取外し」を参照してください。

ディスク・ステータスの変更はサーバー・アラート履歴に記録されます。

MESSAGE ID date_time info "Hard disk entered confinement status. The LUN
 n_m changed status to warning - confinedOnline. CellDisk changed status to normal
 - confinedOnline. Status: WARNING - CONFINEDONLINE  Manufacturer: name  Model
 Number: model  Size: size  Serial Number: serial_number  Firmware: fw_release 
 Slot Number: m  Cell Disk: cell_disk_name  Grid Disk: grid disk 1, grid disk 2
     .
     .
     .
Reason for confinement: threshold for service time exceeded"

次のメッセージがストレージ・セルのアラート・ログに入力されます。

CDHS: Mark cd health state change cell_disk_name  with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
     .
     .
     .

12.10.5 データのリバランスについて

物理ディスクを交換したら、そのスロットの前のディスクにあったグリッド・ディスクとセル・ディスクを再作成する必要があります。これらのグリッド・ディスクがOracle ASMグループの一部である場合、ディスク・グループの冗長性およびASM_POWER_LIMITパラメータに基づいて、ディスクをディスク・グループに追加し直して、データをリバランスします。

ディスクを削除または追加すると、Oracle ASMリバランスが発生します。リバランスのステータスを確認する場合:

リバランス操作は正しく実行されましたか。

Oracle ASMアラート・ログを確認してください。
リバランス操作は現在実行中ですか。

GV$ASM_OPERATIONビューを確認してください。
リバランス操作は失敗しましたか。

V$ASM_OPERATION.ERRORビューを確認してください。

障害の発生した物理ディスクに複数のディスク・グループのASMディスクが含まれる場合、複数のディスク・グループのリバランス操作を同じクラスタの異なるOracle ASMインスタンスで実行できます。Oracle ASMインスタンスは、一度に1つのリバランス操作を実行できます。すべてのOracle ASMインスタンスがビジー状態の場合、リバランス操作がキューに入れられます。

12.10.6 ハード・ディスク・コントローラのライトスルー・キャッシュ・モードのモニタリング

各ストレージ・サーバーのハード・ディスク・コントローラは、定期的にコントローラのバッテリの放電と充電を実行します。操作中は、書込みキャッシュ・ポリシーにより、ライトバック・キャッシュからライトスルー・キャッシュに変更されます。ライトスルー・キャッシュ・モードはライトバック・キャッシュ・モードより時間を要します。ただし、ストレージ・サーバーの電源が落ちたり障害が発生したりすると、ライトバック・キャッシュ・モードの場合はデータ損失のリスクがあります。操作は、たとえば1月、4月、7月および10月の17日の01:00、のように3か月ごとに実行されます。

次の例は、論理ドライブのキャッシュ・モードのステータスに関してストレージ・サーバーによって生成されるアラート情報を示しています。

HDD disk controller battery on disk contoller at adapter 0 is going into a learn
cycle. This is a normal maintenance activity that occurs quarterly and runs for
approximately 1 to 12 hours. The disk controller cache might go into WriteThrough
caching mode during the learn cycle. Disk write throughput might be temporarily
lower during this time. The message is informational only, no action is required.

次のコマンドを使用して、定期的な書込みキャッシュ・ポリシーへの変更を管理します。

学習サイクルの開始時間を変更するには、次の例のようなコマンドを使用します。
```
CellCLI> ALTER CELL bbuLearnCycleTime="2013-01-22T02:00:00-08:00"
```
サイクルが終了すると、時間はデフォルト学習時間に戻ります。
次の学習サイクルの時間を確認する場合:
```
CellCLI> LIST CELL ATTRIBUTES bbuLearnCycleTime
```

バッテリのステータスを表示する場合:

# /opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -a0

BBU status for Adapter: 0
 
BatteryType: iBBU08
Voltage: 3721 mV
Current: 541 mA
Temperature: 43 C
 
BBU Firmware Status:
Charging Status : Charging
Voltage : OK
Temperature : OK
Learn Cycle Requested : No
Learn Cycle Active : No
Learn Cycle Status : OK
Learn Cycle Timeout : No
I2c Errors Detected : No
Battery Pack Missing : No
Battery Replacement required : No
Remaining Capacity Low : Yes
Periodic Learn Required : No
Transparent Learn : No
 
Battery state:
 
GasGuageStatus:
Fully Discharged : No
Fully Charged : No
Discharging : No
Initialized : No
Remaining Time Alarm : Yes
Remaining Capacity Alarm: No
Discharge Terminated : No
Over Temperature : No
Charging Terminated : No
Over Charged : No
 
Relative State of Charge: 7 %
Charger System State: 1
Charger System Ctrl: 0
Charging current: 541 mA
Absolute state of charge: 0 %
Max Error: 0 %
 
Exit Code: 0x00

12.10.7 障害が発生した物理ディスクの交換

物理ディスクの停止により、パフォーマンスの低下およびデータの冗長性が発生する場合があります。したがって、できるだけ早く障害が発生したディスクを新しいディスクに交換します。

障害発生時にディスクを交換するには、次のようにします。

障害が発生したディスクを特定します。

CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status=failed DETAIL

         name:                   28:5
         deviceId:               21
         diskType:               HardDisk
         enclosureDeviceId:      28
         errMediaCount:          0
         errOtherCount:          0
         foreignState:           false
         luns:                   0_5
         makeModel:              "SEAGATE ST360057SSUN600G"
         physicalFirmware:       0705
         physicalInterface:      sas
         physicalSerial:         A01BC2
         physicalSize:           558.9109999993816G
         slotNumber:             5
         status:                 failed

スロット番号はディスクの場所、ステータスはディスクに障害が発生したことを示します。

ディスクを取り外す前に、ディスクの青い取外しOKのLEDが点灯していることを確認してください。
ストレージ・サーバー上の物理ディスクを交換し、3分待ちます。物理ディスクはホット・プラガブルで、電源の投入時に交換できます。
ディスクがオンラインでステータスがNORMALであることを確認します。
```
CellCLI> LIST PHYSICALDISK WHERE name=28:5 ATTRIBUTES status
```
物理ディスクを交換する際、使用できるようになるには、RAIDコントローラが交換ディスクを認識する必要があります。認識はすぐに終了します。
ファームウェアが正しいことを確認します。
```
ALTER CELL VALIDATE CONFIGURATION
```
ファームウェアが更新され、論理ユニット番号(LUN)が再ビルドされたことを確認するため、ms-odl.trcファイルも参照できます。
そのスロットの前のディスクにあったグリッド・ディスクとセル・ディスクを再作成します。「データのリバランスについて」を参照してください。

関連項目:

「ストレージ・サーバーの部品」
Oracle Databaseリファレンス(V$ASM_OPERATION ビューの詳細)

12.10.8 障害のある物理ディスクの交換

ディスクがwarning - predictive failureステータスのため、物理ディスクの交換が必要な場合があります。このステータスは、物理ディスクに障害が発生する可能性があり、できるだけすぐに交換する必要があることを示します。

交換する前にドライブに障害が発生した場合は、「障害が発生した物理ディスクの交換」を参照してください。

障害発生前にディスクを交換するには、次のようにします。

障害のあるディスクを特定します。

CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status= \
        "warning - predictive failure" DETAIL

         name:                   28:3
         deviceId:               19
         diskType:               HardDisk
         enclosureDeviceId:      28
         errMediaCount:          0
         errOtherCount:          0
         foreignState:           false
         luns:                   0_3
         makeModel:              "SEAGATE ST360057SSUN600G"
         physicalFirmware:       0705
         physicalInterface:      sas
         physicalSerial:         E07L8E
         physicalSize:           558.9109999993816G
         slotNumber:             3
         status:                 warning - predictive failure

前のコマンドの出力例で、スロット番号はディスクの場所、ステータスはディスクに障害が発生する可能性があることを示します。

ディスクを取り外す前に、ディスクの青い取外しOKのLEDが点灯していることを確認してください。
影響を受けるOracle ASMディスクが削除されるまで待機します。ステータスを確認するには、Oracle ASMインスタンスでV$ASM_DISK_STATビューに問合せを行います。
注意:
最初の2つのスロットのディスクは、オペレーティング・システムおよびRecovery Applianceストレージ・サーバー・ソフトウェアを格納するシステム・ディスクです。1つのシステム・ディスクを稼働して、サーバーを作動する必要があります。

他のシステム・ディスクを交換する前に、ALTER CELL VALIDATE CONFIGURATIONにRAID mdadmエラーが表示されなくなるまで待機します。この出力は、システム・ディスクの再同期化が完了したことを示します。

関連項目:
V$ASM_DISK_STATビューの問合せの詳細は、『Oracle Databaseリファレンス』を参照してください。
ストレージ・サーバー上の物理ディスクを交換し、3分待ちます。物理ディスクはホット・プラガブルで、電源の投入時に交換できます。
ディスクがオンラインでステータスがNORMALであることを確認します。
```
CellCLI> LIST PHYSICALDISK WHERE name=28:5 ATTRIBUTES status
```
物理ディスクを交換する際、使用できるようになるには、RAIDコントローラが交換ディスクを認識する必要があります。認識はすぐに終了します。
ファームウェアが正しいことを確認します。
```
ALTER CELL VALIDATE CONFIGURATION
```
そのスロットの前のディスクにあったグリッド・ディスクとセル・ディスクを再作成します。「データのリバランスについて」を参照してください。

関連項目:

「ストレージ・サーバーの部品」
V$ASM_OPERATION ビューの詳細は、『Oracle Databaseリファレンス』を参照してください

12.10.9 パフォーマンスの低い物理ディスクの取外し

不良物理ディスクが、他の正常なディスクのパフォーマンスを低下させることがあります。問題のあるディスクはシステムから取り外す必要があります。

不良ディスクの識別後に物理ディスクを削除するには、次のようにします。

物理ドライブ・サービスLEDを点灯し、交換するドライブを識別します。
```
cellcli -e 'alter physicaldisk disk_name serviceled on'
```
前述のコマンドでdisk_nameは、20:2などの交換する物理ディスクの名前です。
不良ディスク上のすべてのグリッド・ディスクを識別して、その使用を停止するようにOracle ASMに指示します。
```
ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name
```
ディスクの青い取外しOKのLEDが点灯していることを確認してください。
V$ASM_DISK_STATビューの問合せを実行して、不良ディスクの影響を受けるOracle ASMディスクが正しく削除されたことを確認します。
不良ディスクを取り外します。
ディスクを削除すると、アラートが送信されます。
新しいディスクを使用できる場合、それをシステムに設置します。セル・ディスクおよびグリッド・ディスクが新しい物理ディスクに自動的に作成されます。
ディスクがオンラインでステータスがNORMALであることを確認します。
```
CellCLI> LIST PHYSICALDISK WHERE name=28:5 ATTRIBUTES status
```
物理ディスクを交換する際、使用できるようになるには、RAIDコントローラが交換ディスクを認識する必要があります。認識はすぐに終了します。

関連項目:

「パフォーマンスの低いディスクの検出について」

12.10.10 ストレージ・サーバーから別のストレージ・サーバーへのすべてのドライブの移動

ストレージ・サーバーから別のストレージ・サーバーへのすべてのドライブの移動が必要になることがあります。この状況になる可能性があるのは、マザーボードやOracle ILOMなどのシャーシレベルのコンポーネント障害がある場合、またはハードウェアの問題のトラブルシューティングを行う場合です。

ストレージ・サーバー間でドライブを移動するには、次のようにします。

次のディレクトリのファイルをバックアップします。
- /etc/hosts
- /etc/modprobe.conf
- /etc/sysconfig/network
- /etc/sysconfig/network-scripts
すべてのグリッド・ディスクを非アクティブにして、ストレージ・サーバーを停止します。「ストレージ・サーバーの停止」を参照してください。
別のストレージ・サーバーでグリッド・ディスクをアクティブ化する前にOracle ASMによってディスクが削除されないように、Oracle ASMのdisk_repair_time属性に大きい値が設定されていることを確認してください。
物理ディスク、フラッシュ・ディスク、ディスク・コントローラおよびUSBフラッシュ・ドライブを元のストレージ・サーバーから新しいストレージ・サーバーに移動します。
注意:
- システム・ディスクの最初の2つのディスクが同じ最初の2つのスロットにあることを確認してください。そうしないと、ストレージ・サーバーが正常に機能しません。
- フラッシュ・カードが元のストレージ・サーバーと同じPCIeスロットに設置されていることを確認してください。
新しいストレージ・サーバーの電源を投入します。サービス・プロセッサ・インタフェースを使用するか、電源ボタンを押すことができます。
サービス・プロセッサを使用して、コンソールにログインします。
次のディレクトリのファイルを確認します。バックアップから破損ファイルをリストアします。
- /etc/hosts
- /etc/modprobe.conf
- /etc/sysconfig/network
- /etc/sysconfig/network-scripts

ifconfigコマンドを使用して、eth0、eth1、eth2およびeth3の新しいMACアドレスを取得します。この例は、eth0 MACアドレス(HWaddr)が00:14:4F:CA:D9:AEであることを示しています。

# ifconfig eth0
eth0      Link encap:Ethernet  HWaddr 00:14:4F:CA:D9:AE
          inet addr:10.204.74.184  Bcast:10.204.75.255  Mask:255.255.252.0
          inet6 addr: fe80::214:4fff:feca:d9ae/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:141455 errors:0 dropped:0 overruns:0 frame:0
          TX packets:6340 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:9578692 (9.1 MiB)  TX bytes:1042156 (1017.7 KiB)
          Memory:f8c60000-f8c80000

/etc/sysconfig/network-scriptsディレクトリで、次のファイルを編集してHWADDRを手順8で返された値に変更します。

ifcfg-eth0
ifcfg-eth1
ifcfg-eth2
ifcfg-eth3

次に、編集されたifcfg-eth0ファイルの例を示します。

#### DO NOT REMOVE THESE LINES ####
#### %GENERATED BY CELL% ####
DEVICE=eth0
BOOTPROTO=static
ONBOOT=yes
IPADDR=10.204.74.184
NETMASK=255.255.252.0
NETWORK=10.204.72.0
BROADCAST=10.204.75.255
GATEWAY=10.204.72.1
HOTPLUG=no
IPV6INIT=no
HWADDR=00:14:4F:CA:D9:AE

ストレージ・サーバーを再起動します。
グリッド・ディスクをアクティブ化します。
```
CellCLI> ALTER GRIDDISK ALL ACTIVE
```
Oracle ASMディスクが削除されていなかった場合は、自動的にオンラインになって使用が開始されます。

構成を検証します。

CellCLI> ALTER CELL VALIDATE CONFIGURATION

ASRのOracle ILOMをアクティブ化します。

12.10.11 同じ物理ディスクの取外しおよび交換

誤った物理ディスクを取り外してそれを置き直した場合、Recovery ApplianceはそのディスクをOracle ASMディスク・グループに自動的に追加し直して、そのデータを再同期化します。

注意:

障害のある、または障害が発生したディスクを交換する際は、ディスク上の点灯するLEDを探します。LEDの点灯によって、不良ディスクを特定することができます。

12.10.12 拒否された物理ディスクの再有効化

Recovery Applianceは、物理ディスクが誤ったスロット内にあるとそのディスクを拒否します。

注意:

物理ディスクの再有効化では、そのディスクに格納されたすべてのデータが削除されます。

拒否された物理ディスクを再有効化するには、次のコマンドで、hard_disk_nameおよびhard_disk_idを適切な値に置き換えます。
```
CellCLI> ALTER PHYSICALDISK hard_disk_name/hard_disk_id reenable force
Physical disk hard_disk_name/hard_disk_id  was reenabled.
```

12.11 ストレージ・サーバーのフラッシュ・ディスクの保守

この項では、フラッシュ・ディスクの保守を実行する方法について説明します。内容は次のとおりです。

12.11.1 フラッシュ・ディスクについて

Recovery Applianceではストレージ・サーバー間でデータがミラー化され、少なくとも2つのストレージ・サーバーに書込み操作が送信されます。1つのストレージ・サーバーのフラッシュ・カードに問題が発生すると、Recovery Applianceでは別のストレージ・サーバーのミラー化されたデータを使用して読取りおよび書込み操作が実行されます。サービスは中断されません。

フラッシュ・カードに障害が発生すると、ストレージ・サーバー・ソフトウェアは、残存ミラーからデータを読み取り、フラッシュ・キャッシュのデータを確認します。次に、障害が発生したフラッシュ・カードのあるサーバーにデータが書き込まれます。障害の発生時、障害が発生したフラッシュ・キャッシュ内での損失データの場所がソフトウェアによって保存されます。復元では次に損失データがミラー・コピーに置き換えられます。復元中、グリッド・ディスクのステータスはACTIVE -- RESILVERING WORKINGになります。

各ストレージ・サーバーには、4枚の PCIeカードがあります。各カードに4個のフラッシュ・ディスク(FDOM)があり、合計16個のフラッシュ・ディスクが提供されます。4枚のPCIeカードは、PCIスロット番号1、2、4および5にあります。

障害が発生したフラッシュ・ディスクを確認するには、次のコマンドを使用します。

CellCLI> LIST PHYSICALDISK WHERE DISKTYPE=flashdisk AND STATUS=failed DETAIL

         name:                   FLASH_5_3
         diskType:               FlashDisk
         luns:                   5_3
         makeModel:              "Sun Flash Accelerator F40 PCIe Card"
         physicalFirmware:       TI35
         physicalInsertTime:     2012-07-13T15:40:59-07:00
         physicalSerial:         5L002X4P
         physicalSize:           93.13225793838501G
         slotNumber:             "PCI Slot: 5; FDOM: 3"
         status:                 failed

カードのnameおよびslotNumber属性は、PCIスロットおよびFDOM番号を示します。

サーバー・ソフトウェアによって障害が検出されると、フラッシュ・ディスク(およびそのディスク上のLUN)に障害が発生したことを示すアラートが生成されます。アラート・メッセージには、フラッシュ・カードのPCIスロット番号および正確なFDOM番号が含まれています。これらの番号により、フィールド交換可能ユニット(FRU)が一意に識別されます。システムのアラート通知を構成している場合は、指定したアドレスにアラートが電子メール・メッセージで送信されます。

フラッシュ・ディスクの停止により、パフォーマンスの低下およびデータの冗長性が発生する場合があります。障害が発生したディスクをできるだけ早く交換します。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、サーバーの有効なキャッシュ・サイズが縮小します。フラッシュ・ログにフラッシュ・ディスクを使用する場合、ディスクでフラッシュ・ログが無効になり、有効なフラッシュ・ログ・サイズが縮小します。グリッド・ディスクにフラッシュ・ディスクを使用する場合、FORCEオプションによって関連するOracle ASMディスクがOracle ASMディスク・グループから自動的に削除され、Oracle ASMリバランスでデータの冗長性のリストアが開始されます。

関連項目:

部品番号情報およびサービス・ガイドのリンクは、「ストレージ・サーバーの部品」を参照してください
V$ASM_OPERATION ビューの詳細は、『Oracle Databaseリファレンス』を参照してください
次のWebサイトの『Sun Flash Accelerator F80 PCIe Card User's Guide』

http://docs.oracle.com/cd/E41278_01/html/E41251/index.html

12.11.2 障害ステータス・インジケータ

次のステータス・インジケータはアラートを生成します。アラートには、フラッシュ・ディスクを交換する特定の手順が含まれます。システムのアラート通知を構成している場合は、指定したアドレスにアラートが電子メール・メッセージで送信されます。

warning - peer failure

同じSun Flash Accelerator PCIeカード上のフラッシュ・ディスクの1つに、障害が発生したか、問題があります。たとえば、FLASH5_3に障害が発生すると、FLASH5_0、FLASH5_1およびFLASH5_2がpeer failureステータスになります。

CellCLI> LIST PHYSICALDISK
         36:0            L45F3A          normal
         36:1            L45WAE          normal
         36:2            L45WQW          normal
          .
          .
          .
         FLASH_5_0       5L0034XM        warning - peer failure
         FLASH_5_1       5L0034JE        warning - peer failure
         FLASH_5_2       5L002WJH        warning - peer failure
         FLASH_5_3       5L002X4P        failed

warning - predictive failure

フラッシュ・ディスクに障害が発生する可能性があり、できるだけすぐに交換する必要があります。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、引き続きフラッシュ・キャッシュとして使用されます。グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクに関連するOracle ASMディスクが自動的に削除され、Oracle ASMリバランスで障害が発生する可能性のあるディスクから他のディスクにデータが移動されます。

1つのフラッシュ・ディスクがpredictive failureステータスになると、データがコピーされます。ライトバック・フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、フラッシュ・ディスクからグリッド・ディスクにデータがフラッシュされます。

warning - poor performance

フラッシュ・ディスクが極端に低いパフォーマンスを示しており、できるだけすぐに交換する必要があります。フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、このディスクからフラッシュ・キャッシュが削除され、ストレージ・サーバーの有効なフラッシュ・キャッシュ・サイズが縮小します。グリッド・ディスクにフラッシュ・ディスクを使用する場合、このフラッシュ・ディスクのグリッド・ディスクに関連するOracle ASMディスクがFORCEオプションによって可能な場合に自動的に削除されます。オフライン・パートナのためにDROP...FORCEが失敗した場合、通常グリッド・ディスクが削除され、Oracle ASMリバランスでパフォーマンスの低いディスクから他のディスクにデータが移動されます。

warning - write-through caching

PCIeカードでデータ・キャッシュのサポートに使用されるキャパシタに障害が発生しており、カードをできるだけすぐに交換する必要があります。

12.11.3 状態の悪いフラッシュ・ディスクの識別

特定の状態ステータスのフラッシュ・ディスクを識別するには、LIST PHYSICALDISKコマンドを使用します。この例では、warning - predictive failureステータスの問合せが行われます。

CellCLI> LIST PHYSICALDISK WHERE DISKTYPE=flashdisk AND STATUS=  \
'warning - predictive failure' DETAIL


         name:                   FLASH_5_3
         diskType:               FlashDisk
         luns:                   5_3
         makeModel:              "Sun Flash Accelerator F40 PCIe Card"
         physicalFirmware:       TI35
         physicalInsertTime:     2012-07-13T15:40:59-07:00
         physicalSerial:         5L002X4P
         physicalSize:           93.13225793838501G
         slotNumber:             "PCI Slot: 1; FDOM: 2"
         status:                 warning - predictive failure

12.11.4 パフォーマンスの低いフラッシュ・ディスクの識別

ディスク・ステータスの変更はサーバー・アラート履歴に記録されます。

MESSAGE ID date_time info "Hard disk entered confinement status. The LUN
 n_m changed status to warning - confinedOnline. CellDisk changed status to normal
 - confinedOnline. Status: WARNING - CONFINEDONLINE  Manufacturer: name  Model
 Number: model  Size: size  Serial Number: serial_number  Firmware: fw_release 
 Slot Number: m  Cell Disk: cell_disk_name  Grid Disk: grid disk 1, grid disk 2
 ... Reason for confinement: threshold for service time exceeded"

次のメッセージがストレージ・セルのアラート・ログに入力されます。

CDHS: Mark cd health state change cell_disk_name  with newState HEALTH_BAD_
ONLINE pending HEALTH_BAD_ONLINE ongoing INVALID cur HEALTH_GOOD
Celldisk entering CONFINE ACTIVE state with cause CD_PERF_SLOW_ABS activeForced: 0
inactiveForced: 0 trigger HistoryFail: 0, forceTestOutcome: 0 testFail: 0
global conf related state: numHDsConf: 1 numFDsConf: 0 numHDsHung: 0 numFDsHung: 0
     .
     .
     .

12.11.5 障害のあるフラッシュ・ディスクの安全な交換時期

サーバー・ソフトウェアがライト・バック・フラッシュ・キャッシュに使用されるフラッシュ・ディスクで予測障害またはピア障害を検出し、1つのFDOMだけに問題がある場合、サーバー・ソフトウェアは不良FDOMでデータを復元し、他の3つのFDOMでデータをフラッシュします。有効なグリッド・ディスクがある場合は、サーバー・ソフトウェアはディスクのOracle ASMリバランスを開始します。タスクが完了し、ディスクの準備完了がアラートで示されるまで、不良ディスクを交換することはできません。

Oracle ASMディスクが削除されている場合は、アラートが送信され、フラッシュ・ディスクを安全に交換できます。フラッシュ・ディスクをライトバック・フラッシュ・キャッシュに使用する場合、フラッシュ・ディスクによってキャッシュされるグリッド・ディスクがなくなるまで待機します。

12.11.6 障害が発生したフラッシュ・ディスクの交換

注意:

PCIeカードはホット・プラガブルではないため、フラッシュ・ディスクまたはカードを交換する前にストレージ・サーバーの電源を切断する必要があります。

障害が発生したフラッシュ・ディスクを交換するには、次のようにします。

サーバーを停止します。
関連項目:
「ストレージ・サーバーの停止」
障害が発生したフラッシュ・ディスクを交換します。PCI番号およびFDOM番号を使用して、障害が発生したディスクを特定します。白色のセルLEDが点灯し、影響を受けているサーバーを特定できます。
サーバーの電源を投入します。サービスは自動的に開始されます。サーバーの起動の一環として、Oracle ASMですべてのグリッド・ディスクが自動的にオンラインになります。
すべてのグリッド・ディスクがオンラインであることを確認します。
```
CellCLI> LIST GRIDDISK ATTRIBUTES name, asmmodestatus
```
すべてのグリッド・ディスクのasmmodestatusがONLINEまたはUNUSEDになるまで待機します。

関連項目:

部品番号およびサービス・ガイドのリンクは、「ストレージ・サーバーの部品」を参照してください
V$ASM_OPERATION ビューの詳細は、『Oracle Databaseリファレンス』を参照してください
次のWebサイトの『Sun Flash Accelerator F80 PCIe Card User's Guide』

http://docs.oracle.com/cd/E41278_01/html/E41251/index.html

12.11.7 障害のあるフラッシュ・ディスクの交換

注意:

障害のあるフラッシュ・ディスクを交換するには、次のようにします。

すべてのグリッド・ディスクのcachedBy属性をチェックするには、次のコマンドを使用します。
```
CellCLI> LIST GRIDDISK ATTRIBUTES name, cachedBy
```
フラッシュ・ディスクのセル・ディスクは、グリッド・ディスクのcachedBy属性には表示されません。フラッシュ・ディスクをグリッド・ディスクとフラッシュ・キャッシュの両方に使用する場合は、アラートを受信し、セル・ディスクがグリッド・ディスクのcachedBy属性に表示されなくなるまで待機します。「障害のあるフラッシュ・ディスクの安全な交換時期」を参照してください。
すべてのサービスを停止します。
```
CellCLI> ALTER CELL SHUTDOWN SERVICES ALL
```
前述のコマンドでは、オフラインのディスクがないか、predictive failureステータスのディスクがないか、またはミラーにコピーする必要があるディスクがないかをチェックします。Oracle ASM冗長性が損なわれていない場合は、コマンドによりOracle ASMでグリッド・ディスクがオフラインに変更され、サービスが停止されます。

次のエラーは、サービスの停止によってディスク・グループが強制的にマウント解除されるために、サービスの停止が安全でない可能性を示しています。
```
Stopping the RS, CELLSRV, and MS services...
The SHUTDOWN of ALL services was not successful.
CELL-01548: Unable to shut down CELLSRV because disk group DATA, RECO may be
forced to dismount due to reduced redundancy.
Getting the state of CELLSRV services... running
Getting the state of MS services... running
Getting the state of RS services... running
```
このエラーが発生した場合は、Oracle ASMディスク・グループの冗長性をリストアし、すべてのディスクのディスク・ステータスが正常になってからコマンドを再試行してください。
サーバーを停止します。
関連項目:
「ストレージ・サーバーの停止」
障害が発生したフラッシュ・ディスクを交換します。PCI番号およびFDOM番号を使用して、障害が発生したディスクを特定します。白色のセルLEDが点灯し、影響を受けているサーバーを特定できます。
サーバーの電源を投入します。サービスは自動的に開始されます。サーバーの起動の一環として、Oracle ASMですべてのグリッド・ディスクが自動的にオンラインになります。
すべてのグリッド・ディスクがオンラインであることを確認します。
```
CellCLI> LIST GRIDDISK ATTRIBUTES name, asmmodestatus
```
すべてのグリッド・ディスクのasmmodestatusがONLINEまたはUNUSEDになるまで待機します。

次のように、新しいフラッシュ・ディスクがシステムによって自動的に使用されます。

フラッシュ・キャッシュにフラッシュ・ディスクを使用する場合、有効なキャッシュ・サイズが拡張します。
グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクが新しいフラッシュ・ディスクに再作成されます。
グリッド・ディスクがOracle ASMディスク・グループの一部だった場合は、ディスクはディスク・グループに追加し直されます。ディスク・グループの冗長性およびASM_POWER_LIMITパラメータに基づいて、データがそこでリバランスされます。

12.11.8 パフォーマンスの低いフラッシュ・ディスクの取外し

1つの不良フラッシュ・ディスクが、他の正常なフラッシュ・ディスクのパフォーマンスを低下させることがあります。問題のあるフラッシュ・ディスクは取り外す必要があります。「パフォーマンスの低いフラッシュ・ディスクの識別」を参照してください。

パフォーマンスの低いフラッシュ・ドライブを取り外すには、次のようにします。

フラッシュ・ディスクがフラッシュ・キャッシュに使用される場合:
1. ディスクと同期されていないデータ(ダーティ・データ)が、フラッシュ・キャッシュからグリッド・ディスクにフラッシュされるようにします。
```
CellCLI> ALTER FLASHCACHE ... FLUSH
```
2. フラッシュ・キャッシュを無効化して、新しいフラッシュ・キャッシュを作成します。フラッシュ・キャッシュを作成する場合、不良フラッシュ・ディスクを使用しないでください。
```
CellCLI > DROP FLASHCACHE
CellCLI > CREATE FLASHCACHE CELLDISK='fd1,fd2,fd3,fd4, ...' 
```
グリッド・ディスクにフラッシュ・ディスクを使用する場合、不良ディスクの使用をすぐに停止するようOracle ASMに指示します。
```
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name FORCE 
```
オフライン・パートナによって、FORCEオプションを使用したDROPコマンドが失敗する可能性があります。前述のコマンドが失敗した場合、次のいずれかを実行してください。
- 他のサーバーまたはディスクの障害を修正して、Oracle ASMデータ冗長性をリストアします。その後、DROP...FORCEコマンドを再試行してください。
- データを不良ディスクからリバランスするようにOracle ASMに指示します。
```
SQL> ALTER DISKGROUP diskgroup_name DROP DISK asm_disk_name  NOFORCE
```
不良フラッシュ・ディスクに関連するOracle ASMディスクが正しく削除されるまで待機します。フラッシュ・ディスクを安全に交換できるようになると、ストレージ・サーバー・ソフトウェアによって自動的にアラートが送信されます。
サービスを停止します。
```
CellCLI> ALTER CELL SHUTDOWN SERVICES ALL
```
前述のコマンドでは、オフラインのディスクがないか、predictive failureステータスのディスクがないか、またはミラーにコピーする必要があるディスクがないかをチェックします。Oracle ASM冗長性が損なわれていない場合は、コマンドによりOracle ASMでグリッド・ディスクがオフラインに変更され、サービスが停止されます。

次のエラーは、サービスの停止によって冗長性の問題が引き起こされ、ディスク・グループが強制的にマウント解除される可能性を示しています。
```
Stopping the RS, CELLSRV, and MS services...
The SHUTDOWN of ALL services was not successful.
CELL-01548: Unable to shut down CELLSRV because disk group DATA, RECO may be
forced to dismount due to reduced redundancy.
Getting the state of CELLSRV services... running
Getting the state of MS services... running
Getting the state of RS services... running
```
このエラーが発生した場合は、Oracle ASMディスク・グループの冗長性がリストアされます。すべてのディスクのステータスが正常のときはコマンドを再試行します。
サーバーを停止します。

関連項目:
「ストレージ・サーバーの停止」
不良フラッシュ・ディスクを取り外して、新しいフラッシュ・ディスクと交換します。
サーバーの電源を投入します。サービスが自動的に開始されます。サーバーの起動の一環として、Oracle ASMですべてのグリッド・ディスクが自動的にオンラインになります。
新規フラッシュ・ディスクをフラッシュ・キャッシュに追加します。
```
CellCLI> DROP FLASHCACHE
CellCLI> CREATE FLASHCACHE ALL
```
すべてのグリッド・ディスクがオンラインであることを確認します。
```
CellCLI> LIST GRIDDISK ATTRIBUTES asmmodestatus
```
すべてのグリッド・ディスクのasmmodestatusがONLINEまたはUNUSEDになるまで待機します。

次のようにフラッシュ・ディスクが追加されます。

グリッド・ディスクにフラッシュ・ディスクを使用する場合、グリッド・ディスクが新しいフラッシュ・ディスクに再作成されます。
これらのグリッド・ディスクがOracle ASMディスク・グループの一部であり、DROP...FORCEを手順2で使用した場合、ディスク・グループの冗長性およびASM_POWER_LIMITパラメータに基づいて、ディスクがディスク・グループに追加し直され、データがリバランスされます。
手順2でDROP...NOFORCEが使用された場合、グリッド・ディスクをOracle ASMディスク・グループに手動で追加し直す必要があります。

12.11.9 ライトバック・フラッシュ・キャッシュの概要

Recovery Applianceでライトバック・フラッシュ・キャッシュの設定を変更することはできません。

12.12 ディスク・コントローラ・バッテリ・バックアップ・ユニットの交換

ディスク・コントローラ・バッテリ・バックアップ・ユニット(ディスク・コントローラBBU)は、計算サーバーおよびストレージ・サーバーのドライブ・トレイにあります。ディスク・コントローラBBUを停止時間なしで交換できます。次の手順では、ディスク・コントローラBBUを交換する方法について説明します。

注意:

この項の手順は、コントローラに内蔵のバッテリ・バックアップ・ユニットには適用されません。これらのユニットを交換する場合は、システムを開いてコントローラ・カードにアクセスするため、システムを停止する必要があります。

12.12.1 計算サーバーのディスク・コントローラBBUの交換

次の手順では、計算サーバーのディスク・コントローラBBUを交換する方法について説明します。

交換対象のディスク・コントローラBBUを削除します。

# /opt/oracle.cellos/compmon/exadata_mon_hw_asr.pl -drop_bbu_for_replacement

交換対象のディスク・コントローラBBUが削除されたことを確認します。

# /opt/oracle.cellos/compmon/exadata_mon_hw_asr.pl -list_bbu_status

BBU status: dropped for replacement.

ドライブ・キャディの固定を解除し、トレイをゆっくり引き出して、交換用のトレイをスロットの中にスライドさせることによって、ディスク・コントローラBBUを交換します。ディスク・コントローラBBUはスロット7にあります。
新しいディスク・コントローラBBUが検出されることを確認します。これは数分かかる場合があります。
```
# /opt/oracle.cellos/compmon/exadata_mon_hw_asr.pl -list_bbu_status

BBU status: present
```
現在の論理ディスク・ドライブのキャッシュ・ポリシーでwritebackモードが使用されていることを確認します。
```
# /opt/MegaRAID/MegaCli/MegaCli64 -ldinfo -lall -a0 | egrep         \
'Default Cache|Current Cache'
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if
Bad BBU
Current Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if
Bad BBU
```
キャッシュ・ポリシーがwritebackになっていない場合は、手順6に進みます。そうでない場合は、手順7に進みます。
バッテリ状態がOperationalであることを確認します。この手順は、手順5のキャッシュ・ポリシー出力がwritebackでない場合にのみ必要です。
```
# /opt/MegaRAID/MegaCli/MegaCli64 -adpbbucmd -getbbustatus -a0|grep Battery 
BatteryType: iBBU08
Battery State : Operational
Battery Pack Missing : No
Battery Replacement required : No 
```
バッテリ状態がOperationalでない場合は、問題を調査して修正してください。
My Oracle Support Doc ID 1274318.1の説明に従って、バッテリ・チェックを実行します。このチェックによって予期しない結果が返された場合は、ノートで追加情報および指示を確認してください。
(オプション) exachkツールを使用してシステムの状態を検証します。My Oracle Support Doc ID 1070954.1を参照してください。

12.12.2 ストレージ・サーバーのディスク・コントローラBBUの交換

ストレージ・サーバーのディスク・コントローラBBUを交換するには、次のようにします。

次のコマンドを使用して、交換対象のディスク・コントローラBBUを削除します。
```
# cellcli -e alter cell bbu drop for replacement
```
次のコマンドを使用して、交換対象のディスク・コントローラBBUが削除されたことを確認します。
```
# cellcli -e list cell attributes bbustatus

BBU status: dropped for replacement.
```
ドライブ・キャディの固定を解除し、トレイをゆっくり引き出して、交換用のトレイをスロットの中にスライドさせることによって、ディスク・コントローラBBUを交換します。ディスク・コントローラBBUは、サーバーの後部スロット1にあります。
ディスク・コントローラBBUのバッテリ状態がOperationalであることを確認します。
```
# cellcli -e list cell attributes bbustatus

BBU status: normal
```
My Oracle Support Doc ID 1274318.1の説明に従って、バッテリ・チェックを実行します。このチェックによって予期しない結果が返された場合は、ノートで追加情報および指示を確認してください。
(オプション) exachkツールを使用してシステムの状態を検証します。このツールはMy Oracle Support Doc ID 1070954.1から入手できます。

12.13 ストレージ・サーバーのレスキュー手順の使用

各ストレージ・サーバーはソフトウェアのコピーをUSBスティックに保管します。システム構成が変更されるときは常にサーバーがUSBスティックを更新します。このUSBスティックは、ハードウェア交換またはソフトウェア障害の後のサーバーのリカバリに使用できます。システムをリストアするのは、システム・ディスクに障害が発生した場合、オペレーティング・システムに破損ファイル・システムがある場合、または起動エリアがダメージを負っている場合です。ディスク、カード、CPU、メモリーなどを交換して、サーバーをリカバリすることができます。USBスティックを別のサーバーに挿入すると、そのサーバーで古いサーバーが複製されます。

1つのシステム・ディスクのみで障害が発生した場合、リカバリにCellCLIコマンドを使用します。両方のシステム・ディスクで同時に障害が発生するまれな事例の場合、ストレージ・サーバーの CELLBOOT USBフラッシュ・ドライブで提供されるレスキュー機能を使用します。

この項の内容は次のとおりです。

12.13.1 ストレージ・サーバーのレスキュー前の最初の手順

ストレージ・サーバーのレスキュー前に、そのサーバーに格納されているデータを保護するための手順を踏む必要があります。この手順は、システムが通常の冗長性または高い冗長性のどちらで設定されているかによって異なります。

12.13.1.1 サーバーに通常の冗長性がある場合

通常の冗長性を使用している場合、サーバーにあるミラー・コピーは1つです。レスキュー手順の実行中にこのミラーでも障害が発生すると、リカバリできないデータの損失が発生する可能性があります。

ミラー・コピーの複製を作成することをお薦めします。

ミラー・コピーのデータの完全なバックアップを作成します。
ただちにミラー・コピー・サーバーをオフラインにします。これによって、レスキューを始める前の新たなデータの変更を防ぎます。

この手順により、レスキュー・プロセス中は、障害が発生したサーバーのグリッド・ディスクのすべてのデータおよびそのミラー・コピーにアクセスできなくなります。

Oracle ASMディスク修復タイマーのデフォルトの修復時間は、3.6時間です。この時間内にレスキュー手順を実行できないことがわかった場合、レスキュー手順を実行できるまで、Oracle ASMリバランス手順を使用してディスクをリバランスします。

関連項目:

タイマーのリセットの詳細は、『Oracle Exadata Storage Server Softwareユーザーズ・ガイド』を参照してください。

12.13.1.2 サーバーに高い冗長性がある場合

サーバーに高い冗長性のディスク・グループがあり、障害が発生したサーバーのすべてのグリッド・ディスクに対する複数のミラー・コピーがOracle ASMにあるような場合は、障害が発生したセルをオフラインにします。Oracle ASMのタイムアウト時間が過ぎると、破損したサーバーのグリッド・ディスクが自動的に削除され、ミラー・コピーを使用してデータのリバランスが開始されます。

デフォルトのタイムアウトは、2時間です。サーバーのレスキューに2時間以上かかる場合、Oracle ASMのレスキュー・セルのグリッド・ディスクを再作成する必要があります。

12.13.2 レスキュー手順について

レスキュー手順を使用する前に、次の点に注意してください。

レスキュー手順により、セルの一部またはすべてのディスクが書き換えられる可能性があります。この場合、リカバリできずにそれらのディスクのすべての内容を失うおそれがあります。レスキューを開始する前に、必ず適切な事前作業を済ませておいてください。「サーバーに通常の冗長性がある場合」または「サーバーに高い冗長性がある場合」を参照してください。
この手順を使用する場合は十分に注意し、プロンプトを確認してください。一部またはすべてのディスクのデータを損失してもかまわない場合にOracleサポート・サービスの支援だけでレスキュー手順を使用することが理想的です。
レスキュー手順の実行中に明示的に選択しないかぎり、レスキュー手順により、データ・ディスクの内容またはシステム・ディスクのデータ・パーティションの内容は破棄されません。
レスキュー手順は、最後の正常な起動中にサーバー上に存在したパッチを含めて、ストレージ・サーバー・ソフトウェアを同じリリースにリストアします。
レスキュー手順は次の構成設定をリストアしません。
- アラート構成、SMTP情報、管理者の電子メール・アドレスなどのサーバー構成
- ILOM構成。ただし、サーバー・ソフトウェアに障害が発生してもILOM構成は一般的に損われません。
リカバリ手順は次の構成設定をリストアします。
- 最後に /usr/local/bin/ipconfユーティリティの実行が成功したときに存在したネットワーク構成
- サーバーのSSHアイデンティティ
- root、celladminおよびcellmonitorユーザー
  
  関連項目:
  ALTER CELLコマンドの詳細は、Oracle Exadata Storage Server Softwareユーザーズ・ガイドを参照してください。
レスキュー手順により、データ・ディスクまたはシステム・ディスクのデータ・パーティションの確認または再構築は行われません。グリッド・ディスクにデータの破損がある場合、このレスキュー手順は使用しないでください。かわりに、Oracle DatabaseおよびOracle ASMのレスキュー手順を使用してください。

レスキューが正常に完了したら、サーバーを再構成する必要があります。データを保存する場合は、セル・ディスクをインポートします。それ以外の場合は、新規のセル・ディスクおよびグリッド・ディスクを作成します。

関連項目:

CellCLIユーティリティを使用したセル、セル・ディスクおよびグリッド・ディスクの構成の詳細は、Oracle Exadata Storage Server Softwareユーザーズ・ガイドを参照してください

12.13.3 CELLBOOT USBフラッシュ・ドライブを使用したサーバーのレスキュー

注意:

データを損失しないように注意して、レスキュー手順に従います。

CELLBOOT USBフラッシュ・ドライブを使用してサーバーをレスキューするには、次のようにします。

レスキューされるサーバーのOracle ILOMサービス・プロセッサ(SP)に接続します。HTTPSまたはSSHを使用できます。
サーバーを起動します。スプラッシュ画面が表示されたらすぐに、キーボードの任意のキーを押します。スプラッシュ画面の表示は、5秒間のみです。
ブート・オプションの表示リストで、最後のオプションのCELL_USB_BOOT_CELLBOOT_usb_in_rescue_modeを選択し、[Enter]を押します。
レスキュー・オプションを選択して、レスキュー手順に進みます。
レスキューの第一フェーズの最後で、シェルに入るオプションを選択します。システムを再起動しないでください
レスキューのrootパスワードを使用してシェルにログインします。
シェルからrebootコマンドを使用します。
サーバーが再起動したら、スプラッシュ画面が表示される前に[F8]を押します。F8キーを押すと、起動デバイス選択メニューが開きます。
起動デバイスとしてRAIDコントローラを選択します。これにより、サーバーがハード・ディスクからブートされるようになります。

注意:

機能が制限されたレスキュー・モードのLinuxログイン・シェルを入力できる追加オプションを使用できる場合があります。Oracleサポート・サービスから提供されたパスワードを使用してrootユーザーとしてシェルにログインして、サーバーの追加診断および修復を手動で実行できます。詳細は、Oracleサポート・サービスの担当者に連絡してください。

12.13.4 レスキューされたストレージ・サーバーの再構成

レスキューが成功した後、サーバーを構成する必要があります。データ・パーティションを維持した場合は、レスキュー手順の実行時にセル・ディスクが自動的にインポートされます。

交換したサーバーについては、セル・ディスクおよびグリッド・ディスクを再作成します。
Oracle ASMインスタンスにログインし、次のコマンドを使用して各ディスク・グループのディスクをONLINEに設定します。
```
SQL> ALTER DISKGROUP disk_group_name ONLINE DISKS IN FAILGROUP \
cell_name WAIT; 
```

ALTER CELLコマンドを使用して、セルを再構成します。次に、最も一般的なパラメータの例を示します。

CellCLI> ALTER CELL
smtpServer='my_mail.example.com', -
smtpFromAddr='john.doe@example.com', -
smtpFromPwd=email_address_password, -
smtpToAddr='jane.smith@example.com', -
notificationPolicy='critical,warning,clear', -
notificationMethod='mail,snmp'

I/Oリソース管理(IORM)プランを再作成します。
メトリックしきい値を再作成します。

関連項目:

IORMプランおよびメトリックしきい値の詳細は、『Oracle Exadata Storage Server Softwareユーザーズ・ガイド』を参照してください

12.13.5 損傷したCELLBOOT USBフラッシュ・ドライブの再作成

CELLBOOT USBフラッシュ・ドライブの紛失または損傷が発生した場合、新しいドライブを作成できます。

CELLBOOTフラッシュ・ドライブを作成するには、次のようにします。

rootユーザーとして、サーバーにログインします。
1GBから8GBの容量の新しいUSBフラッシュ・ドライブを取り付けます。
システムから他のUSBフラッシュ・ドライブを取り外します。
ディレクトリを変更します。
```
cd /opt/oracle.SupportTools
```
サーバー・ソフトウェアをフラッシュ・ドライブにコピーします。
```
./make_cellboot_usb -verbose -force
```