Oracle RAC のサポートフレームワークリソースグループの障害

言語:

このセクションでは、Oracle RAC のサポートフレームワークリソースグループに影響を与える可能性がある問題について説明します。

Oracle RAC のサポートの初期化中のノードパニック

Oracle RAC のサポートの初期化中に致命的な問題が発生した場合は、次のエラーメッセージと同様のエラーメッセージとともにノードでパニックが発生します。

panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago

説明: 再構成中に、UCMM が制御するコンポーネントが UCMM にエラーを返しました。

Cause: この問題のもっとも一般的な原因は次のとおりです。再構成の手順がタイムアウトしたために、Oracle RAC のサポートの初期化中にノードでパニックが発生する場合もあります。詳細は、タイムアウトによって発生するノードパニックを参照してください。

解決策: この問題を修正する手順については、ucmmd デーモンまたは関連コンポーネントの障害から回復する方法を参照してください。

注 - ノードがグローバルクラスタのグローバルクラスタノードである場合は、ノードパニックによってマシン全体が停止します。ノードがゾーンクラスタノードである場合は、ノードパニックによってその特定のゾーンだけが停止し、ほかのゾーンは影響を受けません。

`ucmmd` デーモンの開始の失敗

UCMM デーモン ucmmd は、Support for Oracle RAC の再構成を管理します。クラスタがブートまたはリブートされると、このデーモンは Oracle RAC のサポートのすべてのコンポーネントが検証されてから開始されます。ノード上のコンポーネントの検証に失敗すると、そのノード上では ucmmd デーモンが開始されません。

この問題のもっとも一般的な原因は次のとおりです。

Support for Oracle RAC のコンポーネントの以前の再構成中にエラーが発生した。
Oracle RAC のサポートの以前の再構成に含まれる手順がタイムアウトしたため、タイムアウトが発生したノードでパニックが発生した。

この問題を修正する手順については、ucmmd デーモンまたは関連コンポーネントの障害から回復する方法を参照してください。

`ucmmd` デーモンまたは関連コンポーネントの障害から回復する方法

次のセクションで説明する問題を修正するには、このタスクを実行します。

Oracle RAC のサポートの初期化中のノードパニック
ucmmd デーモンの開始の失敗

問題の原因を判定するため、UCMM 再構成のログファイルとシステムメッセージファイルを調べます。
UCMM 再構成のログファイルの場所については、診断情報のソースを参照してください。

これらのファイルを調べるときは、最新のメッセージから始めて、問題の原因が特定されるまで過去にさかのぼります。

再構成エラーの原因を示している可能性のあるエラーメッセージの詳細は、Oracle Solaris Cluster のエラーメッセージに関するガイドを参照してください。
コンポーネントが UCMM にエラーを返す原因となった問題を修正します。
例:
- 再構成の手順がタイムアウトした場合は、その手順のタイムアウトを指定する拡張プロパティーの値を増やします。
  詳細は、タイムアウトによって発生するノードパニックを参照してください。

問題の解決方法でリブートが必要な場合は、問題が発生したノードをリブートします。
特定の問題の解決方法でのみ、リブートが必要です。たとえば、共有メモリーの量を増やす場合は、リブートが必要です。しかし、手順のタイムアウトの値を増やす場合は、リブートは必要ありません。

ノードをリブートする方法の詳細は、Oracle Solaris Cluster 4.3 システム管理 のクラスタ内の 1 つのノードの停止とブートを参照してください。
問題が発生したノード上で、Oracle RAC のサポートフレームワークリソースグループをオフラインにしてからオンラインにします。
この手順により、構成変更を加えたリソースグループがリフレッシュされます。
1. root 役割になるか、RBAC 承認 solaris.cluster.admin を提供する役割になります。
2. Oracle RAC のサポートフレームワークリソースグループとそのリソースをオフラインにするコマンドを入力します。
```
# clresourcegroup offline -n node rac-fmwk-rg
```
  –n node
  
  問題が発生したノードのノード名とノード識別子 (ID) を指定します。
  
  rac-fmwk-rg
  
  オフラインにするリソースグループの名前を指定します。
3. Oracle RAC のサポートフレームワークリソースグループとそのリソースをオンラインおよび管理状態にするコマンドを入力します。
```
# clresourcegroup online -eM -n node rac-fmwk-rg
```