Sun Cluster Data Service for Oracle Parallel Server/Real Application Clusters ガイド (Solaris OS 版)

よくある問題と解決方法

Sun Cluster Support for Oracle Parallel Server/Real Application Clusters に影響する問題を以下に説明します。以下の各項では、問題の原因と解決方法について説明しています。

Sun Cluster Support for Oracle Parallel Server/Real Application Clusters の初期化中のノードパニック

Sun Cluster Support for Oracle Parallel Server/Real Application Clusters の初期化中に重大な問題が起きた場合、次のようなエラーメッセージと共にノードパニックが発生します。

panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago

問題の原因を突き止めるには、システムメッセージファイルを調べてください。この問題の最も一般的な原因は以下のとおりです。

VERITAS Volume Manager (VxVM) のライセンスがないか、または失効している。
Oracle UDLM を含む ORCLudlm パッケージがインストールされていない。
共有メモリの容量不足のため Oracle UDLM を起動できない。
Oracle UDLM のバージョンが Sun Cluster Support for Oracle Parallel Server/Real Application Clusters のバージョンと互換性がない。
再構成ステップがタイムアウトした。

この問題を解決するには、問題の原因の適切な回復手順を実行して、パニックを起こしたノードをリブートしてください。

タイムアウトによるノードパニック

Sun Cluster Support for Oracle Parallel Server/Real Application Clusters の再構成時にステップのタイムアウトが原因でタイムアウトが発生したノードでパニックが起きます。

再構成ステップのタイムアウトを防ぐには、使用するクラスタ構成に基づいてタイムアウト値を調整してください。詳細は、タイムアウト設定のガイドラインを参照してください。

再構成ステップがタイムアウトする場合は、scrgadm ユーティリティを使って、ステップのタイムアウトを指定する拡張プロパティの値を増やしてください。詳細は、付録 A 「Sun Cluster Support for Oracle Parallel Server/Real Application Clusters 拡張プロパティ」を参照してください。

拡張プロパティの値を増やした後、パニックを起こしたノードをリブートします。

`ucmmd` デーモンの起動失敗

UCMM デーモン、 ucmmd は、Sun Cluster Support for Oracle Parallel Server/Real Application Clusters の再構成を管理します。クラスタをブートまたはリブートするとき、このデーモンは、Sun Cluster Support for Oracle Parallel Server/Real Application Clusters のすべてのコンポーネントが検証された後にだけ起動されます。ノード上のコンポーネントの検証が失敗した場合、 ucmmd はそのノード上で起動に失敗します。

問題の原因を突き止めるには、以下のファイルを調べてください。

UCMM 再構成ログファイル /var/cluster/ucmm/ucmm_reconf.log
システムメッセージファイル

この問題の最も一般的な原因は以下のとおりです。

Oracle UDLM を含む ORCLudlm パッケージがインストールされていない。
Sun Cluster Support for Oracle Parallel Server/Real Application Clusters のコンポーネントを以前に再構成したときにエラーが発生した。
Sun Cluster Support for Oracle Parallel Server/Real Application Clusters の以前の再構成のステップがタイムアウトして、タイムアウトが起きたノードがパニックを起こした。

この問題を解決するには、問題の原因の適切な回復手順を実行して、ucmmd の起動に失敗したノードをリブートしてください。

`SUNW.rac_framework` リソースの起動失敗

SUNW.rac_framework リソースが起動に失敗する場合は、障害の原因を調べるためにリソースの状態を確認してください。詳細は、 Sun Cluster Support for Oracle Parallel Server/Real Application Clusters の状態を確認するを参照してください。

起動に失敗したリソースの状態は、 Start failed と表示されています。起動失敗の原因を示す関連状態メッセージは、次のとおりです。

Faulted - ucmmd is not running

リソースがあるノード上でucmmd デーモンが実行されていません。この問題の解決方法については、ucmmd デーモンの起動失敗を参照してください。

Degraded - reconfiguration in progress

Sun Cluster Support for Oracle Parallel Server/Real Application Clusters の 1 つまたは複数のコンポーネントでエラーが起きました。

設定エラーの原因を突き止めるには、以下のファイルを調べてください。

UCMM 再構成ログファイル /var/cluster/ucmm/ucmm_reconf.log
システムメッセージファイル

構成エラーの原因を示すエラーメッセージの詳細については、『 Sun Cluster Error Messages Guide for Solaris OS』を参照してください。

この問題を解決するには、問題を引き起こした設定エラーを修正します。次にエラーの起きたコンポーネントのあるノードをリブートします。

Online

SUNW.rac_framework リソースの START メソッドがタイムアウトするまで Oracle Parallel Server/Real Application Clusters の再構成は完了しませんでした。

この問題を修正する方法については、START メソッドのタイムアウトから回復するを参照してください。

`START` メソッドのタイムアウトから回復する

スーパーユーザーになります。

START メソッドがタイムアウトしたノード上で、RAC フレームワークリソースグループをオフラインにします。
# scswitch -z -g resource-group -h nodelist
-g resource-group

RAC フレームワークリソースグループの名前を指定します。このリソースグループが scsetup ユーティリティを使って作成された場合、リソースグループの名前は、rac-framework-rg です。

-h nodelist

resource-group がオンラインになっている他のクラスタノードのコンマで区切ったリストを指定します。

Sun Cluster Support for Oracle Parallel Server/Real Application Clusters を実行できるすべてのクラスタノード上で、RAC フレームワーククラスタグループをオンラインにします。
# scswitch -Z -g resource-group
-Z

リソースとモニターを使用可能にし、リソースグループを 管理 状態にし、オンラインにします。

-g resource-group

手順 2 でオフラインにしたリソースグループが管理状態に移行し、オンラインになるように指定します。

リソースの停止失敗

リソースの停止に失敗した場合、『Sun Cluster データサービスの計画と管理 (Solaris OS 版)』の「リソース上の STOP_FAILED エラーフラグのクリア」の説明にしたがって問題を修正してください。