Sun Cluster Data Service for Oracle Real Application Clusters ガイド (Solaris OS 版)

よくある問題と解決方法

Sun Cluster Support for Oracle Real Application Clusters に影響する問題を以下に説明します。以下の各項では、問題の原因と解決方法について説明しています。

Sun Cluster Support for Oracle Real Application Clusters の初期化中のノードパニック

Sun Cluster Support for Oracle Real Application Clusters の初期化中に重大な問題が起きた場合、次のようなエラーメッセージと共にノードパニックが発生します。


panic[cpu0]/thread=40037e60: Failfast: Aborting because "ucmmd" died 30 seconds ago

問題の原因を突き止めるには、システムメッセージファイルを調べてください。この問題の最も一般的な原因は以下のとおりです。

  • VERITAS Volume Manager (VxVM) のライセンスがないか、または失効している。

  • Oracle UDLM を含む ORCLudlm パッケージがインストールされていない。

  • 共有メモリの容量不足のため Oracle UDLM を起動できない。

  • Oracle UDLM のバージョンが Sun Cluster Support for Oracle Real Application Clusters のバージョンと互換性がない。

この問題を修正する方法については、「初期化時のノードパニックから回復する」を参照してください。

さらに、Sun Cluster Support for Oracle Real Application Clusters の初期化の際に、再構成ステップがタイムアウトになったためにノードがパニックになることがあります。詳細は、「タイムアウトによるノードパニック」を参照してください。

初期化時のノードパニックから回復する

  1. パニックを起こしたノードを保守モードで起動する。

    詳細は、『 Sun Cluster のシステム管理 (Solaris OS 版)』を参照してください。

  2. ボリュームマネージャパッケージのインストールが正しく行われているか確認します。

    VxVM を使用する場合は、ソフトウェアを正しくインストールしてあることを確認し、また、VxVM クラスタ機能用のライセンスが有効であることを確認してください。

  3. Oracle UDLM ソフトウェアのインストールと構成の前に必要なすべての手順が完了しているか確認します。

    完了しなければならない手順は、表 1–1 にリストされています。

  4. Oracle UDLM ソフトウェアのインストールと構成が正しく行なわれているか確認します。

    詳細については、「Oracle UDLM のインストール」を参照してください。

  5. パニックを起こしたノードを再起動します。

    詳細は、『 Sun Cluster のシステム管理 (Solaris OS 版)』を参照してください。

タイムアウトによるノードパニック

Sun Cluster Support for Oracle Real Application Clusters の再構成時にステップのタイムアウトが原因でタイムアウトが発生したノードでパニックが起きます。

再構成ステップのタイムアウトを防ぐには、使用するクラスタ構成に基づいてタイムアウト値を調整してください。詳細は、 「タイムアウト設定のガイドライン」を参照してください。

再構成ステップがタイムアウトする場合は、scrgadm ユーティリティを使って、ステップのタイムアウトを指定する拡張プロパティの値を増やしてください。詳細は、付録 A 「Sun Cluster Support for Oracle Real Application Clusters 拡張プロパティ」を参照してください。

拡張プロパティの値を増やした後、パニックを起こしたノードをリブートします。

ノードの障害

ノードの障害から回復するためには、次の作業が必要です。

  1. パニックを起こしたノードを保守モードで起動する。

  2. 問題の原因に応じて適切な回復処置を行う。

  3. パニックを起こしたノードを再起動する。

詳細は、『 Sun Cluster のシステム管理 (Solaris OS 版)』を参照してください。


注 –

Oracle Real Application Clusters 環境では、複数の Oracle インスタンスが連携して、同じ共有データベースにアクセスします。Oracle クライアントは、任意のインスタンスを使用してデータベースにアクセスできます。したがって、1 つまたは複数のインスタンスで障害が発生しても、クライアントは残りのインスタンスに接続することによって、引き続きデータベースにアクセスできます。


ucmmd デーモンの起動失敗

UCMM デーモン、 ucmmd は、Sun Cluster Support for Oracle Real Application Clusters の再構成を管理します。クラスタをブートまたはリブートするとき、このデーモンは、Sun Cluster Support for Oracle Real Application Clusters のすべてのコンポーネントが検証された後にだけ起動されます。ノード上のコンポーネントの検証が失敗した場合、 ucmmd はそのノード上で起動に失敗します。

問題の原因を突き止めるには、以下のファイルを調べてください。

この問題の最も一般的な原因は以下のとおりです。

この問題を解決するには、問題の原因の適切な回復手順を実行して、ucmmd の起動に失敗したノードをリブートしてください。

SUNW.rac_framework リソースの起動失敗

SUNW.rac_framework リソースが起動に失敗する場合は、障害の原因を調べるためにリソースの状態を確認してください。詳細は、 「Sun Cluster Support for Oracle Real Application Clusters の状態を確認する」を参照してください。

起動に失敗したリソースの状態は、 Start failed と表示されています。起動失敗の原因を示す関連状態メッセージは、次のとおりです。


Faulted - ucmmd is not running

リソースがあるノード上でucmmd デーモンが実行されていません。この問題の解決方法については、ucmmd デーモンの起動失敗」を参照してください。


Degraded - reconfiguration in progress

Sun Cluster Support for Oracle Real Application Clusters の 1 つまたは複数のコンポーネントでエラーが起きました。

設定エラーの原因を突き止めるには、以下のファイルを調べてください。

  • UCMM 再構成ログファイル /var/cluster/ucmm/ucmm_reconf.log

  • システムメッセージファイル

構成エラーの原因を示すエラーメッセージの詳細については、『 Sun Cluster Error Messages Guide for Solaris OS』を参照してください。

この問題を解決するには、問題を引き起こした設定エラーを修正します。次にエラーの起きたコンポーネントのあるノードをリブートします。


オンライン

SUNW.rac_framework リソースの START メソッドがタイムアウトするまで Oracle Real Application Clusters の再構成は完了しませんでした。

この問題を修正する方法については、START メソッドのタイムアウトから回復する」 を参照してください。

START メソッドのタイムアウトから回復する

  1. スーパーユーザーになります。

  2. START メソッドがタイムアウトしたノード上で、RAC フレームワークリソースグループをオフラインにします。

    この操作を行うためには、リソースグループの主ノードを、このグループがオンラインになっているほかのノードに切り替える必要があります。


    # scswitch -z -g resource-group -h nodelist
    
    -g resource-group

    RAC フレームワークリソースグループの名前を指定します。このリソースグループが scsetup ユーティリティを使って作成された場合、リソースグループの名前は、rac-framework-rg です。

    -h nodelist

    resource-group がオンラインになっている他のクラスタノードのコンマで区切ったリストを指定します。ただし、START メソッドがタイムアウトになったノードはこのリストから除きます。

  3. Sun Cluster Support for Oracle Real Application Clusters を実行できるすべてのクラスタノード上で、RAC フレームワーククラスタグループをオンラインにします。


    # scswitch -Z -g resource-group
    
    -Z

    リソースとモニターを使用可能にし、リソースグループを 管理 状態にし、オンラインにします。

    -g resource-group

    手順 2 でオフラインにしたリソースグループが管理状態に移行し、オンラインになるように指定します。

リソースの停止失敗

リソースの停止に失敗した場合、『 Sun Cluster データサービスの計画と管理 (Solaris OS 版)』の「リソース上の STOP_FAILED エラーフラグのクリア」の説明にしたがって問題を修正してください。