6 Oracle Site Guardのトラブルシューティング

この章では、障害時リカバリ・トポロジにおいてOracle Site Guardをデプロイまたは管理するときに一般的に発生する可能性がある状況と、共通の問題を回避する方法について説明します。

この章の内容は次のとおりです。

操作計画の失敗
スイッチオーバーまたはフェイルオーバー操作の失敗
事前チェックおよびヘルス・チェックの失敗
Oracle WebLogic Server操作の失敗
データベース障害
ストレージ障害

6.1 操作計画の失敗

この項では、次に示す操作計画の失敗による問題をトラブルシューティングするためのヒントを説明します。

操作計画ワークフローで検出されないターゲット
識別されないOracle WebLogic Server管理対象サーバー・ターゲット
ハングした操作手順で必要な手動操作
操作計画ワークフローで検出されないOPMN管理対象システム・コンポーネント
操作計画ワークフローで検出されないOracle RACデータベース
sudo権限を使用してアクセスした場合の操作手順の失敗
構成されていない資格証明アソシエーションを示す操作計画の作成中のエラー
サイトに追加されるターゲットの資格証明を関連付けできない
操作計画の作成中にスカラー値を作成できないことを示すエラー
操作計画の削除中または更新中のエラー
欠落しているノード・マネージャ資格証明を示す操作計画の作成中のエラー
ターゲット・ホストのディスク領域不足が原因でSWLIBアーティファクトをステージングできないことを示すエラー
WLSユーティリティ・スクリプトをドメイン・ディレクトリにコピーできないことが原因で操作計画が失敗する

6.1.1 操作計画ワークフローで検出されないターゲット

問題

システムの一部であるOracle DatabaseまたはOracle Fusion Middlewareファームのようなターゲットは、操作計画ワークフローで検出できません。

説明およびソリューション

この問題は、操作計画を作成した後でシステムにターゲットを追加すると発生する場合があります。操作計画の作成中、Oracle Site Guardには、システムの一部であるこれらのターゲットのみが含まれます。新しいターゲットを追加した場合は、操作計画を再作成します。計画をカスタマイズした場合は、それらのカスタマイズの内容をメモを取ってから計画を再作成し、再作成した新しい計画に同じカスタマイズを再び加えてください。

6.1.2 識別されないOracle WebLogic Server管理対象サーバー・ターゲット

問題

Oracle WebLogic Serverドメインの一部であるOracle WebLogic Server管理対象サーバー・ターゲットは、操作計画ワークフローの作成時に、Oracle Site Guardによって更新されたり、認識されません。

説明およびソリューション

Enterprise Manager Cloud Controlで自動検出を実行する前に、管理対象サーバーが実行されていることを確認してください。管理対象サーバーはすでに実行されているがEnterprise Managerに表示されない場合は、WebLogicドメイン・ターゲットをリフレッシュして管理対象サーバーが検出されるかどうか試します。

6.1.3 ハングした操作手順で必要な手動操作

問題

操作手順(データベース・スイッチオーバーまたはフェイルオーバー、カスタム・スクリプトなど)がハングすると、手動での処理が必要になります。

説明およびソリューション

Enterprise Manager Cloud Controlコンソールから、操作を一時停止します。操作を停止しないでください。

操作計画をハングさせた条件を手動で修正します。手動でプロシージャを完了したら、操作を再開し、Oracle Site Guard操作を完了します。操作は再発行しないでください。

Oracle Site Guardで、コンポーネントが必要な状態になっていることが判明すると、起動操作または停止操作、またはデータベース・スイッチオーバー操作すべてについて何も操作が実行されません。これによってプロセスが正常に終了し、サイトが必要なロールで更新されます。操作手順が失敗し、問題を解決するために手動の処理が必要になった場合、失敗した手順を再試行するか、手動手順を確認して、操作の実行を続行できます。

注意:

手動で処理した後は、操作を再起動するか再開します。開始した操作が完了したことを確認します。

6.1.4 操作計画ワークフローで検出されないOPMN管理対象システム・コンポーネント

問題

システムの一部であるOPMN管理対象システム・コンポーネントは、操作計画ワークフローでは検出できません。

説明およびソリューション

Oracle Site Guardは、Enterprise Manager Cloud Controlで表現されたOPMN管理対象システム・コンポーネントのみを検出します。たとえば、Oracle HTTP ServerおよびOracle Web CacheのようなOPMN管理対象システム・コンポーネントは、Enterprise Manager Cloud Controlで表現されます。これらのコンポーネントは、Oracle Fusion Middlewareファームの一部として検出されます。

6.1.5 操作計画ワークフローで検出されないOracle RACデータベース

問題

システムの一部であるOracle RACデータベースは、操作計画ワークフローでは検出できません。

説明およびソリューション

Oracle RACデータベースは、Enterprise Manager Cloud ControlのRACデータベース・ターゲットの下にグループ化され、表現されます。RACデータベース・インスタンスが検出されると、RACデータベース・ターゲットが作成され、RACデプロイメントのすべてのデータベース・インスタンスは、RACデータベース・ターゲットの下にグループ化されます。この問題は、各RACインスタンス・ターゲットが、RACデータベース・ターゲットではなく、システムに追加された時に発生する場合があります。Oracle Site Guardは、個々のRACインスタンスを特定できません。

6.1.6 sudo権限を使用してアクセスした場合の操作手順の失敗

問題

sudo権限で資格証明を使用している場合、サイト・ガード操作手順はエラーstageOmsFileEntry (Error)で失敗します。この問題は、事前チェック操作でも発生する場合があります。

説明およびソリューション

Site Guardで使用する資格証明が、rootとして実行するためsudo権限を使用するよう構成されている場合、sudo権限は、ターゲットの関連ホストで稼働するすべてのエージェントで、PDP (権限委任プロバイダ)として構成されている必要があります。

PDPはEnterprise Manager Cloud Controlコンソールから構成できます。PDPを構成するには、Enterprise Manager Cloud Controlコンソールで「設定」、「セキュリティ」、「権限委任」の順に選択します。

6.1.7 構成されていない資格証明アソシエーションを示す操作計画の作成中のエラー

問題

操作計画を作成している場合、サイトのターゲットがターゲットの資格証明を作成および関連付けていても関連付けられている資格証明を持たないことを示すエラーが発生する可能性があります。

説明およびソリューション

Enterprise Managerで同じ名前の2つのターゲットがあり、ターゲットのいずれかがサイトの一部である場合、この問題が発生します。たとえば、データベース・インスタンス・ターゲットおよびデータベース・システム・ターゲットの名前が両方db1である場合、データベース・インスタンス・ターゲットがサイトに追加されます。

同じ名前のターゲットを削除して、再検出してください。ターゲットを再検出する場合、各ターゲット名がすべてのEnterprise Managerターゲットで一意であることを確認してください。

6.1.8 サイトに追加されるターゲットの資格証明を関連付けできない

問題

Oracle Site Guardの資格証明の構成中に、ターゲットの資格証明を関連付ける場合に問題に直面する可能性があります。ターゲット・タイプの資格証明の構成が有効化されていないため、またはターゲットが特定のターゲット・タイプのターゲットのリストに表示されないため、これが発生します。ターゲットをサイトに追加しても、このエラーが表示されます。

説明およびソリューション

6.1.9 操作計画の削除中または更新中のエラー

問題

操作計画を削除中または更新中に、次のエラーが発生する可能性があります。

エラー:ユーザーにはGUID XXXXXXXXXXXXXXXXの実行に対するFULL_JOB権限がありません。

説明およびソリューション

ユーザーが操作計画を削除または更新する必要な権限を持たない場合、この問題が発生する可能性があります。

操作計画の作成中に使用した資格証明を使用してログインし、計画を削除または更新します。

6.1.10 操作計画の作成中にスカラー値を作成できないことを示すエラー

問題

操作計画の作成中、次のようなエラーが発生する場合があります。

oracle.sysman.ai.siteguard.model.exception.ConfigurationException: Cannot create scalar value for name [PropertyType = DB_VERSION]. Value argument to the method getScalarValue() is null

説明およびソリューション

Oracle Site Guardは、Oracle Data Guardで保護されたデータベース・ターゲットに対してEnterprise Managerによって保持されたDB_VERSIONプロパティを読み取って使用します。Data GuardスイッチオーバーまたはフェイルオーバーがEnterprise Managerの外部で発生した場合(たとえば、Data GuardスイッチオーバーがDGMGRLまたはサイト・ガードを使用して実行された場合)、データベースのDB_VERSIONプロパティをEnterprise ManagerでNULLとして表示できます

Enterprise Manager Cloudコンソールを使用してこの問題を修正するには、データベース・ターゲットのData Guard管理ページにログインして、NULLからtrueにDataGuardStatusプロパティをリセットします。DataGuardStatusプロパティをリセットする場合、他のData Guard関連プロパティが自動的にリフレッシュされます。

6.1.11 欠落しているノード・マネージャ資格証明を示す操作計画の作成中のエラー

注意:

この問題および回避策は、サイト・ガード12.1.0.7に固有です。

問題

操作計画の作成中、次のようなエラーが発生する場合があります。

Credential association for credential type NODEMANAGER is missing for target host_name belonging to system site_name.

説明およびソリューション

Enterprise Managerでホストのノード・マネージャがターゲット・タイプでないため、Enterprise Managerは直接対話しません。これとは逆に、Oracle Site Guardは、Oracle Fusion Middlewareコンポーネントの障害時リカバリ操作を管理するためにホストのノード・マネージャと対話します。このため、Oracle Site Guardの構成中にノード・マネージャ資格証明を構成および関連付ける必要があります。Enterprise Managerがターゲット・タイプとしてノード・マネージャを認識しないため、ホスト・ターゲットで実行されているノード・マネージャで使用されるホスト資格証明を作成し、Oracle Site Guardの「資格証明構成」ページを使用してこれらの資格証明をOracle Site Guardに関連付ける必要があります。

6.1.12 ターゲット・ホストのディスク領域不足が原因でSWLIBアーティファクトをステージングできないことを示すエラー

問題

リモート・ターゲット・ホストでのディスク領域チェックの問題が原因の次のようなエラーにより、操作計画が失敗する場合があります。

Value of property oracle.sysman.core.swlib.disableFreeSpaceOnDestCheck:falseERROR [Wed Jun 03 07:29:31 PDT 2015]: Parameter validation failure. Reason: The space on the destination host 'myhost.com' is not sufficient to stage the entity.

説明およびソリューション

この問題に対する短期的なソリューションは、リモート・ホストの/tmpディレクトリに十分なディスク領域を確保してから、emcliを使用してEnterprise Managerジョブに対するディスク領域チェックを無効にすることです。

emctl set property -name oracle.sysman.core.swlib.disableFreeSpaceOnDestCheck -value true

この問題に対するより恒久的なソリューションは、Enterprise Managerのログ(emom.logおよびemoms.trc)を調べ、失敗の根本原因を特定して修正することです。次に示すemoms.trcログ・ファイルの例では、1つの特定のVMホストでディスク領域チェックが失敗していることがわかります。

2015-06-03 10:53:16,628 [RJob Step 3818744] WARN swlib.storage logp.251 - 
Unable to retrieve disk space details from agent myhost.com:/tmp/JOB_17161DC66E0E5053BA46F40AE165', 
output=[Error occurred during initialization of VM. Could not reserve enough space for object heap

これらのログ・ファイルの場所については、『Oracle Enterprise Manager Cloud Control管理者ガイド』のEnterprise Managerログ・ファイルの検索および構成に関する項を参照してください。

6.1.13 WLSユーティリティ・スクリプトをドメイン・ディレクトリにコピーできないことが原因で操作計画が失敗する

問題

サイト・ガードがWebLogic Server関連ユーティリティ・スクリプト(siteguard_python_util.py)をWebLogic Serverドメイン・ディレクトリにコピーできないと、このことが原因で操作計画が失敗する場合があります。

説明およびソリューション

この問題は、WebLogic Serverが存在するターゲット・ホストにアクセスするための資格証明に対して権限委任を使用した場合に発生する可能性があります。WebLogicの起動または停止操作時、サイト・ガードでは、スクリプトをこのホストにステージングしてから、これらのスクリプトをWebLogic Serverドメイン・ディレクトリにコピーします。権限委任が正しく設定されていないと、このコピー・プロセスが失敗することがあります。

この問題を回避するには、資格証明の権限委任を正しく構成します。ターゲットに対する権限委任の構成の詳細は、Oracle Enterprise Managerのドキュメントを参照してください。この問題の修正後、失敗した操作を再試行する前に、WebLogic Serverドメイン・ディレクトリからsiteguard_python_util.pyファイルを必ず削除してください。

6.2 スイッチオーバー操作またはフェイルオーバー操作の失敗

この項では、スイッチオーバー操作またはフェイルオーバー操作で発生する可能性のある次の問題について、トラブルシューティングのヒントを示します。

スイッチオーバー操作後またはフェイルオーバー操作後のWebLogic管理サーバー起動不可
スイッチオーバー操作後またはフェイルオーバー操作後のWebLogic管理サーバー再起動失敗
スイッチオーバー操作時またはフェイルオーバー操作時にホスト利用不可
Oracle RACデータベース・インスタンスが利用できない場合のスイッチオーバー操作またはフェイルオーバー操作の失敗

6.2.1 スイッチオーバー操作後またはフェイルオーバー操作後のWebLogic管理サーバー起動不可

問題

スイッチオーバーまたはフェイルオーバー操作の後、WebLogic管理サーバーが起動しないことがあります。管理サーバーの出力ログ・ファイルには、次のようにエラーが報告されます。

<Jan 19, 2012 3:43:05 AM PST> <Warning> <EmbeddedLDAP> <BEA-171520> <Could not obtain an exclusive lock for directory: ORACLE_BASE/admin/soadomain/aserver/soadomain/servers/AdminServer/data/ldap/ldapfiles. Waiting for 10 seconds and then retrying in case existing WebLogic Server is still shutting down.>

説明およびソリューション

このエラーは、ロックを正常にクリーンアップできなかったことが原因で、管理サーバー・ログ・ファイルに表示されます。このエラーを修正するには、EmbeddedLDAP.lockファイル(ORACLE_BASE/admin/domain_name/aserver/domain_name/servers/AdminServer/data/ldap/ldapfiles/に格納)を削除します。

WebLogic管理サーバーの複数のロック・ファイルを削除する必要がある場合があります。WebLogic管理サーバーを起動し、削除が必要なそれぞれの失効ロック・ファイルを識別することによって、プロセスを繰り返してください。

6.2.2 スイッチオーバー操作後またはフェイルオーバー操作後のWebLogic管理サーバー再起動失敗

問題

スイッチオーバーまたはフェイルオーバー操作の後、WebLogic管理サーバーが起動しないことがあります。管理サーバーの出力ログ・ファイルには、次のようなエラーが報告されます。

<Sep 16, 2011 2:04:06 PM PDT> <Error> <Store> <BEA-280061> <The persistent store "_WLS_AdminServer" could not be deployed: weblogic.store.PersistentStoreException:

[Store:280105]The persistent file store "_WLS_AdminServer" cannot open file _WLS_ADMINSERVER000000.DAT.>

説明およびソリューション

このエラーは、ネットワーク・ファイル・システム(NFS)ストレージからのロックが原因で表示されます。ストレージ・ベンダーのNFSユーティリティを使用して、NFSロックを消去する必要があります。.DATファイルを一時的な場所にコピーし、そのコピーを元に戻してロックを消去します。

6.2.3 スイッチオーバー操作時またはフェイルオーバー操作時にホスト利用不可

問題

スイッチオーバーまたはフェイルオーバー操作の実行中、新しいプライマリ・システムの一部のホストは、使用できないか、停止している場合があります。その場合は、Oracle Site Guardではこれらのホストで操作を実行できません。

説明およびソリューション

これらのホストで実行中のサービスが必須ではなく、サイトが引き続き機能しており、他のノードで実行中のサービスに対してアクティブである場合は、操作計画を更新することで、停止しているホストに関連する手順を無効化することができます。Oracle Site Guardワークフローは、無効化されたすべての手順をワークフローから省略します。

6.2.4 Oracle RACデータベース・インスタンスが利用できない場合のスイッチオーバー操作またはフェイルオーバー操作の失敗

問題

すべてのOracle RACデータベース・インスタンスが停止している場合、スイッチオーバーまたはフェイルオーバー操作は失敗します。

説明およびソリューション

操作計画の作成中に、Oracle Site Guardは、スイッチオーバーまたはフェイルオーバー操作を実行するOracle RACデータベース・インスタンスを決定します。RACに複数のインスタンスがデプロイされていて、一部のインスタンスが停止している可能性があります。スイッチオーバー操作またはフェイルオーバー操作を実行する前に、1つ以上のインスタンスが実行されていることを確認します。Oracle Site Guardでロール・リバーサル操作の実行に使用されるRACインスタンスを特定するには、get_operation_plan_detailsコマンドを実行します。

6.3 事前チェックおよびヘルス・チェックの失敗

この項では、次の事前チェックまたはヘルス・チェックの失敗をトラブルシューティングするためのヒントを示します。

事前チェックの失敗
Oracle Management Agentが利用できない場合の事前チェック・ハング
ヘルス・チェックを再試行または再開できない

6.3.1 事前チェックの失敗

問題

事前チェックに失敗し、次のエラーが表示されます。

Nmo setuid status NMO not setuid-root (Unix-only)

説明およびソリューション

Oracle Management Agentのインストール後、『Oracle Enterprise Manager Cloud Control基本インストレーション・ガイド』のインストール後の作業に関する項の説明に従って、Enterprise Manager CloudホストおよびEnterprise Managerが管理するすべてのホストからroot.shスクリプトを実行してください。

6.3.2 Oracle Management Agentが利用できない場合の事前チェック・ハング

問題

Oracle Management Agentが停止している場合、リモート・ホストでコマンドを実行しようとすると、事前チェックがハングします。

説明およびソリューション

操作に関連するすべてのホストが有効であり、構成されているすべてのスクリプトが、構成された場所のリモート・ホストで使用可能になっていることを確認してください。なんらかの理由でOracle Management Agentにアクセスできない場合、Enterprise Manager Cloud Controlコンソールからログ・ファイルを確認してください。停止しているホストを識別した場合は、それらのホストの事前チェック操作を省略します。

6.3.3 ヘルス・チェックを再試行または再開できない

問題

失敗したヘルス・チェックを再試行または再開できません。

説明およびソリューション

ヘルス・チェックが失敗した場合は、再試行または再開できません。次回ヘルス・チェックまで待つか、スタンドアロン事前チェックを実行してサイト・ガード操作計画の有効性を確認してください。

6.4 Oracle WebLogic Server操作の失敗

この項では、次のOracle WebLogic Server操作の失敗をトラブルシューティングするためのヒントを示します。

ノード・マネージャの再起動失敗
nodemanager.propertiesファイルの欠落が原因でノード・マネージャの起動または停止が失敗する
管理対象サーバーの起動失敗
別のホストに移行されたWebLogic ServerインスタンスがOracle Site Guardから喪失
操作計画作成時のエラー表示
Site Guardが通信できない場合にノード・マネージャと通信できるWebLogic管理サーバー
ホストごとに複数のノード・マネージャを関連付けることができない
Weblogic Serverのパスワードの更新およびサイト・ガードの資格証明

6.4.1 ノード・マネージャの再起動失敗

問題

次のようなエラーのため、ノード・マネージャが失敗する場合があります。

<Sep 13, 2011 8:45:37 PM PDT> <Error> <NodeManager> <BEA-300033> <Could not execute command "getVersion" on the node manager. Reason: "Access to domain 'base_domain' for user 'weblogic' denied".>

説明およびソリューション

この問題は、ノード・マネージャ資格証明を変更した後、正しいノード・マネージャ・ユーザー名およびパスワードが各管理対象サーバーに指定されているかを確認するためのnmEnrollを実行していない場合に発生する可能性があります。

正しいノード・マネージャ・ユーザー名およびパスワードが指定されたことを確認するには、WLSTに接続して、次の構文を使用してnmEnrollコマンドを実行します。

nmEnroll(domain_directory, node_manager_home)

例:

nmEnroll('C:/oracle/user_projects/domains/prod_domain',
'C:/oracle/wlserver_10.3/common/nodemanager')

注意:

ノード・マネージャを再起動して、変更を有効にします。

6.4.2 `nodemanager.properties`ファイルの欠落が原因でノード・マネージャの起動または停止が失敗する

問題

nodemanager.propertiesファイルの欠落が原因でノード・マネージャの起動または停止操作が失敗する場合があります。

説明およびソリューション

障害時リカバリ操作中にノード・マネージャを起動または停止する際に、サイト・ガードは、nodemanager.propertiesファイルを確認してノード・マネージャの様々なプロパティを判別します。このファイルが欠落していると、ノード・マネージャの起動および停止の操作手順が失敗します。

nodemanager.propertiesファイルは、ノード・マネージャの初回起動時に所定の場所に作成されます。サイト・ガード操作計画がノード・マネージャに影響を与える場合は、これらを実行する前に、関連するすべてのノード・マネージャを少なくとも1回手動で起動してください。

6.4.3 管理対象サーバーの起動失敗

問題

Enterprise Manager Cloud ControlでWLS管理サーバーが接続に失敗したため、管理対象サーバーが起動しません。

説明およびソリューション

管理対象サーバーを起動するには、Oracle Site Guardで管理サーバーおよびノード・マネージャが必要です。管理対象サーバーを正常に起動または停止するには、管理サーバーが実行されていることを確認します。

6.4.4 別のホストに移行されたWebLogic ServerインスタンスがOracle Site Guardから喪失

問題

Oracle Site Guardには、ワークフローの別のホストに移行されているWebLogic Serverインスタンスは含まれません。

説明およびソリューション

操作計画を作成した後、Oracle Site Guardには、サーバー移行によって別のホストに移行された操作計画に関連するWebLogic Serverインスタンスは含まれません。

サーバー移行を完了した後、Enterprise Manager Cloud ControlコンソールからWebLogic Serverファームのターゲットをリフレッシュし、ファームで発生した直近のターゲット変更を有効にします。これはサーバー移行など、ファームでの変更があった場合に、Enterprise Managerでファーム監視機能を再開するために必須の手順です。ファーム・ターゲットをリフレッシュした後は、Oracle Site Guard操作計画を再作成し、すべてのファーム・ターゲットをOracle Site Guardワークフローに含む必要があります。また、操作計画に対して加えたカスタマイズをすべて再作成する必要もあります。

6.4.5 操作計画作成時のエラー表示

問題

操作計画の作成中、次のようなエラーが表示される場合があります。

oracle.sysman.ai.siteguard.model.common.exception.DAOException:
For hostName:
[2606:b400:800:89:214:4fff:fe46:2d52] credential of type HOSTNORMAL does not exist for siteName: System1

説明およびソリューション

複数のIPアドレスが構成されているホストで稼働しているWebLogic Serverインスタンスに、リスニング・アドレスを設定していない場合、WebLogic Serverでは、ランダムにIPアドレスを選択し、これをリスニング・アドレスとしてレポートします。このIPアドレスは有効でない場合があり、操作計画を作成する際に問題となる可能性があります。管理コンソールを使用して問題を解決するには、解決できるリスニング・アドレスを使用して、WebLogic Serverを正しく構成します。Oracle WebLogic Serverを構成したら、サーバーを再起動し、Enterprise Manager Cloud Controlからこれを再検出します。リスニング・アドレスの構成の詳細は、『Oracle Fusion Middlewareディザスタ・リカバリ・ガイド』を参照してください。

6.4.6 Site Guardが通信できない場合にノード・マネージャと通信できるWebLogic管理サーバー

問題

Weblogic管理者がノード・マネージャにログインできますが、Oracle Site Guardがノード・マネージャにアクセスできません。

説明およびソリューション

ノード・マネージャで認証するために使用されるユーザー名がWebLogic管理サーバーによってランダムに生成される場合、この問題が発生します。

これを修正するには、次の手順を実行します。

WebLogic管理サーバー・コンソールにログインします。
左ペインにリストされている「ドメイン」をクリックします。
「セキュリティ」タブをクリックして、「詳細」リンクをクリックします。

ノード・マネージャ・ユーザー名が表示されます。ユーザー名がランダムに生成された文字列で表示される場合があります。
正しい情報でノード・マネージャ・ログイン資格証明を更新します。

6.4.7 ホストごとに複数のノード・マネージャを関連付けることができない

問題

Oracle Site Guardでは、同じホストで実行されている複数のノード・マネージャにそれぞれ異なる資格証明を関連付けることができません。

説明

これはOracle Site Guardの現行バージョンの制限です。現行バージョンでは、ホストで実行されているすべてのノード・マネージャに対して1つのセットの資格証明のみサポートできます。指定されたホストのすべてのノード・マネージャが同じセットの資格証明で構成されていることを確認してください。

6.4.8 Weblogic Serverのパスワードの更新およびサイト・ガードの資格証明

問題

WebLogic Serverの管理パスワードの更新後に、サイト・ガード操作計画内のWebLogic Serverの起動または停止操作が失敗する場合があります。これは、WebLogic Serverターゲットに対するサイト・ガード資格証明を新しいパスワードで更新した場合にも発生する可能性があります。

説明およびソリューション

更新したサイト・ガード資格証明と更新したWebLogic Serverパスワードが連動し、サイト・ガードで実行される管理機能に新しいパスワードが適用されるようにするには、WebLogic管理サーバーを再起動する必要があります。WebLogic Serverのパスワードを変更するたびに、サイト・ガード資格証明を更新し、WebLogic管理サーバーを再起動してください。

6.5 データベース操作の失敗

ここでは、データベース操作の失敗に関連する次の問題をトラブルシューティングするためのヒントを示します。

データベースのスイッチオーバー操作およびフェイルオーバー操作の事前チェック失敗
正しくない操作計画カテゴリに含まれるData Guardで保護されているデータベース
スタンバイ検証用にサイトをオープンするときにデータベースにアクセスできない

6.5.1 データベースのスイッチオーバー操作およびフェイルオーバー操作の事前チェック失敗

問題

データベース・スイッチオーバー操作またはデータベース・フェイルオーバー操作の事前チェックが失敗し、次のエラーが表示されます。

Database Status:
DGM-17016: failed to retrieve status for database "racs"
ORA-16713: the Data Guard broker command timed out

説明およびソリューション

このエラーは、ターゲット・データベース・インスタンスで、Data Guardモニター・プロセス(DMON)が停止していることが原因で発生する場合があります。

注意:

Data Guardモニター・プロセス(DMON)はOracle Data Guard Brokerの一部です。

このエラーが発生した場合は、データベース・インスタンスを再起動し、DMONプロセスが実行されていることを確認します。DMONプロセス・エラーのデータベース・ログ・ファイルを表示することもできます。CommunicationTimeoutパラメータを使用して、環境に適したタイムアウト値を選択します。詳細は、『Oracle Data Guard Broker』の「CommunicationTimeout」の項を参照してください。

6.5.2 正しくない操作計画カテゴリに含まれるData Guardで保護されているデータベース

問題

Oracle Site GuardがOracle Data Guardで保護されたデータベース・ターゲットを操作計画のスイッチオーバー/フェイルオーバー・カテゴリのかわりに起動/停止カテゴリに追加します。

説明およびソリューション

Oracle Site Guardは、データベースがData Guardによって保護されているかどうかを判別するためにデータベース・ターゲットに対してEnterprise Managerで保持されているDataGuardStatusプロパティを使用します。これにより、データベースを追加する操作計画カテゴリを判別します。このプロパティの値がNULLである場合、Site GuardはデータベースがData Guardによって保護されず、データベース・ターゲットをスイッチオーバーまたはフェイルオーバー・カテゴリのかわりに操作計画の起動または停止カテゴリに追加していると想定します。

データベースのDataGuardStatusプロパティは、Data GuardスイッチオーバーまたはフェイルオーバーがEnterprise Managerの外部で発生している場合にEnterprise ManagerでNULLとして表示できます。たとえば、DGMGRLまたはサイト・ガードを使用して、Data Guardスイッチオーバーが実行されます。

Enterprise Manager Cloudコンソールを使用して、データベース・ターゲットのData Guard管理ページにログインします。ログイン時に、Data Guard関連プロパティが自動的にリフレッシュされます。

6.5.3 スタンバイ検証用にサイトをオープンするときにデータベースにアクセスできない

問題

スタンバイ検証モードでサイト・ガードのサイトをオープンすると、データベース・スナップショットが作成されていても、サイト内の1つ以上のデータベースにアクセスできなくなります。

説明およびソリューション

これは、スタンバイ・データベースにスナップショット・サービスが関連付けられていない場合でも発生する可能性があります。スタンバイ・サイトのデータベースを構成する際には、データベースに対して個別のスナップショット・サービスを特別に作成し、スタンバイ検証モードでデータベース・スナップショットにアクセスできるようにしてください。データベースに対してサービスを構成する方法の詳細は、Oracle Databaseのドキュメントを参照してください。

6.6 ストレージ障害

この項では、ストレージおよびストレージ・アプライアンスに関連する次の問題のトラブルシューティングのヒントを説明します。

操作計画の実行中にZFS Storage Applianceのログインに失敗する可能性があります
ターゲット・アプライアンスの空のプロジェクトを削除する場合に操作計画の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があります
'confirm reverse'を実行する場合に操作計画の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があります
権限が不十分なため、ZFSストレージ・ロール取消し操作が操作計画の実行中に失敗する場合がある
レプリケーションの構成中に、ソースZFSストレージのリモート・レプリケーション・ターゲットに同名のターゲット・アプライアンスが複数リストされる場合がある
クラスタ化されたZFSアプライアンスに物理(移植不可能)アドレスを使用するようにストレージ・スクリプトが構成されている場合に、ZFSストレージ・ロール・リバーサルが失敗する場合がある

6.6.1 操作計画の実行中にZFS Storage Applianceのログインに失敗する可能性があります

問題

Oracle Site Guard操作のストレージ・スイッチオーバーまたはストレージ・フェイルオーバー手順の実行中に、ZFSアプライアンスへのログインに失敗する可能性があり、zfs_storage_role_reversal.shスクリプトで生成されたログ・ファイルに次のエラーが表示される場合があります。

資格証明が不正です。指定された資格証明が正しく、特殊文字が含まれていないことを確認してください。

説明およびソリューション

ZFSアプライアンス資格証明のパスワードに特殊文字が含まれている場合にこれが発生します。特殊文字を含まないように、アプライアンス・パスワードを更新してください。次に、Enterprise Managerの資格証明管理フレームワークのストレージ・アプライアンス資格証明を更新して、操作手順を再試行してください。

6.6.2 ターゲット・アプライアンスの空のプロジェクトを削除する場合に操作計画の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があります

問題

Oracle Site Guard操作のストレージ・スイッチオーバーまたはストレージ・フェイルオーバー手順の実行中に、ストレージ・ロール・リバーサル操作に失敗する可能性があり、zfs_storage_role_reversal.shスクリプトで生成されたログ・ファイルに次のエラーが表示される可能性があります。

Error: The action could not be completed because the the target (or one of its descendants) has the 'nodestroy' property set. Turn off the property for '1_test' and try again.

説明およびソリューション

プロジェクトにnodestroyプロパティ・セットがある場合にこれが発生します。このプロパティは、Enterprise Manager Cloud Controlインタフェースで破棄の回避と呼ばれます。

このプロパティを無効にし、操作手順を再試行してください。

6.6.3 'confirm reverse'を実行する場合に操作計画の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があります

問題

Oracle Site Guard操作のストレージ・スイッチオーバーまたはストレージ・フェイルオーバー手順の実行中に、confirm reverseの実行中にストレージ・ロール・リバーサル操作に失敗する可能性があり、zfs_storage_role_reversal.shスクリプトで生成されたログ・ファイルに次のエラーが表示される可能性があります。

Error: The action could not be completed because the mountpoint of '<project_name>/<share_name>' would conflict with that of '<project_name>/<share_name>' (/export/<project_name>/<share_name>). Change the mountpoint of '<project_name>/<share_name>' and try again.

指定されたプロジェクトのすべての使用可能なパッケージ内に少なくとも1つの共有をファイル・システムとしてエクスポートしている場合にこれが発生します。指定されたプロジェクトのすべてのパッケージ内のすべての共有のexportedプロパティが無効になっていることを確認してください。

6.6.4 権限が不十分なため、ZFSストレージ・ロール取消し操作が操作計画の実行中に失敗する場合がある

問題

Oracle Site Guard操作のストレージ・スイッチオーバーまたはストレージ・フェイルオーバー手順の実行中に、ZFS操作を実行するために使用する資格証明にこれらのZFS操作を実行するために必要な権限がないことが原因で、ZFSストレージ・ロール・リバーサル操作が失敗する場合があります。

説明およびソリューション

ZFS操作に使用する資格証明にZFSストレージ・ロール・リバーサルを実行するために必要なロールおよび権限を割り当ててください。詳細は、このガイドのZFSストレージ構成の項を参照してください。

6.6.5 レプリケーションの構成中に、ソースZFSストレージのリモート・レプリケーション・ターゲットに同名のターゲット・アプライアンスが複数リストされる場合がある

問題

ソースZFSストレージ・アプライアンスでレプリケーション構成(アクション)を設定しようとすると、同じレプリケーション・ターゲットを持つ複数のインスタンスがドロップダウン・リストに表示される場合があります。これはZFSの既知の問題です。

説明およびソリューション

ターゲット・アプライアンスのこれらのインスタンスのうち1つのみが有効なターゲット・アプライアンスとして実際に動作します。他の無効なインスタンスは機能せず、これらのインスタンスのレプリケーション構成を正常に保存できません。ターゲット・アプライアンスの各インスタンスを使用して構成を作成し、どの構成が成功するかを判断してください。構成の作成または成功したインスタンスの決定は、ストレージ・レベルで手動であることに注意してください。

6.6.6 クラスタ化されたZFSアプライアンスに物理(移植不可能)アドレスを使用するようにストレージ・スクリプトが構成されている場合に、ZFSストレージ・ロール・リバーサルが失敗する場合がある

問題

ソース・アプライアンスおよびターゲット・アプライアンスに物理ホスト名を使用するように構成されたZFSストレージ・ロール・リバーサル・スクリプトは、「<source>アプライアンス上の該当するプロジェクトにレプリケーション・アクションが見つかりません」のようなエラーにより失敗する場合があります。これは、特にクラスタ化された(可用性の高い) ZFSアプライアンスに当てはまります。

説明およびソリューション

2つのストレージ・ヘッド間でのサービスのフェイルオーバー時に物理ホスト名または物理IPアドレスがストレージ・クラスタに再配置されることはありません。これらの物理アドレスをスクリプト構成で使用していて、HAイベント発生時にストレージ・アプライアンス・サービスが別のヘッドに再配置された場合は、ストレージ・スクリプトでレプリケーション・アクションIDおよびそのUUIDを検出できなくなります。

サイト・ガードのZFSストレージ・スクリプトにソースおよびターゲットのホスト名またはIPアドレスを構成する際には、必ず管理インタフェース(物理インタフェースではない)を使用してください。

6 Oracle Site Guardのトラブルシューティング

6.1 操作計画の失敗

6.1.1 操作計画ワークフローで検出されないターゲット

6.1.2 識別されないOracle WebLogic Server管理対象サーバー・ターゲット

6.1.3 ハングした操作手順で必要な手動操作

6.1.4 操作計画ワークフローで検出されないOPMN管理対象システム・コンポーネント

6.1.5 操作計画ワークフローで検出されないOracle RACデータベース

6.1.6 sudo権限を使用してアクセスした場合の操作手順の失敗

6.1.7 構成されていない資格証明アソシエーションを示す操作計画の作成中のエラー

6.1.8 サイトに追加されるターゲットの資格証明を関連付けできない

6.1.9 操作計画の削除中または更新中のエラー

6.1.10 操作計画の作成中にスカラー値を作成できないことを示すエラー

6.1.11 欠落しているノード・マネージャ資格証明を示す操作計画の作成中のエラー

6.1.12 ターゲット・ホストのディスク領域不足が原因でSWLIBアーティファクトをステージングできないことを示すエラー

6.1.13 WLSユーティリティ・スクリプトをドメイン・ディレクトリにコピーできないことが原因で操作計画が失敗する

6.2 スイッチオーバー操作またはフェイルオーバー操作の失敗

6.2.1 スイッチオーバー操作後またはフェイルオーバー操作後のWebLogic管理サーバー起動不可

6.2.2 スイッチオーバー操作後またはフェイルオーバー操作後のWebLogic管理サーバー再起動失敗

6.2.3 スイッチオーバー操作時またはフェイルオーバー操作時にホスト利用不可

6.2.4 Oracle RACデータベース・インスタンスが利用できない場合のスイッチオーバー操作またはフェイルオーバー操作の失敗

6.3 事前チェックおよびヘルス・チェックの失敗

6.3.1 事前チェックの失敗

6.3.2 Oracle Management Agentが利用できない場合の事前チェック・ハング

6.3.3 ヘルス・チェックを再試行または再開できない

6.4 Oracle WebLogic Server操作の失敗

6.4.1 ノード・マネージャの再起動失敗

6.4.2 nodemanager.propertiesファイルの欠落が原因でノード・マネージャの起動または停止が失敗する

6.4.3 管理対象サーバーの起動失敗

6.4.4 別のホストに移行されたWebLogic ServerインスタンスがOracle Site Guardから喪失

6.4.5 操作計画作成時のエラー表示

6.4.6 Site Guardが通信できない場合にノード・マネージャと通信できるWebLogic管理サーバー

6.4.7 ホストごとに複数のノード・マネージャを関連付けることができない

6.4.8 Weblogic Serverのパスワードの更新およびサイト・ガードの資格証明

6.5 データベース操作の失敗

6.5.1 データベースのスイッチオーバー操作およびフェイルオーバー操作の事前チェック失敗

6.5.2 正しくない操作計画カテゴリに含まれるData Guardで保護されているデータベース

6.5.3 スタンバイ検証用にサイトをオープンするときにデータベースにアクセスできない

6.6 ストレージ障害

6.6.1 操作計画の実行中にZFS Storage Applianceのログインに失敗する可能性があります

6.6.2 ターゲット・アプライアンスの空のプロジェクトを削除する場合に操作計画の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があります

6.6.3 'confirm reverse'を実行する場合に操作計画の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があります

6.6.4 権限が不十分なため、ZFSストレージ・ロール取消し操作が操作計画の実行中に失敗する場合がある

6.6.5 レプリケーションの構成中に、ソースZFSストレージのリモート・レプリケーション・ターゲットに同名のターゲット・アプライアンスが複数リストされる場合がある

6.6.6 クラスタ化されたZFSアプライアンスに物理(移植不可能)アドレスを使用するようにストレージ・スクリプトが構成されている場合に、ZFSストレージ・ロール・リバーサルが失敗する場合がある

6.4.2 `nodemanager.properties`ファイルの欠落が原因でノード・マネージャの起動または停止が失敗する