この章では、障害時リカバリ・トポロジにおいてOracle Site Guardをデプロイおよび管理するときに一般的に発生する可能性がある状況について説明します。それらの状況に対処するための手順も説明します。
この章には次の項が含まれます。
この項では、次に示す操作計画の失敗による問題をトラブルシューティングするためのヒントを説明します。
問題
システムの一部であるOracle DatabaseまたはOracle Fusion Middlewareファームのようなターゲットは、操作計画ワークフローで検出できません。
説明およびソリューション
この問題は、操作計画を作成した後でシステムにターゲットを追加すると発生する場合があります。操作計画の作成中、Oracle Site Guardには、システムの一部であるこれらのターゲットのみが含まれます。新しいターゲットを追加した場合は、操作計画を再作成します。
問題
Oracle WebLogic Serverドメインの一部であるOracle WebLogic Server管理対象サーバー・ターゲットは、操作計画ワークフローの作成時に、Oracle Site Guardによって更新されたり、認識されません。
説明およびソリューション
Enterprise Manager Cloud Controlで自動検出を実行する前に、管理対象サーバーが実行されていることを確認してください。
問題
操作手順(データベース・スイッチオーバーまたはフェイルオーバー、カスタム・スクリプトなど)がハングすると、手動での処理が必要になります。
説明およびソリューション
Enterprise Manager Cloud Controlコンソールから、操作を一時停止します。操作を停止しないでください。
操作計画をハングさせた条件を手動で修正します。手動でプロシージャを完了したら、操作を再開し、Oracle Site Guard操作を完了します。操作は再発行しないでください。
Oracle Site Guardで、コンポーネントが必要な状態になっていることが判明すると、起動操作または停止操作、またはデータベース・スイッチオーバー操作すべてについて何も操作が実行されません。これによってプロセスが正常に終了し、サイトが必要なロールで更新されます。操作手順が失敗し、問題を解決するために手動の処理が必要になった場合、失敗した手順を再試行するか、手動手順を確認して、操作の実行を続行できます。
注意: 手動で処理した後は、操作を再起動するか再開します。開始した操作が完了したことを確認します。 |
問題
システムの一部であるOPMN管理対象システム・コンポーネントは、操作計画ワークフローでは検出できません。
説明およびソリューション
Oracle Site Guardは、Enterprise Manager Cloud Controlで表現されたOPMN管理対象システム・コンポーネントのみを検出します。たとえば、Oracle HTTP ServerおよびOracle Web CacheのようなOPMN管理対象システム・コンポーネントは、Enterprise Manager Cloud Controlで表現されます。これらのコンポーネントは、Oracle Fusion Middlewareファームの一部として検出されます。
問題
システムの一部であるOracle RACデータベースは、操作計画ワークフローでは検出できません。
説明およびソリューション
Oracle RACデータベースは、Enterprise Manager Cloud ControlのRACデータベース・ターゲットの下にグループ化され、表現されます。RACデータベース・インスタンスが検出されると、RACデータベース・ターゲットが作成され、RACデプロイメントのすべてのデータベース・インスタンスは、RACデータベース・ターゲットの下にグループ化されます。この問題は、各RACインスタンス・ターゲットが、RACデータベース・ターゲットではなく、システムに追加された時に発生する場合があります。Oracle Site Guardは、個々のRACインスタンスを特定できません。
問題
sudo
権限で資格証明を使用している場合、Site Guard操作はエラーstageOmsFileEntry (Error)
で失敗します。この問題は、事前チェック操作でも発生する場合があります。
説明およびソリューション
Site Guardで使用する資格証明が、root
として実行するためsudo
権限を使用するよう構成されている場合、sudo
権限は、ターゲットの関連ホストで稼働するすべてのエージェントで、PDP (権限委任プロバイダ)として構成されている必要があります。
PDPはEnterprise Manager Cloud Controlコンソールから構成できます。PDPを構成するには、Enterprise Manager Cloud Controlコンソールで「設定」、「セキュリティ」、「権限委任」の順に選択します。
問題
操作計画を作成している場合、サイトのターゲットがターゲットの資格証明を作成および関連付けていても関連付けられている資格証明を持たないことを示すエラーが発生する可能性があります。
説明およびソリューション
Enterprise Managerで同じ名前の2つのターゲットがあり、ターゲットのいずれかがサイトの一部である場合、この問題が発生します。たとえば、データベース・インスタンス・ターゲットおよびデータベース・システム・ターゲットの名前が両方db1
である場合、データベース・インスタンス・ターゲットがサイトに追加されます。
同じ名前のターゲットを削除して、再検出してください。ターゲットを再検出する場合、各ターゲット名がすべてのEnterprise Managerターゲットで一意であることを確認してください。
問題
Oracle Site Guardの資格証明の構成中に、ターゲットの資格証明を関連付ける場合に問題に直面する可能性があります。ターゲット・タイプの資格証明の構成が有効化されていないため、またはターゲットが特定のターゲット・タイプのターゲットのリストに表示されないため、これが発生します。ターゲットをサイトに追加しても、このエラーが表示されます。
説明およびソリューション
Enterprise Managerで同じ名前の2つのターゲットがあり、ターゲットのいずれかがサイトの一部である場合、この問題が発生します。たとえば、データベース・インスタンス・ターゲットおよびデータベース・システム・ターゲットの名前が両方db1
である場合、データベース・インスタンス・ターゲットがサイトに追加されます。
同じ名前のターゲットを削除して、再検出してください。ターゲットを再検出する場合、各ターゲット名がすべてのEnterprise Managerターゲットで一意であることを確認してください。
問題
操作計画を削除中または更新中に、次のエラーが発生する可能性があります。
エラー:ユーザーにはGUID XXXXXXXXXXXXXXXXの実行に対するFULL_JOB権限がありません。
説明およびソリューション
ユーザーが操作計画を削除または更新する必要な権限を持たない場合、この問題が発生する可能性があります。
操作計画の作成中に使用した資格証明を使用してログインし、計画を削除または更新します。
問題
操作計画の作成中、次のようなエラーが発生する場合があります。
oracle.sysman.ai.siteguard.model.exception.ConfigurationException: Cannot create scalar value for name [PropertyType = DB_VERSION]. Value argument to the method getScalarValue() is null
説明およびソリューション
Oracle Site Guardは、Oracle Data Guardで保護されたデータベース・ターゲットに対してEnterprise Managerによって保持されたDB_VERSION
プロパティを読み取って使用します。Data GuardスイッチオーバーまたはフェイルオーバーがEnterprise Managerの外部で発生した場合(たとえば、Data GuardスイッチオーバーがDGMGRL
またはSite Guardを使用して実行された場合)、データベースのDB_VERSION
プロパティをEnterprise ManagerでNULL
として表示できます。
この問題を修正するには、Enterprise Manager Cloudコンソールを使用して、データベース・ターゲットのData Guard管理ページにログインして、NULL
からtrue
にDataGuardStatus
プロパティをリセットします。DataGuardStatus
プロパティをリセットする場合、他のData Guard関連プロパティが自動的にリフレッシュされます。
問題
操作計画の作成中、次のようなエラーが発生する場合があります。
Credential association for credential type NODEMANAGER is missing for target host_name belonging to system site_name.
説明およびソリューション
Enterprise Managerでホストのノード・マネージャがターゲット・タイプでないため、Enterprise Managerは直接対話しません。これとは逆に、Oracle Site Guardは、Oracle Fusion Middlewareコンポーネントの障害時リカバリ操作を管理するためにホストのノード・マネージャと対話します。このため、Oracle Site Guardの構成中にノード・マネージャ資格証明を構成および関連付ける必要があります。Enterprise Managerがターゲット・タイプとしてノード・マネージャを認識しないため、ホスト・ターゲットで実行されているノード・マネージャで使用されるホスト資格証明を作成し、Oracle Site Guardの「資格証明構成」ページを使用してこれらの資格証明をOracle Site Guardに関連付ける必要があります。
この項では、スイッチオーバー操作またはフェイルオーバー操作で発生する可能性のある次の問題について、トラブルシューティングのヒントを示します。
問題
スイッチオーバーまたはフェイルオーバー操作の後、WebLogic管理サーバーが起動しないことがあります。管理サーバーの出力ログ・ファイルには、次のようにエラーが報告されます。
<Jan 19, 2012 3:43:05 AM PST> <Warning> <EmbeddedLDAP> <BEA-171520> <Could not obtain an exclusive lock for directory: ORACLE_BASE/admin/soadomain/aserver/soadomain/servers/AdminServer/data/ldap/ldapfiles. Waiting for 10 seconds and then retrying in case existing WebLogic Server is still shutting down.>
説明およびソリューション
このエラーは、ロックを正常にクリーンアップできなかったことが原因で、管理サーバー・ログ・ファイルに表示されます。このエラーを修正するには、EmbeddedLDAP.lock
ファイル(ORACLE_BASE/admin/
domain_name
/aserver/
domain_name
/servers/AdminServer/data/ldap/ldapfiles/
に格納)を削除します。
問題
スイッチオーバーまたはフェイルオーバー操作の後、WebLogic管理サーバーが起動しないことがあります。管理サーバーの出力ログ・ファイルには、次のようなエラーが報告されます。
<Sep 16, 2011 2:04:06 PM PDT> <Error> <Store> <BEA-280061> <The persistent store "_WLS_AdminServer" could not be deployed: weblogic.store.PersistentStoreException: [Store:280105]The persistent file store "_WLS_AdminServer" cannot open file _WLS_ADMINSERVER000000.DAT.>
説明およびソリューション
このエラーは、ネットワーク・ファイル・システム(NFS)ストレージからのロックが原因で表示されます。ストレージ・ベンダーのNFSユーティリティを使用して、NFSロックを消去する必要があります。.DAT
ファイルを一時的な場所にコピーし、そのコピーを元に戻してロックを消去します。
問題
スイッチオーバーまたはフェイルオーバー操作の実行中、新しいプライマリ・システムの一部のホストは、使用できないか、停止している場合があります。その場合は、Oracle Site Guardではこれらのホストで操作を実行できません。
説明およびソリューション
これらのホストで実行中のサービスが必須ではなく、サイトが引き続き機能しており、他のノードで実行中のサービスに対してアクティブである場合は、操作計画を更新することで、停止しているホストに関連する手順を無効化することができます。Oracle Site Guardワークフローは、無効化されたすべての手順をワークフローから省略します。
問題
すべてのOracle RACデータベース・インスタンスが停止している場合、スイッチオーバーまたはフェイルオーバー操作は失敗します。
説明およびソリューション
操作計画の作成中に、Oracle Site Guardは、スイッチオーバーまたはフェイルオーバー操作を実行するOracle RACデータベース・インスタンスを決定します。RACに複数のインスタンスがデプロイされていて、一部のインスタンスが停止している可能性があります。スイッチオーバー操作またはフェイルオーバー操作を実行する前に、1つ以上のインスタンスが実行されていることを確認します。Oracle Site Guardでロール・リバーサル操作の実行に使用されるRACインスタンスを特定するには、get_operation_plan_details
コマンドを実行します。
この項では、次の事前チェックの失敗をトラブルシューティングするためのヒントを示します。
問題
事前チェックに失敗し、次のエラーが表示されます。
Nmo setuid status NMO not setuid-root (Unix-only)
説明およびソリューション
Oracle Management Agentのインストール後、『Oracle Enterprise Manager Cloud Control基本インストレーション・ガイド』
のインストール後の作業に関する項の説明に従って、Enterprise Manager CloudホストおよびEnterprise Managerが管理するすべてのホストからroot.shスクリプトを実行してください。
問題
Oracle Management Agentが停止している場合、リモート・ホストでコマンドを実行しようとすると、事前チェックがハングします。
説明およびソリューション
操作に関連するすべてのホストが有効であり、構成されているすべてのスクリプトが、構成された場所のリモート・ホストで使用可能になっていることを確認してください。なんらかの理由でOracle Management Agentにアクセスできない場合、Enterprise Manager Cloud Controlコンソールからログ・ファイルを確認してください。停止しているホストを識別した場合は、それらのホストの事前チェック操作を省略します。
この項では、次のOracle WebLogic Server操作の失敗をトラブルシューティングするためのヒントを示します。
問題
次のようなエラーのため、ノード・マネージャが失敗する場合があります。
<Sep 13, 2011 8:45:37 PM PDT> <Error> <NodeManager> <BEA-300033> <Could not execute command "getVersion" on the node manager. Reason: "Access to domain 'base_domain' for user 'weblogic' denied".>
説明およびソリューション
この問題は、ノード・マネージャ資格証明を変更した後、正しいノード・マネージャ・ユーザー名およびパスワードが各管理対象サーバーに指定されているかを確認するためのnmEnroll
を実行していない場合に発生する可能性があります。
正しいノード・マネージャ・ユーザー名およびパスワードが指定されたことを確認するには、WLST (wlst.sh
を使用)に接続して、次の構文を使用してnmEnroll
コマンドを実行します。
nmEnroll(domain_directory, node_manager_home)
例:
nmEnroll('C:/oracle/user_projects/domains/prod_domain', 'C:/oracle/wlserver_10.3/common/nodemanager')
注意: ノード・マネージャを再起動して、変更を有効にします。 |
問題
Enterprise Manager Cloud ControlでWLS管理サーバーが接続に失敗したため、管理対象サーバーが起動しません。
説明およびソリューション
管理対象サーバーを起動するには、Oracle Site Guardで管理サーバーおよびノード・マネージャが必要です。管理対象サーバーを正常に起動または停止するには、管理サーバーが実行されていることを確認します。
問題
Oracle Site Guardには、ワークフローの別のホストに移行されているWebLogic Serverインスタンスは含まれません。
説明およびソリューション
操作計画を作成した後、Oracle Site Guardには、サーバー移行によって別のホストに移行された操作計画に関連するWebLogic Serverインスタンスは含まれません。
サーバー移行を完了した後、Enterprise Manager Cloud ControlコンソールからWebLogic Serverファームのターゲットをリフレッシュし、ファームで発生した直近のターゲット変更を有効にします。これはサーバー移行など、ファームでの変更があった場合に、Enterprise Managerでファーム監視機能を再開するために必須の手順です。ファーム・ターゲットをリフレッシュした後は、Oracle Site Guard操作計画を再作成し、すべてのファーム・ターゲットをOracle Site Guardワークフローに含む必要があります。
問題
操作計画の作成中、次のようなエラーが表示される場合があります。
oracle.sysman.ai.siteguard.model.common.exception.DAOException: For hostName: [2606:b400:800:89:214:4fff:fe46:2d52] credential of type HOSTNORMAL does notexist for siteName: System1
説明およびソリューション
複数のIPアドレスが構成されているホストで稼働しているWebLogic Serverインスタンスに、リスニング・アドレスを設定していない場合、WebLogic Serverでは、ランダムにIPアドレスを選択し、これをリスニング・アドレスとしてレポートします。このIPアドレスは有効でない場合があり、操作計画を作成する際に問題となる可能性があります。問題を解決するには、解決できるリスニング・アドレスを使用して、管理コンソールでWebLogic Serverを正しく設定します。Oracle WebLogic Serverを構成したら、サーバーを再起動し、Enterprise Manager Cloud Controlからこれを再検出します。リスニング・アドレスの構成の詳細は、『Oracle Fusion Middlewareディザスタ・リカバリ・ガイド』を参照してください。
問題
Weblogic管理者がノード・マネージャにログインできますが、Oracle Site Guardがノード・マネージャにアクセスできません。
説明およびソリューション
ノード・マネージャで認証するために使用されるユーザー名がWebLogic管理サーバーによってランダムに生成される場合、この問題が発生します。
これを修正するには、次の手順を実行します。
WebLogic管理サーバー・コンソールにログインします。
左ペインにリストされている「ドメイン」をクリックします。
「セキュリティ」タブをクリックして、「詳細」リンクをクリックします。
ノード・マネージャ・ユーザー名が表示されます。ユーザー名がランダムに生成された文字列で表示される場合があります。
正しい情報でノード・マネージャ・ログイン資格証明を更新します。
ここでは、データベース操作の失敗に関連する次の問題をトラブルシューティングするためのヒントを示します。
問題
データベース・スイッチオーバー操作またはデータベース・フェイルオーバー操作の事前チェックが失敗し、次のエラーが表示されます。
Database Status: DGM-17016: failed to retrieve status for database "racs" ORA-16713: the Data Guard broker command timed out
説明およびソリューション
このエラーは、ターゲット・データベース・インスタンスで、Data Guardモニター・プロセス(DMON)が停止していることが原因で発生する場合があります。
注意: Data Guardモニター・プロセス(DMON)はOracle Data Guard Brokerの一部です。 |
このエラーが発生した場合は、データベース・インスタンスを再起動し、DMONプロセスが実行されていることを確認します。DMONプロセス・エラーのデータベース・ログ・ファイルを表示することもできます。CommunicationTimeout
パラメータを使用して、環境に適したタイムアウト値を選択します。詳細は、『Oracle Data Guard Broker』の「CommunicationTimeout」の項を参照してください。
問題
Oracle Site GuardがOracle Data Guardで保護されたデータベース・ターゲットを操作計画のスイッチオーバー/フェイルオーバー・カテゴリのかわりに起動/停止カテゴリに追加します。
説明およびソリューション
Oracle Site Guardは、データベースがData Guardによって保護されているかどうかを判別するためにデータベース・ターゲットに対してEnterprise Managerで保持されているDataGuardStatus
プロパティを使用します。これにより、データベースを追加する操作計画カテゴリを判別します。このプロパティの値がNULL
である場合、Site GuardはデータベースがData Guardによって保護されず、データベース・ターゲットをスイッチオーバーまたはフェイルオーバー・カテゴリのかわりに操作計画の起動または停止カテゴリに追加していると想定します。
データベースのDataGuardStatus
プロパティは、Data GuardスイッチオーバーまたはフェイルオーバーがEnterprise Managerの外部で発生している場合にEnterprise ManagerでNULL
として表示できます。たとえば、DGMGRL
またはOracle Site Guardを使用して、Data Guardスイッチオーバーが実行されます。
Enterprise Manager Cloudコンソールを使用して、データベース・ターゲットのData Guard管理ページにログインします。ログイン時に、Data Guard関連プロパティが自動的にリフレッシュされます。
この項では、ストレージおよびストレージ・アプライアンスに関連する次の問題のトラブルシューティングのヒントを説明します。
ターゲット・アプライアンスの空のプロジェクトを削除する場合に操作計画の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があります
'confirm reverse'を実行する場合に操作計画の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があります
問題
Oracle Site Guard操作のストレージ・スイッチオーバーまたはストレージ・フェイルオーバー手順の実行中に、ZFSアプライアンスへのログインに失敗する可能性があり、zfs_storage_role_reversal.sh
スクリプトで生成されたログ・ファイルに次のエラーが表示される場合があります。
資格証明が不正です。指定された資格証明が正しく、特殊文字が含まれていないことを確認してください。
説明およびソリューション
ZFSアプライアンス資格証明のパスワードに特殊文字が含まれている場合にこれが発生します。特殊文字を含まないように、アプライアンス・パスワードを更新してください。次に、Enterprise Managerの資格証明管理フレームワークのストレージ・アプライアンス資格証明を更新して、操作手順を再試行してください。
問題
Oracle Site Guard操作のストレージ・スイッチオーバーまたはストレージ・フェイルオーバー手順の実行中に、ストレージ・ロール・リバーサル操作に失敗する可能性があり、zfs_storage_role_reversal.sh
スクリプトで生成されたログ・ファイルに次のエラーが表示される可能性があります。
Error: The action could not be completed because the the target (or one of its descendants) has the 'nodestroy' property set. Turn off the property for '1_test' and try again.
説明およびソリューション
プロジェクトにnodestroy
プロパティ・セットがある場合にこれが発生します。このプロパティは、Enterprise Manager Cloud Controlインタフェースで破棄の回避と呼ばれます。
このプロパティを無効にし、操作手順を再試行してください。
問題
Oracle Site Guard操作のストレージ・スイッチオーバーまたはストレージ・フェイルオーバー手順の実行中に、confirm reverse
の実行中にストレージ・ロール・リバーサル操作に失敗する可能性があり、zfs_storage_role_reversal.sh
スクリプトで生成されたログ・ファイルに次のエラーが表示される可能性があります。
Error: The action could not be completed because the mountpoint of '<project_name>/<share_name>' would conflict with that of '<project_name>/<share_name>' (/export/<project_name>/<share_name>). Change the mountpoint of '<project_name>/<share_name>' and try again.
指定されたプロジェクトのすべての使用可能なパッケージ内に少なくとも1つの共有をファイル・システムとしてエクスポートしている場合にこれが発生します。指定されたプロジェクトのすべてのパッケージ内のすべての共有のexported
プロパティが無効になっていることを確認してください。