1.1 Oracle Autonomous Health Frameworkの問題空間および解決空間

Oracle Autonomous Health Frameworkは、可用性およびパフォーマンスの問題の監視、診断および回避に役立ちます。

システム管理者は、インストール、パッチ適用およびアップグレード時に、Oracle Autonomous Health Frameworkのほとんどのコンポーネントを対話的に使用できます。データベース管理者は、Oracle Autonomous Health Frameworkを使用して、操作上の実行時の問題を診断し、これらの問題の影響を緩和できます。

トピック:

1.1.1 可用性の問題

可用性の問題は、ソフトウェア・スタックの可用性を脅かす実行時の問題です。

可用性の問題は、ソフトウェアの問題(Oracle Database、Oracle Grid Infrastructure、オペレーティング・システム)または基礎となるハードウェア・リソース(CPU、メモリー、ネットワーク、ストレージ)から発生する場合があります。

Oracle Autonomous Health Framework内のコンポーネントは、次の可用性問題に対処します。

サーバーの可用性の問題の例

サーバーの可用性の問題によって、サーバーがクラスタから削除され、そのサーバー上で実行されているすべてのデータベース・インスタンスが停止される場合があります。

そのような問題の例を次に示します。

  • 問題: サーバーの空き物理メモリー不足によりメモリーのストレスが生じると、オペレーティング・システムのSwapperプロセスがメモリーをディスクに移動するために長時間実行されることになります。スワッピングは、時間が重要なクラスタ・プロセスの実行を妨げ、最終的にそのノードが削除される結果となります。

    解決策: メモリー・ガードが事前にメモリーのストレスを検出し、作業を縮小してメモリーを解放します。

  • 問題: プライベート・インターコネクトでのネットワークの輻湊は、時間が重要なノード間またはストレージI/Oが大幅に遅延したり、パケットがドロップする原因となる場合があります。このタイプの障害は一般に蓄積するものであり、早期に検出して修正または緩和できます。

    解決策: サーバー構成での変更が問題の原因である場合は、問題が1時間以上解決されないと、クラスタ検証ユーティリティ(CVU)がこの問題を検出します。ただし、Oracle Cluster Health Advisorは、数分内に問題を検出し、修正処理を提示します。

  • 問題: プライベート・インターコネクト上のネットワーク障害が、取り外されたケーブルやネットワーク・インタフェース・カード(NIC)の障害に起因するものである場合は、即座にノードが削除される可能性があります。

    解決策: これらのタイプのネットワーク障害は早期に検出できませんが、その原因は、クラスタ状態モニターおよびOracle Trace File Analyzerを使用して障害の発生時間や関連するネットワーク・インタフェースを特定することで絞り込むことができます。

データベース可用性の問題の例

データベース可用性の問題が原因でOracleデータベースまたはいずれかのデータベース・インスタンスが応答しなくなり、そのためユーザーが使用できなくなる場合があります。

そのような問題の例を次に示します。

  • 問題: ランナウェイ問合せおよびハングによって、ロック、ラッチ、CPUなどの重要なデータベース・リソースが他のセッションに対して拒否される場合があります。重要なデータベース・リソースが拒否されると、データベースまたはデータベース・インスタンスがアプリケーションに対して応答しなくなります。

    解決策: ハング・マネージャがこれらのタイプのハングを検出し、自動的に解決します。また、Oracle Cluster Health Advisorはこのようなハングを検出し、特定し、データベース管理者に通知して、適切な修正処理を提供します。

  • 問題: サービス拒否(DoS)攻撃、脆弱性、または単なるソフトウェアのバグが原因で、データベースまたはデータベース・インスタンスが応答しなくなる場合があります。

    解決策: 既知の問題の事前対応型の推奨事項、およびOracle ORAchkが提供する解決によって、これらの発生を回避できます。これらの問題が回避されない場合は、Oracle Trace File Analyzerによるログの自動収集、およびクラスタ状態モニターによって収集されたデータによってこれらの問題を迅速に修正できます。

  • 問題: 構成の変更は、トラブルシューティングが困難となるデータベースの停止を引き起こす場合があります。たとえば、oracle.binファイルに対する間違った権限によって、セッション・プロセスが作成されない場合があります。

    解決策: クラスタ検証ユーティリティおよびOracle ORAchkを使用して、これらのタイプの問題を迅速に特定および修正します。Oracle ORAchkを使用して差分レポートを生成し、2つのレポートのベースライン比較および差分のリストを表示できます。クラスタ検証ユーティリティが作成した構成レポートを表示して、システムがOracleインストールの基準を満たしているかどうかを確認することもできます。

1.1.2 パフォーマンスの問題

パフォーマンスの問題は、システムのパフォーマンスを脅かす実行時の問題です。

パフォーマンスの問題は、ソフトウェアの問題(バグ、構成の問題、データ競合など)またはクライアントの問題(要求、問合せタイプ、接続管理など)が原因で発生する場合があります。

サーバーおよびデータベースの問題は絡み合っており、分離するのは困難です。その発生場所(データベース・サーバーまたはデータベース・クライアント)で分類する方が簡単です。

データベース・サーバーのパフォーマンスの問題の例

  • 問題: 構成のベスト・プラクティスを逸脱すると、データベース・サーバーのパフォーマンスの問題が発生する場合があります。

    解決策: Oracle ORAchkは、定期的な実行時に構成の問題を検出し、データベース管理者に適切な修正設定を通知します。

  • 問題: ボトルネックとなっているリソース、または不完全に構築されたSQL文は、データベース・サーバーにパフォーマンスの問題を引き起こす場合があります。

    解決策: Oracle Database Quality of Service (QoS) Managementは、これらの問題にフラグを設定し、これらの問題によりサービス・レベル合意(SLA)が危険にさらされると通知を生成します。Oracle Cluster Health Advisorは、問題が正常な操作状態を超えた場合を検出し、データベース管理者に修正処理を通知します。

  • 問題: あるセッションが原因で、他のセッションは速度が低下し、ブロックしているセッションがそのリソースを解放するか、その作業を完了するまで待機することになる場合があります。

    解決策: ハング・マネージャは、これらのセッションのチェーンを検出し、ルート保持セッションを自動的に強制終了して、ボトルネックを緩和します。

  • 問題: 未解決の既知の問題、またはパッチが適用されていないバグは、データベース・サーバーのパフォーマンスの問題を引き起こす場合があります。

    解決策: これらの問題は、自動Oracle ORAchkレポートを介して検出でき、関連するパッチまたは回避策を使用してフラグを設定できます。Oracle ORAchkは、既存の製品または新しい製品領域での重大な新しい問題を含めるよう定期的に拡張されています。

データベース・クライアントに起因するパフォーマンスの問題の例

  • 問題: サーバーでホストされているデータベース・インスタンスが、サーバーのリソースおよびクライアント負荷で対処できる範囲を超えている場合、CPU、I/Oまたはメモリーの待機が原因でパフォーマンスが低下します。

    解決策: Oracle ORAchkおよびOracle Database QoS Managementは、これらの問題がCPU、メモリーまたはバックグラウンド・プロセスのオーバーサブスクライブなどの誤った構成の結果である場合に検出します。Oracle ORAchkおよびOracle Database QoS Managementは、修正処理を通知します。

  • 問題: パラメータ(SGAおよびPGA割当て、セッションまたはプロセスの数、CPU数など)の構成が誤っていると、データベースのパフォーマンスが低下する場合があります。

    解決策: Oracle ORAchkおよびOracle Cluster Health Advisorは、設定と結果をそれぞれ検出し、推奨される修正処理を自動的に通知します。

  • 問題: クライアント接続のサージがサーバーまたはデータベースの容量を超過すると、タイムアウト・エラーやその他のパフォーマンスの問題が発生する可能性があります。

    解決策: Oracle Database QoS ManagementおよびOracle Cluster Health Advisorは、パフォーマンスの低下を自動的に検出します。また、Oracle Database QoS ManagementおよびOracle Cluster Health Advisorは、ボトルネックを緩和し、パフォーマンスを元の状態に戻すための修正処理を通知します。