4.5 オペレーティング・システム・リソースのメトリックの収集

クラスタ状態モニター(CHM)およびシステム・ヘルス・モニター(SHM)は、システムの問題を診断およびトラブルシューティングするために役立つ多数の一連のオペレーティング・システム・メトリックを収集、分析、集計および格納する、高パフォーマンスで軽量なデーモンです。

CHMまたはSHMがユニークである理由

CHMまたはSHM 一般的なOSコレクタ

最終的な選択肢 - デーモンはロック済メモリーを実行し、RTスケジューリング・クラスによってシステム負荷に対してもデータ収集の一貫性を維持します。

システム負荷によるスケジュール遅延に起因する一貫性のないデータ・ドロップアウト。

5秒という忠実度の高いデータ・サンプリング・レート。サンプリング・レート5秒という、非常に低いリソース使用率プロファイル。

複数ユーティリティの実行により、監視対象システムへの追加のオーバーヘッド発生とそれによるサンプリング・レートが上昇し、悪化します。

高可用性デーモンにより、複数のリソース・カテゴリにわたって照合済データが収集されます。高度に最適化されたコレクタ(データはユーティリティと同じソースであるオペレーティング・システムから直接読み取られます)。

toppsvmstatiostatなどのスクリプト/コマンドライン・ユーティリティのセットで、コレクション・サンプルごとに、1つ以上のファイルに出力をリダイレクトします。

収集されたデータは、サンプルごとにシステム・スナップショットの概要(Nodeview)に照合され、Nodeviewには複数のリソース・カテゴリに収集されたデータの要約および分析も含まれます。

様々なリソース・カテゴリにおよぶシステム・スナップショットの概要は、照合が非常に困難です。

Nodeviewへのデータの収集および照合時の有用なインライン分析とサマリーにより、面倒な手作業の時間がかかる分析が大幅に減少し、有意義なインサイトが得られます。

複数のファイルにわたる様々なユーティリティの出力を照合、解析、解釈し、その後で有用なインサイトについて分析する必要があるため、この分析には時間がかかり、処理が集中します。

Clusterware固有のメトリック収集(プロセス集計、ASM/OCR/VDディスク・タグ付け、プライベート/パブリックNICタグ付け)を実行します。また、詳細なデータ分析とビジュアライゼーションのための豊富なツールセットも提供します。

なし

4.5.1 CHMとSHMの比較: 基本的な違いの理解

このトピックでは、クラスタ状態モニター(CHM)およびシステム・ヘルス・モニター(SHM)の目的および使用方法の概要を示します。

クラスタ状態モニター(CHM) システム・ヘルス・モニター(SHM)
システム・モニター・デーモン(osysmond)と呼ばれ、RACシステムの各クラスタ・ノードで実行されるリアルタイム監視およびオペレーティング・システム・メトリック収集のデーモンです。 システム・ヘルス・モニター(ahf-sysmon)と呼ばれ、単一インスタンス・データベースおよび非GIベースのシステムで使用可能なリアルタイム監視およびオペレーティング・システム収集のサービスです。
11.2以降、GIの一部として統合され、デフォルトで有効になります。 AHF 24.6の一部として統合され、デフォルトで有効になります
GIホームからシステム監視サービス(osysmond)として実行されます。 AHFホームからahf-sysmonサービスとして実行されます。
GIスタック内で高可用性サービス(HAS)リソースとして管理されます。 AHFスタック内のtfa-monitorリソースとして管理されます。
リソースのステータスは、次のコマンドを使用して問い合せることができます:
crsctl stat res ora.crf -init -d
プロセスのステータスは、次のコマンドを使用して問い合せることができます:
ahfctl statusahf

生成されたオペレーティング・システム・メトリックは、ORACLE_BASE/crsdata/<hostname>/crf/db/jsonに格納されます。

メトリック・リポジトリは、前述のローカル・ファイルシステムで自動管理されます。

  • Nodeviewサンプルは、常にリポジトリ(JSONレコード)に書き込まれます
  • 履歴データは1時間ごとのzipファイルに自動アーカイブされます
  • アーカイブされたファイルは、デフォルトの保存制限に達すると自動的にパージされます(デフォルト: 200 MB)

生成されたオペレーティング・システム・メトリックは、/opt/oracle.ahf/data/<hostname>/shmに格納されます

メトリック・リポジトリは、前述のローカル・ファイルシステムで自動管理されます。

  • メトリック・サンプルは、常にリポジトリ(JSONレコード)に書き込まれます
  • 履歴データは1時間ごとのzipファイルに自動アーカイブされます
  • アーカイブされたファイルは、デフォルトの保存制限に達すると自動的にパージされます(デフォルト: 200 MB)
前述の生成されたオペレーティング・システム・メトリックは、tfactl diagcollectの一部として収集されます。 前述の生成されたオペレーティング・システム・メトリックは、tfactl diagcollectの一部として収集されます。
Linux、Solaris、AIX、zLinux、ARM64およびMicrosoft Windowsプラットフォームでサポートされています。 Linuxプラットフォームでのみサポートされています。

4.5.2 システム・ヘルス・モニター(SHM)に関する追加の詳細

システム・ヘルス・モニター(SHM)は、AHFに統合され、デフォルトで有効になります。AHFでは、診断コレクションにSHMファイルが含まれるようになりました。

システム・ヘルス・モニター(SHM)は、プロセス、メモリー、ネットワーク、IOおよびディスクのオペレーティング・システム・メトリックをリアルタイムで監視して、システム・パフォーマンスの問題をリアルタイムでトラブルシューティングして根本原因を特定し、過去の問題の根本原因の分析も行います。システム・ヘルス・モニター(SHM)の分析はAHFインサイトで使用できます。詳細は、「診断インサイトの確認」を参照してください。

SHMは、AHFによってトリガーおよび制御されるデーモン・プロセスとして動作し、デフォルトで有効になりますが、単一インスタンス・データベースおよび非GIベースのシステムでのみ使用できます。

また、ahfctl statusahfコマンドを使用して、システム・ヘルス・モニターのステータスを確認できます。

  • SHMを起動するには:
    このコマンドは、なんらかの理由でSHMが以前に停止されており、再度オンに切り替える必要がある場合にのみ実行します。
    ahf configuration set --property ahf.collectors.enhanced_os_metrics --value on

    コマンドを実行すると、ahf-sysmonが起動できるようになり、TFAデーモンが起動してそれを監視します。

  • SHMを停止するには:
    ahf configuration set --property ahf.collectors.enhanced_os_metrics --value off

    コマンドを実行すると、ahf-sysmonが稼働しているかどうかがチェックされます。実行中の場合、コマンドはプロセスを強制終了し、ahf-sysmonを停止します。

  • SHMのデフォルト値を確認するには:
    ahf configuration get --property ahf.collectors.enhanced_os_metrics
    ahf.collectors.enhanced_os_metrics: on
  • SHMプロセス(ahf-sysmon)がデフォルトでアクティブであることを確認するには:
    ps -fe | grep sysmon
    root     3333453  1  0 22:44 ?   00:00:00 /opt/oracle.ahf/shm/ahf-sysmon/bin/ahf-sysmon
  • SHMのJSONファイルをチェックするには:

    SHMデータ・ディレクトリ/opt/oracle.ahf/data/<hostname>/shmでJSONファイルを見つけます

  • SHMがTFAMainと同じcgroupで実行されているかどうかを確認するには:
    -bash-4.4$ ps -ef | grep ahf-sysmon
    root        3232       1  0 09:38 ?        00:00:47 /opt/oracle.ahf/shm/ahf-sysmon/bin/ahf-sysmon
    testuser   155833  155678  0 17:04 pts/0    00:00:00 grep --color=auto ahf-sysmon
    -bash-4.4$ cat /proc/3232/cgroup | grep "cpu"
    8:cpu,cpuacct:/oratfagroup
    4:cpuset:/
    -bash-4.4$ ps -ef | grep tfa
    root        1945       1  0 09:37 ?        00:00:02 /bin/sh /etc/init.d/init.tfa run >/dev/null 2>&1 </dev/null
    root        2851       1  1 09:37 ?        00:05:21 /opt/oracle.ahf/jre/bin/java --add-opens java.base/java.lang=ALL-UNNAMED -server -Xms128m -Xmx256m -Djava.awt.headless=true -Ddisable.checkForUpdate=true -XX:+ExitOnOutOfMemoryError oracle.rat.tfa.TFAMain /opt/oracle.ahf/tfa
    testuser   156073  155678  0 17:05 pts/0    00:00:00 grep --color=auto tfa
    -bash-4.4$ cat /proc/2851/cgroup | grep "cpu"
    8:cpu,cpuacct:/oratfagroup
    4:cpuset:/
    -bash-4.4$ cat /proc/3232/cgroup | grep "cpu"
    8:cpu,cpuacct:/oratfagroup
    4:cpuset:/
    cat /proc/[PID_OF_AHF-SYSMON]/cgroup | grep "cpu"
    cat /proc/[PID_OF_TFA]/cgroup | grep "cpu"
  • AHF収集でSHMファイルが収集されたことを確認するには:
    • 前提条件として、次を実行します:
      tfactl set smartprobclassifier=off
    • その後で、次を実行します:
      tfactl diagcollect -last 1h -tag shm_last_1h; 
      unzip -l $REPOSITORY_ROOT/shm_last_1h/$HOSTNAME*.zip

      生成されたzipファイルにSHMというディレクトリが存在する必要があります。

    • 最後に、次を実行します:
      tfactl diagcollect -last 1h
      Archive:  /opt/oracle.ahf/data/repository/collection_Wed_Apr_10_22_03_04_UTC_2024_node_all/test-node.tfa_Wed_Apr_10_22_03_03_UTC_2024.zip | grep SHM
        Length      Date    Time    Name
      ---------  ---------- -----   ----
            327  04-10-2024 22:03   test-node/SHMDATA/shmdataconverter_3279258.log
           6660  04-10-2024 22:03   test-node/SHMDATA/shmosmeta_1923000.json
          43575  04-10-2024 22:03   test-node/SHMDATA/shmosmetricdescription.json
        9561411  04-10-2024 22:03   test-node/SHMDATA/shmosdata_test-node_2024-04-10-2100.log
         997193  04-10-2024 22:03   test-node/SHMDATA/shmosdata_test-node_2024-04-10-2200.log

4.5.3 クラスタ状態モニター・データの収集

クラスタ内の任意のノードから、クラスタ状態モニター・データを収集します。

Oracleでは、Oracle Clusterwareエラーが発生したときに、tfactl diagcollectコマンドを実行して診断データを収集することをお薦めします。

4.5.4 クラスタ状態モニターおよびシステム・ヘルス・モニターによって収集されるオペレーティング・システム・メトリック

CHMおよびSHMによって収集されるメトリックを確認します。

メトリックの概要

CHMは、収集されたオペレーティング・システム・データをNodeviewにグループ化します。Nodeviewはメトリック・セットのグループで、各メトリック・セットには一意のシステム・リソースの詳細なメトリックが含まれます。

メトリック・セットの簡単な説明は次のとおりです:

  • CPUメトリック・セット: 使用率でソートされた上位127のCPUのメトリック
  • デバイス・メトリック・セット: ASM/VD/OCRを含む127のデバイスと、平均待機時間の長いのデバイスのメトリック
  • プロセス・メトリック・セット: 127のプロセスのメトリック
    • 上位25のCPUコンシューマ(アイドル・プロセスはレポートされません)
    • 上位25のメモリー・コンシューマ(RSS <合計RAMの1%のものはレポートされません)
    • 上位25のI/Oコンシューマ
    • 上位25のファイル記述子コンシューマ(上位inodeコンシューマを識別できます)
    • プロセス集計: すべてのOracle DatabaseおよびOracle ASMインスタンスのフォアグラウンド・プロセスおよびバックグラウンド・プロセス別に要約されたメトリック
  • ネットワーク・メトリック・セット: パブリックおよびプライベート・インターコネクトを含む16のNICSのメトリック
  • NFSメトリック・セット: ラウンド・トリップ時間でソートされた32 NFSのメトリック
  • プロトコル・メトリック・セット: プロトコル・グループTCP、UDPおよびIPのメトリック
  • ファイルシステム・メトリック・セット: ファイルシステム使用率のメトリック
  • クリティカル・リソース・メトリック・セット: クリティカルなシステム・リソース使用率のメトリック
    • CPUメトリック: システム全体のCPU使用率の統計
    • メモリー・メトリック: システム全体のメモリー統計
    • デバイス・メトリック: 個別デバイスのメトリック・セットとは異なるシステム全体のデバイス統計
    • NFSメトリック: 30秒ごとに収集されるNFSデバイスの総数
    • プロセス・メトリック: システム全体の一意のプロセス・メトリック

CPUメトリック・セット

使用率でソートされた、すべてのCPUコアからのメトリックが含まれます。

表4-13 CPUメトリック・セット

メトリック名(単位) 説明
system [%] システム・レベル(カーネル)で実行中にエラーが発生したときのCPU使用率。
user [%] ユーザー・レベル(アプリケーション)で実行中にエラーが発生したときのCPU使用率。
usage [%] 合計使用率(system[%] + user[%])。
nice [%] niceの優先度のユーザー・レベルで実行中にエラーが発生したときのCPU使用率。
ioWait [%] CPUがアイドルで、システムに未処理のディスクI/Oリクエストがあった時間の割合。
steal [%] ハイパーバイザが別の仮想プロセッサを処理している間に仮想CPUが強制的に待機となった時間の割合。

デバイス・メトリック・セット

サービス時間(ミリ秒)でソートされた、すべてのディスク・デバイス/パーティションからのメトリックが含まれます。

表4-14 デバイス・メトリック・セット

メトリック名(単位) 説明
ioR [KB/s] デバイスから読み取られたデータ量。
ioW [KB/s] デバイスに書き込まれたデータ量。
numIOs [#/s] 平均ディスクI/O操作。
qLen [#] I/Oキューに入っている、待機状態にあるリクエストの数。
aWait [msec] I/Oごとの平均待機時間。
svcTm [msec] I/Oリクエストごとの平均サービス時間。
util [%] デバイスの使用率(iostat -xコマンドの'%utilメトリックと同じです。デバイスがアクティブだった時間の割合を表します)。

プロセス・メトリック・セット

すべてのシステム・プロセスにおいて計算される集計メトリック・データの複数のカテゴリが含まれます。

表4-15 プロセス・メトリック・セット

メトリック名(単位) 説明
pid プロセスID。
pri プロセス優先度(オペレーティング・システムからのraw値)。
psr プロセスが現在割り当てられている、または実行されているプロセッサ。
pPid 親プロセスID。
nice プロセスのnice値。
state プロセスの状態。たとえば、R->RunningS->Interruptible sleepなどです。
class プロセスのスケジューリング・クラス。たとえば、RR->RobinRoundFF->First in First outB->Batch schedulingなどです。
fd [#] 30秒ごとに更新される、このプロセスでオープンしているファイル記述子の数。
name プロセスの名前。
cpu [%] コア全体のプロセスCPU使用率。たとえば、50% => シングル・コアの50%、400% => の100%の使用率です。
thrds [#] このプロセスによって作成されたスレッドの数。
vmem [KB] プロセスの仮想メモリー使用量(KB)。
shMem [KB] プロセスの共有メモリー使用量(KB)。
rss [KB] プロセス・メモリー固有の設定サイズ(KB)。
ioR [KB/s] 1秒当たりのI/O読取り(KB単位)。
ioW [KB/s] 1秒当たりのI/O書込み(KB単位)。
ioT [KB/s] 1秒当たりのI/O合計(KB単位)。
cswch [#/s] 1秒当たりのコンテキストの切替え。いくつかの重要なOracle Databaseプロセスについてのみ収集されます。
nvcswch [#/s] 1秒当たりの強制的なコンテキスト切替え。いくつかの重要なOracle Databaseプロセスについてのみ収集されます。
cumulativeCpu [ms] プロセスでこれまでに使用されたCPUの量(ミリ秒)。

NICメトリック・セット

合計速度/秒(KB)でソートされた、すべてのネットワーク・インタフェースからのメトリックが含まれます。

表4-16 NICメトリック・セット

メトリック名(単位) 説明
name インタフェースの名前。
tag インタフェースのタグ(例: publicprivateなど)。
mtu [B] インタフェースでサポートされている最大転送単位のサイズ(バイト)。
rx [Kbps] 平均ネットワーク受信速度。
tx [Kbps] 平均ネットワーク送信速度。
total [Kbps] 平均ネットワーク送信速度(rx[Kb/s] + tx[Kb/s])。
rxPkt [#/s] 平均受信パケット・レート。
txPkt [#/s] 平均送信パケット・レート。
pkt [#/s] パケットの平均送信レート(rxPkt[#/s] + txPkt[#/s])。
rxDscrd [#/s] 受信パケットの平均ドロップ/破棄レート。
txDscrd [#/s] 送信パケットの平均ドロップ/破棄レート。
rxUnicast [#/s] 受信ユニキャスト・パケットの平均レート。
rxNonUnicast [#/s] 受信マルチキャスト・パケットの平均レート。
dscrd [#/s] 合計破棄パケットの平均レート(rxDscrd + txDscrd)。
rxErr [#/s] 受信パケットの平均エラー率。
txErr [#/s] 送信パケットの平均エラー率。
Err [#/s] 合計転送の平均エラー率(rxErr[#/s] + txErr[#/s])。

NFSメトリック・セット

ラウンド・トリップ時間でソートされた、上位32のNFSが含まれます。このメトリック・セットは30秒ごとに1回収集されます。

表4-17 NFSメトリック・セット

メトリック名(単位) 説明
op [#/s] ファイルシステムに発行された、1秒当たりの読取り/書込み操作の数。
bytes [#/sec] ファイルシステムからの1秒当たりの読取り/書込みバイト数。
rtt [s] これは、クライアントのカーネルがRPCリクエストを送信してから応答を受信するまでの期間です。
exe [s] これは、NFSクライアントがカーネルに対してRPCリクエストし、そのRPCリクエストが完了するまでの期間です。これには前述のRTT時間が含まれます。
retrains [%] これは再送信の頻度(%)です。

プロトコル・メトリック・セット

プロトコル・グループTCP、UDPおよびIPの特定のメトリックが含まれます。メトリック値はシステムの起動からの累積です。

表4-18 TCPメトリック・セット

メトリック名(単位) 説明
failedConnErr [#] TCP接続がSYN-SENT状態またはSYN-RCVD状態からCLOSED状態に直接遷移した回数と、TCP接続がSYN-RCVD状態からLISTEN状態に直接遷移した回数。
estResetErr [#] TCP接続がESTABLISHED状態またはCLOSE-WAIT状態からCLOSED状態に直接遷移した回数。
segRetransErr [#] 再送信されたTCPセグメントの合計数。
rxSeg [#] TCPレイヤーで受信されたTCPセグメントの合計数。
txSeg [#] TCPレイヤーから送信されたTCPセグメントの合計数。

表4-19 UDPメトリック・セット

メトリック名(単位) 説明
unkPortErr [#] 宛先ポートにアプリケーションが存在しなかった受信済データグラムの合計数。
rxErr [#] 宛先ポートにアプリケーションが存在しないこと以外の理由で配信できなかった受信済データグラムの数。
rxPkt [#] 受信した合計パケット数。
txPkt [#] 送信されたパケットの合計数。

表4-20 IPメトリック・セット

メトリック名(単位) 説明
ipHdrErr [#] IPv4ヘッダー内のエラーのため破棄された入力データグラムの数。
addrErr [#] IPv4ヘッダーの宛先フィールドのIPv4アドレスが、このエンティティで受信できる有効なアドレスではなかったために破棄された入力データグラムの数。
unkProtoErr [#] 正常に受信されたものの、プロトコルが不明またはサポートされていないために破棄された、ローカルにアドレス指定されたデータグラムの数。
reasFailErr [#] IPv4の再アセンブリ・アルゴリズムによって検出された障害の数。
fragFailErr [#] フラグメンテーション・エラーのため破棄されたIPv4データグラムの数。
rxPkt [#] IPレイヤーで受信したパケットの合計数。
txPkt [#] IPレイヤーから送信したパケットの合計数。

ファイルシステム・メトリック・セット

ファイルシステム使用率のメトリックが含まれます。GRID_HOMEファイルシステムについてのみ収集されます。

表4-21 ファイルシステム・メトリック・セット

メトリック名(単位) 説明
mount マウント・ポイント。
type ファイルシステム・タイプ(例: etx4)。
tag ファイルシステム・タグ(例: GRID_HOME)。
total [KB] 領域の合計容量(KB)。
used [KB] 使用済領域の量(KB)。
avbl [KB] 使用可能な領域の量(KB)。
used [%] 使用済領域の割合。
ifree [%] 空きファイル・ノードの割合。

システム・メトリック・セット

クリティカル・システム・リソース使用率のメトリック・セットのサマリーが含まれます。

表4-22 CPUメトリック

メトリック名(単位) 説明
pCpus [#] システム内の物理処理ユニットの数。
Cores [#] システム内のすべてのCPUのコア数。
vCpus [#] システム内の論理処理ユニットの数。
cpuHt CPUのハイパースレッディングが有効(Y)か無効(N)か。
osName オペレーティング・システムの名前。
chipName 処理ユニットのチップの名前。
system [%] システム・レベル(カーネル)で実行中にエラーが発生したときのCPU使用率。
user [%] ユーザー・レベル(アプリケーション)で実行中にエラーが発生したときのCPU使用率。
usage [%] 合計CPU使用率(system[%] + user[%])。
nice [%] NICEの優先度のユーザー・レベルで実行中にエラーが発生したときのCPU使用率。
ioWait [%] CPUがアイドルで、システムに未処理のディスクI/Oリクエストがあった時間の割合。
Steal [%] ハイパーバイザが別の仮想プロセッサを処理している間に仮想CPUが強制的に待機となった時間の割合。
cpuQ [#] 現在のサンプル間隔内で、実行キューで待機中のプロセスの数。
loadAvg1 計算された1分間のシステムの平均負荷。
loadAvg5 計算された5分間のシステムの平均負荷。
loadAvg15 計算された15分間のシステムの平均負荷。平均負荷が高いということは、システムがオーバーロードされ、多くのプロセスがCPU時間を待機していることを示します。
Intr [#/s] システムで1秒間に発生した割込みの数。
ctxSwitch [#/s] システムで1秒間に発生したコンテキスト切替えの数。

表4-23 メモリー・メトリック

メトリック名(単位) 説明
totalMem [KB] 使用可能なRAMの合計容量(KB)。
freeMem [KB] RAMの空き容量(KB)。
avblMem [KB] スワップせずに新しいプロセスを開始するのに使用できるメモリーの量。
shMem [KB] tmpfsによって(主に)使用されているメモリー。
swapTotal [KB] 物理スワップ・メモリーの合計量(KB)。
swapFree [KB] スワップ・メモリーの空き容量(KB)。
swpIn [KB/s] 現在のサンプル間隔内での平均スワップ・イン率(KB/秒)。
swpOut [KB/s] 現在のサンプル間隔内での平均スワップ・アウト率(KB/秒)。
pgIn [#/s] 現在のサンプル間隔内での平均ページ・イン率(ページ/秒)。
pgOut [#/s] 現在のサンプル間隔内での平均ページ・アウト率(ページ/秒)。
slabReclaim [KB] キャッシュなど、再利用される可能性のあるスラブの部分。
buffer [KB] カーネル・バッファにより使用されているメモリー。
Cache [KB] ページ・キャッシュおよびスラブで使用されているメモリー。
bufferAndCache [KB] バッファおよびキャッシュの合計サイズ(buffer[KB] + Cache[KB])。
hugePageTotal [#] 現在のサンプル間隔でシステム内に存在するヒュージ・ページの合計数。
hugePageFree [KB] 現在のサンプル間隔でシステム内に存在する空きヒュージ・ページの合計数。
hugePageSize [KB] オペレーティング・システムのバージョンに応じた1つのヒュージ・ページのサイズ(KB)。通常は、特定のホストのすべてのサンプルで同じです。

表4-24 デバイス・メトリック

メトリック名(単位) 説明
disks [#] システムで構成されているディスクの数。
ioR [KB/s] すべてのデバイスの読取り速度集計。
ioW [KB/s] すべてのデバイスの書込み速度集計。
numIOs [#/s] すべてのデバイスのI/O操作速度集計。

表4-25 NFSメトリック

メトリック名(単位) 説明
nfs [#] NFSデバイス合計数。

表4-26 プロセス・メトリック

メトリック名(単位) 説明
fds [#] システム内のオープン・ファイル構造体の数。
procs [#] プロセスの数。
rtProcs [#] リアルタイム・プロセスの数。
procsInDState 中断不可能なスリープ状態のプロセスの数。
sysFdLimit [#] ファイル構造体の数に対するシステム制限。
procsOnCpu [#] CPUで現在実行中のプロセスの数。
procsBlocked [#] I/O操作の完了など、一部のイベント/リソースが使用可能になるのを待機しているプロセスの数。

プロセス集計メトリック・セット

プロセス・グループごとのすべてのプロセスの集計メトリックが含まれます。

表4-27 プロセス集計メトリック・セット

メトリック名(単位) 説明
DBBG ユーザーのOracle Databaseバックグラウンド・プロセス・グループ。
DBFG ユーザーのOracle Databaseフォアグラウンド・プロセス・グループ。
MDBBG MGMTDBバックグラウンド・プロセス・グループ。
MDBFG MGMTDBフォアグラウンド・プロセス・グループ。
ASMBG ASMバックグラウンド・プロセス・グループ。
ASMFG ASMフォアグラウンド・プロセス・グループ。
IOXBG IOSバックグラウンド・プロセス・グループ。
IOXFG IOSフォアグラウンド・プロセス・グループ。
APXBG APXバックグラウンド・プロセス・グループ。
APXFG APXフォアグラウンド・プロセス・グループ。
CLUST Clusterwareプロセス・グループ。
OTHER デフォルト・グループ。

次のメトリックがグループごとに集計され、グループ・サマリーがレポートされます。

メトリック名(単位) 説明
processes [#] グループ内のプロセスの合計数。
cpu [%] 集計されたCPU使用率。
rss [KB] 集計された物理メモリー使用量。
shMem [KB] 集計された共有メモリー使用量。
thrds [#] 集計されたスレッド数。
fds [#] 集計されたオープン・ファイル記述子。
cpuWeight [%] マシンの全体のCPU使用率におけるグループの割合。

4.5.5 コンポーネント障害の検出および自律的な自己修復

コンポーネントの障害を検出する機能を向上させ、自律的な自己修復によってビジネス継続性を改善します。

クラスタ状態モニターは、保留中または実際の障害を示す重要なコンポーネント・イベントを識別し、修正処理の推奨事項を提示する診断機能を導入します。このようなアクションが自律的に実行される場合があります。このようなイベントおよびアクションが取得されると、管理者はOracle Trace File Analyzerなどのコンポーネントを介して通知されます。

診断機能に関連する用語

CHMDiag: CHMDiagosysmondによって管理されるpythonデーモンであり、イベントをリスニングし、アクションを実行します。CHMDiagが様々なイベントまたはアクションを受信すると、これらのアクションが正しいかどうかを検証、フロー制御し、アクションの実行をスケジュールします。CHMDiagは、各アクションを完了まで監視し、そのアクションに設定した固有の時間よりも時間がかかる場合にアクションを終了します。

このJSONファイルは、すべてのイベントまたはアクションと、それぞれの属性を記述します。すべてのイベントまたはアクションには、一意に識別可能なIDがあります。このファイルには、様々なアクションまたはイベントに対して構成可能な各種プロパティも含まれます。CHMDiagは、起動時にこのファイルをロードします。

CRFE API: CRFE APIは、CHMDiagにイベントを送信するために、すべてのCクライアントで使用されます。このAPIは、コンポーネント(RDBMS、CSS、GIPC)などの内部クライアントでイベントまたはアクションを公開するために使用されます。

また、このAPIではイベントの同期公開と非同期公開の両方をサポートできます。イベントの非同期公開は、バックグラウンド・スレッドを介して行われます。バックグラウンド・スレッドは、プロセス内のすべてのCRFE APIクライアントで共有されます。

CHMDIAG_BASE: このディレクトリはORACLE_BASE/hostname/crf/chmdiagにあります。このディレクトリ・パスには次のディレクトリが含まれており、CHMDiagによって移入または管理されます。

  • ActionsResults: 起動されたすべてのアクションのすべての結果と、各アクションのサブディレクトリが含まれます。
  • EventsLog: CHMDiagで受信したすべてのイベントまたはアクションのログと、それぞれのアクション結果の場所が含まれます。これらのログ・ファイルは、固定サイズに達した後も自動ローテーションされます。
  • CHMDiagLog: CHMDiagデーモン・ログが含まれます。ログ・ファイルは、特定のサイズに達した後に自動ローテーションされます。ログには、CHMDiagで発生する問題を診断するための十分なデバッグ情報が記載されます。
  • Config: CHMDiagプロセスのpidファイル管理の実行サブディレクトリが含まれます。
様々なコンポーネントによって送信されたCHMDiagイベントまたはアクションを問い合せ、収集および説明するための新しいコマンドは、次のとおりです:
  • oclumon chmdiag description: oclumon chmdiag descriptionコマンドを使用して、サポートされているすべてのイベントおよびアクションの詳細な説明を取得します。
  • oclumon chmdiag query: oclumon chmdiag queryコマンドを使用して、様々なコンポーネントによって送信されたCHMDiagイベントまたはアクションを問い合せ、HTMLまたはテキスト・レポートを生成します。
  • oclumon chmdiag collect:oclumon chmdiag collectコマンドを使用して、CHMDiagで生成されたすべてのイベントまたはアクションのデータを、指定の出力ディレクトリの場所に収集します。