オペレーティング・システム・リソースのメトリックの収集

4.5 オペレーティング・システム・リソースのメトリックの収集

クラスタ状態モニター(CHM)およびシステム・ヘルス・モニター(SHM)は、システムの問題を診断およびトラブルシューティングするために役立つ多数の一連のオペレーティング・システム・メトリックを収集、分析、集計および格納する、高パフォーマンスで軽量なデーモンです。

CHMまたはSHMがユニークである理由

CHMまたはSHM	一般的なOSコレクタ
最終的な選択肢 - デーモンはロック済メモリーを実行し、RTスケジューリング・クラスによってシステム負荷に対してもデータ収集の一貫性を維持します。	システム負荷によるスケジュール遅延に起因する一貫性のないデータ・ドロップアウト。
5秒という忠実度の高いデータ・サンプリング・レート。サンプリング・レート5秒という、非常に低いリソース使用率プロファイル。	複数ユーティリティの実行により、監視対象システムへの追加のオーバーヘッド発生とそれによるサンプリング・レートが上昇し、悪化します。
高可用性デーモンにより、複数のリソース・カテゴリにわたって照合済データが収集されます。高度に最適化されたコレクタ(データはユーティリティと同じソースであるオペレーティング・システムから直接読み取られます)。	`top`、`ps`、`vmstat`、`iostat`などのスクリプト/コマンドライン・ユーティリティのセットで、コレクション・サンプルごとに、1つ以上のファイルに出力をリダイレクトします。
収集されたデータは、サンプルごとにシステム・スナップショットの概要(Nodeview)に照合され、Nodeviewには複数のリソース・カテゴリに収集されたデータの要約および分析も含まれます。	様々なリソース・カテゴリにおよぶシステム・スナップショットの概要は、照合が非常に困難です。
Nodeviewへのデータの収集および照合時の有用なインライン分析とサマリーにより、面倒な手作業の時間がかかる分析が大幅に減少し、有意義なインサイトが得られます。	複数のファイルにわたる様々なユーティリティの出力を照合、解析、解釈し、その後で有用なインサイトについて分析する必要があるため、この分析には時間がかかり、処理が集中します。
Clusterware固有のメトリック収集(プロセス集計、ASM/OCR/VDディスク・タグ付け、プライベート/パブリックNICタグ付け)を実行します。また、詳細なデータ分析とビジュアライゼーションのための豊富なツールセットも提供します。	なし

CHMとSHMの比較: 基本的な違いの理解
このトピックでは、クラスタ状態モニター(CHM)とシステム・ヘルス・モニター(SHM)の目的および使用方法の概要を示します。
システム・ヘルス・モニター(SHM)に関する追加の詳細
システム・ヘルス・モニター(SHM)は、AHFに統合され、デフォルトで有効になります。AHFでは、診断コレクションにSHMファイルが含まれるようになりました。
クラスタ状態モニター・データの収集
クラスタ内の任意のノードから、クラスタ状態モニター・データを収集します。
クラスタ状態モニターおよびシステム・ヘルス・モニターによって収集されるオペレーティング・システム・メトリック
CHMおよびSHMによって収集されるメトリックを確認します。
コンポーネント障害の検出および自律的な自己修復
コンポーネントの障害を検出する機能を向上させ、自律的な自己修復によってビジネス継続性を改善します。
CHMインライン分析
インライン分析は、Autonomous Health Framework (AHF)がインストールされているすべてのシステムで自動的に実行される新機能です。
スタンドアロンの非rootインストールの場合のAHFへのシステム・ヘルス・モニター(SHM)の統合
システム・ヘルス・モニター(SHM)は、Oracle Support向けの不可欠なオペレーティング・システム・メトリックを収集するツールです。特に、サービス・リクエスト(SR)が記録されたときの、ノード削除などの初期障害の診断に役立ちます。
オペレーティング・システムの問題に関するAHFインサイト・レポートの作成(root以外のAHFインストール)
SHMデータからインサイト・レポートを作成して、root以外のAHF環境でオペレーティング・システム関連の問題を事前に識別し調査します。
診断シグネチャ: HugePagesNotUtilized
新しい診断シグネチャHugePagesNotUtilizedがAHF 25.11で導入されました。

親トピック: 診断データの収集

4.5.1 CHMとSHMの比較: 基本的な違いの理解

このトピックでは、クラスタ状態モニター(CHM)およびシステム・ヘルス・モニター(SHM)の目的および使用方法の概要を示します。

クラスタ状態モニター(CHM)	システム・ヘルス・モニター(SHM)
システム・モニター・デーモン(`osysmond`)と呼ばれ、RACシステムの各クラスタ・ノードで実行されるリアルタイム監視およびオペレーティング・システム・メトリック収集のデーモンです。	システム・ヘルス・モニター(`ahf-sysmon`)と呼ばれ、単一インスタンス・データベースおよび非GIベースのシステムで使用可能なリアルタイム監視およびオペレーティング・システム収集のサービスです。
11.2以降、GIの一部として統合され、デフォルトで有効になります。	AHF 24.6の一部として統合され、デフォルトで有効になります
GIホームからシステム監視サービス(`osysmond`)として実行されます。	AHFホームから`ahf-sysmon`サービスとして実行されます。
GIスタック内で高可用性サービス(HAS)リソースとして管理されます。	AHFスタック内の`tfa-monitor`リソースとして管理されます。
リソースのステータスは、次のコマンドを使用して問い合せることができます: `crsctl stat res ora.crf -init -d`	プロセスのステータスは、次のコマンドを使用して問い合せることができます: `ahfctl statusahf`
生成されたオペレーティング・システム・メトリックは、`ORACLE_BASE/crsdata/<hostname>/crf/db/json`に格納されます。メトリック・リポジトリは、前述のローカル・ファイルシステムで自動管理されます。 Nodeviewサンプルは、常にリポジトリ(JSONレコード)に書き込まれます履歴データは1時間ごとのzipファイルに自動アーカイブされますアーカイブされたファイルは、デフォルトの保存制限に達すると自動的にパージされます(デフォルト: 200 MB)	生成されたオペレーティング・システム・メトリックは、`/opt/oracle.ahf/data/<hostname>/shm`に格納されますメトリック・リポジトリは、前述のローカル・ファイルシステムで自動管理されます。メトリック・サンプルは、常にリポジトリ(JSONレコード)に書き込まれます履歴データは1時間ごとのzipファイルに自動アーカイブされますアーカイブされたファイルは、デフォルトの保存制限に達すると自動的にパージされます(デフォルト: 200 MB)
前述の生成されたオペレーティング・システム・メトリックは、`tfactl diagcollect`の一部として収集されます。	前述の生成されたオペレーティング・システム・メトリックは、`tfactl diagcollect`の一部として収集されます。
Linux、Solaris、AIX、zLinux、ARM64およびMicrosoft Windowsプラットフォームでサポートされています。	Linuxプラットフォームでのみサポートされています。

親トピック: オペレーティング・システム・リソースのメトリックの収集

4.5.2 システム・ヘルス・モニター(SHM)に関する追加の詳細

システム・ヘルス・モニター(SHM)は、AHFに統合され、デフォルトで有効になります。AHFでは、診断コレクションにSHMファイルが含まれるようになりました。

システム・ヘルス・モニター(SHM)は、プロセス、メモリー、ネットワーク、IOおよびディスクのオペレーティング・システム・メトリックをリアルタイムで監視して、システム・パフォーマンスの問題をリアルタイムでトラブルシューティングして根本原因を特定し、過去の問題の根本原因の分析も行います。システム・ヘルス・モニター(SHM)の分析はAHFインサイトで使用できます。詳細は、「診断インサイトの確認」を参照してください。

SHMは、AHFによってトリガーおよび制御されるデーモン・プロセスとして動作し、デフォルトで有効になりますが、単一インスタンス・データベースおよび非GIベースのシステムでのみ使用できます。

また、ahfctl statusahfコマンドを使用して、システム・ヘルス・モニターのステータスを確認できます。

SHMを起動するには:
このコマンドは、なんらかの理由でSHMが以前に停止されており、再度オンに切り替える必要がある場合にのみ実行します。
```
ahf configuration set --property ahf.collectors.enhanced_os_metrics --value on
```
コマンドを実行すると、ahf-sysmonが起動できるようになり、TFAデーモンが起動してそれを監視します。
SHMを停止するには:
```
ahf configuration set --property ahf.collectors.enhanced_os_metrics --value off
```
コマンドを実行すると、ahf-sysmonが稼働しているかどうかがチェックされます。実行中の場合、コマンドはプロセスを強制終了し、ahf-sysmonを停止します。

SHMのデフォルト値を確認するには:

ahf configuration get --property ahf.collectors.enhanced_os_metrics
ahf.collectors.enhanced_os_metrics: on

SHMプロセス(ahf-sysmon)がデフォルトでアクティブであることを確認するには:

ps -fe | grep sysmon
root     3333453  1  0 22:44 ?   00:00:00 /opt/oracle.ahf/shm/ahf-sysmon/bin/ahf-sysmon

SHMのJSONファイルをチェックするには:
SHMデータ・ディレクトリ/opt/oracle.ahf/data/<hostname>/shmでJSONファイルを見つけます

SHMがTFAMainと同じcgroupで実行されているかどうかを確認するには:

-bash-4.4$ ps -ef | grep ahf-sysmon
root        3232       1  0 09:38 ?        00:00:47 /opt/oracle.ahf/shm/ahf-sysmon/bin/ahf-sysmon
testuser   155833  155678  0 17:04 pts/0    00:00:00 grep --color=auto ahf-sysmon
-bash-4.4$ cat /proc/3232/cgroup | grep "cpu"
8:cpu,cpuacct:/oratfagroup
4:cpuset:/

-bash-4.4$ ps -ef | grep tfa
root        1945       1  0 09:37 ?        00:00:02 /bin/sh /etc/init.d/init.tfa run >/dev/null 2>&1 </dev/null
root        2851       1  1 09:37 ?        00:05:21 /opt/oracle.ahf/jre/bin/java --add-opens java.base/java.lang=ALL-UNNAMED -server -Xms128m -Xmx256m -Djava.awt.headless=true -Ddisable.checkForUpdate=true -XX:+ExitOnOutOfMemoryError oracle.rat.tfa.TFAMain /opt/oracle.ahf/tfa
testuser   156073  155678  0 17:05 pts/0    00:00:00 grep --color=auto tfa

-bash-4.4$ cat /proc/2851/cgroup | grep "cpu"
8:cpu,cpuacct:/oratfagroup
4:cpuset:/

-bash-4.4$ cat /proc/3232/cgroup | grep "cpu"
8:cpu,cpuacct:/oratfagroup
4:cpuset:/

cat /proc/[PID_OF_AHF-SYSMON]/cgroup | grep "cpu"

cat /proc/[PID_OF_TFA]/cgroup | grep "cpu"

AHF収集でSHMファイルが収集されたことを確認するには:

前提条件として、次を実行します:
```
tfactl set smartprobclassifier=off
```
その後で、次を実行します:
```
tfactl diagcollect -last 1h -tag shm_last_1h; 
unzip -l $REPOSITORY_ROOT/shm_last_1h/$HOSTNAME*.zip
```
生成されたzipファイルにSHMというディレクトリが存在する必要があります。

最後に、次を実行します:

tfactl diagcollect -last 1h
Archive:  /opt/oracle.ahf/data/repository/collection_Wed_Apr_10_22_03_04_UTC_2024_node_all/test-node.tfa_Wed_Apr_10_22_03_03_UTC_2024.zip | grep SHM
  Length      Date    Time    Name
---------  ---------- -----   ----
      327  04-10-2024 22:03   test-node/SHMDATA/shmdataconverter_3279258.log
     6660  04-10-2024 22:03   test-node/SHMDATA/shmosmeta_1923000.json
    43575  04-10-2024 22:03   test-node/SHMDATA/shmosmetricdescription.json
  9561411  04-10-2024 22:03   test-node/SHMDATA/shmosdata_test-node_2024-04-10-2100.log
   997193  04-10-2024 22:03   test-node/SHMDATA/shmosdata_test-node_2024-04-10-2200.log

親トピック: オペレーティング・システム・リソースのメトリックの収集

4.5.3 クラスタ状態モニター・データの収集

クラスタ内の任意のノードから、クラスタ状態モニター・データを収集します。

Oracleでは、Oracle Clusterwareエラーが発生したときに、tfactl diagcollectコマンドを実行して診断データを収集することをお薦めします。

親トピック: オペレーティング・システム・リソースのメトリックの収集

4.5.4 クラスタ状態モニターおよびシステム・ヘルス・モニターによって収集されるオペレーティング・システム・メトリック

CHMおよびSHMによって収集されるメトリックを確認します。

メトリックの概要

CHMは、収集されたオペレーティング・システム・データをNodeviewにグループ化します。Nodeviewはメトリック・セットのグループで、各メトリック・セットには一意のシステム・リソースの詳細なメトリックが含まれます。

メトリック・セットの簡単な説明は次のとおりです:

CPUメトリック・セット: 使用率でソートされた上位127のCPUのメトリック
デバイス・メトリック・セット: ASM/VD/OCRを含む127のデバイスと、平均待機時間の長いのデバイスのメトリック
プロセス・メトリック・セット: 127のプロセスのメトリック
- 上位25のCPUコンシューマ(アイドル・プロセスはレポートされません)
- 上位25のメモリー・コンシューマ(RSS <合計RAMの1%のものはレポートされません)
- 上位25のI/Oコンシューマ
- 上位25のファイル記述子コンシューマ(上位inodeコンシューマを識別できます)
- プロセス集計: すべてのOracle DatabaseおよびOracle ASMインスタンスのフォアグラウンド・プロセスおよびバックグラウンド・プロセス別に要約されたメトリック
ネットワーク・メトリック・セット: パブリックおよびプライベート・インターコネクトを含む16のNICSのメトリック
NFSメトリック・セット: ラウンド・トリップ時間でソートされた32 NFSのメトリック
プロトコル・メトリック・セット: プロトコル・グループTCP、UDPおよびIPのメトリック
ファイルシステム・メトリック・セット: ファイルシステム使用率のメトリック
クリティカル・リソース・メトリック・セット: クリティカルなシステム・リソース使用率のメトリック
- CPUメトリック: システム全体のCPU使用率の統計
- メモリー・メトリック: システム全体のメモリー統計
- デバイス・メトリック: 個別デバイスのメトリック・セットとは異なるシステム全体のデバイス統計
- NFSメトリック: 30秒ごとに収集されるNFSデバイスの総数
- プロセス・メトリック: システム全体の一意のプロセス・メトリック

CPUメトリック・セット

使用率でソートされた、すべてのCPUコアからのメトリックが含まれます。

表4-13 CPUメトリック・セット

メトリック名(単位)	説明
system [%]	システム・レベル(カーネル)で実行中にエラーが発生したときのCPU使用率。
user [%]	ユーザー・レベル(アプリケーション)で実行中にエラーが発生したときのCPU使用率。
usage [%]	合計使用率(system[%] + user[%])。
nice [%]	niceの優先度のユーザー・レベルで実行中にエラーが発生したときのCPU使用率。
ioWait [%]	CPUがアイドルで、システムに未処理のディスクI/Oリクエストがあった時間の割合。
steal [%]	ハイパーバイザが別の仮想プロセッサを処理している間に仮想CPUが強制的に待機となった時間の割合。

デバイス・メトリック・セット

サービス時間(ミリ秒)でソートされた、すべてのディスク・デバイス/パーティションからのメトリックが含まれます。

表4-14 デバイス・メトリック・セット

メトリック名(単位)	説明
ioR [KB/s]	デバイスから読み取られたデータ量。
ioW [KB/s]	デバイスに書き込まれたデータ量。
numIOs [#/s]	平均ディスクI/O操作。
qLen [#]	I/Oキューに入っている、待機状態にあるリクエストの数。
aWait [msec]	I/Oごとの平均待機時間。
svcTm [msec]	I/Oリクエストごとの平均サービス時間。
util [%]	デバイスの使用率(`iostat -x`コマンドの`'%util`メトリックと同じです。デバイスがアクティブだった時間の割合を表します)。

プロセス・メトリック・セット

すべてのシステム・プロセスにおいて計算される集計メトリック・データの複数のカテゴリが含まれます。

表4-15 プロセス・メトリック・セット

メトリック名(単位)	説明
pid	プロセスID。
pri	プロセス優先度(オペレーティング・システムからのraw値)。
psr	プロセスが現在割り当てられている、または実行されているプロセッサ。
pPid	親プロセスID。
nice	プロセスのnice値。
state	プロセスの状態。たとえば、`R->Running`、`S->Interruptible sleep`などです。
class	プロセスのスケジューリング・クラス。たとえば、`RR->RobinRound`、`FF->First in First out`、`B->Batch scheduling`などです。
fd [#]	30秒ごとに更新される、このプロセスでオープンしているファイル記述子の数。
name	プロセスの名前。
cpu [%]	コア全体のプロセスCPU使用率。たとえば、50% => シングル・コアの50%、400% => の100%の使用率です。
thrds [#]	このプロセスによって作成されたスレッドの数。
vmem [KB]	プロセスの仮想メモリー使用量(KB)。
shMem [KB]	プロセスの共有メモリー使用量(KB)。
rss [KB]	プロセス・メモリー固有の設定サイズ(KB)。
ioR [KB/s]	1秒当たりのI/O読取り(KB単位)。
ioW [KB/s]	1秒当たりのI/O書込み(KB単位)。
ioT [KB/s]	1秒当たりのI/O合計(KB単位)。
cswch [#/s]	1秒当たりのコンテキストの切替え。いくつかの重要なOracle Databaseプロセスについてのみ収集されます。
nvcswch [#/s]	1秒当たりの強制的なコンテキスト切替え。いくつかの重要なOracle Databaseプロセスについてのみ収集されます。
cumulativeCpu [ms]	プロセスでこれまでに使用されたCPUの量(ミリ秒)。

NICメトリック・セット

合計速度/秒(KB)でソートされた、すべてのネットワーク・インタフェースからのメトリックが含まれます。

表4-16 NICメトリック・セット

メトリック名(単位)	説明
name	インタフェースの名前。
tag	インタフェースのタグ(例: public、privateなど)。
mtu [B]	インタフェースでサポートされている最大転送単位のサイズ(バイト)。
rx [Kbps]	平均ネットワーク受信速度。
tx [Kbps]	平均ネットワーク送信速度。
total [Kbps]	平均ネットワーク送信速度(rx[Kb/s] + tx[Kb/s])。
rxPkt [#/s]	平均受信パケット・レート。
txPkt [#/s]	平均送信パケット・レート。
pkt [#/s]	パケットの平均送信レート(rxPkt[#/s] + txPkt[#/s])。
rxDscrd [#/s]	受信パケットの平均ドロップ/破棄レート。
txDscrd [#/s]	送信パケットの平均ドロップ/破棄レート。
rxUnicast [#/s]	受信ユニキャスト・パケットの平均レート。
rxNonUnicast [#/s]	受信マルチキャスト・パケットの平均レート。
dscrd [#/s]	合計破棄パケットの平均レート(rxDscrd + txDscrd)。
rxErr [#/s]	受信パケットの平均エラー率。
txErr [#/s]	送信パケットの平均エラー率。
Err [#/s]	合計転送の平均エラー率(rxErr[#/s] + txErr[#/s])。

NFSメトリック・セット

ラウンド・トリップ時間でソートされた、上位32のNFSが含まれます。このメトリック・セットは30秒ごとに1回収集されます。

表4-17 NFSメトリック・セット

メトリック名(単位)	説明
op [#/s]	ファイルシステムに発行された、1秒当たりの読取り/書込み操作の数。
bytes [#/sec]	ファイルシステムからの1秒当たりの読取り/書込みバイト数。
rtt [s]	これは、クライアントのカーネルがRPCリクエストを送信してから応答を受信するまでの期間です。
exe [s]	これは、NFSクライアントがカーネルに対してRPCリクエストし、そのRPCリクエストが完了するまでの期間です。これには前述のRTT時間が含まれます。
retrains [%]	これは再送信の頻度(%)です。

プロトコル・メトリック・セット

プロトコル・グループTCP、UDPおよびIPの特定のメトリックが含まれます。メトリック値はシステムの起動からの累積です。

表4-18 TCPメトリック・セット

メトリック名(単位)	説明
failedConnErr [#]	TCP接続がSYN-SENT状態またはSYN-RCVD状態からCLOSED状態に直接遷移した回数と、TCP接続がSYN-RCVD状態からLISTEN状態に直接遷移した回数。
estResetErr [#]	TCP接続がESTABLISHED状態またはCLOSE-WAIT状態からCLOSED状態に直接遷移した回数。
segRetransErr [#]	再送信されたTCPセグメントの合計数。
rxSeg [#]	TCPレイヤーで受信されたTCPセグメントの合計数。
txSeg [#]	TCPレイヤーから送信されたTCPセグメントの合計数。

表4-19 UDPメトリック・セット

メトリック名(単位)	説明
unkPortErr [#]	宛先ポートにアプリケーションが存在しなかった受信済データグラムの合計数。
rxErr [#]	宛先ポートにアプリケーションが存在しないこと以外の理由で配信できなかった受信済データグラムの数。
rxPkt [#]	受信した合計パケット数。
txPkt [#]	送信されたパケットの合計数。

表4-20 IPメトリック・セット

メトリック名(単位)	説明
ipHdrErr [#]	IPv4ヘッダー内のエラーのため破棄された入力データグラムの数。
addrErr [#]	IPv4ヘッダーの宛先フィールドのIPv4アドレスが、このエンティティで受信できる有効なアドレスではなかったために破棄された入力データグラムの数。
unkProtoErr [#]	正常に受信されたものの、プロトコルが不明またはサポートされていないために破棄された、ローカルにアドレス指定されたデータグラムの数。
reasFailErr [#]	IPv4の再アセンブリ・アルゴリズムによって検出された障害の数。
fragFailErr [#]	フラグメンテーション・エラーのため破棄されたIPv4データグラムの数。
rxPkt [#]	IPレイヤーで受信したパケットの合計数。
txPkt [#]	IPレイヤーから送信したパケットの合計数。

ファイルシステム・メトリック・セット

ファイルシステム使用率のメトリックが含まれます。GRID_HOMEファイルシステムについてのみ収集されます。

表4-21 ファイルシステム・メトリック・セット

メトリック名(単位)	説明
mount	マウント・ポイント。
type	ファイルシステム・タイプ(例: etx4)。
tag	ファイルシステム・タグ(例: GRID_HOME)。
total [KB]	領域の合計容量(KB)。
used [KB]	使用済領域の量(KB)。
avbl [KB]	使用可能な領域の量(KB)。
used [%]	使用済領域の割合。
ifree [%]	空きファイル・ノードの割合。

システム・メトリック・セット

クリティカル・システム・リソース使用率のメトリック・セットのサマリーが含まれます。

表4-22 CPUメトリック

メトリック名(単位)	説明
pCpus [#]	システム内の物理処理ユニットの数。
Cores [#]	システム内のすべてのCPUのコア数。
vCpus [#]	システム内の論理処理ユニットの数。
cpuHt	CPUのハイパースレッディングが有効(Y)か無効(N)か。
osName	オペレーティング・システムの名前。
chipName	処理ユニットのチップの名前。
system [%]	システム・レベル(カーネル)で実行中にエラーが発生したときのCPU使用率。
user [%]	ユーザー・レベル(アプリケーション)で実行中にエラーが発生したときのCPU使用率。
usage [%]	合計CPU使用率(system[%] + user[%])。
nice [%]	NICEの優先度のユーザー・レベルで実行中にエラーが発生したときのCPU使用率。
ioWait [%]	CPUがアイドルで、システムに未処理のディスクI/Oリクエストがあった時間の割合。
Steal [%]	ハイパーバイザが別の仮想プロセッサを処理している間に仮想CPUが強制的に待機となった時間の割合。
cpuQ [#]	現在のサンプル間隔内で、実行キューで待機中のプロセスの数。
loadAvg1	計算された1分間のシステムの平均負荷。
loadAvg5	計算された5分間のシステムの平均負荷。
loadAvg15	計算された15分間のシステムの平均負荷。平均負荷が高いということは、システムがオーバーロードされ、多くのプロセスがCPU時間を待機していることを示します。
Intr [#/s]	システムで1秒間に発生した割込みの数。
ctxSwitch [#/s]	システムで1秒間に発生したコンテキスト切替えの数。

表4-23 メモリー・メトリック

メトリック名(単位)	説明
totalMem [KB]	使用可能なRAMの合計容量(KB)。
freeMem [KB]	RAMの空き容量(KB)。
avblMem [KB]	スワップせずに新しいプロセスを開始するのに使用できるメモリーの量。
shMem [KB]	tmpfsによって(主に)使用されているメモリー。
swapTotal [KB]	物理スワップ・メモリーの合計量(KB)。
swapFree [KB]	スワップ・メモリーの空き容量(KB)。
swpIn [KB/s]	現在のサンプル間隔内での平均スワップ・イン率(KB/秒)。
swpOut [KB/s]	現在のサンプル間隔内での平均スワップ・アウト率(KB/秒)。
pgIn [#/s]	現在のサンプル間隔内での平均ページ・イン率(ページ/秒)。
pgOut [#/s]	現在のサンプル間隔内での平均ページ・アウト率(ページ/秒)。
slabReclaim [KB]	キャッシュなど、再利用される可能性のあるスラブの部分。
buffer [KB]	カーネル・バッファにより使用されているメモリー。
Cache [KB]	ページ・キャッシュおよびスラブで使用されているメモリー。
bufferAndCache [KB]	バッファおよびキャッシュの合計サイズ(buffer[KB] + Cache[KB])。
hugePageTotal [#]	現在のサンプル間隔でシステム内に存在するヒュージ・ページの合計数。
hugePageFree [KB]	現在のサンプル間隔でシステム内に存在する空きヒュージ・ページの合計数。
hugePageSize [KB]	オペレーティング・システムのバージョンに応じた1つのヒュージ・ページのサイズ(KB)。通常は、特定のホストのすべてのサンプルで同じです。

表4-24 デバイス・メトリック

メトリック名(単位)	説明
disks [#]	システムで構成されているディスクの数。
ioR [KB/s]	すべてのデバイスの読取り速度集計。
ioW [KB/s]	すべてのデバイスの書込み速度集計。
numIOs [#/s]	すべてのデバイスのI/O操作速度集計。

表4-25 NFSメトリック

メトリック名(単位)	説明
nfs [#]	NFSデバイス合計数。

表4-26 プロセス・メトリック

メトリック名(単位)	説明
fds [#]	システム内のオープン・ファイル構造体の数。
procs [#]	プロセスの数。
rtProcs [#]	リアルタイム・プロセスの数。
procsInDState	中断不可能なスリープ状態のプロセスの数。
sysFdLimit [#]	ファイル構造体の数に対するシステム制限。
procsOnCpu [#]	CPUで現在実行中のプロセスの数。
procsBlocked [#]	I/O操作の完了など、一部のイベント/リソースが使用可能になるのを待機しているプロセスの数。

プロセス集計メトリック・セット

プロセス・グループごとのすべてのプロセスの集計メトリックが含まれます。

表4-27 プロセス集計メトリック・セット

メトリック名(単位)	説明
DBBG	ユーザーのOracle Databaseバックグラウンド・プロセス・グループ。
DBFG	ユーザーのOracle Databaseフォアグラウンド・プロセス・グループ。
MDBBG	MGMTDBバックグラウンド・プロセス・グループ。
MDBFG	MGMTDBフォアグラウンド・プロセス・グループ。
ASMBG	ASMバックグラウンド・プロセス・グループ。
ASMFG	ASMフォアグラウンド・プロセス・グループ。
IOXBG	IOSバックグラウンド・プロセス・グループ。
IOXFG	IOSフォアグラウンド・プロセス・グループ。
APXBG	APXバックグラウンド・プロセス・グループ。
APXFG	APXフォアグラウンド・プロセス・グループ。
CLUST	Clusterwareプロセス・グループ。
OTHER	デフォルト・グループ。

次のメトリックがグループごとに集計され、グループ・サマリーがレポートされます。

メトリック名(単位)	説明
processes [#]	グループ内のプロセスの合計数。
cpu [%]	集計されたCPU使用率。
rss [KB]	集計された物理メモリー使用量。
shMem [KB]	集計された共有メモリー使用量。
thrds [#]	集計されたスレッド数。
fds [#]	集計されたオープン・ファイル記述子。
cpuWeight [%]	マシンの全体のCPU使用率におけるグループの割合。

親トピック: オペレーティング・システム・リソースのメトリックの収集

4.5.5 コンポーネント障害の検出および自律的な自己修復

コンポーネントの障害を検出する機能を向上させ、自律的な自己修復によってビジネス継続性を改善します。

クラスタ状態モニターは、保留中または実際の障害を示す重要なコンポーネント・イベントを識別し、修正処理の推奨事項を提示する診断機能を導入します。このようなアクションが自律的に実行される場合があります。このようなイベントおよびアクションが取得されると、管理者はOracle Trace File Analyzerなどのコンポーネントを介して通知されます。

診断機能に関連する用語

CHMDiag: CHMDiagはosysmondによって管理されるpythonデーモンであり、イベントをリスニングし、アクションを実行します。CHMDiagが様々なイベントまたはアクションを受信すると、これらのアクションが正しいかどうかを検証、フロー制御し、アクションの実行をスケジュールします。CHMDiagは、各アクションを完了まで監視し、そのアクションに設定した固有の時間よりも時間がかかる場合にアクションを終了します。

このJSONファイルは、すべてのイベントまたはアクションと、それぞれの属性を記述します。すべてのイベントまたはアクションには、一意に識別可能なIDがあります。このファイルには、様々なアクションまたはイベントに対して構成可能な各種プロパティも含まれます。CHMDiagは、起動時にこのファイルをロードします。

CRFE API: CRFE APIは、CHMDiagにイベントを送信するために、すべてのCクライアントで使用されます。このAPIは、コンポーネント(RDBMS、CSS、GIPC)などの内部クライアントでイベントまたはアクションを公開するために使用されます。

また、このAPIではイベントの同期公開と非同期公開の両方をサポートできます。イベントの非同期公開は、バックグラウンド・スレッドを介して行われます。バックグラウンド・スレッドは、プロセス内のすべてのCRFE APIクライアントで共有されます。

CHMDIAG_BASE: このディレクトリはORACLE_BASE/hostname/crf/chmdiagにあります。このディレクトリ・パスには次のディレクトリが含まれており、CHMDiagによって移入または管理されます。

ActionsResults: 起動されたすべてのアクションのすべての結果と、各アクションのサブディレクトリが含まれます。
EventsLog: CHMDiagで受信したすべてのイベントまたはアクションのログと、それぞれのアクション結果の場所が含まれます。これらのログ・ファイルは、固定サイズに達した後も自動ローテーションされます。
CHMDiagLog: CHMDiagデーモン・ログが含まれます。ログ・ファイルは、特定のサイズに達した後に自動ローテーションされます。ログには、CHMDiagで発生する問題を診断するための十分なデバッグ情報が記載されます。
Config: CHMDiagプロセスのpidファイル管理の実行サブディレクトリが含まれます。

様々なコンポーネントによって送信されたCHMDiagイベントまたはアクションを問い合せ、収集および説明するための新しいコマンドは、次のとおりです:

oclumon chmdiag description: oclumon chmdiag descriptionコマンドを使用して、サポートされているすべてのイベントおよびアクションの詳細な説明を取得します。
oclumon chmdiag query: oclumon chmdiag queryコマンドを使用して、様々なコンポーネントによって送信されたCHMDiagイベントまたはアクションを問い合せ、HTMLまたはテキスト・レポートを生成します。
oclumon chmdiag collect:oclumon chmdiag collectコマンドを使用して、CHMDiagで生成されたすべてのイベントまたはアクションのデータを、指定の出力ディレクトリの場所に収集します。

関連トピック

親トピック: オペレーティング・システム・リソースのメトリックの収集

4.5.6 CHMインライン分析

インライン分析は、Autonomous Health Framework (AHF)がインストールされているすべてのシステムで自動的に実行される新機能です。

従来、クラスタ状態モニター(CHM)またはシステム・ヘルス・モニター(SHM)によって収集されたオペレーティング・システム(OS)メトリックは、Grid Infrastructure (GI)ベース・リポジトリに直接格納されています。しかしながら、このリポジトリのサイズは制限されています(HAS 19では250MB、MAINでは500MB)。

大規模なFASAASシステム(30,000から40,000個のプロセスを実行する可能性がある)では、これらのサイズ制限により、CHM OSデータを数時間しか保持できません。その結果、ほとんどのサービス・リクエスト(SR)で、必要なOSデータが不足しています。それにより、問題を効果的に診断して解決することが難しくなります。

CHMインライン分析の機能拡張により、大量の生CHM OSデータを保持するのではなくシステムでこれらのOSメトリックが分析されてサマリー分析データのみが格納されるようになります。処理された分析ファイルは生データよりも大幅に小さいため、100 MBのリポジトリ割当て制限内でデータを数か月保持できます。

しくみ

収集と分析:
- OSメトリックは、通常どおりCHM/SHMによって収集されます。
- 1時間ごとに、Oracle Trace File Analyzer (TFA)により、1時間単位の生chmosdata/shmosdata gzipファイルを処理するインライン分析がトリガーされます。
ストレージ: 分析された結果のみがAHFホームのデータ・リポジトリに保持されて、領域消費が大幅に減ります。
実行とセキュリティ: インライン分析は、rootユーザーとして実行され、システム・パフォーマンスへの影響を防ぐために特定のリソース制約で構成されます。

利点

保存期間の延長: 分析されたデータは、わずか数時間ではなく、数か月間保存できます。
ストレージ・フットプリントの減少: 大規模なシステムの場合でも、必要なリポジトリ領域は100 MBのみです。
診断の向上: OSデータをより多くのSRで利用できるようになり、より効果的でタイムリなトラブルシューティングが可能になります。

表4-28 機能の比較: 従来の分析とインライン分析

機能	以前の手法	インライン分析の使用
格納されるデータ	生CHM OSデータ	分析済(集計済)データ
リポジトリ・サイズ(標準)	250 MB (HAS 19)、500 MB (MAIN)	100 MB
データ保存期間	数時間	数か月
診断への影響	サービス・リクエスト(SR)でデータが不足していることが多い	分析に使用できるデータ

関連トピック

オペレーティング・システム・リソースのメトリックの収集

親トピック: オペレーティング・システム・リソースのメトリックの収集

4.5.7 スタンドアロンの非rootインストールの場合のAHFへのシステム・ヘルス・モニター(SHM)の統合

システム・ヘルス・モニター(SHM)は、Oracle Support向けの不可欠なオペレーティング・システム・メトリックを収集するツールです。特に、サービス・リクエスト(SR)が記録されたときの、ノード削除などの初期障害の診断に役立ちます。

ノート:

現在、SHMはLinuxプラットフォームでのみサポートされています。

この機能拡張により、Autonomous Health Framework (AHF)では、非rootスタンドアロン環境(つまり、Oracle Restartまたは単一インスタンス)の場合に、その診断収集にSHMデータが統合されます。これにより、root以外のユーザーが、SHMデータから生成された、OSレベルのインサイト・レポートを利用できるようになります(特に、OS固有の診断が対象)。

初期リリース(25.6)では、エンド・ユーザーが、非rootスタンドアロン・インストールでのSHMライフサイクルの管理を担当します。SHMデータが収集された後は、ホスト・システムで、収集されたOSメトリックに主に焦点を当てたインサイト・レポートを生成できるようになります。

次のコマンドを使用して、SHMバックグラウンド・プロセス(デーモン)を管理します:

sysmonctl start: システム・ヘルス・モニター(SHM)を起動します
sysmonctl stop: システム・ヘルス・モニター(SHM)を停止します

ノート:

対象範囲: スタンドアロンの非rootインストールの場合のAHF内のSHMは、Linux上のOracle Restart環境または単一インスタンス環境でのみサポートされています。
データ・キャプチャに関する制限事項: 非rootモードで操作すると、特定の制限事項が課されます。それにより、rootインストールに比べると、収集されたデータの深さと幅に違いが生じる場合があります。
セキュリティと互換性:
- SHMは、root以外のユーザーとして実行すると、/procから読み取ることでメトリックを収集します。
- SELinuxを実行している環境の場合は、SHMが中断や障害なく強制モードで正しく動作することを確認してください。

関連トピック

オペレーティング・システム・リソースのメトリックの収集

親トピック: オペレーティング・システム・リソースのメトリックの収集

4.5.8 オペレーティング・システムの問題に関するAHFインサイト・レポートの作成(root以外のAHFインストール)

SHMデータからインサイト・レポートを作成して、root以外のAHF環境でオペレーティング・システム関連の問題を事前に識別し調査します。

CHMバイナリのディレクトリに移動します。
```
cd $AHF_HOME/chm/bin/
```

レポート生成コマンドを実行します。

$AHF_HOME/python/bin/python3 chm_tfa_driver.zip -o <OUTPUT_DIRECTORY> -s <START_TIME> -e <END_TIME>

実行例:

-bash-4.4$ $AHF_HOME/python/bin/python3 chm_tfa_driver.zip -o /tmp/shm_out/ -s 2025-08-22T12:00:00 -e 2025-08-22T12:30:00
Successfully ran the chm utils on the SHM data.
Successfully ran the chm analyzer on the SHM data.
Successfully ran the chm reportgen on the SHM analysis data.
executing
Report is generated at : /tmp/shm_out/test-node_insights_2025_08_22_12_32_44.zip
Report jsons is generated at : /tmp/shm_out/test-node_insights_jsons_2025_08_22_12_32_44.zip
Successfully ran the ahf insights driver on the SHM data.

SHMデータを確認します。
SHMデータファイルは、$AHF_HOME/data/<HOSTNAME>/shmで確認できます

AHFインサイト・レポートを表示するには、そのファイルをダウンロードして解凍してから、ブラウザでweb/index.htmlを開きます。

親トピック: オペレーティング・システム・リソースのメトリックの収集

4.5.9 診断シグネチャ: HugePagesNotUtilized

AHF 25.11では、新しい診断シグネチャHugePagesNotUtilizedが導入されました。

この機能拡張は、HugePagesが構成されている(つまり、HugePages_Totalがゼロでない)が、完全に未使用のまま(HugePages_Total = HugePages_Free)であるケースを自動的に検出します。この状態が検出されると、シグネチャによって分析レポートに明確なアラートが生成され、開発者やサポート・エンジニアを含むユーザーにHugePagesが期待どおりに利用されていないことをすぐに確認できるようにします。

利用率の低い一般的な警告ではなく、正確で実用的な通知を提供することにより、この機能はユーザーが潜在的なメモリー構成の問題をすばやく識別するのに役立ちます。これにより、トリアージの効率が向上し、トラブルシューティングが迅速化され、システム・リソースが効果的に使用されるようになります。

この機能へのアクセス

この診断は、CHM分析セクションのorachkレポートで表示できます。

図4-7 Orachk CHM分析セクションのHugePagesNotUtilizedシグネチャ

この図は、Orachk CHM分析セクションのHugePagesNotUtilizedシグネチャを示しています

図4-8 Orachk CHM分析セクションのHugePagesNotUtilizedシグネチャ

親トピック: オペレーティング・システム・リソースのメトリックの収集