4.5 オペレーティング・システム・リソースのメトリックの収集
クラスタ状態モニター(CHM)およびシステム・ヘルス・モニター(SHM)は、システムの問題を診断およびトラブルシューティングするために役立つ多数の一連のオペレーティング・システム・メトリックを収集、分析、集計および格納する、高パフォーマンスで軽量なデーモンです。
CHMまたはSHMがユニークである理由
| CHMまたはSHM | 一般的なOSコレクタ |
|---|---|
|
最終的な選択肢 - デーモンはロック済メモリーを実行し、RTスケジューリング・クラスによってシステム負荷に対してもデータ収集の一貫性を維持します。 |
システム負荷によるスケジュール遅延に起因する一貫性のないデータ・ドロップアウト。 |
|
5秒という忠実度の高いデータ・サンプリング・レート。サンプリング・レート5秒という、非常に低いリソース使用率プロファイル。 |
複数ユーティリティの実行により、監視対象システムへの追加のオーバーヘッド発生とそれによるサンプリング・レートが上昇し、悪化します。 |
|
高可用性デーモンにより、複数のリソース・カテゴリにわたって照合済データが収集されます。高度に最適化されたコレクタ(データはユーティリティと同じソースであるオペレーティング・システムから直接読み取られます)。 |
|
|
収集されたデータは、サンプルごとにシステム・スナップショットの概要(Nodeview)に照合され、Nodeviewには複数のリソース・カテゴリに収集されたデータの要約および分析も含まれます。 |
様々なリソース・カテゴリにおよぶシステム・スナップショットの概要は、照合が非常に困難です。 |
|
Nodeviewへのデータの収集および照合時の有用なインライン分析とサマリーにより、面倒な手作業の時間がかかる分析が大幅に減少し、有意義なインサイトが得られます。 |
複数のファイルにわたる様々なユーティリティの出力を照合、解析、解釈し、その後で有用なインサイトについて分析する必要があるため、この分析には時間がかかり、処理が集中します。 |
|
Clusterware固有のメトリック収集(プロセス集計、ASM/OCR/VDディスク・タグ付け、プライベート/パブリックNICタグ付け)を実行します。また、詳細なデータ分析とビジュアライゼーションのための豊富なツールセットも提供します。 |
なし |
- CHMとSHMの比較: 基本的な違いの理解
このトピックでは、クラスタ状態モニター(CHM)とシステム・ヘルス・モニター(SHM)の目的および使用方法の概要を示します。 - システム・ヘルス・モニター(SHM)に関する追加の詳細
システム・ヘルス・モニター(SHM)は、AHFに統合され、デフォルトで有効になります。AHFでは、診断コレクションにSHMファイルが含まれるようになりました。 - クラスタ状態モニター・データの収集
クラスタ内の任意のノードから、クラスタ状態モニター・データを収集します。 - クラスタ状態モニターおよびシステム・ヘルス・モニターによって収集されるオペレーティング・システム・メトリック
CHMおよびSHMによって収集されるメトリックを確認します。 - コンポーネント障害の検出および自律的な自己修復
コンポーネントの障害を検出する機能を向上させ、自律的な自己修復によってビジネス継続性を改善します。
親トピック: 診断データの収集
4.5.1 CHMとSHMの比較: 基本的な違いの理解
このトピックでは、クラスタ状態モニター(CHM)およびシステム・ヘルス・モニター(SHM)の目的および使用方法の概要を示します。
| クラスタ状態モニター(CHM) | システム・ヘルス・モニター(SHM) |
|---|---|
システム・モニター・デーモン(osysmond)と呼ばれ、RACシステムの各クラスタ・ノードで実行されるリアルタイム監視およびオペレーティング・システム・メトリック収集のデーモンです。
|
システム・ヘルス・モニター(ahf-sysmon)と呼ばれ、単一インスタンス・データベースおよび非GIベースのシステムで使用可能なリアルタイム監視およびオペレーティング・システム収集のサービスです。
|
| 11.2以降、GIの一部として統合され、デフォルトで有効になります。 | AHF 24.6の一部として統合され、デフォルトで有効になります |
GIホームからシステム監視サービス(osysmond)として実行されます。
|
AHFホームからahf-sysmonサービスとして実行されます。
|
| GIスタック内で高可用性サービス(HAS)リソースとして管理されます。 | AHFスタック内のtfa-monitorリソースとして管理されます。
|
リソースのステータスは、次のコマンドを使用して問い合せることができます: |
プロセスのステータスは、次のコマンドを使用して問い合せることができます: |
|
生成されたオペレーティング・システム・メトリックは、 メトリック・リポジトリは、前述のローカル・ファイルシステムで自動管理されます。
|
生成されたオペレーティング・システム・メトリックは、 メトリック・リポジトリは、前述のローカル・ファイルシステムで自動管理されます。
|
前述の生成されたオペレーティング・システム・メトリックは、tfactl diagcollectの一部として収集されます。
|
前述の生成されたオペレーティング・システム・メトリックは、tfactl diagcollectの一部として収集されます。
|
| Linux、Solaris、AIX、zLinux、ARM64およびMicrosoft Windowsプラットフォームでサポートされています。 | Linuxプラットフォームでのみサポートされています。 |
親トピック: オペレーティング・システム・リソースのメトリックの収集
4.5.2 システム・ヘルス・モニター(SHM)に関する追加の詳細
システム・ヘルス・モニター(SHM)は、AHFに統合され、デフォルトで有効になります。AHFでは、診断コレクションにSHMファイルが含まれるようになりました。
システム・ヘルス・モニター(SHM)は、プロセス、メモリー、ネットワーク、IOおよびディスクのオペレーティング・システム・メトリックをリアルタイムで監視して、システム・パフォーマンスの問題をリアルタイムでトラブルシューティングして根本原因を特定し、過去の問題の根本原因の分析も行います。システム・ヘルス・モニター(SHM)の分析はAHFインサイトで使用できます。詳細は、「診断インサイトの確認」を参照してください。
SHMは、AHFによってトリガーおよび制御されるデーモン・プロセスとして動作し、デフォルトで有効になりますが、単一インスタンス・データベースおよび非GIベースのシステムでのみ使用できます。
また、ahfctl statusahfコマンドを使用して、システム・ヘルス・モニターのステータスを確認できます。
- SHMを起動するには:
このコマンドは、なんらかの理由でSHMが以前に停止されており、再度オンに切り替える必要がある場合にのみ実行します。
ahf configuration set --property ahf.collectors.enhanced_os_metrics --value onコマンドを実行すると、
ahf-sysmonが起動できるようになり、TFAデーモンが起動してそれを監視します。 - SHMを停止するには:
ahf configuration set --property ahf.collectors.enhanced_os_metrics --value offコマンドを実行すると、
ahf-sysmonが稼働しているかどうかがチェックされます。実行中の場合、コマンドはプロセスを強制終了し、ahf-sysmonを停止します。 - SHMのデフォルト値を確認するには:
ahf configuration get --property ahf.collectors.enhanced_os_metrics ahf.collectors.enhanced_os_metrics: on - SHMプロセス(
ahf-sysmon)がデフォルトでアクティブであることを確認するには:ps -fe | grep sysmon root 3333453 1 0 22:44 ? 00:00:00 /opt/oracle.ahf/shm/ahf-sysmon/bin/ahf-sysmon - SHMのJSONファイルをチェックするには:
SHMデータ・ディレクトリ
/opt/oracle.ahf/data/<hostname>/shmでJSONファイルを見つけます - SHMが
TFAMainと同じcgroupで実行されているかどうかを確認するには:-bash-4.4$ ps -ef | grep ahf-sysmon root 3232 1 0 09:38 ? 00:00:47 /opt/oracle.ahf/shm/ahf-sysmon/bin/ahf-sysmon testuser 155833 155678 0 17:04 pts/0 00:00:00 grep --color=auto ahf-sysmon -bash-4.4$ cat /proc/3232/cgroup | grep "cpu" 8:cpu,cpuacct:/oratfagroup 4:cpuset:/-bash-4.4$ ps -ef | grep tfa root 1945 1 0 09:37 ? 00:00:02 /bin/sh /etc/init.d/init.tfa run >/dev/null 2>&1 </dev/null root 2851 1 1 09:37 ? 00:05:21 /opt/oracle.ahf/jre/bin/java --add-opens java.base/java.lang=ALL-UNNAMED -server -Xms128m -Xmx256m -Djava.awt.headless=true -Ddisable.checkForUpdate=true -XX:+ExitOnOutOfMemoryError oracle.rat.tfa.TFAMain /opt/oracle.ahf/tfa testuser 156073 155678 0 17:05 pts/0 00:00:00 grep --color=auto tfa-bash-4.4$ cat /proc/2851/cgroup | grep "cpu" 8:cpu,cpuacct:/oratfagroup 4:cpuset:/-bash-4.4$ cat /proc/3232/cgroup | grep "cpu" 8:cpu,cpuacct:/oratfagroup 4:cpuset:/cat /proc/[PID_OF_AHF-SYSMON]/cgroup | grep "cpu"cat /proc/[PID_OF_TFA]/cgroup | grep "cpu" - AHF収集でSHMファイルが収集されたことを確認するには:
- 前提条件として、次を実行します:
tfactl set smartprobclassifier=off - その後で、次を実行します:
tfactl diagcollect -last 1h -tag shm_last_1h; unzip -l $REPOSITORY_ROOT/shm_last_1h/$HOSTNAME*.zip生成されたzipファイルに
SHMというディレクトリが存在する必要があります。 - 最後に、次を実行します:
tfactl diagcollect -last 1h Archive: /opt/oracle.ahf/data/repository/collection_Wed_Apr_10_22_03_04_UTC_2024_node_all/test-node.tfa_Wed_Apr_10_22_03_03_UTC_2024.zip | grep SHM Length Date Time Name --------- ---------- ----- ---- 327 04-10-2024 22:03 test-node/SHMDATA/shmdataconverter_3279258.log 6660 04-10-2024 22:03 test-node/SHMDATA/shmosmeta_1923000.json 43575 04-10-2024 22:03 test-node/SHMDATA/shmosmetricdescription.json 9561411 04-10-2024 22:03 test-node/SHMDATA/shmosdata_test-node_2024-04-10-2100.log 997193 04-10-2024 22:03 test-node/SHMDATA/shmosdata_test-node_2024-04-10-2200.log
- 前提条件として、次を実行します:
親トピック: オペレーティング・システム・リソースのメトリックの収集
4.5.3 クラスタ状態モニター・データの収集
クラスタ内の任意のノードから、クラスタ状態モニター・データを収集します。
Oracleでは、Oracle Clusterwareエラーが発生したときに、tfactl diagcollectコマンドを実行して診断データを収集することをお薦めします。
親トピック: オペレーティング・システム・リソースのメトリックの収集
4.5.4 クラスタ状態モニターおよびシステム・ヘルス・モニターによって収集されるオペレーティング・システム・メトリック
CHMおよびSHMによって収集されるメトリックを確認します。
メトリックの概要
CHMは、収集されたオペレーティング・システム・データをNodeviewにグループ化します。Nodeviewはメトリック・セットのグループで、各メトリック・セットには一意のシステム・リソースの詳細なメトリックが含まれます。
メトリック・セットの簡単な説明は次のとおりです:
- CPUメトリック・セット: 使用率でソートされた上位127のCPUのメトリック
- デバイス・メトリック・セット: ASM/VD/OCRを含む127のデバイスと、平均待機時間の長いのデバイスのメトリック
- プロセス・メトリック・セット: 127のプロセスのメトリック
- 上位25のCPUコンシューマ(アイドル・プロセスはレポートされません)
- 上位25のメモリー・コンシューマ(RSS <合計RAMの1%のものはレポートされません)
- 上位25のI/Oコンシューマ
- 上位25のファイル記述子コンシューマ(上位inodeコンシューマを識別できます)
- プロセス集計: すべてのOracle DatabaseおよびOracle ASMインスタンスのフォアグラウンド・プロセスおよびバックグラウンド・プロセス別に要約されたメトリック
- ネットワーク・メトリック・セット: パブリックおよびプライベート・インターコネクトを含む16のNICSのメトリック
- NFSメトリック・セット: ラウンド・トリップ時間でソートされた32 NFSのメトリック
- プロトコル・メトリック・セット: プロトコル・グループTCP、UDPおよびIPのメトリック
- ファイルシステム・メトリック・セット: ファイルシステム使用率のメトリック
- クリティカル・リソース・メトリック・セット: クリティカルなシステム・リソース使用率のメトリック
- CPUメトリック: システム全体のCPU使用率の統計
- メモリー・メトリック: システム全体のメモリー統計
- デバイス・メトリック: 個別デバイスのメトリック・セットとは異なるシステム全体のデバイス統計
- NFSメトリック: 30秒ごとに収集されるNFSデバイスの総数
- プロセス・メトリック: システム全体の一意のプロセス・メトリック
CPUメトリック・セット
使用率でソートされた、すべてのCPUコアからのメトリックが含まれます。
表4-13 CPUメトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| system [%] | システム・レベル(カーネル)で実行中にエラーが発生したときのCPU使用率。 |
| user [%] | ユーザー・レベル(アプリケーション)で実行中にエラーが発生したときのCPU使用率。 |
| usage [%] | 合計使用率(system[%] + user[%])。 |
| nice [%] | niceの優先度のユーザー・レベルで実行中にエラーが発生したときのCPU使用率。 |
| ioWait [%] | CPUがアイドルで、システムに未処理のディスクI/Oリクエストがあった時間の割合。 |
| steal [%] | ハイパーバイザが別の仮想プロセッサを処理している間に仮想CPUが強制的に待機となった時間の割合。 |
デバイス・メトリック・セット
サービス時間(ミリ秒)でソートされた、すべてのディスク・デバイス/パーティションからのメトリックが含まれます。
表4-14 デバイス・メトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| ioR [KB/s] | デバイスから読み取られたデータ量。 |
| ioW [KB/s] | デバイスに書き込まれたデータ量。 |
| numIOs [#/s] | 平均ディスクI/O操作。 |
| qLen [#] | I/Oキューに入っている、待機状態にあるリクエストの数。 |
| aWait [msec] | I/Oごとの平均待機時間。 |
| svcTm [msec] | I/Oリクエストごとの平均サービス時間。 |
| util [%] | デバイスの使用率(iostat -xコマンドの'%utilメトリックと同じです。デバイスがアクティブだった時間の割合を表します)。
|
プロセス・メトリック・セット
すべてのシステム・プロセスにおいて計算される集計メトリック・データの複数のカテゴリが含まれます。
表4-15 プロセス・メトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| pid | プロセスID。 |
| pri | プロセス優先度(オペレーティング・システムからのraw値)。 |
| psr | プロセスが現在割り当てられている、または実行されているプロセッサ。 |
| pPid | 親プロセスID。 |
| nice | プロセスのnice値。 |
| state | プロセスの状態。たとえば、R->Running、S->Interruptible sleepなどです。
|
| class | プロセスのスケジューリング・クラス。たとえば、RR->RobinRound、FF->First in First out、B->Batch schedulingなどです。
|
| fd [#] | 30秒ごとに更新される、このプロセスでオープンしているファイル記述子の数。 |
| name | プロセスの名前。 |
| cpu [%] | コア全体のプロセスCPU使用率。たとえば、50% => シングル・コアの50%、400% => の100%の使用率です。 |
| thrds [#] | このプロセスによって作成されたスレッドの数。 |
| vmem [KB] | プロセスの仮想メモリー使用量(KB)。 |
| shMem [KB] | プロセスの共有メモリー使用量(KB)。 |
| rss [KB] | プロセス・メモリー固有の設定サイズ(KB)。 |
| ioR [KB/s] | 1秒当たりのI/O読取り(KB単位)。 |
| ioW [KB/s] | 1秒当たりのI/O書込み(KB単位)。 |
| ioT [KB/s] | 1秒当たりのI/O合計(KB単位)。 |
| cswch [#/s] | 1秒当たりのコンテキストの切替え。いくつかの重要なOracle Databaseプロセスについてのみ収集されます。 |
| nvcswch [#/s] | 1秒当たりの強制的なコンテキスト切替え。いくつかの重要なOracle Databaseプロセスについてのみ収集されます。 |
| cumulativeCpu [ms] | プロセスでこれまでに使用されたCPUの量(ミリ秒)。 |
NICメトリック・セット
合計速度/秒(KB)でソートされた、すべてのネットワーク・インタフェースからのメトリックが含まれます。
表4-16 NICメトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| name | インタフェースの名前。 |
| tag | インタフェースのタグ(例: public、privateなど)。 |
| mtu [B] | インタフェースでサポートされている最大転送単位のサイズ(バイト)。 |
| rx [Kbps] | 平均ネットワーク受信速度。 |
| tx [Kbps] | 平均ネットワーク送信速度。 |
| total [Kbps] | 平均ネットワーク送信速度(rx[Kb/s] + tx[Kb/s])。 |
| rxPkt [#/s] | 平均受信パケット・レート。 |
| txPkt [#/s] | 平均送信パケット・レート。 |
| pkt [#/s] | パケットの平均送信レート(rxPkt[#/s] + txPkt[#/s])。 |
| rxDscrd [#/s] | 受信パケットの平均ドロップ/破棄レート。 |
| txDscrd [#/s] | 送信パケットの平均ドロップ/破棄レート。 |
| rxUnicast [#/s] | 受信ユニキャスト・パケットの平均レート。 |
| rxNonUnicast [#/s] | 受信マルチキャスト・パケットの平均レート。 |
| dscrd [#/s] | 合計破棄パケットの平均レート(rxDscrd + txDscrd)。 |
| rxErr [#/s] | 受信パケットの平均エラー率。 |
| txErr [#/s] | 送信パケットの平均エラー率。 |
| Err [#/s] | 合計転送の平均エラー率(rxErr[#/s] + txErr[#/s])。 |
NFSメトリック・セット
ラウンド・トリップ時間でソートされた、上位32のNFSが含まれます。このメトリック・セットは30秒ごとに1回収集されます。
表4-17 NFSメトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| op [#/s] | ファイルシステムに発行された、1秒当たりの読取り/書込み操作の数。 |
| bytes [#/sec] | ファイルシステムからの1秒当たりの読取り/書込みバイト数。 |
| rtt [s] | これは、クライアントのカーネルがRPCリクエストを送信してから応答を受信するまでの期間です。 |
| exe [s] | これは、NFSクライアントがカーネルに対してRPCリクエストし、そのRPCリクエストが完了するまでの期間です。これには前述のRTT時間が含まれます。 |
| retrains [%] | これは再送信の頻度(%)です。 |
プロトコル・メトリック・セット
プロトコル・グループTCP、UDPおよびIPの特定のメトリックが含まれます。メトリック値はシステムの起動からの累積です。
表4-18 TCPメトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| failedConnErr [#] | TCP接続がSYN-SENT状態またはSYN-RCVD状態からCLOSED状態に直接遷移した回数と、TCP接続がSYN-RCVD状態からLISTEN状態に直接遷移した回数。 |
| estResetErr [#] | TCP接続がESTABLISHED状態またはCLOSE-WAIT状態からCLOSED状態に直接遷移した回数。 |
| segRetransErr [#] | 再送信されたTCPセグメントの合計数。 |
| rxSeg [#] | TCPレイヤーで受信されたTCPセグメントの合計数。 |
| txSeg [#] | TCPレイヤーから送信されたTCPセグメントの合計数。 |
表4-19 UDPメトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| unkPortErr [#] | 宛先ポートにアプリケーションが存在しなかった受信済データグラムの合計数。 |
| rxErr [#] | 宛先ポートにアプリケーションが存在しないこと以外の理由で配信できなかった受信済データグラムの数。 |
| rxPkt [#] | 受信した合計パケット数。 |
| txPkt [#] | 送信されたパケットの合計数。 |
表4-20 IPメトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| ipHdrErr [#] | IPv4ヘッダー内のエラーのため破棄された入力データグラムの数。 |
| addrErr [#] | IPv4ヘッダーの宛先フィールドのIPv4アドレスが、このエンティティで受信できる有効なアドレスではなかったために破棄された入力データグラムの数。 |
| unkProtoErr [#] | 正常に受信されたものの、プロトコルが不明またはサポートされていないために破棄された、ローカルにアドレス指定されたデータグラムの数。 |
| reasFailErr [#] | IPv4の再アセンブリ・アルゴリズムによって検出された障害の数。 |
| fragFailErr [#] | フラグメンテーション・エラーのため破棄されたIPv4データグラムの数。 |
| rxPkt [#] | IPレイヤーで受信したパケットの合計数。 |
| txPkt [#] | IPレイヤーから送信したパケットの合計数。 |
ファイルシステム・メトリック・セット
ファイルシステム使用率のメトリックが含まれます。GRID_HOMEファイルシステムについてのみ収集されます。
表4-21 ファイルシステム・メトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| mount | マウント・ポイント。 |
| type | ファイルシステム・タイプ(例: etx4)。 |
| tag | ファイルシステム・タグ(例: GRID_HOME)。 |
| total [KB] | 領域の合計容量(KB)。 |
| used [KB] | 使用済領域の量(KB)。 |
| avbl [KB] | 使用可能な領域の量(KB)。 |
| used [%] | 使用済領域の割合。 |
| ifree [%] | 空きファイル・ノードの割合。 |
システム・メトリック・セット
クリティカル・システム・リソース使用率のメトリック・セットのサマリーが含まれます。
表4-22 CPUメトリック
| メトリック名(単位) | 説明 |
|---|---|
| pCpus [#] | システム内の物理処理ユニットの数。 |
| Cores [#] | システム内のすべてのCPUのコア数。 |
| vCpus [#] | システム内の論理処理ユニットの数。 |
| cpuHt | CPUのハイパースレッディングが有効(Y)か無効(N)か。 |
| osName | オペレーティング・システムの名前。 |
| chipName | 処理ユニットのチップの名前。 |
| system [%] | システム・レベル(カーネル)で実行中にエラーが発生したときのCPU使用率。 |
| user [%] | ユーザー・レベル(アプリケーション)で実行中にエラーが発生したときのCPU使用率。 |
| usage [%] | 合計CPU使用率(system[%] + user[%])。 |
| nice [%] | NICEの優先度のユーザー・レベルで実行中にエラーが発生したときのCPU使用率。 |
| ioWait [%] | CPUがアイドルで、システムに未処理のディスクI/Oリクエストがあった時間の割合。 |
| Steal [%] | ハイパーバイザが別の仮想プロセッサを処理している間に仮想CPUが強制的に待機となった時間の割合。 |
| cpuQ [#] | 現在のサンプル間隔内で、実行キューで待機中のプロセスの数。 |
| loadAvg1 | 計算された1分間のシステムの平均負荷。 |
| loadAvg5 | 計算された5分間のシステムの平均負荷。 |
| loadAvg15 | 計算された15分間のシステムの平均負荷。平均負荷が高いということは、システムがオーバーロードされ、多くのプロセスがCPU時間を待機していることを示します。 |
| Intr [#/s] | システムで1秒間に発生した割込みの数。 |
| ctxSwitch [#/s] | システムで1秒間に発生したコンテキスト切替えの数。 |
表4-23 メモリー・メトリック
| メトリック名(単位) | 説明 |
|---|---|
| totalMem [KB] | 使用可能なRAMの合計容量(KB)。 |
| freeMem [KB] | RAMの空き容量(KB)。 |
| avblMem [KB] | スワップせずに新しいプロセスを開始するのに使用できるメモリーの量。 |
| shMem [KB] | tmpfsによって(主に)使用されているメモリー。 |
| swapTotal [KB] | 物理スワップ・メモリーの合計量(KB)。 |
| swapFree [KB] | スワップ・メモリーの空き容量(KB)。 |
| swpIn [KB/s] | 現在のサンプル間隔内での平均スワップ・イン率(KB/秒)。 |
| swpOut [KB/s] | 現在のサンプル間隔内での平均スワップ・アウト率(KB/秒)。 |
| pgIn [#/s] | 現在のサンプル間隔内での平均ページ・イン率(ページ/秒)。 |
| pgOut [#/s] | 現在のサンプル間隔内での平均ページ・アウト率(ページ/秒)。 |
| slabReclaim [KB] | キャッシュなど、再利用される可能性のあるスラブの部分。 |
| buffer [KB] | カーネル・バッファにより使用されているメモリー。 |
| Cache [KB] | ページ・キャッシュおよびスラブで使用されているメモリー。 |
| bufferAndCache [KB] | バッファおよびキャッシュの合計サイズ(buffer[KB] + Cache[KB])。 |
| hugePageTotal [#] | 現在のサンプル間隔でシステム内に存在するヒュージ・ページの合計数。 |
| hugePageFree [KB] | 現在のサンプル間隔でシステム内に存在する空きヒュージ・ページの合計数。 |
| hugePageSize [KB] | オペレーティング・システムのバージョンに応じた1つのヒュージ・ページのサイズ(KB)。通常は、特定のホストのすべてのサンプルで同じです。 |
表4-24 デバイス・メトリック
| メトリック名(単位) | 説明 |
|---|---|
| disks [#] | システムで構成されているディスクの数。 |
| ioR [KB/s] | すべてのデバイスの読取り速度集計。 |
| ioW [KB/s] | すべてのデバイスの書込み速度集計。 |
| numIOs [#/s] | すべてのデバイスのI/O操作速度集計。 |
表4-25 NFSメトリック
| メトリック名(単位) | 説明 |
|---|---|
| nfs [#] | NFSデバイス合計数。 |
表4-26 プロセス・メトリック
| メトリック名(単位) | 説明 |
|---|---|
| fds [#] | システム内のオープン・ファイル構造体の数。 |
| procs [#] | プロセスの数。 |
| rtProcs [#] | リアルタイム・プロセスの数。 |
| procsInDState | 中断不可能なスリープ状態のプロセスの数。 |
| sysFdLimit [#] | ファイル構造体の数に対するシステム制限。 |
| procsOnCpu [#] | CPUで現在実行中のプロセスの数。 |
| procsBlocked [#] | I/O操作の完了など、一部のイベント/リソースが使用可能になるのを待機しているプロセスの数。 |
プロセス集計メトリック・セット
プロセス・グループごとのすべてのプロセスの集計メトリックが含まれます。
表4-27 プロセス集計メトリック・セット
| メトリック名(単位) | 説明 |
|---|---|
| DBBG | ユーザーのOracle Databaseバックグラウンド・プロセス・グループ。 |
| DBFG | ユーザーのOracle Databaseフォアグラウンド・プロセス・グループ。 |
| MDBBG | MGMTDBバックグラウンド・プロセス・グループ。 |
| MDBFG | MGMTDBフォアグラウンド・プロセス・グループ。 |
| ASMBG | ASMバックグラウンド・プロセス・グループ。 |
| ASMFG | ASMフォアグラウンド・プロセス・グループ。 |
| IOXBG | IOSバックグラウンド・プロセス・グループ。 |
| IOXFG | IOSフォアグラウンド・プロセス・グループ。 |
| APXBG | APXバックグラウンド・プロセス・グループ。 |
| APXFG | APXフォアグラウンド・プロセス・グループ。 |
| CLUST | Clusterwareプロセス・グループ。 |
| OTHER | デフォルト・グループ。 |
次のメトリックがグループごとに集計され、グループ・サマリーがレポートされます。
| メトリック名(単位) | 説明 |
|---|---|
| processes [#] | グループ内のプロセスの合計数。 |
| cpu [%] | 集計されたCPU使用率。 |
| rss [KB] | 集計された物理メモリー使用量。 |
| shMem [KB] | 集計された共有メモリー使用量。 |
| thrds [#] | 集計されたスレッド数。 |
| fds [#] | 集計されたオープン・ファイル記述子。 |
| cpuWeight [%] | マシンの全体のCPU使用率におけるグループの割合。 |
親トピック: オペレーティング・システム・リソースのメトリックの収集
4.5.5 コンポーネント障害の検出および自律的な自己修復
コンポーネントの障害を検出する機能を向上させ、自律的な自己修復によってビジネス継続性を改善します。
クラスタ状態モニターは、保留中または実際の障害を示す重要なコンポーネント・イベントを識別し、修正処理の推奨事項を提示する診断機能を導入します。このようなアクションが自律的に実行される場合があります。このようなイベントおよびアクションが取得されると、管理者はOracle Trace File Analyzerなどのコンポーネントを介して通知されます。
診断機能に関連する用語
CHMDiag: CHMDiagはosysmondによって管理されるpythonデーモンであり、イベントをリスニングし、アクションを実行します。CHMDiagが様々なイベントまたはアクションを受信すると、これらのアクションが正しいかどうかを検証、フロー制御し、アクションの実行をスケジュールします。CHMDiagは、各アクションを完了まで監視し、そのアクションに設定した固有の時間よりも時間がかかる場合にアクションを終了します。
このJSONファイルは、すべてのイベントまたはアクションと、それぞれの属性を記述します。すべてのイベントまたはアクションには、一意に識別可能なIDがあります。このファイルには、様々なアクションまたはイベントに対して構成可能な各種プロパティも含まれます。CHMDiagは、起動時にこのファイルをロードします。
CRFE API: CRFE APIは、CHMDiagにイベントを送信するために、すべてのCクライアントで使用されます。このAPIは、コンポーネント(RDBMS、CSS、GIPC)などの内部クライアントでイベントまたはアクションを公開するために使用されます。
また、このAPIではイベントの同期公開と非同期公開の両方をサポートできます。イベントの非同期公開は、バックグラウンド・スレッドを介して行われます。バックグラウンド・スレッドは、プロセス内のすべてのCRFE APIクライアントで共有されます。
CHMDIAG_BASE: このディレクトリはORACLE_BASE/hostname/crf/chmdiagにあります。このディレクトリ・パスには次のディレクトリが含まれており、CHMDiagによって移入または管理されます。
- ActionsResults: 起動されたすべてのアクションのすべての結果と、各アクションのサブディレクトリが含まれます。
- EventsLog:
CHMDiagで受信したすべてのイベントまたはアクションのログと、それぞれのアクション結果の場所が含まれます。これらのログ・ファイルは、固定サイズに達した後も自動ローテーションされます。 - CHMDiagLog:
CHMDiagデーモン・ログが含まれます。ログ・ファイルは、特定のサイズに達した後に自動ローテーションされます。ログには、CHMDiagで発生する問題を診断するための十分なデバッグ情報が記載されます。 - Config:
CHMDiagプロセスのpidファイル管理の実行サブディレクトリが含まれます。
- oclumon chmdiag description:
oclumon chmdiag descriptionコマンドを使用して、サポートされているすべてのイベントおよびアクションの詳細な説明を取得します。 - oclumon chmdiag query:
oclumon chmdiag queryコマンドを使用して、様々なコンポーネントによって送信されたCHMDiagイベントまたはアクションを問い合せ、HTMLまたはテキスト・レポートを生成します。 - oclumon chmdiag collect:
oclumon chmdiag collectコマンドを使用して、CHMDiagで生成されたすべてのイベントまたはアクションのデータを、指定の出力ディレクトリの場所に収集します。