4.3 クラスタ状態モニターによって収集されるオペレーティング・システム・メトリック

CHMによって収集されるメトリックを確認します。

メトリックの概要

CHMは、収集されたオペレーティング・システム・データをノードビューにグループ化します。ノードビューはメトリック・セットのグループで、各メトリック・セットには一意のシステム・リソースの詳細なメトリックが含まれます。

メトリック・セットの簡単な説明は次のとおりです。

  • CPUメトリック・セット: 使用率でソートされた上位127のCPUのメトリック
  • デバイス・メトリック・セット: ASM/VD/OCRを含む127のデバイスのメトリックと、平均待機時間が長いデバイスのメトリック
  • プロセス・メトリック・セット: 127のプロセスのメトリック
    • 上位25のCPUコンシューマ(アイドル・プロセスはレポートされません)
    • 上位25のメモリー・コンシューマ(RSS < 合計RAMの1%のものはレポートされません)
    • 上位25のI/Oコンシューマ
    • 上位25のファイル記述子コンシューマ(上位inodeコンシューマを識別するのに役立ちます)
    • プロセス集計: すべてのOracle DatabaseおよびOracle ASMインスタンスのフォアグラウンド・プロセスおよびバックグラウンド・プロセス別に要約されたメトリック
  • ネットワーク・メトリック・セット: パブリックおよびプライベート・インターコネクトを含む16のNICSのメトリック
  • NFSメトリック・セット: ラウンド・トリップ時間でソートされた32のNFSのメトリック
  • プロトコル・メトリック・セット: プロトコル・グループTCP、UDPおよびIPのメトリック
  • ファイルシステム・メトリック・セット: ファイルシステム使用率のメトリック
  • クリティカル・リソース・メトリック・セット: クリティカルなシステム・リソース使用率のメトリック
    • CPUメトリック: システム全体のCPU使用率の統計
    • メモリー・メトリック: システム全体のメモリー統計
    • デバイス・メトリック: 個別デバイスのメトリック・セットとは異なるシステム全体のデバイス統計
    • NFSメトリック: 30秒ごとに収集されるNFSデバイスの総数
    • プロセス・メトリック: システム全体の一意のプロセス・メトリック

CPUメトリック・セット

すべてのCPUコアのメトリックが使用率でソートされて含まれます。

表4-1 CPUメトリック・セット

メトリック名(単位) 説明
system [%] システム・レベル(カーネル)で実行中に発生したCPU使用率の割合。
user [%] ユーザー・レベル(アプリケーション)で実行中に発生したCPU使用率の割合。
usage [%] 合計使用率(system[%] + user[%])。
nice [%] ユーザー・レベルでnice優先度で実行中に発生したCPU使用率の割合。
ioWait [%] CPUがアイドルで、システムに未処理のディスクI/Oリクエストがあった時間の割合。
steal [%] ハイパーバイザが別の仮想プロセッサを処理する間に仮想CPUが非自発的な待機に費やした時間の割合。

デバイス・メトリック・セット

すべてのディスク・デバイス/パーティションからのメトリックがサービス時間(ミリ秒)でソートされて含まれます。

表4-2 デバイス・メトリック・セット

メトリック名(単位) 説明
ioR [KB/s] デバイスから読み取られたデータ量。
ioW [KB/s] デバイスに書き込まれたデータ量。
numIOs [#/s] 平均ディスクI/O操作。
qLen [#] I/Oキューに入れられた、つまり待機状態にあるリクエストの数。
aWait [msec] I/Oごとの平均待機時間。
svcTm [msec] I/Oリクエストごとの平均サービス時間。
util [%] デバイスの使用率(iostat -xコマンドの'%utilメトリックと同じです。デバイスがアクティブだった時間の割合を表します)。

プロセス・メトリック・セット

すべてのシステム・プロセスにおいて計算される集計メトリック・データの複数のカテゴリが含まれます。

表4-3 プロセス・メトリック・セット

メトリック名(単位) 説明
pid プロセスID。
pri プロセス優先度(オペレーティング・システムからのRAW値)。
psr プロセスが現在割り当てられているか、または実行されているプロセッサ。
pPid 親プロセスID。
nice プロセスのNice値。
state プロセスの状態。たとえば、R->実行中S->割り込み可能スリープなどです。
class プロセスのスケジューリング・クラス。たとえば、RR->RobinRoundFF->先入れ先出しB->バッチ・スケジューリングなどです。
fd [#] このプロセスでオープンしているファイル記述子の数で、30秒ごとに更新されます。
name プロセスの名前。
cpu [%] コア全体のプロセスCPU使用率。たとえば、50% => シングル・コアの50%、400% => 4コアの100%使用です。
thrds [#] このプロセスで作成されたスレッドの数
vmem [KB] プロセスの仮想メモリー使用量(KB)
shMem [KB] プロセスの共有メモリー使用量(KB)
rss [KB] プロセス・メモリー常駐設定サイズ(KB)。
ioR [KB/s] 1秒当たりのI/O読取り(KB単位)。
ioW [KB/s] 1秒当たりのI/O書込み(KB単位)。
ioT [KB/s] 1秒当たりのI/O合計(KB単位)。
cswch [#/s] 1秒当たりのコンテキストの切替え。いくつかの重要なOracle Databaseプロセスについてのみ収集されます。
nvcswch [#/s] 1秒当たりの非自発的コンテキスト切替え。いくつかの重要なOracle Databaseプロセスについてのみ収集されます。
cumulativeCpu [ms] プロセスによってこれまでに使用されたCPUの量(マイクロ秒)。

NICメトリック・セット

すべてのネットワーク・インタフェースからのメトリックが、合計速度(KB/秒)でソートされて含まれます。

表4-4 NICメトリック・セット

メトリック名(単位) 説明
name インタフェースの名前
tag インタフェースのタグ(例: publicprivateなど)。
mtu [B] インタフェースでサポートされている最大転送単位のサイズ(バイト)。
rx [Kbps] 平均ネットワーク受信速度。
tx [Kbps] 平均ネットワーク送信速度。
total [Kbps] 平均ネットワーク送信速度(rx[Kb/s] + tx[Kb/s])。
rxPkt [#/s] 平均受信パケット率。
txPkt [#/s] 平均送信パケット率。
pkt [#/s] パケットの平均送信率(rxPkt[#/s] + txPkt[#/s])。
rxDscrd [#/s] 受信パケットのドロップ/破棄の平均率。
txDscrd [#/s] 送信パケットのドロップ/破棄の平均率。
rxUnicast [#/s] 受信したユニキャスト・パケットの平均率。
rxNonUnicast [#/s] 受信したマルチキャスト・パケットの平均率。
dscrd [#/s] 合計破棄パケットの平均率(rxDscrd + txDscrd)。
rxErr [#/s] 受信パケットの平均エラー率。
txErr [#/s] 送信パケットの平均エラー率。
Err [#/s] 合計転送の平均エラー率(rxErr[#/s] + txErr[#/s])。

NFSメトリック・セット

ラウンド・トリップ時間によりソートされた上位32のNFSが含まれます。このメトリック・セットは30秒ごとに1回収集されます。

表4-5 NFSメトリック・セット

メトリック名(単位) 説明
op [#/s] ファイルシステムに発行された、1秒当たりの読取り/書込み操作の数。
bytes [#/sec] ファイルシステムからの1秒当たりの読取り/書込みバイト数。
rtt [s] これは、クライアントのカーネルがRPCリクエストを送信してから応答を受信するまでの期間です。
exe [s] これは、NFSクライアントがカーネルに対してRPCリクエストを行ってからRPCリクエストが完了するまでの期間です。これには前述のRTT時間が含まれます。
retrains [%] 再送信の頻度(%)です。

プロトコル・メトリック・セット

プロトコル・グループTCP、UDPおよびIPの特定のメトリックが含まれます。メトリック値はシステムの起動からの累積です。

表4-6 TCPメトリック・セット

メトリック名(単位) 説明
failedConnErr [#] TCP接続がSYN-SENT状態またはSYN-RCVD状態からCLOSED状態に直接遷移した回数と、TCP接続がSYN-RCVD状態からLISTEN状態に直接遷移した回数。
estResetErr [#] TCP接続がESTABLISHED状態またはCLOSE-WAIT状態からCLOSED状態に直接遷移した回数
segRetransErr [#] 再送信されたTCPセグメントの合計数
rxSeg [#] TCPレイヤーで受信されたTCPセグメントの合計数。
txSeg [#] TCPレイヤーから送信されたTCPセグメントの合計数。

表4-7 UDPメトリック・セット

メトリック名(単位) 説明
unkPortErr [#] 宛先ポートにアプリケーションが存在しなかった受信済データグラムの合計数。
rxErr [#] 宛先ポートにアプリケーションが存在しないこと以外の理由で配信できなかった受信済データグラムの数。
rxPkt [#] 受信したパケットの合計数
txPkt [#] 送信されたパケットの合計数。

表4-8 IPメトリック・セット

メトリック名(単位) 説明
ipHdrErr [#] IPv4ヘッダー内のエラーのため破棄された入力データグラムの数
addrErr [#] IPv4ヘッダーの宛先フィールド内のIPv4アドレスがこのエンティティで受信できる有効なアドレスではなかったため破棄された入力データグラムの数
unkProtoErr [#] 正常に受信されたものの、不明またはサポートされていないプロトコルのため破棄された、ローカルにアドレス指定されたデータグラムの数
reasFailErr [#] IPv4の再アセンブリ・アルゴリズムによって検出された障害の数
fragFailErr [#] フラグメンテーション・エラーのため破棄されたIPv4データグラムの数
rxPkt [#] IPレイヤーで受信したパケットの合計数。
txPkt [#] IPレイヤーから送信されたパケットの合計数。

ファイルシステム・メトリック・セット

ファイルシステム使用率のメトリックが含まれます。GRID_HOMEファイルシステムについてのみ収集されます。

表4-9 ファイルシステム・メトリック・セット

メトリック名(単位) 説明
mount マウント・ポイント
type ファイルシステムタイプ(例: etx4)。
tag ファイルシステム・タグ(例: GRID_HOME)。
total [KB] 領域の合計容量(KB)
used [KB] 使用済領域の量(KB)
avbl [KB] 使用可能な領域の量(KB)
used [%] 使用済領域の割合。
ifree [%] 空きファイル・ノードの割合。

システム・メトリック・セット

クリティカル・システム・リソース使用率のサマリー作成済メトリック・セットが含まれます。

表4-10 CPUメトリック

メトリック名(単位) 説明
pCpus [#] システム内の物理処理装置の数。
Cores [#] システム内のすべてのCPUのコア数。
vCpus [#] システム内の論理処理装置の数。
cpuHt CPUのハイパースレッディングが有効(Y)または無効(N)。
osName オペレーティング・システム名。
chipName 処理装置のチップの名前。
system [%] システム・レベル(カーネル)で実行中に発生したCPU使用率の割合。
user [%] ユーザー・レベル(アプリケーション)で実行中に発生したCPU使用率の割合。
usage [%] 合計CPU使用率(system[%] + user[%])。
nice [%] ユーザー・レベルでNICE優先度で実行中に発生したCPU使用率の割合。
ioWait [%] CPUがアイドルで、システムに未処理のディスクI/Oリクエストがあった時間の割合。
Steal [%] ハイパーバイザが別の仮想プロセッサを処理する間に仮想CPUが非自発的な待機に費やした時間の割合。
cpuQ [#] 現在のサンプル間隔内で、実行キューで待機中のプロセスの数
loadAvg1 1分を期間として計算されたシステムの平均負荷。
loadAvg5 5分を期間として計算されたシステムの平均負荷。
loadAvg15 15分を期間として計算されたシステムの平均負荷。負荷平均が高いと、システムが過負荷になっていて、多くのプロセスがCPU時間を待機していることを示します。
Intr [#/s] システムで1秒間に発生した割込みの数。
ctxSwitch [#/s] システムで1秒間に発生したコンテキスト切替えの数。

表4-11 メモリー・メトリック

メトリック名(単位) 説明
totalMem [KB] 使用可能なRAMの合計容量(KB)
freeMem [KB] RAMの空き容量(KB)
avblMem [KB] スワップせずに新しいプロセスを開始するのに使用できるメモリーの量。
shMem [KB] tmpfsによって(主に)使用されているメモリー。
swapTotal [KB] 物理スワップ・メモリーの合計容量(KB)
swapFree [KB] スワップ・メモリーの空き容量(KB)
swpIn [KB/s] 現在のサンプル間隔内での平均スワップ・イン率(KB/秒)。
swpOut [KB/s] 現在のサンプル間隔内での平均スワップアウト率(KB/秒)。
pgIn [#/s] 現在のサンプル間隔内での平均ページ・イン率(ページ/秒)。
pgOut [#/s] 現在のサンプル間隔内での平均ページ・アウト率(ページ/秒)。
slabReclaim [KB] キャッシュなど、再利用される可能性のあるスラブの部分。
buffer [KB] カーネル・バッファにより使用されているメモリー。
Cache [KB] ページ・キャッシュおよびスラブで使用されているメモリー。
bufferAndCache [KB] バッファおよびキャッシュの合計サイズ(buffer[KB] + Cache[KB])。
hugePageTotal [#] 現在のサンプル間隔でシステム内に存在するヒュージ・ページの合計数。
hugePageFree [KB] 現在のサンプル間隔でのシステムでの空きヒュージ・ページの合計数。
hugePageSize [KB] 1つのヒュージ・ページのサイズ(KB)で、オペレーティング・システムのバージョンによって異なります。通常は、特定のホストのすべてのサンプルで同じです。

表4-12 デバイス・メトリック

メトリック名(単位) 説明
disks [#] システムで構成されているディスクの数。
ioR [KB/s] すべてのデバイスの集計読取り速度。
ioW [KB/s] すべてのデバイスの集計書込み速度。
numIOs [#/s] すべてのデバイスの集計I/O操作速度。

表4-13 NFSメトリック

メトリック名(単位) 説明
nfs [#] NFSデバイス総数。

表4-14 プロセス・メトリック

メトリック名(単位) 説明
fds [#] システム内のオープン・ファイル構造の数。
procs [#] プロセス数
rtProcs [#] リアルタイム・プロセスの数
procsInDState 割り込み不可能なスリープ状態のプロセスの数。
sysFdLimit [#] ファイル構造体の数に対するシステム制限。
procsOnCpu [#] CPUで現在実行中のプロセスの数。
procsBlocked [#] I/O操作の完了など、一部のイベント/リソースが使用可能になるのを待機しているプロセスの数。

プロセス集計メトリック・セット

すべてのプロセスの集計メトリックがプロセス・グループごとに含まれます。

表4-15 プロセス集計メトリック・セット

メトリック名(単位) 説明
DBBG ユーザーOracle Databaseバックグラウンド・プロセス・グループ。
DBFG ユーザーOracle Databaseフォアグラウンド・プロセス・グループ。
MDBBG MGMTDBバックグラウンド・プロセス・グループ。
MDBFG MGMTDBフォアグラウンド・プロセス・グループ。
ASMBG ASMバックグラウンド・プロセス・グループ。
ASMFG ASMフォアグラウンド・プロセス・グループ。
IOXBG IOSバックグラウンド・プロセス・グループ。
IOXFG IOSフォアグラウンド・プロセス・グループ。
APXBG APXバックグラウンド・プロセス・グループ。
APXFG APXフォアグラウンド・プロセス・グループ。
CLUST クラスタウェア・プロセス・グループ。
OTHER デフォルト・グループ。

グループごとに、次のメトリックが集計され、グループ・サマリーがレポートされます。

メトリック名(単位) 説明
processes [#] グループ内のプロセスの合計数。
cpu [%] 集計されたCPU使用率。
rss [KB] 集計された常駐設定サイズ。
shMem [KB] 集計された共有メモリー使用量。
thrds [#] 集計されたスレッド数。
fds [#] 集計されたオープン・ファイル記述子。
cpuWeight [%] マシンの全体のCPU使用率におけるグループの比率。