管理サービス・ヘルス・データの表示
この項では、Private Cloud Appliance管理サービスのヘルス・メトリックと、フォルトが発生する条件について説明します。 この健全性情報はハードウェア障害に関するものではありませんが、リソース使用率(CPU、メモリーおよびストレージ)、ハードウェア実行状態およびヘルス・チェッカ通知に関する情報です。 「表5-1」の下部にリストされているハードウェア障害は、ASRを介して報告されます。
管理サービス・フォルト・サマリー
次の表に示すしきい値、実行状態およびヘルス・チェッカ通知のフォルト・タイプについては、次の各項で詳しく説明します。
表5-1 管理サービス障害検出構成のサマリー
フォルト・タイプ | 障害検出頻度(秒) | 障害検出遅延(秒) | データ・ソース | 検出方法 |
---|---|---|---|---|
60 |
< 20 |
管理コールComputeNodeサービス |
障害は、データベースに格納されているコンピュート・ノード・オブジェクト属性に基づいてフォルト・タスクによって発生します。 |
|
120 |
< 20 |
管理コールPrometheusサービス |
フォルトは、データベースに格納されているPrometheus ZFSプールの使用状況およびステータス・データに基づいてフォルト・タスクによって発生します。 |
|
150 |
< 20 |
管理者がハードウェア |
障害は、データベースに格納されているハードウェア・コンポーネント・ノードまたはILOM実行状態に基づいて障害タスクによって発生します。 |
|
ZFS/ネットワーク・ヘルス・チェッカ通知頻度で定義されます |
0 |
様々なHealthCheckerサービスによる通知の送信 |
フォルトは、RabbitMQ通知のフォルト結果に基づいて作成されます。 |
|
プラットフォームILOM障害 |
150 |
0 |
管理者がハードウェア |
障害は、ILOMオブジェクト・データのL1 API結果に基づいて作成されます。 ASRによってアクション可能なPrivate Cloud Appliance X9-2イベントのリストは、「PCA X9-2アプライアンス: 自動サービス・リクエスト(ASR)イベント・カバレッジ(ドキュメントID 2833567.1)」を参照してください。 |
ハードウェア・ステータス障害 |
初期化時および |
< 20 |
管理者がハードウェア |
フォルトは、PcaSystemオブジェクト属性に基づいてフォルト・タスクによって発生します。 ASRによってアクション可能なPrivate Cloud Appliance X9-2イベントのリストは、「PCA X9-2アプライアンス: 自動サービス・リクエスト(ASR)イベント・カバレッジ(ドキュメントID 2833567.1)」を参照してください。 |
「サービスWeb UI」を使用した管理サービス・フォルトの表示
-
「サービス・エンクレーブ」ホーム・ページの上部にある「アクティブなフォルト」リンクをクリックするか、ナビゲーション・メニューの「フォルト」をクリックします。
「フォルト」ページが表示されます。 -
「フォルト」ページの上部で、すべてのフォルトをリストするか、アクティブなフォルトのみを表示するかを切り替えることができます。
-
フォルトの詳細は、フォルトの名前をクリックするか、「アクション」メニューの「詳細の表示」をクリックします。
詳細ページには、説明、原因および実行する推奨アクションが表示されます。
「サービスCLI」を使用した管理サービス・フォルトの表示
-
管理サービス・フォルトのリストを表示するには、
list fault
コマンドを使用します。アクティブな障害とクリアされた障害の両方がリストされます。
PCA-ADMIN> list fault Command: list fault Status: Success Time: 2023-03-07 15:34:52,613 UTC Data: id name status severity -- ---- ------ -------- 33c61b8a-dcc7-4b8f-bc0f-56915ecc62f5 RackUnitIlomRunStateFaultStatusFault(pcacn005) Cleared Critical f7d22180-aeae-4159-b5c8-5e55a7906a78 RackUnitIlomRunStateFaultStatusFault(pcacn004) Cleared Critical a4fef907-8e54-4750-9fac-6829fbade90d ComputeNodeCpuFaultStatusFault(pcacn006) Cleared Minor f8d93384-da30-43cd-9396-6e6671d240e2 RackUnitIlomRunStateFaultStatusFault(pcacn010) Cleared Critical 8e61bb81-7a02-4c26-8ef4-c13b198f64da ComputeNodeCpuFaultStatusFault(pcacn007) Cleared Warning 3216b6f9-326b-4992-99a3-ab23cb18243b AK-8003-F9--PCIe 3 Active Minor ef3fb25b-0573-4524-8d1c-fb704c814446 AK-8003-HF--vnic1 Active Major f830cd46-21ff-4d74-ba81-c82fd6f52c67 ComputeNodeCpuFaultStatusFault(pcacn005) Cleared Minor d2e71da0-ba63-4983-97da-24033d5c6447 ZfsPoolUsageFaultStatusFault(PCA_POOL) Cleared Major eecd5ef2-4a71-4137-be96-54c028212d2f ComputeNodeMemoryFaultStatusFault(pcacn004) Cleared Minor cf68d2ee-e483-e573-b46e-c31bcbc8e968 ISTOR-8000-1S--ORACLE SERVER E5-2L Cleared Major 0686c11d-b96b-e5aa-dfbe-a20154da4794 SPAMD-8002-FJ--ORACLE SERVER E5-2L Cleared Major b488a45a-80df-46e3-b0b5-a35527eb9c0e AK-8003-F9--PCIe 10 Active Minor ac48f88d-e181-4b03-b620-6bfbf4ad95ef RackUnitIlomRunStateFaultStatusFault(pcacn007) Cleared Critical b4c66a7c-def3-42c2-8842-d4763afc5184 RackUnitIlomRunStateFaultStatusFault(pcacn006) Cleared Critical 9fc2e45a-1cff-4f95-828d-58742c8ce12f ComputeNodeMemoryFaultStatusFault(pcacn002) Active Minor c0124122-a91c-4110-89cc-deebe54de7ba ComputeNodeMemoryFaultStatusFault(pcacn006) Cleared Critical ca26ed46-4d1c-4ade-9e74-af27d94cf8f4 AK-8003-HF--vnic2 Active Major 58e9ab5d-d4e7-4d94-9ca6-e85a1c88b3b8 RackUnitRunStateFaultStatusFault(sn022147XLF014) Cleared Critical 474c269f-4018-45d7-97d5-da17c9c845f4 RackUnitIlomRunStateFaultStatusFault(pcacn001) Cleared Critical 2b5ece1c-50fc-436a-81b3-da0c5b418fe3 RackUnitIlomRunStateFaultStatusFault(pcacn003) Cleared Critical 1c164eb9-9a76-4592-8ab6-150edb8f7a75 ComputeNodeCpuFaultStatusFault(pcacn001) Cleared Warning 55ed1494-6aac-4248-91cb-9ac8295d668c AK-8003-HF--PCIe 6 Active Major afbcc080-0b93-434b-8ead-fa673f302170 AK-8003-F9--PCIe 6 Active Minor 8b36c2db-a3b4-41c8-b416-8e733ace3aeb PcaSystemReSyncHwStatusStatusFault(null) Cleared Warning 28c5ba93-6b4e-42f3-ad61-90734b46bf30 SPENV-8000-RU--ORACLE SERVER E5-2L Cleared Critical 3d932188-0120-489f-a512-1a244ec01e49 RackUnitIlomRunStateFaultStatusFault(pcacn009) Cleared Critical 21e6faa9-68e1-47ae-a298-e2cb14d2a406 ComputeNodeMemoryFaultStatusFault(pcacn007) Cleared Minor db023304-fb7a-613b-ad9b-e277b7ce5675 SPENV-8000-A7--ORACLE SERVER E5-2L Cleared Major 63839bf5-335b-48ff-86a0-9e981e3e9902 RackUnitRunStateFaultStatusFault(sn012147XLF014) Cleared Critical 2e851c6e-aa29-4a25-846a-29b08967dd95 RackUnitValidationStateStatusFault(pcacn008) Cleared Major 76805c56-fcf6-48a2-b4fd-ffa77570e83c ComputeNodeCpuFaultStatusFault(pcacn002) Active Minor 9be74faf-df4d-ea20-cfc1-92b2a6a01b06 SPENV-8000-A7--ORACLE SERVER E5-2L Cleared Major 1624064f-d380-4ffc-9000-d293c185d7ac ComputeNodeCpuFaultStatusFault(pcacn003) Cleared Warning 7ca3f7af-f0bd-45d9-bad7-15794d49e7c6 RackUnitIlomRunStateFaultStatusFault(pcacn008) Cleared Critical 3e7a3503-7a71-4ef1-a3ad-fba2162571ab ComputeNodeCpuFaultStatusFault(pcacn004) Cleared Warning 0922cd8e-297e-4356-b736-b09ac382b28b AK-8003-F9--PCIe 10 Active Minor ab44ad2c-1105-417d-aa47-e8cb477ef0ec AK-8003-F9--PCIe 3 Active Minor
-
説明、原因、推奨されるアクションなど、特定のフォルトの詳細を表示するには、
show fault
コマンドを特定のフォルトIDとともに使用します。PCA-ADMIN> show fault id=ab44ad2c-1105-417d-aa47-e8cb477ef0ec Command: show fault id=ab44ad2c-1105-417d-aa47-e8cb477ef0ec Status: Success Time: 2023-03-07 15:36:19,414 UTC Data: Id = ab44ad2c-1105-417d-aa47-e8cb477ef0ec Type = Fault Category = Internal Severity = Minor Status = Active Last Update Time = 2023-03-06 20:04:11,668 UTC Message Id = AK-8003-F9 Time Reported = Mon Mar 06 2023 16:50:24 GMT+0000 (UTC) Action = Check the networking cable, switch port, and switch configuration. Contact your vendor for support if the network port remains inexplicably down. Please refer to the associated reference document at http://support.oracle.com/msg/AK-8003-F9 for the latest service procedures and policies regarding this diagnosis. Health Exporter = zfssa-analytics-exportersn022147XLF014 uuid = ab44ad2c-1105-417d-aa47-e8cb477ef0ec Diagnosing Source = zfssa_analytics_exporter FaultHistoryLogIds 1 = id:fdfaa42f-de8d-4622-a9df-ea229b7bad6f type:FaultHistoryLog name: BaseManagedObjectId = id:2147XLF015/PCIe 3/465774J-2121701684 type:HardwareComponent name: Description = Network connectivity via port mlxne4 has been lost. Name = AK-8003-F9--PCIe 3 Work State = Normal
「サービスCLI」を使用して管理サービスの障害を示すその他の例は、「コンピュート・ノードのCPUおよびメモリー使用率のフォルト」を参照してください。
コンピュート・ノードのCPUおよびメモリー使用率のフォルト
Adminサービスは、使用済メモリーの割合と、ComputeNode
オブジェクトに使用されるCPUの割合についてフォルトを生成します。 より多くのメモリーとCPUが使用されるにつれて、より深刻な障害が発生します。 使用率が一定の割合を下回ると、すべての障害がクリアされます。
これらはハードウェア障害ではなく、使用率障害(CPUおよびメモリー使用率)です。 CPUおよびメモリー・ハードウェアの問題はASRによって報告されます。
CPU使用率
次の表に、フォルトの重大度が異なるコンピュート・ノードのCPU使用率のデフォルトの割合を示します。
CPUパーセンテージ | フォルト重大度 | フォルト状態 |
---|---|---|
< .75 |
該当なし |
クリア |
>= .75 |
警告 |
アクティブ |
>= .80 |
軽度 |
アクティブ |
>= .90 |
重度 |
アクティブ |
>= .95 |
クリティカル |
アクティブ |
CPUメモリー
次の表に、フォルトの重大度が異なるコンピュート・ノードのメモリー使用量のデフォルトの割合を示します。
メモリー率 | フォルト重大度 | フォルト状態 |
---|---|---|
< .75 |
該当なし |
クリア |
>= .75 |
警告 |
アクティブ |
>= .80 |
軽度 |
アクティブ |
>= .90 |
重度 |
アクティブ |
>= .95 |
クリティカル |
アクティブ |
「サービスCLI」を使用したコンピュート・ノードのフォルトの表示
「サービスCLI」を使用して、CPUおよびメモリーのコンピュート・ノード使用率のデフォルトのフォルト・トリガー設定を表示するには、cnUpdateManager
コマンドを使用します:
PCA-ADMIN> show cnUpdateManager Command: show cnUpdateManager Status: Success Time: 2023-03-06 23:41:37,249 UTC Data: Id = caaaaaa1-a076-4e48-94b5-7bdcd4e0c42c Type = CnUpdateManager LastRunTime = 2023-03-06 23:41:33,676 UTC Poll Interval (sec) = 60 The minimum CPU usage percentage to trigger a critical fault = 0.95 The minimum CPU usage percentage to trigger a major fault = 0.9 The minimum CPU usage percentage to trigger a minor fault = 0.8 The minimum CPU usage percentage to trigger a warning = 0.75 The minimum memory usage percentage to trigger a critical fault = 0.95 The minimum memory usage percentage to trigger a major fault = 0.9 The minimum memory usage percentage to trigger a minor fault = 0.8 The minimum memory usage percentage to trigger a warning = 0.75
すべてのフォルトのリストおよび特定のフォルトの詳細を表示するには、「管理サービス・ヘルス・データの表示」を参照してください。 次の例は、特定のコンピュート・ノードの障害を示しています。 現在の使用状況は、少なくともマイナーな障害しきい値であり、メジャーな障害しきい値より小さいことを除いて表示されません。 現在の使用状況を確認するには、「サービスWeb UI」を使用します。
PCA-ADMIN> show fault id=76805c56-fcf6-48a2-b4fd-ffa77570e83c Command: show fault id=76805c56-fcf6-48a2-b4fd-ffa77570e83c Status: Success Time: 2023-03-07 15:40:50,917 UTC Data: Id = 76805c56-fcf6-48a2-b4fd-ffa77570e83c Type = Fault Category = Status Severity = Minor Status = Active Associated Attribute = cpuFault Last Update Time = 2023-03-04 01:06:25,666 UTC Cause = ComputeNode pcacn002 attribute cpuFault = MINOR. FaultHistoryLogIds 1 = id:79b44c26-cb4e-4bec-a58c-6efc7fc63fed type:FaultHistoryLog name: FaultHistoryLogIds 2 = id:fc90a99a-031b-457f-b585-5c905e61362e type:FaultHistoryLog name: FaultHistoryLogIds 3 = id:48068f78-1328-447d-9506-efb6f22d154d type:FaultHistoryLog name: FaultHistoryLogIds 4 = id:d97c5819-923c-480d-8f61-2341c8403182 type:FaultHistoryLog name: FaultHistoryLogIds 5 = id:18cdd005-53c0-488c-a2df-28f2da3b1092 type:FaultHistoryLog name: FaultHistoryLogIds 6 = id:bfe1ffcd-5899-4400-914c-b467d8671e0c type:FaultHistoryLog name: FaultHistoryLogIds 7 = id:459fa55b-8654-4c07-8ae7-6d0ef011e3b1 type:FaultHistoryLog name: FaultHistoryLogIds 8 = id:b9c8a909-f8ea-4de6-9bfe-2516e7addf73 type:FaultHistoryLog name: FaultHistoryLogIds 9 = id:6ab5d1ca-3659-49a7-8e68-946bbbeccc9f type:FaultHistoryLog name: FaultHistoryLogIds 10 = id:d04d06a1-1e2c-404c-ac67-680e0deb34c5 type:FaultHistoryLog name: FaultHistoryLogIds 11 = id:22dd163e-528f-4346-b177-d62c7ceb9885 type:FaultHistoryLog name: FaultHistoryLogIds 12 = id:cdb2dbf5-6999-43c2-bb5f-17192bfad3e2 type:FaultHistoryLog name: FaultHistoryLogIds 13 = id:aa7b2e43-ab0b-4d78-bfe7-d4b0dd0fec4a type:FaultHistoryLog name: BaseManagedObjectId = id:0dd96e90-de00-4fa0-82e3-16937e4601f8 type:ComputeNode name: Description = ComputeNode pcacn002 attribute cpuFault = MINOR. Name = ComputeNodeCpuFaultStatusFault(pcacn002) Work State = Normal
ストレージ使用率の障害
次の表では、管理サービスで発生する2種類のOracle ZFS Storage Applianceフォルトについて説明します。
これらはハードウェア障害ではなく、使用率障害(ZFSプール使用状況)です。 ZFSハードウェアの問題はASRによって報告されます。
Private Cloud Applianceは、ZFS Storage Appliance用に収集されたPrometheusマトリックス・データを使用して、プールの使用状況を報告します。 プール当たりの合計プール・サイズ( zfssa_pool_total
)およびプール当たりの空き領域( zfssa_pool_free
)を使用して、プール使用率を計算します。 zfssa_pool_status
メトリックは、プールのヘルスをレポートします。
メトリック名 | メトリック値摘要 | フォルト条件 |
---|---|---|
|
プール使用率は、プールごとに次の式を使用して計算されます: (zfssa_pool_total - zfssa_pool_free) / zfssa_pool_total |
プール使用率が事前構成された値を超えている場合は、主要な障害が発生します。 デフォルト値は80%です。 |
|
|
0または2以外の任意のプール・ステータス値を持つ |
ハードウェア実行状態障害
管理ノード、コンピュート・ノード、ストレージ・ノード、スイッチなどのラック上のハードウェア・ユニットの実行状態が無効な場合は、クリティカルまたはメジャーな障害が発生します。
次の表に、指定された実行状態に対して発生する障害の重大度を示します。 リストされた実行状態以外の実行状態では、すべての障害がクリアされます。
実行状態値(大/小文字の区別なし) | フォルト重大度 | フォルト状態 |
---|---|---|
ILOMに接続できない |
クリティカル |
アクティブ |
FAIL |
クリティカル |
アクティブ |
SERVICE REQUIRED |
重度 |
アクティブ |
other |
該当なし |
クリア |
ヘルス・チェッカ通知フォルト
健全性チェッカの障害は、ZFSSAおよびネットワーク健全性チェッカ・コンポーネントからの通知から発生します。 受信する通知ごとに、管理サービスで障害が発生します。
次に、ネットワーク・ヘルス・チェッカ・コンポーネントのフォルト・データのfaultedComponents
オブジェクトの属性の例を示します:
"class": "cisco.fan.fail", "severity": "Major", "description": "Fan module has failed and needs to be replaced. This can lead to overheating and temperature alarms.", ... "class": "cisco.power.fail", "severity": "Major", "description": "Power Supply has failed or has been shutdown",
次に、ZFSSA Health Checkerコンポーネントの障害データのfaultedComponents
オブジェクトの属性の例を示します:
"severity":"Major", "type":"Fault", "description":"An internal power supply failure has been detected.",
障害が発生した部品に関する詳細情報が提供されます。
action
属性には、問題の修正方法についての簡単な説明が含まれ、適切なサポート・ドキュメントへのリンクが含まれる場合があります。
障害の手動クリア
この項では、「サービスCLI」を使用してフォルトを手動でクリアする方法について説明します。 「サービスWeb UI」を使用してフォルトを手動でクリアすることはできません。
「サービスCLI」の使用
-
SSHを使用して、管理ノードVIPに
admin
としてログインします。# ssh -l admin 100.96.2.32 -p 30006
-
list fault
コマンドを使用して、障害の識別情報のリストを検索します。PCA-ADMIN> list fault Command: list fault Status: Success Time: 2024-01-31 21:38:05,472 UTC Data: id Name Status Severity –- –-–- –-–-–- –-–-–-–- 71671228-.â¦.â¦.-56a6a58947c6a6789 pcamn02-example Active Critical 524cb805-.â¦.â¦.-acc3458bb79t04295 RackUnit-example Active Major PCA-ADMIN>
-
clearFault
コマンドをフォルト識別子とともに使用して、フォルトをクリアします。PCA-ADMIN> cleatFault id=[524cb805-.â¦.â¦.-acc3458bb79t04295] Command: clearFault Status: Success Time: 2024-01-31 21:39:30,094 UTC PCA-ADMIN>
ノート:
別のlist fault
コマンドを使用して、障害のクリア結果を確認できます。PCA-ADMIN> list fault Command: list fault Status: Success Time: 2024-01-31 21:40:02,685 UTC Data: id Name Status Severity –- –-–- –-–-–- –-–-–-–- 71671228-.â¦.â¦.-56a6a58947c6a6789 pcamn02-example Active Critical PCA-ADMIN>