管理サービス・ヘルス・データの表示

この項では、Private Cloud Appliance管理サービスのヘルス・メトリックと、フォルトが発生する条件について説明します。この健全性情報はハードウェア障害に関するものではありませんが、リソース使用率(CPU、メモリーおよびストレージ)、ハードウェア実行状態およびヘルス・チェッカ通知に関する情報です。「表7-1」の下部にリストされているハードウェア障害は、ASRを介して報告されます。詳細は、[PCA 3.x] Private Cloud Appliance: Automatic Service Request (ASR) Event Coverage (Doc ID 2833567.2)を参照してください。

管理サービス・フォルト・サマリー

次の表に示すしきい値、実行状態およびヘルス・チェッカ通知のフォルト・タイプについては、次の各項で詳しく説明します。

表7-1 管理サービス障害検出構成のサマリー

フォルト・タイプ	障害検出頻度(秒)	障害検出遅延(秒)	データ・ソース	検出方法
コンピュート・ノードのCPUおよびメモリー使用率のフォルト	60	< 20	管理コールComputeNodeサービス	障害は、データベースに格納されているコンピュート・ノード・オブジェクト属性に基づいてフォルト・タスクによって発生します。
ストレージ使用率の障害	120	< 20	管理コールPrometheusサービス	フォルトは、データベースに格納されているPrometheus ZFSプールの使用状況およびステータス・データに基づいてフォルト・タスクによって発生します。
ハードウェア実行状態障害	150	< 20	管理者がハードウェア`list` REST APIをコール	障害は、データベースに格納されているハードウェア・コンポーネント・ノードまたはILOM実行状態に基づいて障害タスクによって発生します。
ヘルス・チェッカ通知フォルト	ZFS/ネットワーク・ヘルス・チェッカ通知頻度で定義されます	0	様々なHealthCheckerサービスによる通知の送信	フォルトは、RabbitMQ通知のフォルト結果に基づいて作成されます。
プラットフォームILOM障害	150	0	管理者がハードウェア`getMgmt`および`getCompute` ILOMヘルスREST APIをコール	障害は、ILOMオブジェクト・データのL1 API結果に基づいて作成されます。 ASRでアクション可能なPrivate Cloud Appliance X9-2イベントのリストは、「PCA X9-2アプライアンス: 自動サービス・リクエスト(ASR)イベント・カバレッジ(ドキュメントID 2833567.1)」を参照してください。 Private Cloud Appliance X10イベントについては、「[PCA 3.x] Private Cloud Appliance: 自動サービス・リクエスト(ASR)イベント・カバレッジ(ドキュメントID 2833567.2)」を参照してください。
ハードウェア・ステータス障害	初期化時および`syncHardwareData`コマンドの実行時	< 20	管理者がハードウェア`list` REST APIをコール	フォルトは、PcaSystemオブジェクト属性に基づいてフォルト・タスクによって発生します。 ASRでアクション可能なPrivate Cloud Appliance X9-2イベントのリストは、「PCA X9-2アプライアンス: 自動サービス・リクエスト(ASR)イベント・カバレッジ(ドキュメントID 2833567.1)」を参照してください。 Private Cloud Appliance X10イベントについては、「[PCA 3.x] Private Cloud Appliance: 自動サービス・リクエスト(ASR)イベント・カバレッジ(ドキュメントID 2833567.2)」を参照してください。

「サービスWeb UI」を使用した管理サービス・フォルトの表示

「サービス・エンクレーブ」ホーム・ページの上部にある「アクティブなフォルト」リンクをクリックするか、ナビゲーション・メニューの「フォルト」をクリックします。
「フォルト」ページが表示されます。
「フォルト」ページの上部で、すべてのフォルトをリストするか、アクティブなフォルトのみを表示するかを切り替えることができます。
フォルトの詳細は、フォルトの名前をクリックするか、「アクション」メニューの「詳細の表示」をクリックします。

詳細ページには、説明、原因および実行する推奨アクションが表示されます。

「サービスCLI」を使用した管理サービス・フォルトの表示

管理サービス・フォルトのリストを表示するには、list faultコマンドを使用します。

アクティブな障害とクリアされた障害の両方がリストされます。

PCA-ADMIN> list fault
Command: list fault
Status: Success
Time: 2023-03-07 15:34:52,613 UTC
Data:
  id                                     name                                               status    severity
  --                                     ----                                               ------    --------
  33c61b8a-dcc7-4b8f-bc0f-56915ecc62f5   RackUnitIlomRunStateFaultStatusFault(pcacn005)     Cleared   Critical
  f7d22180-aeae-4159-b5c8-5e55a7906a78   RackUnitIlomRunStateFaultStatusFault(pcacn004)     Cleared   Critical
  a4fef907-8e54-4750-9fac-6829fbade90d   ComputeNodeCpuFaultStatusFault(pcacn006)           Cleared   Minor
  f8d93384-da30-43cd-9396-6e6671d240e2   RackUnitIlomRunStateFaultStatusFault(pcacn010)     Cleared   Critical
  8e61bb81-7a02-4c26-8ef4-c13b198f64da   ComputeNodeCpuFaultStatusFault(pcacn007)           Cleared   Warning
  3216b6f9-326b-4992-99a3-ab23cb18243b   AK-8003-F9--PCIe 3                                 Active    Minor
  ef3fb25b-0573-4524-8d1c-fb704c814446   AK-8003-HF--vnic1                                  Active    Major
  f830cd46-21ff-4d74-ba81-c82fd6f52c67   ComputeNodeCpuFaultStatusFault(pcacn005)           Cleared   Minor
  d2e71da0-ba63-4983-97da-24033d5c6447   ZfsPoolUsageFaultStatusFault(PCA_POOL)             Cleared   Major
  eecd5ef2-4a71-4137-be96-54c028212d2f   ComputeNodeMemoryFaultStatusFault(pcacn004)        Cleared   Minor
  cf68d2ee-e483-e573-b46e-c31bcbc8e968   ISTOR-8000-1S--ORACLE SERVER E5-2L                 Cleared   Major
  0686c11d-b96b-e5aa-dfbe-a20154da4794   SPAMD-8002-FJ--ORACLE SERVER E5-2L                 Cleared   Major
  b488a45a-80df-46e3-b0b5-a35527eb9c0e   AK-8003-F9--PCIe 10                                Active    Minor
  ac48f88d-e181-4b03-b620-6bfbf4ad95ef   RackUnitIlomRunStateFaultStatusFault(pcacn007)     Cleared   Critical
  b4c66a7c-def3-42c2-8842-d4763afc5184   RackUnitIlomRunStateFaultStatusFault(pcacn006)     Cleared   Critical
  9fc2e45a-1cff-4f95-828d-58742c8ce12f   ComputeNodeMemoryFaultStatusFault(pcacn002)        Active    Minor
  c0124122-a91c-4110-89cc-deebe54de7ba   ComputeNodeMemoryFaultStatusFault(pcacn006)        Cleared   Critical
  ca26ed46-4d1c-4ade-9e74-af27d94cf8f4   AK-8003-HF--vnic2                                  Active    Major
  58e9ab5d-d4e7-4d94-9ca6-e85a1c88b3b8   RackUnitRunStateFaultStatusFault(sn022147XLF014)   Cleared   Critical
  474c269f-4018-45d7-97d5-da17c9c845f4   RackUnitIlomRunStateFaultStatusFault(pcacn001)     Cleared   Critical
  2b5ece1c-50fc-436a-81b3-da0c5b418fe3   RackUnitIlomRunStateFaultStatusFault(pcacn003)     Cleared   Critical
  1c164eb9-9a76-4592-8ab6-150edb8f7a75   ComputeNodeCpuFaultStatusFault(pcacn001)           Cleared   Warning
  55ed1494-6aac-4248-91cb-9ac8295d668c   AK-8003-HF--PCIe 6                                 Active    Major
  afbcc080-0b93-434b-8ead-fa673f302170   AK-8003-F9--PCIe 6                                 Active    Minor
  8b36c2db-a3b4-41c8-b416-8e733ace3aeb   PcaSystemReSyncHwStatusStatusFault(null)           Cleared   Warning
  28c5ba93-6b4e-42f3-ad61-90734b46bf30   SPENV-8000-RU--ORACLE SERVER E5-2L                 Cleared   Critical
  3d932188-0120-489f-a512-1a244ec01e49   RackUnitIlomRunStateFaultStatusFault(pcacn009)     Cleared   Critical
  21e6faa9-68e1-47ae-a298-e2cb14d2a406   ComputeNodeMemoryFaultStatusFault(pcacn007)        Cleared   Minor
  db023304-fb7a-613b-ad9b-e277b7ce5675   SPENV-8000-A7--ORACLE SERVER E5-2L                 Cleared   Major
  63839bf5-335b-48ff-86a0-9e981e3e9902   RackUnitRunStateFaultStatusFault(sn012147XLF014)   Cleared   Critical
  2e851c6e-aa29-4a25-846a-29b08967dd95   RackUnitValidationStateStatusFault(pcacn008)       Cleared   Major
  76805c56-fcf6-48a2-b4fd-ffa77570e83c   ComputeNodeCpuFaultStatusFault(pcacn002)           Active    Minor
  9be74faf-df4d-ea20-cfc1-92b2a6a01b06   SPENV-8000-A7--ORACLE SERVER E5-2L                 Cleared   Major
  1624064f-d380-4ffc-9000-d293c185d7ac   ComputeNodeCpuFaultStatusFault(pcacn003)           Cleared   Warning
  7ca3f7af-f0bd-45d9-bad7-15794d49e7c6   RackUnitIlomRunStateFaultStatusFault(pcacn008)     Cleared   Critical
  3e7a3503-7a71-4ef1-a3ad-fba2162571ab   ComputeNodeCpuFaultStatusFault(pcacn004)           Cleared   Warning
  0922cd8e-297e-4356-b736-b09ac382b28b   AK-8003-F9--PCIe 10                                Active    Minor
  ab44ad2c-1105-417d-aa47-e8cb477ef0ec   AK-8003-F9--PCIe 3                                 Active    Minor

説明、原因、推奨されるアクションなど、特定のフォルトの詳細を表示するには、show faultコマンドを特定のフォルトIDとともに使用します。

PCA-ADMIN> show fault id=ab44ad2c-1105-417d-aa47-e8cb477ef0ec
Command: show fault id=ab44ad2c-1105-417d-aa47-e8cb477ef0ec
Status: Success
Time: 2023-03-07 15:36:19,414 UTC
Data:
  Id = ab44ad2c-1105-417d-aa47-e8cb477ef0ec
  Type = Fault
  Category = Internal
  Severity = Minor
  Status = Active
  Last Update Time = 2023-03-06 20:04:11,668 UTC
  Message Id = AK-8003-F9
  Time Reported = Mon Mar 06 2023 16:50:24 GMT+0000 (UTC)
  Action = Check the networking cable, switch port, and switch configuration. Contact your vendor for support
           if the network port remains inexplicably down. Please refer to the associated reference document at
           http://support.oracle.com/msg/AK-8003-F9 for the latest service procedures and policies regarding 
           this diagnosis.
  Health Exporter = zfssa-analytics-exportersn022147XLF014
  uuid = ab44ad2c-1105-417d-aa47-e8cb477ef0ec
  Diagnosing Source = zfssa_analytics_exporter
  FaultHistoryLogIds 1 = id:fdfaa42f-de8d-4622-a9df-ea229b7bad6f  type:FaultHistoryLog  name:
  BaseManagedObjectId = id:2147XLF015/PCIe 3/465774J-2121701684  type:HardwareComponent  name:
  Description = Network connectivity via port mlxne4 has been lost.
  Name = AK-8003-F9--PCIe 3
  Work State = Normal

「サービスCLI」を使用して管理サービスの障害を示すその他の例は、「コンピュート・ノードのCPUおよびメモリー使用率のフォルト」を参照してください。

コンピュート・ノードのCPUおよびメモリー使用率のフォルト

Adminサービスは、使用済メモリーの割合と、ComputeNodeオブジェクトに使用されるCPUの割合についてフォルトを生成します。より多くのメモリーとCPUが使用されるにつれて、より深刻な障害が発生します。使用率が一定の割合を下回ると、すべての障害がクリアされます。

これらはハードウェア障害ではなく、使用率障害(CPUおよびメモリー使用率)です。 CPUおよびメモリー・ハードウェアに関する問題は、ASRで報告されます。

CPU使用率

次の表に、フォルトの重大度が異なるコンピュート・ノードのCPU使用率のデフォルトの割合を示します。

CPUパーセンテージ	フォルトの重大度	フォルト状態
< .75	該当なし	クリア
>= .75	警告	アクティブ
>= .80	軽度	アクティブ
>= .90	重度	アクティブ
>= .95	クリティカル	アクティブ

CPUメモリー

次の表に、フォルトの重大度が異なるコンピュート・ノードのメモリー使用量のデフォルトの割合を示します。

メモリー率	フォルトの重大度	フォルト状態
< .75	該当なし	クリア
>= .75	警告	アクティブ
>= .80	軽度	アクティブ
>= .90	重度	アクティブ
>= .95	クリティカル	アクティブ

「サービスCLI」を使用したコンピュート・ノードのフォルトの表示

「サービスCLI」を使用して、CPUおよびメモリーのコンピュート・ノード使用率のデフォルトのフォルト・トリガー設定を表示するには、cnUpdateManagerコマンドを使用します:

PCA-ADMIN> show cnUpdateManager
Command: show cnUpdateManager
Status: Success
Time: 2023-03-06 23:41:37,249 UTC
Data:
  Id = caaaaaa1-a076-4e48-94b5-7bdcd4e0c42c
  Type = CnUpdateManager
  LastRunTime = 2023-03-06 23:41:33,676 UTC
  Poll Interval (sec) = 60
  The minimum CPU usage percentage to trigger a critical fault = 0.95
  The minimum CPU usage percentage to trigger a major fault = 0.9
  The minimum CPU usage percentage to trigger a minor fault = 0.8
  The minimum CPU usage percentage to trigger a warning = 0.75
  The minimum memory usage percentage to trigger a critical fault = 0.95
  The minimum memory usage percentage to trigger a major fault = 0.9
  The minimum memory usage percentage to trigger a minor fault = 0.8
  The minimum memory usage percentage to trigger a warning = 0.75

すべてのフォルトのリストおよび特定のフォルトの詳細を表示するには、「管理サービス・ヘルス・データの表示」を参照してください。次の例は、特定のコンピュート・ノードの障害を示しています。現在の使用状況は、少なくともマイナーなフォルトしきい値であり、メジャーなフォルトしきい値より小さいことを除いて表示されません。現在の使用状況を確認するには、「サービスWeb UI」を使用します。

PCA-ADMIN> show fault id=76805c56-fcf6-48a2-b4fd-ffa77570e83c
Command: show fault id=76805c56-fcf6-48a2-b4fd-ffa77570e83c
Status: Success
Time: 2023-03-07 15:40:50,917 UTC
Data:
  Id = 76805c56-fcf6-48a2-b4fd-ffa77570e83c
  Type = Fault
  Category = Status
  Severity = Minor
  Status = Active
  Associated Attribute = cpuFault
  Last Update Time = 2023-03-04 01:06:25,666 UTC
  Cause = ComputeNode pcacn002 attribute cpuFault = MINOR.
  FaultHistoryLogIds 1 = id:79b44c26-cb4e-4bec-a58c-6efc7fc63fed  type:FaultHistoryLog  name:
  FaultHistoryLogIds 2 = id:fc90a99a-031b-457f-b585-5c905e61362e  type:FaultHistoryLog  name:
  FaultHistoryLogIds 3 = id:48068f78-1328-447d-9506-efb6f22d154d  type:FaultHistoryLog  name:
  FaultHistoryLogIds 4 = id:d97c5819-923c-480d-8f61-2341c8403182  type:FaultHistoryLog  name:
  FaultHistoryLogIds 5 = id:18cdd005-53c0-488c-a2df-28f2da3b1092  type:FaultHistoryLog  name:
  FaultHistoryLogIds 6 = id:bfe1ffcd-5899-4400-914c-b467d8671e0c  type:FaultHistoryLog  name:
  FaultHistoryLogIds 7 = id:459fa55b-8654-4c07-8ae7-6d0ef011e3b1  type:FaultHistoryLog  name:
  FaultHistoryLogIds 8 = id:b9c8a909-f8ea-4de6-9bfe-2516e7addf73  type:FaultHistoryLog  name:
  FaultHistoryLogIds 9 = id:6ab5d1ca-3659-49a7-8e68-946bbbeccc9f  type:FaultHistoryLog  name:
  FaultHistoryLogIds 10 = id:d04d06a1-1e2c-404c-ac67-680e0deb34c5  type:FaultHistoryLog  name:
  FaultHistoryLogIds 11 = id:22dd163e-528f-4346-b177-d62c7ceb9885  type:FaultHistoryLog  name:
  FaultHistoryLogIds 12 = id:cdb2dbf5-6999-43c2-bb5f-17192bfad3e2  type:FaultHistoryLog  name:
  FaultHistoryLogIds 13 = id:aa7b2e43-ab0b-4d78-bfe7-d4b0dd0fec4a  type:FaultHistoryLog  name:
  BaseManagedObjectId = id:0dd96e90-de00-4fa0-82e3-16937e4601f8  type:ComputeNode  name:
  Description = ComputeNode pcacn002 attribute cpuFault = MINOR.
  Name = ComputeNodeCpuFaultStatusFault(pcacn002)
  Work State = Normal

ストレージ使用率の障害

次の表では、管理サービスで発生する2種類のOracle ZFS Storage Applianceフォルトについて説明します。

これらはハードウェア障害ではなく、使用率障害(ZFSプール使用状況)です。 ZFSハードウェアに関する問題は、ASRで報告されます。

Private Cloud Applianceは、ZFS Storage Appliance用に収集されたPrometheusマトリックス・データを使用して、プールの使用状況を報告します。プール当たりの合計プール・サイズ(zfssa_pool_total)およびプール当たりの空き領域(zfssa_pool_free)を使用して、プール使用率を計算します。 zfssa_pool_statusメトリックは、プールのヘルスをレポートします。

メトリック名メトリック値摘要フォルト条件

メトリック名	メトリック値摘要	フォルト条件
`zfssa_pool_total` `zfssa_pool_free`	プール使用率は、プールごとに次の式を使用して計算されます: (zfssa_pool_total - zfssa_pool_free) / zfssa_pool_total	プール使用率が事前構成された値を超えている場合は、主要な障害が発生します。デフォルト値は80%です。
`zfssa_pool_status`	`zfssa_pool_status`メトリックには、次の値を指定できます: `0` - エクスポート済 `1` - 縮退 `2` - オンライン `-1` - オフライン `-2` - 失敗 `-3` - 利用不可 `-4` - 削除済	0または2以外の任意のプール・ステータス値を持つ`pool`/`zfssa_node`の組合せに対して、メジャー・フォルトが発生します。

zfssa_pool_total

zfssa_pool_free

プール使用率は、プールごとに次の式を使用して計算されます:

(zfssa_pool_total - zfssa_pool_free)
 / zfssa_pool_total

プール使用率が事前構成された値を超えている場合は、主要な障害が発生します。デフォルト値は80%です。

zfssa_pool_status

zfssa_pool_statusメトリックには、次の値を指定できます:

0 - エクスポート済
1 - 縮退
2 - オンライン
-1 - オフライン
-2 - 失敗
-3 - 利用不可
-4 - 削除済

0または2以外の任意のプール・ステータス値を持つpool/zfssa_nodeの組合せに対して、メジャー・フォルトが発生します。

ハードウェア実行状態障害

管理ノード、コンピュート・ノード、ストレージ・ノード、スイッチなどのラック上のハードウェア・ユニットの実行状態が無効な場合は、クリティカルまたはメジャーな障害が発生します。

次の表に、指定された実行状態に対して発生する障害の重大度を示します。リストされた実行状態以外の実行状態では、すべての障害がクリアされます。

実行状態値(大/小文字の区別なし)	フォルトの重大度	フォルト状態
ILOMに接続できない	クリティカル	アクティブ
FAIL	クリティカル	アクティブ
SERVICE REQUIRED	重度	アクティブ
「その他」	該当なし	クリア

ヘルス・チェッカ通知フォルト

ヘルス・チェッカ・フォルトは、ZFS Storage Applianceコンポーネントおよびネットワーク・ヘルス・チェッカ・コンポーネントからの通知から発生します。管理サービスは、受信した通知ごとにフォルトを生成します。

次に、ネットワーク・ヘルス・チェッカ・コンポーネントのフォルト・データのfaultedComponentsオブジェクトの属性の例を示します:

"class": "cisco.fan.fail",
"severity": "Major",
"description": "Fan module has failed and needs to be replaced. This can lead to overheating and temperature alarms.",
...
"class": "cisco.power.fail",
"severity": "Major",
"description": "Power Supply has failed or has been shutdown",

次に、ZFS Storage Applianceヘルス・チェッカ・コンポーネントのフォルト・データのfaultedComponentsオブジェクトの属性の例を示します:

"severity":"Major",
"type":"Fault",
"description":"An internal power supply failure has been detected.",

障害が発生した部品に関する詳細情報が提供されます。

action属性には、問題の修正方法についての簡単な説明が含まれ、適切なサポート・ドキュメントへのリンクが含まれる場合があります。

障害の手動クリア

この項では、「サービスCLI」を使用してフォルトを手動でクリアする方法について説明します。「サービスWeb UI」を使用してフォルトを手動でクリアすることはできません。

「サービスCLI」の使用

SSHを使用して、管理ノードVIPにadminとしてログインします。
```
# ssh -l admin 100.96.2.32 -p 30006
```

list faultコマンドを使用して、障害の識別情報のリストを検索します。

PCA-ADMIN> list fault
Command: list fault
Status: Success
Time: 2024-01-31 21:38:05,472 UTC
Data:
id                             Name               Status   Severity
–-                             –-–-               –-–-–-   –-–-–-–-
71671228...56a6a58947c6a6789   pcamn02-example    Active   Critical
524cb805...acc3458bb79t04295   RackUnit-example   Active   Major
PCA-ADMIN>

clearFaultコマンドをフォルト識別子とともに使用して、フォルトをクリアします。

PCA-ADMIN> clearFault id=[524cb805...acc3458bb79t04295]
Command: clearFault
Status: Success
Time: 2024-01-31 21:39:30,094 UTC
PCA-ADMIN>

ノート:

別のlist faultコマンドを使用して、障害のクリア結果を確認できます。

PCA-ADMIN> list fault
Command: list fault
Status: Success
Time: 2024-01-31 21:40:02,685 UTC
Data:
id                             Name              Status   Severity
–-                             –-–-              –-–-–-   –-–-–-–-
71671228...56a6a58947c6a6789   pcamn02-example   Active   Critical
PCA-ADMIN>