機械翻訳について

管理サービス・ヘルス・データの表示

この項では、Private Cloud Appliance管理サービスのヘルス・メトリックと、フォルトが発生する条件について説明します。 この健全性情報はハードウェア障害に関するものではありませんが、リソース使用率(CPU、メモリーおよびストレージ)、ハードウェア実行状態およびヘルス・チェッカ通知に関する情報です。 「表5-1」の下部にリストされているハードウェア障害は、ASRを介して報告されます。

管理サービス・フォルト・サマリー

次の表に示すしきい値、実行状態およびヘルス・チェッカ通知のフォルト・タイプについては、次の各項で詳しく説明します。

表5-1 管理サービス障害検出構成のサマリー

フォルト・タイプ 障害検出頻度(秒) 障害検出遅延(秒) データ・ソース 検出方法

コンピュート・ノードのCPUおよびメモリー使用率のフォルト

60

< 20

管理コールComputeNodeサービス

障害は、データベースに格納されているコンピュート・ノード・オブジェクト属性に基づいてフォルト・タスクによって発生します。

ストレージ使用率の障害

120

< 20

管理コールPrometheusサービス

フォルトは、データベースに格納されているPrometheus ZFSプールの使用状況およびステータス・データに基づいてフォルト・タスクによって発生します。

ハードウェア実行状態障害

150

< 20

管理者がハードウェアlist REST APIをコール

障害は、データベースに格納されているハードウェア・コンポーネント・ノードまたはILOM実行状態に基づいて障害タスクによって発生します。

ヘルス・チェッカ通知フォルト

ZFS/ネットワーク・ヘルス・チェッカ通知頻度で定義されます

0

様々なHealthCheckerサービスによる通知の送信

フォルトは、RabbitMQ通知のフォルト結果に基づいて作成されます。

プラットフォームILOM障害

150

0

管理者がハードウェアgetMgmtおよびgetCompute ILOMヘルスREST APIをコール

障害は、ILOMオブジェクト・データのL1 API結果に基づいて作成されます。 ASRによってアクション可能なPrivate Cloud Appliance X9-2イベントのリストは、「PCA X9-2アプライアンス: 自動サービス・リクエスト(ASR)イベント・カバレッジ(ドキュメントID 2833567.1)」を参照してください。

ハードウェア・ステータス障害

初期化時およびsyncHardwareDataコマンドの実行時

< 20

管理者がハードウェアlist REST APIをコール

フォルトは、PcaSystemオブジェクト属性に基づいてフォルト・タスクによって発生します。 ASRによってアクション可能なPrivate Cloud Appliance X9-2イベントのリストは、「PCA X9-2アプライアンス: 自動サービス・リクエスト(ASR)イベント・カバレッジ(ドキュメントID 2833567.1)」を参照してください。

「サービスWeb UI」を使用した管理サービス・フォルトの表示

  1. 「サービス・エンクレーブ」ホーム・ページの上部にある「アクティブなフォルト」リンクをクリックするか、ナビゲーション・メニューの「フォルト」をクリックします。

    「フォルト」ページが表示されます。
  2. 「フォルト」ページの上部で、すべてのフォルトをリストするか、アクティブなフォルトのみを表示するかを切り替えることができます。

  3. フォルトの詳細は、フォルトの名前をクリックするか、「アクション」メニューの「詳細の表示」をクリックします。

    詳細ページには、説明、原因および実行する推奨アクションが表示されます。

「サービスCLI」を使用した管理サービス・フォルトの表示

  1. 管理サービス・フォルトのリストを表示するには、list faultコマンドを使用します。

    アクティブな障害とクリアされた障害の両方がリストされます。

    PCA-ADMIN> list fault
    Command: list fault
    Status: Success
    Time: 2023-03-07 15:34:52,613 UTC
    Data:
      id                                     name                                               status    severity
      --                                     ----                                               ------    --------
      33c61b8a-dcc7-4b8f-bc0f-56915ecc62f5   RackUnitIlomRunStateFaultStatusFault(pcacn005)     Cleared   Critical
      f7d22180-aeae-4159-b5c8-5e55a7906a78   RackUnitIlomRunStateFaultStatusFault(pcacn004)     Cleared   Critical
      a4fef907-8e54-4750-9fac-6829fbade90d   ComputeNodeCpuFaultStatusFault(pcacn006)           Cleared   Minor
      f8d93384-da30-43cd-9396-6e6671d240e2   RackUnitIlomRunStateFaultStatusFault(pcacn010)     Cleared   Critical
      8e61bb81-7a02-4c26-8ef4-c13b198f64da   ComputeNodeCpuFaultStatusFault(pcacn007)           Cleared   Warning
      3216b6f9-326b-4992-99a3-ab23cb18243b   AK-8003-F9--PCIe 3                                 Active    Minor
      ef3fb25b-0573-4524-8d1c-fb704c814446   AK-8003-HF--vnic1                                  Active    Major
      f830cd46-21ff-4d74-ba81-c82fd6f52c67   ComputeNodeCpuFaultStatusFault(pcacn005)           Cleared   Minor
      d2e71da0-ba63-4983-97da-24033d5c6447   ZfsPoolUsageFaultStatusFault(PCA_POOL)             Cleared   Major
      eecd5ef2-4a71-4137-be96-54c028212d2f   ComputeNodeMemoryFaultStatusFault(pcacn004)        Cleared   Minor
      cf68d2ee-e483-e573-b46e-c31bcbc8e968   ISTOR-8000-1S--ORACLE SERVER E5-2L                 Cleared   Major
      0686c11d-b96b-e5aa-dfbe-a20154da4794   SPAMD-8002-FJ--ORACLE SERVER E5-2L                 Cleared   Major
      b488a45a-80df-46e3-b0b5-a35527eb9c0e   AK-8003-F9--PCIe 10                                Active    Minor
      ac48f88d-e181-4b03-b620-6bfbf4ad95ef   RackUnitIlomRunStateFaultStatusFault(pcacn007)     Cleared   Critical
      b4c66a7c-def3-42c2-8842-d4763afc5184   RackUnitIlomRunStateFaultStatusFault(pcacn006)     Cleared   Critical
      9fc2e45a-1cff-4f95-828d-58742c8ce12f   ComputeNodeMemoryFaultStatusFault(pcacn002)        Active    Minor
      c0124122-a91c-4110-89cc-deebe54de7ba   ComputeNodeMemoryFaultStatusFault(pcacn006)        Cleared   Critical
      ca26ed46-4d1c-4ade-9e74-af27d94cf8f4   AK-8003-HF--vnic2                                  Active    Major
      58e9ab5d-d4e7-4d94-9ca6-e85a1c88b3b8   RackUnitRunStateFaultStatusFault(sn022147XLF014)   Cleared   Critical
      474c269f-4018-45d7-97d5-da17c9c845f4   RackUnitIlomRunStateFaultStatusFault(pcacn001)     Cleared   Critical
      2b5ece1c-50fc-436a-81b3-da0c5b418fe3   RackUnitIlomRunStateFaultStatusFault(pcacn003)     Cleared   Critical
      1c164eb9-9a76-4592-8ab6-150edb8f7a75   ComputeNodeCpuFaultStatusFault(pcacn001)           Cleared   Warning
      55ed1494-6aac-4248-91cb-9ac8295d668c   AK-8003-HF--PCIe 6                                 Active    Major
      afbcc080-0b93-434b-8ead-fa673f302170   AK-8003-F9--PCIe 6                                 Active    Minor
      8b36c2db-a3b4-41c8-b416-8e733ace3aeb   PcaSystemReSyncHwStatusStatusFault(null)           Cleared   Warning
      28c5ba93-6b4e-42f3-ad61-90734b46bf30   SPENV-8000-RU--ORACLE SERVER E5-2L                 Cleared   Critical
      3d932188-0120-489f-a512-1a244ec01e49   RackUnitIlomRunStateFaultStatusFault(pcacn009)     Cleared   Critical
      21e6faa9-68e1-47ae-a298-e2cb14d2a406   ComputeNodeMemoryFaultStatusFault(pcacn007)        Cleared   Minor
      db023304-fb7a-613b-ad9b-e277b7ce5675   SPENV-8000-A7--ORACLE SERVER E5-2L                 Cleared   Major
      63839bf5-335b-48ff-86a0-9e981e3e9902   RackUnitRunStateFaultStatusFault(sn012147XLF014)   Cleared   Critical
      2e851c6e-aa29-4a25-846a-29b08967dd95   RackUnitValidationStateStatusFault(pcacn008)       Cleared   Major
      76805c56-fcf6-48a2-b4fd-ffa77570e83c   ComputeNodeCpuFaultStatusFault(pcacn002)           Active    Minor
      9be74faf-df4d-ea20-cfc1-92b2a6a01b06   SPENV-8000-A7--ORACLE SERVER E5-2L                 Cleared   Major
      1624064f-d380-4ffc-9000-d293c185d7ac   ComputeNodeCpuFaultStatusFault(pcacn003)           Cleared   Warning
      7ca3f7af-f0bd-45d9-bad7-15794d49e7c6   RackUnitIlomRunStateFaultStatusFault(pcacn008)     Cleared   Critical
      3e7a3503-7a71-4ef1-a3ad-fba2162571ab   ComputeNodeCpuFaultStatusFault(pcacn004)           Cleared   Warning
      0922cd8e-297e-4356-b736-b09ac382b28b   AK-8003-F9--PCIe 10                                Active    Minor
      ab44ad2c-1105-417d-aa47-e8cb477ef0ec   AK-8003-F9--PCIe 3                                 Active    Minor
  2. 説明、原因、推奨されるアクションなど、特定のフォルトの詳細を表示するには、show faultコマンドを特定のフォルトIDとともに使用します。

    PCA-ADMIN> show fault id=ab44ad2c-1105-417d-aa47-e8cb477ef0ec
    Command: show fault id=ab44ad2c-1105-417d-aa47-e8cb477ef0ec
    Status: Success
    Time: 2023-03-07 15:36:19,414 UTC
    Data:
      Id = ab44ad2c-1105-417d-aa47-e8cb477ef0ec
      Type = Fault
      Category = Internal
      Severity = Minor
      Status = Active
      Last Update Time = 2023-03-06 20:04:11,668 UTC
      Message Id = AK-8003-F9
      Time Reported = Mon Mar 06 2023 16:50:24 GMT+0000 (UTC)
      Action = Check the networking cable, switch port, and switch configuration. Contact your vendor for support
               if the network port remains inexplicably down. Please refer to the associated reference document at
               http://support.oracle.com/msg/AK-8003-F9 for the latest service procedures and policies regarding 
               this diagnosis.
      Health Exporter = zfssa-analytics-exportersn022147XLF014
      uuid = ab44ad2c-1105-417d-aa47-e8cb477ef0ec
      Diagnosing Source = zfssa_analytics_exporter
      FaultHistoryLogIds 1 = id:fdfaa42f-de8d-4622-a9df-ea229b7bad6f  type:FaultHistoryLog  name:
      BaseManagedObjectId = id:2147XLF015/PCIe 3/465774J-2121701684  type:HardwareComponent  name:
      Description = Network connectivity via port mlxne4 has been lost.
      Name = AK-8003-F9--PCIe 3
      Work State = Normal

「サービスCLI」を使用して管理サービスの障害を示すその他の例は、「コンピュート・ノードのCPUおよびメモリー使用率のフォルト」を参照してください。

コンピュート・ノードのCPUおよびメモリー使用率のフォルト

Adminサービスは、使用済メモリーの割合と、ComputeNodeオブジェクトに使用されるCPUの割合についてフォルトを生成します。 より多くのメモリーとCPUが使用されるにつれて、より深刻な障害が発生します。 使用率が一定の割合を下回ると、すべての障害がクリアされます。

これらはハードウェア障害ではなく、使用率障害(CPUおよびメモリー使用率)です。 CPUおよびメモリー・ハードウェアの問題はASRによって報告されます。

CPU使用率

次の表に、フォルトの重大度が異なるコンピュート・ノードのCPU使用率のデフォルトの割合を示します。

CPUパーセンテージ フォルト重大度 フォルト状態

< .75

該当なし

クリア

>= .75

警告

アクティブ

>= .80

軽度

アクティブ

>= .90

重度

アクティブ

>= .95

クリティカル

アクティブ

CPUメモリー

次の表に、フォルトの重大度が異なるコンピュート・ノードのメモリー使用量のデフォルトの割合を示します。

メモリー率 フォルト重大度 フォルト状態

< .75

該当なし

クリア

>= .75

警告

アクティブ

>= .80

軽度

アクティブ

>= .90

重度

アクティブ

>= .95

クリティカル

アクティブ

「サービスCLI」を使用したコンピュート・ノードのフォルトの表示

「サービスCLI」を使用して、CPUおよびメモリーのコンピュート・ノード使用率のデフォルトのフォルト・トリガー設定を表示するには、cnUpdateManagerコマンドを使用します:

PCA-ADMIN> show cnUpdateManager
Command: show cnUpdateManager
Status: Success
Time: 2023-03-06 23:41:37,249 UTC
Data:
  Id = caaaaaa1-a076-4e48-94b5-7bdcd4e0c42c
  Type = CnUpdateManager
  LastRunTime = 2023-03-06 23:41:33,676 UTC
  Poll Interval (sec) = 60
  The minimum CPU usage percentage to trigger a critical fault = 0.95
  The minimum CPU usage percentage to trigger a major fault = 0.9
  The minimum CPU usage percentage to trigger a minor fault = 0.8
  The minimum CPU usage percentage to trigger a warning = 0.75
  The minimum memory usage percentage to trigger a critical fault = 0.95
  The minimum memory usage percentage to trigger a major fault = 0.9
  The minimum memory usage percentage to trigger a minor fault = 0.8
  The minimum memory usage percentage to trigger a warning = 0.75

すべてのフォルトのリストおよび特定のフォルトの詳細を表示するには、「管理サービス・ヘルス・データの表示」を参照してください。 次の例は、特定のコンピュート・ノードの障害を示しています。 現在の使用状況は、少なくともマイナーな障害しきい値であり、メジャーな障害しきい値より小さいことを除いて表示されません。 現在の使用状況を確認するには、「サービスWeb UI」を使用します。

PCA-ADMIN> show fault id=76805c56-fcf6-48a2-b4fd-ffa77570e83c
Command: show fault id=76805c56-fcf6-48a2-b4fd-ffa77570e83c
Status: Success
Time: 2023-03-07 15:40:50,917 UTC
Data:
  Id = 76805c56-fcf6-48a2-b4fd-ffa77570e83c
  Type = Fault
  Category = Status
  Severity = Minor
  Status = Active
  Associated Attribute = cpuFault
  Last Update Time = 2023-03-04 01:06:25,666 UTC
  Cause = ComputeNode pcacn002 attribute cpuFault = MINOR.
  FaultHistoryLogIds 1 = id:79b44c26-cb4e-4bec-a58c-6efc7fc63fed  type:FaultHistoryLog  name:
  FaultHistoryLogIds 2 = id:fc90a99a-031b-457f-b585-5c905e61362e  type:FaultHistoryLog  name:
  FaultHistoryLogIds 3 = id:48068f78-1328-447d-9506-efb6f22d154d  type:FaultHistoryLog  name:
  FaultHistoryLogIds 4 = id:d97c5819-923c-480d-8f61-2341c8403182  type:FaultHistoryLog  name:
  FaultHistoryLogIds 5 = id:18cdd005-53c0-488c-a2df-28f2da3b1092  type:FaultHistoryLog  name:
  FaultHistoryLogIds 6 = id:bfe1ffcd-5899-4400-914c-b467d8671e0c  type:FaultHistoryLog  name:
  FaultHistoryLogIds 7 = id:459fa55b-8654-4c07-8ae7-6d0ef011e3b1  type:FaultHistoryLog  name:
  FaultHistoryLogIds 8 = id:b9c8a909-f8ea-4de6-9bfe-2516e7addf73  type:FaultHistoryLog  name:
  FaultHistoryLogIds 9 = id:6ab5d1ca-3659-49a7-8e68-946bbbeccc9f  type:FaultHistoryLog  name:
  FaultHistoryLogIds 10 = id:d04d06a1-1e2c-404c-ac67-680e0deb34c5  type:FaultHistoryLog  name:
  FaultHistoryLogIds 11 = id:22dd163e-528f-4346-b177-d62c7ceb9885  type:FaultHistoryLog  name:
  FaultHistoryLogIds 12 = id:cdb2dbf5-6999-43c2-bb5f-17192bfad3e2  type:FaultHistoryLog  name:
  FaultHistoryLogIds 13 = id:aa7b2e43-ab0b-4d78-bfe7-d4b0dd0fec4a  type:FaultHistoryLog  name:
  BaseManagedObjectId = id:0dd96e90-de00-4fa0-82e3-16937e4601f8  type:ComputeNode  name:
  Description = ComputeNode pcacn002 attribute cpuFault = MINOR.
  Name = ComputeNodeCpuFaultStatusFault(pcacn002)
  Work State = Normal

ストレージ使用率の障害

次の表では、管理サービスで発生する2種類のOracle ZFS Storage Applianceフォルトについて説明します。

これらはハードウェア障害ではなく、使用率障害(ZFSプール使用状況)です。 ZFSハードウェアの問題はASRによって報告されます。

Private Cloud Applianceは、ZFS Storage Appliance用に収集されたPrometheusマトリックス・データを使用して、プールの使用状況を報告します。 プール当たりの合計プール・サイズ( zfssa_pool_total)およびプール当たりの空き領域( zfssa_pool_free)を使用して、プール使用率を計算します。 zfssa_pool_statusメトリックは、プールのヘルスをレポートします。

メトリック名 メトリック値摘要 フォルト条件

zfssa_pool_total

zfssa_pool_free

プール使用率は、プールごとに次の式を使用して計算されます:

(zfssa_pool_total - zfssa_pool_free)
 / zfssa_pool_total

プール使用率が事前構成された値を超えている場合は、主要な障害が発生します。 デフォルト値は80%です。

zfssa_pool_status

zfssa_pool_statusメトリックには、次の値を指定できます:

  • 0 - エクスポート済

  • 1 - 縮退

  • 2 - オンライン

  • -1 - オフライン

  • -2 - 失敗

  • -3 - 利用不可

  • -4 - 削除済

0または2以外の任意のプール・ステータス値を持つpool/zfssa_nodeの組合せに対して、メジャー・フォルトが発生します。

ハードウェア実行状態障害

管理ノード、コンピュート・ノード、ストレージ・ノード、スイッチなどのラック上のハードウェア・ユニットの実行状態が無効な場合は、クリティカルまたはメジャーな障害が発生します。

次の表に、指定された実行状態に対して発生する障害の重大度を示します。 リストされた実行状態以外の実行状態では、すべての障害がクリアされます。

実行状態値(大/小文字の区別なし) フォルト重大度 フォルト状態

ILOMに接続できない

クリティカル

アクティブ

FAIL

クリティカル

アクティブ

SERVICE REQUIRED

重度

アクティブ

other

該当なし

クリア

ヘルス・チェッカ通知フォルト

健全性チェッカの障害は、ZFSSAおよびネットワーク健全性チェッカ・コンポーネントからの通知から発生します。 受信する通知ごとに、管理サービスで障害が発生します。

次に、ネットワーク・ヘルス・チェッカ・コンポーネントのフォルト・データのfaultedComponentsオブジェクトの属性の例を示します:

"class": "cisco.fan.fail",
"severity": "Major",
"description": "Fan module has failed and needs to be replaced. This can lead to overheating and temperature alarms.",
...
"class": "cisco.power.fail",
"severity": "Major",
"description": "Power Supply has failed or has been shutdown",

次に、ZFSSA Health Checkerコンポーネントの障害データのfaultedComponentsオブジェクトの属性の例を示します:

"severity":"Major",
"type":"Fault",
"description":"An internal power supply failure has been detected.",

障害が発生した部品に関する詳細情報が提供されます。

action属性には、問題の修正方法についての簡単な説明が含まれ、適切なサポート・ドキュメントへのリンクが含まれる場合があります。

障害の手動クリア

この項では、「サービスCLI」を使用してフォルトを手動でクリアする方法について説明します。 「サービスWeb UI」を使用してフォルトを手動でクリアすることはできません。

「サービスCLI」の使用

  1. SSHを使用して、管理ノードVIPにadminとしてログインします。

    # ssh -l admin 100.96.2.32 -p 30006
  2. list faultコマンドを使用して、障害の識別情報のリストを検索します。

    PCA-ADMIN> list fault
    Command: list fault
    Status: Success
    Time: 2024-01-31 21:38:05,472 UTC
    Data:
    id                                 Name                       Status Severity
    –-                                 –-–-                       –-–-–- –-–-–-–-       
    71671228-.….….-56a6a58947c6a6789   pcamn02-example            Active Critical 
    524cb805-.….….-acc3458bb79t04295   RackUnit-example           Active Major
    PCA-ADMIN> 
  3. clearFaultコマンドをフォルト識別子とともに使用して、フォルトをクリアします。

    PCA-ADMIN> cleatFault id=[524cb805-.….….-acc3458bb79t04295]
    Command: clearFault
    Status: Success
    Time: 2024-01-31 21:39:30,094 UTC
    PCA-ADMIN>

    ノート:

    別のlist faultコマンドを使用して、障害のクリア結果を確認できます。
    PCA-ADMIN> list fault
    Command: list fault
    Status: Success
    Time: 2024-01-31 21:40:02,685 UTC
    Data:
    id                                 Name                       Status Severity
    –-                                 –-–-                       –-–-–- –-–-–-–-       
    71671228-.….….-56a6a58947c6a6789   pcamn02-example            Active Critical 
    PCA-ADMIN>