2.9 ヘルス・モニタリング

Oracle Private Cloud Appliance Controllerソフトウェアには、アクティブ管理ノード上のovcaサービスで開始および停止されたモニタリング・サービスが含まれています。 システムの初回実行時には、インベントリ・データベースデータベースの監視が作成されます。 これらを設定し、モニタリング・サービスをアクティブにすると、ハードウェア・コンポーネントのヘルス情報が継続的に更新されます。

インベントリ・データベースには、モニタリングに使用するIPアドレスを含め、ラックにインストールされている様々なコンポーネントに関する情報が移入されます。 この情報を使用すると、ping managerは3分ごとにすべての既知のコンポーネントにpingを実行し、インベントリ・データベースを更新して、コンポーネントがping可能かどうか、および最後にオンラインになったかどうかを示します。 エラーが発生した場合、そのエラーはモニター・データベースに記録されます。 エラー情報はコンポーネントILOMから取得されます。

トラブルシューティングのために、認可されたOracleフィールド・エンジニアによるCLIサポート・モードを使用して履歴ヘルス・ステータスの詳細を取得できます。 CLIをサポート・モードで使用すると、多数の追加コマンドが使用できます。そのうちの2つは、ヘルス・モニタリング・データベースの内容を表示するために使用されます。

  • show db inventoryを使用して、インベントリ・データベースからコンポーネントのヘルス・ステータス情報を表示します。

  • show db monitorを使用して、モニタリング・データベースにログされるエラーを表示します。

アプライアンス管理者は、Oracle Private Cloud Appliance Health Checkユーティリティを使用して、マスター管理ノードのOracle Linuxコマンドラインから、現在のコンポーネントのヘルス・ステータスの情報を取得できます。 ヘルス・チェック・ユーティリティは、Oracle Private Cloud Applianceアップグレード元のフレームワークに作成され、アップグレーダ・パッケージに含まれます。 これは、アプライアンス・ネットワーク・アーキテクチャを検出し、問題のシステムに定義されたヘルス・チェックのセットを実行します。

Oracle Private Cloud Applianceインストールの現在のヘルス・ステータスの確認

  1. SSHおよびスーパーユーザー権限のあるアカウントを使用して、アクティブ管理ノードにログインします。

    注意

    デフォルトのrootパスワードは、Welcome1です。 セキュリティ上の理由により、ただちに新しいパスワードを設定する必要があります。

    # ssh root@10.100.1.101
    root@10.100.1.101's password:
    root@ovcamn05r1 ~]#
  2. ヘルス・チェック・ユーティリティを起動します。

    # pca_healthcheck
    PCA Rack Type: PCA X8_BASE.
    Please refer to log file
    /nfs/shared_storage/pca_upgrader/log/pca_healthcheck_2019_10_04-12.09.45.log
    for more details.

    ラック・タイプを検出した後、ユーティリティは適用可能なヘルス・チェックを実行します。

    Beginning PCA Health Checks...
    
    Check Management Nodes Are Running                                     1/24
    Check Support Packages                                                 2/24
    Check PCA DBs Exist                                                    3/24
    PCA Config File                                                        4/24
    Check Shares Mounted on Management Nodes                               5/24
    Check PCA Version                                                      6/24
    Check Installed Packages                                               7/24
    Check for OpenSSL CVE-2014-0160 - Security Update                      8/24
    Management Nodes Have IPv6 Disabled                                    9/24
    Check Oracle VM Manager Version                                       10/24
    Oracle VM Manager Default Networks                                    11/24
    Repositories Defined in Oracle VM Manager                             12/24
    PCA Services                                                          13/24
    Oracle VM Server Model                                                14/24
    Network Interfaces on Compute Nodes                                   15/24
    Oracle VM Manager Settings                                            16/24
    Check Network Leaf Switch                                             17/24
    Check Network Spine Switch                                            18/24
    All Compute Nodes Running                                             19/24
    Test for ovs-agent Service on Compute Nodes                           20/24
    Test for Shares Mounted on Compute Nodes                              21/24
    Check for bash ELSA-2014-1306 - Security Update                       22/24
    Check Compute Node's Active Network Interfaces                        23/24
    Checking for xen OVMSA-2014-0026 - Security Update                    24/24
    
    PCA Health Checks completed after 2 minutes
  3. ヘルス・チェックが完了したら、レポートでエラーを確認します。

    Check Management Nodes Are Running                                   Passed
    Check Support Packages                                               Passed
    Check PCA DBs Exist                                                  Passed
    PCA Config File                                                      Passed
    Check Shares Mounted on Management Nodes                             Passed
    Check PCA Version                                                    Passed
    Check Installed Packages                                             Passed
    Check for OpenSSL CVE-2014-0160 - Security Update                    Passed
    Management Nodes Have IPv6 Disabled                                  Passed
    Check Oracle VM Manager Version                                      Passed
    Oracle VM Manager Default Networks                                   Passed
    Repositories Defined in Oracle VM Manager                            Passed
    PCA Services                                                         Passed
    Oracle VM Server Model                                               Passed
    Network Interfaces on Compute Nodes                                  Passed
    Oracle VM Manager Settings                                           Passed
    Check Network Leaf Switch                                            Passed
    Check Network Spine Switch                                           Failed
    All Compute Nodes Running                                            Passed
    Test for ovs-agent Service on Compute Nodes                          Passed
    Test for Shares Mounted on Compute Nodes                             Passed
    Check for bash ELSA-2014-1306 - Security Update                      Passed
    Check Compute Node's Active Network Interfaces                       Passed
    Checking for xen OVMSA-2014-0026 - Security Update                   Passed
    
    ---------------------------------------------------------------------------
    Overall Status                                                       Failed
    ---------------------------------------------------------------------------
    
    Please refer to log file
    /nfs/shared_storage/pca_upgrader/log/pca_healthcheck_2019_10_04-12.09.45.log
    for more details.
  4. 特定のチェックが失敗した場合、ログ・ファイルで追加の診断情報を確認します。 "error"および"failed"などのテキスト文字列を検索します。

    # grep -inr "failed" /nfs/shared_storage/pca_upgrader/log/pca_healthcheck_2019_10_04-12.09.45.log
    
    726:[2019-10-04 12:10:51 264234] INFO (healthcheck:254) Check Network Spine Switch Failed -
    731:  Spine Switch ovcasw22r1 North-South Management Network Port-channel check                 [FAILED]
    733:  Spine Switch ovcasw22r1 Multicast Route Check                                             [FAILED]
    742:  Spine Switch ovcasw23r1 North-South Management Network Port-channel check                 [FAILED]
    750:[2019-10-04 12:10:51 264234] ERROR (precheck:148) [Check Network Spine Switch ()] Failed
    955:[2019-10-04 12:12:26 264234] INFO (precheck:116) [Check Network Spine Switch ()] Failed
    
    # less /nfs/shared_storage/pca_upgrader/log/pca_healthcheck_2019_10_04-12.09.45.log
    
    [...]
      Spine Switch ovcasw22r1 North-South Management Network Port-channel check                 [FAILED]
      Spine Switch ovcasw22r1 OSPF Neighbor Check                                               [OK]
      Spine Switch ovcasw22r1 Multicast Route Check                                             [FAILED]
      Spine Switch ovcasw22r1 PIM RP Check                                                      [OK]
      Spine Switch ovcasw22r1 NVE Peer Check                                                    [OK]
      Spine Switch ovcasw22r1 Spine Filesystem Check                                            [OK]
      Spine Switch ovcasw22r1 Hardware Diagnostic Check                                         [OK]
    [...]
  5. 検出された問題を調査し、すべて修正します。 システムがすべてのチェックに合格するまでヘルス・チェックを繰り返します。