Grafanaの使用

Grafanaを使用すると、Oracle Private Cloud Applianceは、システムのすべてのレベルおよびすべてのコンポーネントで収集されたログおよびメトリックに対する単一のビジュアル・インタフェースを管理者に提供します。

この項では、Grafanaにアクセスし、ログおよびモニタリング・ダッシュボードをナビゲートするための基本的なガイドラインを示します。 Grafanaサービス、およびGrafanaの使用方法の詳細は、Oracle Systemsブログ「Oracle PCA X9-2 Grafanaを使用したモニタリングおよびアラート」を参照してください。

Grafanaホームページ

次のいずれかを実行して、Grafanaにアクセスします:

サービス・エンクレーブadminユーザー。
1. 「サービスWeb UI」にログインします。
2. ダッシュボードの右側にある「Monitoring」タイルをクリックします。
  
  Grafanaログイン・ページが新しいブラウザ・タブで開きます。今後は、次の「任意のGrafanaユーザー」の説明に従って、このGrafanaログイン・ページに直接移動できます。
3. プロンプトでユーザー名とパスワードを入力します。
  
  新しいユーザーを作成し、新しいユーザーにGrafanaログイン・ページへの直接URLを付与できます。新しいGrafanaユーザーを作成するには、「Grafanaユーザーの追加」を参照してください。 Grafanaログイン・ページへの直接URLについては、後述の「任意のGrafanaユーザー」を参照してください。
任意のGrafanaユーザー。

「サービス・エンクレーブ」ユーザーである必要はありません。
1. Grafanaログイン・ページに移動します。
  
  Grafanaログイン・ページは、https://grafana.pca_name.your_domain/loginです。pca_nameは、Private Cloud Applianceの名前です。
2. プロンプトでユーザー名とパスワードを入力します。

Grafanaホーム・ページの「ようこそ」パネルには、独自のダッシュボード、問合せおよびアラートの作成方法など、Grafanaの使用方法に関する情報を示すgrafana.comへの多数のリンクが含まれています。また、「Oracle LearningのYouTubeチャネル」のOracle Private Cloud Appliance 3.xでGrafanaチュートリアルを検索したり、「Oracleブログ」でGrafanaを検索することもできます。

ホーム・ページの左側には垂直バーがあり、ダッシュボードのリストやアラートのリストなどを開くアイコンや、「Grafana問合せの参照の使用」の説明に従ってシステム・ログへのアクセス権を提供します。バーの下部にあるユーザー・アイコンを使用すると、プリファレンス設定を変更したり、ログアウトできます。バーの上部にあるGrafanaロゴは、Grafanaホーム・ページに戻ります。

Grafanaタイム・ライン

ログおよびメトリックがPrometheusに格納されると、Private Cloud Applianceのタイム・ゾーン設定に基づいてタイムスタンプが与えられます。ただし、Grafanaでは、ユーザー・プリファレンスに基づいて時間が表示され、異なるタイムゾーンになっているためにオフセットが発生する可能性があります。

Grafanaビジュアライゼーションのタイム・ラインをアプライアンスのタイム・ゾーンと同期する場合は、次の手順を使用します:

Grafanaページの左側にある垂直メニュー・バーの下部付近で、ユーザー・アカウント・アイコンをクリックし、ポップアップするサブメニューの「プリファレンス」オプションをクリックします。
ページの「プリファレンス」セクションで、「タイムゾーン」設定をアプライアンスと同じタイムゾーンに変更します。
そのセクションの下部にある「保存」ボタンをクリックして、変更を適用します。

複数のPrivate Cloud Appliance X9-2システムのモニタリング

複数のOracle Private Cloud Appliance X9-2システムを監視するために、変数駆動型ダッシュボードを使用して外部Grafanaサービスをデプロイする必要がある場合は、次のリソースを参照してください:

Grafanaユーザーの追加

この項では、ユーザーとユーザーのチームの追加、およびフォルダとダッシュボードを使用する権限の付与について説明します。

新しいユーザーを追加するには、adminユーザーとして次の手順を実行します:

Grafanaホーム・ページの左側にある垂直メニュー・バーで、「サーバー管理」(盾)アイコンをクリックします。
「サーバー管理」ドロップダウン・メニューで、「ユーザー」をクリックします。
「新規ユーザー」ボタンをクリックします。
リクエストされた情報を入力し、「Create User」ボタンをクリックします。

デフォルトでは、新しいユーザーには「ビューア」ロールがあります。ユーザーを変更してロールを変更できます。ユーザーのアクセス権を変更するもう1つの方法は、必要なアクセス権を持つチームにユーザーを追加することです。

Grafanaユーザー・ロールは次のとおりです:

管理者: ダッシュボード、ユーザー、チームなど、すべての組織リソースにアクセスできます。

エディタ: ダッシュボード、フォルダおよびプレイ・リストを表示および編集できます。

ビューア: ダッシュボードとプレイ・リストを表示できます。

デフォルトでは、エディタはリストされているすべてのリソースを編集でき、参照者はリストされているすべてのリソースを表示できます。管理ロールを持つユーザーは、特定のロール、チームおよびユーザーの特定のリソースに権限を付与または制限できます。たとえば、フォルダの「権限」タブをクリックして、エディタ・ロールまたはビューア・ロールの権限をそのフォルダに変更します。「権限」タブの「権限の追加」ボタンをクリックして、特定のユーザーまたはチームの権限を追加します。

新しいチームを作成するには、adminユーザーとして次の手順を実行します:

Grafanaホーム・ページの左側にある垂直メニュー・バーで、「構成」(歯車)アイコンをクリックします。
「構成」ドロップダウン・メニューで、「チーム」をクリックします。
「新規チーム」ボタンをクリックします。
リクエストされた情報を入力して、「作成」ボタンをクリックします。
「メンバーの追加」ボタンをクリックします。
「チーム・メンバーの追加」ボックスで、ドロップダウン矢印をクリックし、チームに追加するユーザーを選択します。
「チームに追加」ボタンをクリックします。
ページ上部の「設定」タブをクリックして、ホーム・ダッシュボードやタイム・ゾーンなどのチーム設定を変更します。

フォルダを使用して、ユーザーおよびチームに権限を付与します。 adminユーザーとして次の手順を実行します:

Grafanaホーム・ページの左側にある垂直メニュー・バーで、「ダッシュボード」(グリッド)アイコンをクリックします。
ダッシュボード・ドロップ・ダウン・メニューで、管理をクリックします。
チームおよびユーザーに権限を付与するフォルダについて、「フォルダに移動」をクリックします。
フォルダ・ページ上部で、「権限」タブをクリックします。
「権限の追加」ボタンをクリックします。
「権限の追加」ボックスで、チームまたはユーザーを選択し、そのユーザーまたはチームのすべてのユーザーのロールを選択します。
「Save」ボタンをクリックします。

フォルダ内の特定のダッシュボードに対する権限を付与することもできます。 adminユーザーとして次の手順を実行します:

Grafanaホーム・ページの左側にある垂直メニュー・バーで、「ダッシュボード」(グリッド)アイコンをクリックします。
ダッシュボード・ドロップ・ダウン・メニューで、管理をクリックします。
ダッシュボードを含むフォルダの名前をクリックし、ダッシュボードをクリックします。
ダッシュボード・ページの上部で、歯車アイコンをクリックします。
ページの左側にあるメニューで、「Permissions」をクリックします。
「権限の追加」ボタンをクリックします。
「権限の追加」ボックスで、チームまたはユーザーを選択し、そのユーザーまたはチームのすべてのユーザーのロールを選択します。
「Save」ボタンをクリックします。
「ダッシュボードの保存」ボタンをクリックします。

Grafanaダッシュボードの使用

Oracleは、フォルダに編成された多数の事前定義済のGrafanaダッシュボードを提供します。次のいずれかを使用して、ダッシュボードのフォルダのリストを表示します:

ページの左側にある垂直メニュー・バーの虫眼鏡アイコン
メニュー・バーのダッシュボード >管理オプション
メニュー・バーの上部にあるGrafanaロゴの右側にあるダッシュボードの「ホーム」ボタン

フォルダ名またはフォルダ名の右側にある矢印をクリックして、そのフォルダ内のダッシュボードを表示します。

リストの上部にあるボタンを使用して、フォルダのリストの表示とすべてのダッシュボードのリストの表示を切り替えます。

ページ上部の検索フィールドに、フォルダまたはダッシュボードの名前からテキストを入力して、それらのダッシュボードのみを表示します。

ダッシュボードの名前をクリックすると、そのダッシュボードのコンテンツが表示されます。ダッシュボードでは、ページ上部のダッシュボード名の右にある星をクリックして、Grafanaホーム・ページにこのダッシュボードをリストし、より高速にアクセスできます。

ダッシュボードには、問合せ、時間の経過とともに収集されたデータのグラフ、そのデータに設定されたアラートなどの情報が表示されます。

ほとんどのダッシュボードは変更できますが、Oracleサポートではその情報が必要になる場合があります。 Grafanaホームページには、Oracleによって提供されるダッシュボードを変更するのではなく、独自のダッシュボードおよび問合せを作成する方法に関する情報へのリンクが含まれています。カスタム・ダッシュボードの場合は、最初に1つ以上のフォルダを作成して、これらの新しいダッシュボードをOracleで提供されるダッシュボードとは別に維持します。

Grafanaアラートの使用

Oracleは、事前定義されたアラートのセットを提供します。独自のアラートを追加することもできます。「アラート」など、指定した状態のアラートのみを表示できます。アラートをトリガーする値や状態の変更をトリガーする値など、アラートに関する詳細情報を表示できます。多くの場合、これらの値を変更できます。

アラートが「アラート」状態の場合は、アラート定義を表示して、アラートがその状態になる原因を特定し、この情報を使用して、アラートがモニタリングしているコンポーネントを評価し、必要なアクションを決定します。

Grafanaアラートの参照

すべてのアラートを表示するには、ページの左側にある垂直メニュー・バーのベル・アイコンをクリックします。アイコンには各アラートのステータスが表示され、アラート名の下のテキストにはそのステータスのアラートの期間が表示されます。

リストの上部にある検索フィールドにテキストを入力して、そのテキストが名前に含まれているアラートのみを表示します。「状態」リストを使用して、選択した状態のアラートのみを表示: OK、OKでない、アラート、データなし、一時停止、保留中。

アラート・リストの上にある「アラートの追加方法」ボタンを使用して、新しいアラートを作成するか、Grafanaホーム・ページで参照されている情報を使用して、アラートを追加または変更し、通知チャネルを追加し、特定のアラートの通知を追加します。

アラート名をクリックすると、アラートの詳細情報が表示されます。これは、ダッシュボードに移動してメトリックまでスクロールし、メトリック名をクリックして「編集」を選択した場合に表示されるページと同じです。

グラフの上にカーソルを置くと、モニターされているすべてのデータ(各ホスト、スイッチ、デバイス、エンドポイントなど)が一覧表示されます。

グラフの下の「アラート」タブで、ルールを表示および編集できます。アラート・ルールは、1つ以上の問合せと式、条件、評価の頻度、およびオプションで条件が満たされる期間で構成されます。様々なエラー条件に対してアラート状態がどのように設定されているかを確認できます。このアラートの通知メッセージを送信できます。

状態履歴ボタンには、このアラートの最後の50個の状態変更が表示されます。別のボタンを使用すると、アラートをテストできます。

通知チャネルの追加または構成

通知チャネルを追加または構成するには、ページの左側にあるメニュー・バーのベル・アイコンをクリックし、「通知チャネル」オプションを選択するか、アラートのリストの上部にある「通知チャネル」タブを選択します。

既存の通知チャネルの構成を変更するには、チャネルの名前をクリックします。変更が終了したら、保存ボタンをクリックします。「Test」ボタンをクリックして、テスト通知を送信します。

通知チャネルを追加するには、「通知チャネル」タブに移動し、「新規チャネル」ボタンをクリックしてページに入力します。「Save」ボタンをクリックします。「Test」ボタンをクリックして、テスト通知を送信します。「戻る」ボタンをクリックして取り消し、新しい通知チャネルは作成しません。

カスタム外部Eメール通知の構成

電子メール通知を構成するには、Oracleサポートのサービス・リクエスト(SR)を開き、初期構成を実行します。初期構成が完了したら、Grafanaアラート・ページに移動し、「通知チャネル」タブをクリックして「新規」チャネル・ボタンをクリックし、「タイプ」フィールドで「電子メール」を選択してページに入力します。

カスタム外部HTTP/HTTPS通知の構成

外部HTTPまたはHTTPSベースのカスタム・アラートを構成するには、次の例に示すように、まずGrafanaのプロキシを構成する必要があります。

管理仮想IPを所有する管理ノードにログインし、次のコマンドを実行します:

$ sudo curl -u admin_user_name -XPUT \
'https://api.PCA_system_name.your_domain/v1/grafana/proxy/config?http-proxy=proxy_fqdn:proxy_port&https-proxy=proxy_fqdn:proxy_port'
Enter host password for user 'admin_user_name':
Grafana proxy config successfully updated!

Grafanaが引き続き内部LokiおよびPrometheusサービスに接続できるように、次のコマンドを実行します:

$ sudo curl -u admin_user_name -XPUT \
'https://api.PCA_system_name.your_domain/v1/grafana/proxy/config?no-proxy="sauron-sauron-prometheus,sauron-sauron-alertmanager,grafana-loki.loki.svc.cluster.local"'

Grafanaポッドが再起動されます。 Grafanaポッド(sauron-sauron-grafana-unique_ID)が実行されていることを確認するまで、次のコマンドを実行します:

$ kubectl get pods -n sauron

ハードウェアおよびプラットフォーム・コンポーネントの健全性およびステータスの確認

ハードウェア層とプラットフォーム層は、システムアーキテクチャの基礎を形成します。このレベルの異常な条件は、インフラストラクチャ・サービス内の操作に悪影響を及ぼすことが予想されます。多くの事前定義済Grafanaダッシュボードを使用すると、これらの重要な低レベル・コンポーネントのステータスを確認し、関連するメトリックのリアルタイムおよび履歴の詳細を確認できます。

このセクションで説明するダッシュボードは、基本的なシステム健全性検査、および問題が見つかった場合はトラブルシューティングを行うための適切な出発点となります。かわりに、異なるダッシュボード、メトリックおよびビジュアライゼーションを使用することをお薦めします。システム全体で収集される必要なデータは、Prometheusに格納され、様々な方法でGrafanaを介して問い合せて表示できます。

Grafanaフォルダ	ダッシュボード	説明
サービスのモニター	サーバー統計	この包括的なダッシュボードには、サーバー・ノードのテレメトリ・データが表示されます。これには、CPUおよびメモリー使用率、ディスク・アクティビティ、ネットワーク・トラフィックなどのグラフが含まれます。このダッシュボードの一部のパネルでは、多数の時系列が単一のグラフに表示されます。 1つの時系列を表示する場合にクリックします。または、グラフの上にカーソルを置くと、特定の時間の詳細データが表示されます。
PCA 3.0サービス・アドバイザ	プラットフォームのヘルス・チェック	このダッシュボードは、Grafanaがロギングおよびモニタリング用に提供する一元化されたアプローチにアプライアンスのヘルス・チェック・メカニズムを統合します。デフォルトでは、「プラットフォーム・ヘルス・チェック」ダッシュボードにすべてのヘルス・チェック・サービスが表示されます。「プラットフォーム・ヘルス・チェック」リストの上のボタンを使用して、リストのコンテンツを変更します。 Platform Serviceリストを使用して、単一のヘルス・チェッカを選択します。「ヘルス・チェック・ステータス」リストを使用して、すべての結果または正常な結果のみを表示します。フィルタ・リストを使用して、フィルタと値を選択します。通常、ヘルス・チェックの失敗が表示された場合は、トラブルシューティングを開始します。そのために、各ヘルス・チェック結果には、関連するLokiログへの直接リンクとして機能するタイムスタンプが含まれています。ヘルス・チェック結果に関連するログを表示するには、タイムスタンプをクリックします。
自分のダッシュボード(読取り専用)	ノード・エクスポータ・フル	このダッシュボードには、1つのコンピュートまたは管理ノードに対して多数の詳細なメトリック・パネルが表示されます。ページの上部にある「ホスト」ボタンを使用して、別のホストのデータを表示します。このダッシュボードは、サーバー統計ダッシュボードのファイングレイン拡張とみなすことができます。さまざまなパネルでは、サーバー・ノードのハードウェア・ステータスとオペレーティング・システムのサービスとプロセスの詳細なカバレージが提供されます。通常、各物理ノードのコマンド行で収集する情報は、1つのダッシュボードにまとめられ、ライブ・データとその推移が表示されます。「マイ・ダッシュボード」フォルダのすべてのダッシュボードには、システム・レベルの障害を解決する必要がある場合に重要なデータが表示されます。したがって、これらのダッシュボードは変更または削除できません。

Grafanaフォルダ

ダッシュボード

説明

サービスのモニター

サーバー統計

この包括的なダッシュボードには、サーバー・ノードのテレメトリ・データが表示されます。これには、CPUおよびメモリー使用率、ディスク・アクティビティ、ネットワーク・トラフィックなどのグラフが含まれます。

このダッシュボードの一部のパネルでは、多数の時系列が単一のグラフに表示されます。 1つの時系列を表示する場合にクリックします。または、グラフの上にカーソルを置くと、特定の時間の詳細データが表示されます。

PCA 3.0サービス・アドバイザ

プラットフォームのヘルス・チェック

このダッシュボードは、Grafanaがロギングおよびモニタリング用に提供する一元化されたアプローチにアプライアンスのヘルス・チェック・メカニズムを統合します。

デフォルトでは、「プラットフォーム・ヘルス・チェック」ダッシュボードにすべてのヘルス・チェック・サービスが表示されます。「プラットフォーム・ヘルス・チェック」リストの上のボタンを使用して、リストのコンテンツを変更します。 Platform Serviceリストを使用して、単一のヘルス・チェッカを選択します。「ヘルス・チェック・ステータス」リストを使用して、すべての結果または正常な結果のみを表示します。フィルタ・リストを使用して、フィルタと値を選択します。

通常、ヘルス・チェックの失敗が表示された場合は、トラブルシューティングを開始します。そのために、各ヘルス・チェック結果には、関連するLokiログへの直接リンクとして機能するタイムスタンプが含まれています。ヘルス・チェック結果に関連するログを表示するには、タイムスタンプをクリックします。

自分のダッシュボード(読取り専用)

ノード・エクスポータ・フル

このダッシュボードには、1つのコンピュートまたは管理ノードに対して多数の詳細なメトリック・パネルが表示されます。ページの上部にある「ホスト」ボタンを使用して、別のホストのデータを表示します。

このダッシュボードは、サーバー統計ダッシュボードのファイングレイン拡張とみなすことができます。さまざまなパネルでは、サーバー・ノードのハードウェア・ステータスとオペレーティング・システムのサービスとプロセスの詳細なカバレージが提供されます。通常、各物理ノードのコマンド行で収集する情報は、1つのダッシュボードにまとめられ、ライブ・データとその推移が表示されます。

「マイ・ダッシュボード」フォルダのすべてのダッシュボードには、システム・レベルの障害を解決する必要がある場合に重要なデータが表示されます。したがって、これらのダッシュボードは変更または削除できません。

モニタリング・データの表示および解釈

インフラストラクチャ・サービス・レイヤーは、プラットフォーム上に構築され、すべてのクラウド・ユーザーおよび管理者機能を有効にし、Grafanaダッシュボードの広範なコレクションを介して監視できます。これらのマイクロサービスは、Kubernetesコンテナの3つの管理ノードにわたってデプロイされるため、そのモニタリングは主にKubernetesノードおよびポッド・メトリックに基づきます。 Kubernetesクラスタもコンピュート・ノードに拡張され、Kubernetesワーカー・ノードは、システム操作およびモニタリングのための重要な追加データを収集します。

この項で説明するダッシュボードは、マイクロサービス・ヘルス・モニタリングの開始点となります。かわりに、様々なダッシュボード、メトリックおよびビジュアライゼーションを使用することをお薦めします。システム全体で収集される必要なデータは、Prometheusに格納され、様々な方法でGrafanaを介して問い合せて表示できます。

Grafanaフォルダ	ダッシュボード	説明
サービスのモニター	ClusterLabs HAクラスタの詳細	このダッシュボードでは、特注のPrometheusエクスポータを使用して、Pacemakerに基づいてHAクラスタのデータを表示します。 HTTPリクエストごとに、クラスタ・コンポーネントのツールによって提供される既存の分散データを解析して、クラスタのステータスをローカルで検査します。モニタリング・データには、Pacemakerクラスタ・サマリー、ノードとリソース統計、Corosyncリング・エラーおよび定足数投票が含まれます。
サービスのモニター	MySQLクラスタ・エクスポータ	このダッシュボードには、MySQLデータベース・クラスタのパフォーマンス詳細が表示されます。データには、稼働時間、接続統計、表ロック数などのデータベース・サービス・メトリック、およびMySQLオブジェクト、接続、ネットワーク・トラフィック、メモリーおよびCPU使用率に関するより一般的な情報が含まれます。
サービスのモニター	サービス・レベル	このダッシュボードには、基本的なアプライアンス・サービスによって受信されたRabbitMQリクエストに関する詳細情報が表示されます。リクエスト数、リクエスト・レイテンシ、およびエラーの原因となったリクエストを監視できます。
サービスのモニター	VM統計	この包括的なダッシュボードには、環境内のコンピュート・インスタンス全体のリソース消費情報が表示されます。これには、CPUおよびメモリー使用率、ディスク・アクティビティ、ネットワーク・トラフィックなどのグラフが含まれます。このダッシュボードのパネルには、多数の時系列が単一のグラフに表示されます。クリックすると、1つの時系列を表示したり、グラフにマウス・ポインタを重ねると、時間軸の特定の時点の詳細データを表示できます。
PCA 3.0サービス・アドバイザ	Kubeエンドポイント	このダッシュボードは、特にKubernetesエンドポイントに焦点を当て、エンドポイント・アラートを提供します。これらのアラートは、選択した通知チャネルに送信できます。
PCA 3.0サービス・アドバイザ	Kube Ingress	このダッシュボードでは、Kubernetesサービスおよびそのポッドへのイングレス・トラフィックに関するデータが提供されます。 2つのアラートが組み込まれており、選択した通知チャネルに送信できます。
PCA 3.0サービス・アドバイザ	Kubeノード	このダッシュボードには、Kubernetesクラスタおよびホスト・マイクロサービス・ポッドに属するすべてのサーバー・ノードのメトリック・データ(管理およびコンピュート・ノード)が表示されます。ポッド数、CPUおよびメモリー使用量などを監視できます。メトリック・パネルには、すべてのノードに関する情報が表示されます。グラフ・ベースのパネルでは、クリックすると1つのノードだけの情報を表示できます。
PCA 3.0サービス・アドバイザ	Kube Pod	このダッシュボードには、マイクロサービス・ポッドのレベルでメトリック・データが表示され、ポッドの合計数およびそれらをノード間でどのように分散しているかを表示できます。ネームスペースごとおよびサービスごとにステータスをモニターし、アラートがトリガーされたかどうかを確認できます。
PCA 3.0サービス・アドバイザ	Kubeサービス	このダッシュボードには、メトリック・データがKubernetesサービス・レベルで表示されます。データは特定のサービスに対してフィルタ処理できますが、デフォルトではすべてが表示されます。 2つのアラートが組み込まれており、選択した通知チャネルに送信できます。
Kubernetesモニタリング Kubernetesコンテナのモニタリング Kubernetesモニタリング・ノード	(すべて)	これらのフォルダには、Private Cloud ApplianceシステムKubernetesクラスタのほとんどの操作をカバーする幅広いモニタリング・データを含む、多種多様なダッシュボードのコレクションが含まれています。たとえば、これらのメトリックは、CPU、ディスク、メモリーおよびネットワーク・リソースのデプロイメント、イングレスおよび使用状況に関する情報を提供します。
OKEモニタリング	CAPOCI	このダッシュボードには、「Oracle Private Cloud Appliance Kubernetesエンジン(OKE)」のコンポーネントである「OCIのクラスタAPIプロバイダ(CAPOCI)」のメトリックが表示されます。このダッシュボードは、コンピュート・インスタンスやロード・バランサなど、OKEで使用されるリソースのリクエスト・ステータス・コードおよびレスポンス時間を監視します。コントローラのリコンシリエーションに関する情報は、Oracleサポート用です。
OKEモニタリング	クラスタ時間モニタリング	このダッシュボードには、特定のOKEクラスタまたはノード・プールの作成または更新などの操作にかかる時間が表示されます。すべてのクラスタおよびノード・プールにおけるこれらの操作の平均時間も表示されます。
OKEモニタリング	メトリック・メーター	このダッシュボードには、「クラスタAPIプロバイダ(CAPI)」、「OCIのクラスタAPIプロバイダ(CAPOCI)」、OKE、prometheus-k8sなど、OKEサービスで使用される様々なターゲットのヘルスが表示されます。
OKEモニタリング	OKEサービス	このダッシュボードには、OKEのサービス・レベル・メトリックが表示されます。このダッシュボードのメトリックの例には、クラスタやノード・プールの作成、更新、削除などのリクエストの数、および様々なリクエストの例外コードの数が含まれます。例外コード数は、リクエスト失敗のパターンを公開するのに役立ちます。

システム容量のモニタリング

コンピュート・インスタンスをホストするシステム容量と、使用するストレージを決定する主要なメトリックを追跡することが重要です。コンピュート・ノードの負荷およびストレージ使用量の詳細なデータは、Grafanaダッシュボードにあります。管理者は、CPUおよびメモリーの現在の消費とストレージ領域に直接アクセスできます。

フォルト・ドメイン別CPUおよびメモリー使用量の表示

これらのプロシージャは、コンピュート・ノードの数、合計メモリーと空きメモリーの量、および各フォルト・ドメインの仮想CPUと空き仮想CPUの合計数を表示します。

UNASSIGNED行は、現在フォルト・ドメインに割り当てられていないコンピュート・ノードを参照します。これらのコンピュート・ノードはフォルト・ドメインに属していないため、メモリーおよびCPU使用率「フォルト・ドメイン内」はゼロです。

個々のコンピュート・ノードについてこの情報などを表示するには、ナビゲーション・メニューから「PCA構成」>「ラック・ユニット」を選択するか、ダッシュボードで「ラック・ユニット」タイルを選択して、リスト内のコンピュート・ノードの名前をクリックします。

「サービスWeb UI」の使用

ナビゲーション・メニューで、「PCA構成」>「フォルト・ドメイン」を選択します。
フォルト・ドメインの名前をクリックすると、そのフォルト・ドメインについてのみこの情報が表示されます。

「サービスCLI」の使用

getFaultDomainInfoコマンドを入力します。

PCA-ADMIN> getFaultDomainInfo
Command: getFaultDomainInfo
Status: Success
Time: 2022-06-17 14:43:13,292 UTC
Data:
  id           totalCNs   totalMemory   freeMemory   totalvCPUs   freevCPUs
  --           --------   -----------   ----------   ----------   ---------
  UNASSIGNED   1          0.0           0.0          0            0
  FD1          2          1072.0        976.0        176          164
  FD2          1          984.0         984.0        120          120
  FD3          1          984.0         984.0        120          120

前述の例では、「ノート」列は省略されています。

ZFS Storage Applianceのディスク領域使用量の表示

「サービス・エンクレーブ」は、ZFSプール・マネージャと呼ばれるストレージ・モニタリング・ツールを実行し、60秒ごとにZFS Storage Applianceをポーリングします。「サービスCLI」を使用すると、各ZFSプールで使用可能なディスク領域の使用状況に関する現在の情報を表示できます。しきい値を超えた場合にフォルトをトリガーする使用量しきい値を設定することもできます。

ZFSプールのストレージ・ステータスの確認

ZFSプールをリストします。

PCA-ADMIN> list ZfsPool
Command: list ZfsPool
Status: Success
Time: 2022-10-10 08:44:11,938 UTC
Data:
  id                                     name
  --                                     ----
  e898b147-7cf0-4bd0-8b54-e32ec83d04cb   PCA_POOL
  c2f67943-df81-47a5-9713-06768318b623   PCA_POOL_HIGH

標準のストレージ構成では、プールは1つしかありません。システムに高パフォーマンスのディスク・トレイが含まれている場合は、各プールの使用状況情報を個別に表示できます。

PCA-ADMIN> show ZfsPool id=e898b147-7cf0-4bd0-8b54-e32ec83d04cb
Command: show ZfsPool id=e898b147-7cf0-4bd0-8b54-e32ec83d04cb
Status: Success
Time: 2022-10-10 08:44:22,051 UTC
Data:
  Id = e898b147-7cf0-4bd0-8b54-e32ec83d04cb
  Type = ZfsPool
  Pool Status = Online
  Free Pool = 44879343128576
  Total Pool = 70506183131136
  Pool Usage Percent = 0.3634693989163486
  Name = PCA_POOL
  Work State = Normal

ZFSプール・マネージャのフォルトしきい値の構成

デフォルトでは、フォルトしきい値は80%いっぱいに設定されています: usage percentage 0.8.

PCA-ADMIN> show ZfsPoolManager
Command: show ZfsPoolManager
Status: Success
Time: 2022-10-10 08:58:11,231 UTC
Data:
  Id = a6ca861b-f83a-4032-91c5-bc506394d0de
  Type = ZfsPoolManager
  LastRunTime = 2022-10-09 12:17:52,964 UTC
  Poll Interval (sec) = 60
  The minimum Zfs pool usage percentage to trigger a major fault = 0.8
  Manager's run state = Running

次の例では、フォルトしきい値を75%いっぱいに設定: usageMajorFaultPercent=0.75。

PCA-ADMIN> edit ZfsPoolManager usageMajorFaultPercent=0.75
Command: edit ZfsPoolManager usageMajorFaultPercent=0.75
Status: Success
Time: 2022-10-10 08:58:27,657 UTC
JobId: 67cfe180-f2a2-4d59-a676-01b3d73cffae