モニタリングの概要

Oracle Cloud Infrastructure Monitoringサービスを使用すると、メトリックおよびアラーム機能を使用してクラウド・リソースを積極的および受動的にモニターできます。

この図は、モニタリング・サービスで使用されるメトリックおよびアラームを示しています。

モニタリングの動作

モニタリング・サービスは、メトリックを使用してリソースおよびアラームをモニターし、これらのメトリックがアラームで指定されたトリガーを満たしたときに通知を行います。

メトリックは、モニタリング・サービスに対し、Rawデータ・ポイントまたはタイムスタンプ/値ペアとして、ディメンションおよびメタデータとともに発行されます。メトリックは様々なソースから取得されます:

モニタリング・サービスにポストされるメトリック・データは、メトリック・データの使用を有効にするOracle Cloud Infrastructureの機能によってのみ、表示または使用されます。

メトリックを問い合せると、モニタリング・サービスは指定されたパラメータに従って集計データを返します。範囲(過去24時間など)、統計および間隔を指定できます。コンソールには、選択したリソースのメトリックごとに1つのモニタリング・グラフが表示されます。各グラフ内の集計データは、選択した統計および間隔を反映します。APIリクエストは、必要に応じてディメンションでフィルタリングし、レゾリューションを指定できます。APIレスポンスには、メトリック名とともにソースのコンパートメントとメトリック・ネームスペースが含まれます。集計されたデータをビジュアライゼーションまたはグラフ化ライブラリにフィードできます。

メトリックおよびアラーム・データには、コンソール、CLIおよびAPIを介してアクセスできます。保持期間については、ストレージの制限を参照してください。

モニタリング・サービスのアラーム機能は、通知サービスによって管理される構成済の宛先にアラーム・メッセージを公開します。各宛先は、サブスクライバのセットを含むトピックです。通知サービスの詳細は、通知の概要を参照してください。

メッセージ・タイプ

メッセージ・タイプは、メッセージが送信された理由を示します。

  • OK_TO_FIRING: アラームのステータスがOKからFIRINGに変更されました。
  • FIRING_TO_OK: アラームのステータスがFIRINGからOKに変更されました。
  • REPEAT: アラームのステータスがFIRINGに維持され、繰返し通知が構成されます。
  • RESET: アラームはメトリックの起動を検出していません。メトリックは送信されなくなりました。メトリックを発行したリソースが移動または終了した可能性があります。

    重要

    RESETステータスの変更が発生した場合は、リソースのヘルス状態を判断してください。
メッセージの書式および例

アラーム・メッセージの書式:

パラメータ 説明

dedupekey

必須

string

アラームのすべてのアラーム・メッセージの一意の識別子。重複排除に使用します。

title

必須

string

アラームの構成表示名。

body

string

アラームの構成済メッセージ本文。

type

必須

string

通知メッセージを送信する理由。有効な値: メッセージ・タイプを参照してください。

severity

必須

string

リストされているアラームの最も高い重大度レベル。有効な値: CRITICALERRORWARNINGおよびINFO

timestampEpochMillis

必須

long

Epoch時間以降にアラームがトリガーされた時間(ミリ秒)。

alarmMetadata

必須

オブジェクトの配列

この通知メッセージに関連するアラームのリスト。

version

必須

int

アラーム・メッセージ形式のバージョン。

alarmMetadata形式: 

パラメータ 説明

id

必須

string

アラームOCID

status

必須

string

アラームの状態。有効な値: OKFIRING

severity

必須

string

アラームの重大度レベル。有効な値: CRITICALERRORWARNINGINFO

query

必須

string

アラームの構成済問合せ。

CpuUtilization[1m]{availabilityDomain="cumS:PHX-AD-1"}.absent()

totalMetricsFiring

必須

int

この通知メッセージで表されるメトリック・ストリーム数。

dimensions

オブジェクトの配列

メトリック・ストリームを識別するディメンション・キー/値ペアのリスト。このリストは、100個のエントリに制限されています。ステータスがOKのアラームは空です。

FIRING状態が継続しているアラームの「高いCPU使用率」メッセージの例。この例では、メッセージに"myinstance1"用と"myinstance2"用の2つのメトリック・ストリームが含まれています。

{
  "dedupeKey": "exampleuniqueID",
  "title": "High CPU Utilization",
  "body": "Follow runbook at http://example.com/runbooks",
  "type": "REPEAT",
  "severity": "CRITICAL",
  "timestampEpochMillis": 1542406320000,
  "alarmMetaData": [
    {
      "id": "ocid1.alarm.oc1.iad.exampleuniqueID",
      "status": "FIRING",
      "severity": "CRITICAL",
      "query": "CpuUtilization[1m].mean() > 0",
      "totalMetricsFiring": 2,
      "dimensions": [
        {
          "instancePoolId": "Default",
          "resourceDisplayName": "myinstance1",
          "faultDomain": "FAULT-DOMAIN-1",
          "resourceId": "ocid1.instance.oc1.iad.exampleuniqueID",
          "imageId": "ocid1.image.oc1.iad.exampleuniqueID",
          "availabilityDomain": "szYB:US-ASHBURN-AD-1",
          "shape": "VM.Standard2.1",
          "region": "us-ashburn-1"
        },
        {
          "instancePoolId": "Default",
          "resourceDisplayName": "myinstance2",
          "faultDomain": "FAULT-DOMAIN-3",
          "resourceId": "ocid1.instance.oc1.iad.exampleuniqueID",
          "imageId": "ocid1.image.oc1.iad.exampleuniqueID",
          "availabilityDomain": "szYB:US-ASHBURN-AD-1",
          "shape": "VM.Standard2.1",
          "region": "us-ashburn-1"
        }
      ]
    }
  ],
  "version": 1.0
}

メトリック機能の概要

メトリック機能では、クラウド・リソースのヘルス、容量およびパフォーマンスに関するメトリック・データをリレーします。特定のリソースのヘルス、容量またはパフォーマンスに関連する測定。リソース、サービス、およびアプリケーションが、モニタリング・サービスにメトリックを発行します。共通メトリックには、次に関連したデータが反映されます:

  • 可用性および待機時間
  • アプリケーションの稼働時間と停止時間
  • 完了済トランザクション
  • 失敗した操作と成功した操作
  • 売上数量やエンゲージメント数量などのキー・パフォーマンス・インジケータ(KPI)

このデータのモニタリングを問い合せることで、顧客にコミットしているサービス・レベルを達成するために、システムとプロセスがどの程度機能しているかを理解できます。たとえば、コンピュート・インスタンスのCPU使用率およびディスク読取りをモニタリングできます。このデータを使用して、負荷の増加を処理するためにより多くのインスタンスを起動するタイミングを決定したり、インスタンスの問題のトラブルシューティングを行うことができ、またはシステム動作の理解をより深めることができます。

メトリックの例: 失敗率

アプリケーション・ヘルスの場合、一般的なKPIの1つが失敗率で、共通の定義は、失敗したトランザクションの数を合計トランザクション数で割ったものです。通常、このKPIはアプリケーションのモニタリングおよび管理ソフトウェアを通じて提供されます。

開発者は、カスタム・メトリックを使用して、アプリケーションからこのKPIを取得できます。アプリケーション・トランザクションが発生するたびに観測データを記録し、そのデータをモニタリング・サービスにポストするだけです。この場合、失敗したトランザクション、成功したトランザクションおよびトランザクション待機時間(完了したトランザクションごとに費やされた時間)を取得するようにメトリックを設定します。

アラーム機能の概要

モニタリング・サービスのアラーム機能は、通知サービスと連携し、メトリックがアラーム指定のトリガーを満たしたときに通知します。構成すると、繰返し通知により継続的に起動状態であることが構成した繰返し間隔で通知されます。アラームがOK状態に戻ったとき、またはアラームがリセットされたときにも通知されます。

検索対応の属性を使用して、アラームを検索できます。検索の詳細は、検索の概要を参照してください。

アラームの検索対応の属性

属性の詳細は、アラーム・リファレンスを参照してください。

  • id

  • displayName

  • compartmentId

  • metricCompartmentId

  • namespace

  • query

  • severity

  • destinations

  • suppression

  • isEnabled

  • lifecycleState

  • timeCreated

  • timeUpdated

  • tags

モニタリングの概念

モニタリングを作業するには、次の概念が必要です。

集計データ
特定のメトリックのRAWデータ・ポイントの選択内容に統計間隔を適用した結果。たとえば、メトリックCpuUtilizationのRAWデータ・ポイントの最後の24時間に統計maxおよび間隔1h (1時間)を適用できます。集計されたデータは、コンソールのデフォルトのメトリック・チャートに表示されます。集計データの特定のセットに対してメトリック問合せを作成することもできます。手順については、デフォルトのメトリック・チャートの表示およびメトリック問合せの作成を参照してください。
アラーム
評価されるアラーム問合せ、およびアラームが起動状態にあるときに、その他のアラーム・プロパティとともに使用される通知宛先。アラームの管理手順については、アラームの管理を参照してください。
アラーム問合せ
アラームを評価するMonitoring Query Language (MQL)式。アラームの問合せは、メトリック統計間隔およびトリガー・ルール(しきい値または不在)を指定する必要があります。モニタリング・サービスのアラーム機能は、返された各時系列の結果をブール値として解釈します。0はfalse、0以外の値はtrueを表します。true値は、トリガー・ルール条件が満たされたことを意味します。詳細は、アラームAPIリファレンスのメトリック問合せの作成と問合せ属性の説明を参照してください。
データ・ポイント
指定されたメトリックのタイムスタンプ/値ペア。例: 2018-05-10T22:19:00Z, 10.4
データ・ポイントはRawまたは集計のいずれかです。Rawデータ・ポイントは、PostMetricData操作を使用してメトリック・ネームスペースによりモニタリング・サービスにポストされます。ポストされるデータ・ポイントの頻度は、メトリック・ネームスペースによって異なります。たとえば、カスタム・ネームスペースによって、特定のメトリックのデータ・ポイントが20秒の頻度で送信される場合があります。
集計されたデータ・ポイントは、統計および間隔をRawデータ・ポイントに適用した結果です。集計データ・ポイントの間隔は、SummarizeMetricsDataリクエストによって決まります。たとえば、統計sumおよび間隔1h (1時間)を指定するリクエストでは、指定メトリックで使用可能なRawデータ・ポイントの毎時にsum値が返されます。
ディメンション
メトリック定義で指定される修飾子。例: oci_computeagentメトリックの定義で指定されるリソース識別子(resourceId)。ディメンションを使用してメトリック・データをフィルタ処理またはグループ化します。可用性ドメインでフィルタ処理するためのディメンション名/値ペアの例: availabilityDomain = "VeBZ:PHX-AD-1"
頻度
特定のメトリックについて、ポストされた各Rawデータ・ポイント間の期間。(RAWデータ・ポイントは、メトリック・ネームスペースによってモニタリング・サービスにポストされます。)頻度はメトリックによって異なりますが、デフォルトのサービス・メトリックの頻度は通常60秒です(1分当たりに1つのデータ・ポイントがポストされます)。レゾリューションも参照してください。
間隔
Rawデータ・ポイントの指定したセットの変換に使用される時間ウィンドウ。
集計されたデータ・ポイントのタイムスタンプは、Rawデータ・ポイントが評価される時間ウィンドウの終わりに対応します。たとえば、5分間隔では、タイムスタンプ「2:05」は2:00:nから2:05:00までの5分間の時間ウィンドウに対応します。
この図は、集計データ・ポイントのタイムスタンプが間隔にどのように対応するかを示しています。
次の問合せの例では、5分間隔を指定しています。CpuUtilization[5m].max()サポートされている値については、Monitoring Query Language (MQL)リファレンスを参照してください。
ノート

間隔でサポートされる値は、メトリック問合せで指定された時間範囲によって異なります(アラーム問合せには適用されません)。時間範囲が小さくなるほど、多くの間隔値がサポートされます。たとえば、時間範囲に1時間を選択すると、すべての間隔値がサポートされます。時間範囲に90日を選択すると、1hまたは1dの間隔値のみがサポートされます。
コンソールの基本モードで使用できない間隔値(12時間など)を指定するには、拡張モードに切り替えます。
レゾリューションも参照してください。
メッセージ
モニタリング・サービスのアラーム機能がアラームの構成済通知宛先のトピックに公開する内容。アラームが別の状態に遷移する(「OK」から「FIRING」へなど)と、メッセージが送信されます。メッセージの詳細は、モニタリングの動作を参照してください。
メタデータ
メトリック定義で指定される参照。例: oci_computeagentメトリックDiskBytesReadの定義で指定された単位(バイト)。メタデータを使用して、特定のメトリックに関する追加情報を調べます。メトリックの定義は、サポートされているサービスを参照してください。
メトリック
特定のリソースのヘルス、容量またはパフォーマンスに関連する測定。例: コンピュート・インスタンスの使用状況を測定するoci_computeagentメトリックCpuUtilization。メトリックの定義は、サポートされているサービスを参照してください。
ノート

メトリックのリソースにOCIDがありません。
メトリック定義
特定のメトリックメトリック・ネームスペースにより提供される参照、修飾子およびその他の情報のセット。たとえば、oci_computeagentメトリックDiskBytesReadは、ディメンション(リソース識別子など)とメタデータ(単位のバイトを指定)およびそのメトリック・ネームスペース(oci_computeagent)の識別によって定義されます。ポストされた各データ・ポイント・セットには、この情報が送信されます。ListMetricData API操作を使用してメトリック定義を取得します。メトリックの定義は、サポートされているサービスを参照してください。
メトリック・ネームスペース
メトリックを発行するリソース、サービスまたはアプリケーションのインジケータ。メトリック定義で指定されます。たとえば、コンピュートインスタンスOracle Cloud Agentソフトウェアによって発行されたCpuUtilizationメトリック定義には、メトリック・ネームスペースoci_computeagentCpuUtilizationメトリックのソースとしてリストされます。メトリックの定義は、サポートされているサービスを参照してください。
メトリック・ストリーム
メトリック集計データの個別のセット。ストリームは、単一のリソースに固有にすることも、コンパートメント内のすべてのリソースに対して集計することもできます。コンソールメトリック・チャート内では、各メトリック・ストリームが線で表されます。デフォルトでは、メトリック・ストリームはリソースに固有であるため、グラフには各リソースの線が表示されます。すべてのメトリック・ストリームの集計を選択した場合、グラフにはすべてのリソースに対して1本の線が表示されます。
通知宛先
アラームが別の状態に遷移する(「OK」から「FIRING」へなど)ときの、メッセージを送信するためのプロトコルおよびその他の詳細。詳細と設定は、宛先サービスによって異なる場合があります。通知サービスでは、各宛先にトピックおよびサブスクリプション・プロトコル(PagerDutyなど)が含まれます。メッセージ、トピックおよびサブスクリプションの詳細は、通知の概要を参照してください。
Oracle Cloud Agentソフトウェア
コンピュート・インスタンスがRawデータ・ポイントモニタリング・サービスにポストできるようにするソフトウェア。サポートされているイメージの最新バージョンで自動的にインストールされます。コンピュート・インスタンスのモニタリングの有効化を参照してください。
query
集計データを返すために評価するMonitoring Query Language (MQL)式。問合せには、メトリック統計および間隔を指定する必要があります。詳細は、メトリック問合せの作成を参照してください。
レゾリューション
時間ウィンドウ間の期間、または時間ウィンドウが移動する際の規則性。たとえば、1mのレゾリューションを使用すると、1分ごとに集計が取得されます。
間隔とは異なるデフォルト以外のレゾリューションを指定するには、SummarizeMetricsData操作を使用します。
ノート

メトリック問合せの場合、選択した間隔によって、戻されるデータの最大時間範囲を決定する、リクエストのデフォルトのレゾリューションが決定されます。

メトリック問合せで使用されるレゾリューションのパラメータの詳細は、SummarizeMetricsDataを参照してください。

問合せで戻される最大時間範囲

メトリック問合せで返される最大時間範囲は、レゾリューションによって異なります。メトリック問合せの場合、デフォルトでは、レゾリューションは問合せ間隔と同じです。

最大時間範囲は、指定された終了時間に関係なく現在の時間を使用して計算されます。コンソール(基本モード)で選択できる各間隔の最大時間範囲は、次のとおりです。コンソールの基本モードで使用できない間隔値(12時間など)を指定するには、拡張モードに切り替えます。

間隔 デフォルトのレゾリューション(メトリック問合せ) 戻される最大時間範囲
1d 1日 90日
1h 1時間 90日
5m 5分 30日
1m 1分 7日

間隔とは異なるデフォルト以外のレゾリューションを指定するには、SummarizeMetricsData操作を使用します。

戻されたデータの例を参照

例1: 現在の時間までの1分間隔とレゾリューションで、1月8日10:00に送信されました。レゾリューションまたは終了時間の指定がないため、デフォルトで1mの間隔値がレゾリューションに設定され、終了時間が現在の時間(2019-01-08T10:00:00.789Z)に設定されます。このリクエストは、最大7日間のメトリック・データを返します。この7日の期間内で発生可能な最も早いデータ・ポイントは、1月1日10:00 (2019-01-01T10:00:00.789Z)です。

例2: 2日前までの5分間隔と1分のレゾリューションで、1月8日10:00に送信されました。レゾリューションによって最大時間範囲が決定されるため、最大7日間のメトリック・データ・ポイントが戻されます。指定した終了時間は1月6日10:00 (2019-01-06T10:00:00.789Z)ですが、この7日の期間内で可能な最も古いデータ・ポイントは1月1日10:00 (2019-01-01T10:00:00.789Z)になります。したがって、この例では、5日間のメトリック・データ・ポイントのみを戻すことができます。

アラームの問合せの場合、指定した間隔はリクエストのレゾリューションに影響しません。アラーム問合せリクエストのレゾリューションで有効な値は、1mのみです。アラーム問合せに使用されるレゾリューションのパラメータの詳細は、アラームを参照してください。

次の図に示すように、レゾリューションは前のウィンドウに対する各集計ウィンドウの開始時間を制御しますが、間隔はウィンドウの長さを制御します。両方のリクエストは、(間隔からの) 5分間の各ウィンドウ内のデータに統計maxを適用し、そのウィンドウで最も高いCPUutilizationカウンタを表す単一の集計データ・ポイントを生成します。レゾリューションの値のみが異なります。このレゾリューションによって、集計ウィンドウが移動する規則性、または連続する集計ウィンドウの開始時間が変更されます。リクエストAはレゾリューションを指定しないため、間隔と同じデフォルト値(5分)を使用します。このリクエストの5分間の集計ウィンドウは、0:nから5:00、5:nから10:00などから発行されたデータ・ポイントのセットから取得されます。リクエストBは1分のレゾリューションを指定しているため、その5分間の集計ウィンドウは、0:nから5:00、1:nから6:00などから1分ごとに発行されるデータ・ポイントのセットから取得されます。
この図は、レゾリューションに従って集計ウィンドウがどのように開始されるかを示しています。
リソース・グループ
フィルタまたは結果の集計に使用できるカスタム・メトリックで提供されるカスタム文字列。リソース・グループは、ポストされたメトリックの定義内に存在する必要があります。メトリックごとに適用できるリソース・グループは1つのみです。
統計
Rawデータ・ポイントの特定のセットに適用される集計関数。サポートされている統計については、Monitoring Query Language (MQL)リファレンスを参照してください。
抑制
指定した時間範囲内にメッセージが公開されないようにするための構成。システムの保守中にアラーム通知を一時停止するのに役立ちます。各抑制は単一のアラームに適用されます。コンソールでは、抑制の1つの定義を複数のアラームに適用できます。その結果、アラームごとに個別の抑制が行われます。アラームを抑制する手順については、アラームを抑制するにはを参照してください。
トリガー・ルール
アラームを起動状態にするために満たす必要がある条件。トリガー・ルールは、メトリックのしきい値または不在に基づきます。

可用性

モニタリング・サービスは、すべてのOracle Cloud Infrastructure商用リージョンで使用できます。使用可能なリージョンのリストと、関連する場所、リージョン識別子、リージョン・キーおよび可用性ドメインは、リージョンおよび可用性ドメインについてを参照してください。

サポートされているサービス

次のサービスには、モニタリングにメトリックを発行できるリソースまたはコンポーネントが含まれます。

リソース識別子

ほとんどのタイプのOracle Cloud Infrastructureリソースには、Oracle Cloud ID (OCID)と呼ばれるOracleによって割り当てられた一意の識別子があります。OCIDのフォーマットおよびリソースを識別するその他の方法の詳細はリソース識別子を参照してください。

ノート

メトリックのリソースにOCIDがありません。

モニタリングへのアクセス方法

モニタリング・サービスには、コンソール(ブラウザベースのインタフェース)またはREST APIを使用してアクセスできます。コンソールおよびAPIのための手順は、このガイド全体を通してトピックに含まれています。使用可能なSDKのリストは、ソフトウェア開発キットとコマンドライン・インタフェースを参照してください。

コンソール: コンソールを使用してモニタリングにアクセスするには、サポートされているブラウザを使用する必要があります。このページの上部にある「コンソール」リンクを使用して、サインイン・ページに移動できます。クラウド・テナント、ユーザー名およびパスワードの入力を求められます。ナビゲーション・メニューを開きます。「ソリューションおよびプラットフォーム」で、「モニタリング」に移動します。

API: APIを介してモニタリングにアクセスするには、メトリックおよびアラームにモニタリングAPIを使用し、通知に通知APIを使用します(アラームと使用)。

別のコンパートメントへのアラームの移動

コンパートメント間でアラームを移動できます。新しいコンパートメントにアラームを移動しても、関連付けられたメトリックはそのまま残ります。アラームを新規コンパートメントに移動すると、固有のポリシーがただちに適用され、コンソールを介してアラームへのアクセスが影響を受けます。リソースの他のコンパートメントへの移動の詳細は、リソースを別のコンパートメントに移動するにはを参照してください。

重要

リソースをコンパートメント間で移動するには、リソースの移動先のコンパートメントと現在のコンパートメントに対する十分なアクセス権限がリソース・ユーザーに必要です。モニタリング・リソースの権限の詳細は、モニタリングの詳細を参照してください。

認証と認可

Oracle Cloud Infrastructureの各サービスは、すべてのインタフェース(コンソール、SDKまたはCLI、およびREST API)の認証および認可のためにIAMと統合されています。

組織の管理者は、どのユーザーがどのサービスとリソースにアクセスできるか、およびアクセスのタイプを制御する、グループコンパートメントおよびポリシーを設定する必要があります。たとえば、ポリシーは、新しいユーザーの作成、クラウド・ネットワークの作成と管理、インスタンスの起動、バケットの作成、オブジェクトのダウンロードなどを実行できるユーザーを制御します。詳細は、ポリシーの開始を参照してください。異なる各サービスに対するポリシーの記述の詳細は、ポリシー・リファレンスを参照してください。

会社が所有するOracle Cloud Infrastructureリソースを使用する必要がある通常のユーザー(管理者ではない)の場合は、ユーザーIDを設定するよう管理者に連絡してください。管理者は、使用する必要があるコンパートメントを確認できます。

管理者: メトリックへグループ・アクセスを付与する共通ポリシーについては、ユーザーによるコンパートメント内のメトリック定義の表示および特定のメトリック・ネームスペースへのユーザー・アクセスの制限を参照してください。共通アラーム・ポリシーについては、ユーザーによるアラームの表示を参照してください。 インスタンスなどのリソースを認可してAPIコールを実行するには、リソースを動的グループに追加します。動的グループの照合ルールを使用してリソースを追加してから、メトリックへの動的グループ・アクセスを可能にするポリシーを作成します。インスタンスによりAPIコールを実行しテナンシのモニタリング・メトリックにアクセスを参照してください。

モニタリングの制限

適用可能な制限の一覧と制限の引上げをリクエストする手順は、モニタリング制限を参照してください。

その他の制限は次のとおりです。

ストレージの制限

項目 格納された時間範囲
メトリックの定義 14日
アラーム履歴エントリ 90日

トラブルシューティングの制限

問合せがメトリック・ストリームの最大数を超えたというエラーが表示された場合は、制限内のメトリック・ストリーム数を評価するように問合せを更新してください。たとえば、ディメンションを指定することで、メトリック・ストリームを削減できます。複数の問合せ(またはアラーム)にメトリック・ストリームを分散することで、元の問合せにあったすべてのメトリック・ストリームの評価を続行できます。