モニタリングの概要

Oracle Cloud Infrastructure Monitoringサービスを使用して、メトリック機能およびアラーム機能を使用してクラウド・リソースを能動的および受動的にモニターします。モニタリングの動作について学習します。

この図は、モニタリング・サービスで使用されるメトリックおよびアラームを示しています。

ヒント

サービスの概要ビデオを視聴してください。

モニタリングの動作

モニタリング・サービスは、メトリックを使用してリソースおよびアラームをモニターし、これらのメトリックがアラームで指定されたトリガーを満たしたときに通知を行います。

メトリックは、モニタリング・サービスに対し、Rawデータ・ポイントまたはタイムスタンプ/値ペアとして、ディメンションおよびメタデータとともに発行されます。メトリックは様々なソースから取得されます:

モニタリング・サービスからメトリックを転送するには、コネクタ・ハブを使用します。詳細は、モニタリング・ソースを使用したコネクタの作成を参照してください。

モニタリング・サービスにポストされるメトリック・データは、メトリック・データの使用を有効にするOracle Cloud Infrastructureの機能によってのみ、表示または使用されます。

メトリックを問い合せると、モニタリング・サービスは指定されたパラメータに従って集計データを返します。範囲(過去24時間など)、統計および間隔を指定できます。コンソールには、選択したリソースのメトリックごとに1つのモニタリング・グラフが表示されます。各グラフ内の集計データは、選択した統計および間隔を反映します。APIリクエストは、必要に応じてディメンションでフィルタリングし、レゾリューションを指定できます。APIレスポンスには、メトリック名とともにソースのコンパートメントとメトリック・ネームスペースが含まれます。集計されたデータをビジュアライゼーションまたはグラフ化ライブラリにフィードできます。

メトリックおよびアラーム・データには、コンソール、CLIおよびAPIからアクセスできます。保持期間については、ストレージの制限を参照してください。

モニタリング・サービスのアラーム機能は、通知のトピックやストリーミングのストリームなど、構成された宛先にアラーム・メッセージを公開します。

メトリック機能の概要

メトリック機能では、クラウド・リソースのヘルス、容量およびパフォーマンスに関するメトリック・データをリレーします。

このメトリックは、リソースのヘルス、容量またはパフォーマンスに関連する測定です。リソース、サービス、およびアプリケーションが、モニタリング・サービスにメトリックを発行します。共通メトリックには、次に関連したデータが反映されます:

  • 可用性および待機時間
  • アプリケーションの稼働時間と停止時間
  • 完了済トランザクション
  • 失敗した操作と成功した操作
  • 売上数量やエンゲージメント数量などのキー・パフォーマンス・インジケータ(KPI)

このデータのモニタリングを問い合せることで、顧客にコミットしているサービス・レベルを達成するために、システムとプロセスがどの程度機能しているかを理解できます。たとえば、コンピュート・インスタンスのCPU使用率およびディスク読取りをモニターできます。このデータを使用して、負荷の増加を処理するためにより多くのインスタンスをプロビジョニングするタイミングを決定したり、インスタンスの問題のトラブルシューティングを行うことができ、またはシステム動作の理解をより深めることができます。

メトリックの例: 失敗率

アプリケーション・ヘルスの場合、一般的なKPIの1つが失敗率で、共通の定義は、失敗したトランザクションの数を合計トランザクション数で割ったものです。通常、このKPIはアプリケーションのモニタリングおよび管理ソフトウェアを通じて提供されます。

開発者は、カスタム・メトリックを使用して、アプリケーションからこのKPIを取得できます。アプリケーション・トランザクションが発生するたびに観測データを記録し、そのデータをモニタリング・サービスにポストします。この場合、失敗したトランザクション、成功したトランザクションおよびトランザクション待機時間(完了したトランザクションごとに費やされた時間)を取得するようにメトリックを設定します。

アラーム機能の概要

アラームを使用して、クラウド・リソースのヘルス、容量およびパフォーマンスをモニターします。

リソースはメトリック・データ・ポイントをモニタリングに発行します。トリガーされると、アラームは構成済の宛先にメッセージを送信します。通知の場合、メッセージは、構成済トピックのサブスクリプションに送信されます。ストリーミングの場合、メッセージは構成済ストリームに送信されます)。

モニタリング・サービスのアラーム機能は、構成済宛先サービスと連携し、メトリックがアラーム指定のトリガーを満たしたときに通知します。前の図は、メトリック・データ・ポイントモニタリングに発行するリソースから始まるフローを示しています。トリガーされると、アラームアラーム・メッセージを構成済の宛先に送信します。通知の場合、メッセージは構成済トピックのサブスクリプションに送信されます。ストリーミングの場合、メッセージは構成済ストリームに送信されます。(この図は、RAWおよび集計メトリック・データについては説明していません。これらの詳細は、このページの上部にある「モニタリングの概要」の図を参照してください。)

構成すると、繰返し通知により継続的に起動状態であることが構成した繰返し間隔で通知されます。アラームがOK状態に戻ったとき、またはアラームがリセットされたときにも通知されます。

アラーム評価

モニタリングは、アラームのステータスを検出するために、1分間に1回アラームを評価します。

アラームが通知を分割すると、モニタリングトラッキングされた各メトリック・ストリームを評価します。そのメトリック・ストリームの評価が新しいFIRINGステータスまたはその他の条件を満たすイベントを示している場合、モニタリングはアラーム・メッセージを送信します。

モニタリングは、条件を満たすイベントについてアラームごとにメトリック・ストリームをトラッキングしますが、メッセージは宛先サービス制限の対象となります。

アラーム評価の図

メトリックCpuUtilizationの90パーセンタイルを測定するアラームについて考えてみます。

{
  "compartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "destinations": ["ocid1.onstopic.exampleuniqueID"],
  "displayName": "High CPU Utilization",
  "id": "ocid1.alarm.oc1..exampleuniqueID",
  "lifecycleState": "ACTIVE",
  "metricCompartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "namespace": "oci_computeagent",
  "pendingDuration": "PT3M",
  "query": "CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85",
  "repeatNotificationDuration": "PT2H",
  "severity": "WARNING",
  "isEnabled": true,
  "timeCreated": "2023-02-01T01:02:29.600Z",
  "timeUpdated": "2023-02-03T01:02:29.600Z"
}

この例のアラームに関するノート:

  • パーセンタイルは、問合せで統計(太字)として指定されます。
    CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
  • 各データ・ポイントは、問合せで間隔(太字)として指定されている1分間のウィンドウの90パーセンタイル(percentile(0.9))です。
    CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
  • この統計のデータ・ポイント値は、NULL (不在)から100までの任意の値にできます。
  • データ・ポイント評価:
    • 85を超えるデータ・ポイント値の場合、評価はtrue (1)です。true評価は、トリガー・ルール条件が満たされたことを意味します。
    • 85以下のデータ・ポイント値の場合、評価はfalse (0)です。
  • アラームは、トリガー・ルール条件が3分間連続して満たされるまで起動しません。この構成は、アラームのトリガー遅延(pendingDuration)で、PT3Mとして設定されます。
  • 最新の1分間、違反状態がクリアされると、アラームの状態がOKに更新されます。

次の図は、サンプル・アラームの集計メトリック・ストリームを示しています。各データ・ポイントは正方形で示されます。


例アラームの集計メトリック・ストリーム。

次の表に、例のアラーム評価を連続して示します。アラームは、3分間隔の変動ウィンドウで評価されます。

評価期間タイムスタンプ 所要時間(分) データ・ポイント評価* ステータス
3 [1, 2, 3] [0, 0, 0] 結構です
4 [2, 3, 4] [0, 0, 1] 結構です
5 [3, 4, 5] [0, 1, 1] 結構です
6 [4, 5, 6] [1, 1, 1] 起動
7 [5, 6, 7] [1, 1, 1] 起動
8 [6, 7, 8] [1, 1, 0] 結構です
9 [7, 8, 9] [1, 0, 0] 結構です
10 [8, 9, 10] [0, 0, 0] 結構です

*1の値は、トリガー・ルール条件が満たされていることを意味します。

内部リセット期間について

内部リセット期間は、アラームが、前回の評価で起動状態をトリガーした不在メトリックのチェックを停止するタイミングを決定します。メトリックが期間全体に存在しない場合、後でアラーム評価によって示されたメトリック・ストリームは無視されます。アラームの起動状態の原因となっているメトリック・ストリームが他にない場合、アラームはOKに遷移し、RESETメッセージを送信します。デフォルトでは、RESETメッセージは13分(内部リセット期間とデフォルトのスラック期間3分)後に届きます。スラック期間をカスタマイズできます。

内部リセット期間の長さはグローバルに10分で構成されるため、アラーム履歴に10分の差分が表示されます。

内部リセット期間の開始は、アラームのタイプによって異なります。しきい値アラームの場合、最初の不在が検出されると、内部リセット期間が開始されます。休暇欠勤アラームの場合、内部リセット期間は、休暇欠勤検出期間(2時間)の完了後に開始されます。

内部リセット期間中に取得されたデータ・ポイント

10分間の内部リセット期間中の各評価では、その期間内のすべてのデータ・ポイントが考慮されます。

たとえば、しきい値を超えるメトリック・ストリーム(A)を考えてみます(次の図では赤色の破線)。アラームが起動します(F)。生成されたデータ・ポイントがないことが検出されると、内部リセット期間が開始されます。

次の図は、メトリック・ストリームAの単一の内部リセット期間(t5からt15の時間)を示しています。t16の時点で、メトリック・ストリームAは評価されなくなりました。

単一の内部リセット期間を示す図。

次の図は、メトリック・ストリームAの内部リセット期間(t3からt5t6からt16)を2つ示しています。Aは、t6にデータ・ポイントを発行し、別の内部リセット期間を開始します。t17の時点で、メトリック・ストリームAは評価されなくなりました。

2つの内部リセット期間を示す図。
しきい値アラームの例

しきい値アラームは、しきい値の範囲外で発生したメトリック・ストリームについてレポートします。以前に問題のあるメトリック・ストリームがない場合、アラームはメトリック・ストリームの内部リセット期間を開始します。

この例では、4つのメトリック・ストリームがしきい値アラームによって評価されます。コンソールに、初期起動(1:30)およびOK(1:51)遷移状態が表示されます。内部リセット期間は、アラームが起動状態にある間に発生します。

4つのメトリック・ストリームがあるしきい値アラームの例。

次の表で、この例の内部リセット期間およびその他の重要なイベントについて説明します。

時間 状態 遷移 イベント 通知(メッセージ・タイプを参照)
12:00 結構です 結構です すべての排出量はしきい値内です。 FIRING_TO_OK
1:30 起動 起動 resource1からの排出がしきい値を超えています。 OK_TO_FIRING
1:35 起動 -- resource1の排出は検出されません。アラームは、resource1の内部リセット期間を開始します。 --
1:38 起動 -- resource2の排出は検出されません。アラームは、resource2の内部リセット期間を開始します。 --
1:45 起動 -- 内部リセット期間はresource1で終了するため、アラームではresource1からの排出がチェックされなくなります。ただし、resource2は依然として独自の内部リセット期間にあるため、アラームは起動し続けます。 --
1:48 結構です 結構です 内部リセット期間はresource2で終了するため、アラームではresource2からの排出がチェックされなくなります。残りのリソース(resource3およびresource4)からの排出はしきい値内です。 RESET (3分間のスラック期間の後、約1:51に送信)
休暇欠勤アラームの例

不在アラームは、不在メトリック・ストリームについてレポートします。メトリック・ストリームがない場合、アラームはメトリック・ストリームの不在検出期間を開始します(デフォルトは2時間で、カスタマイズできます)。休暇欠勤検出期間の完了後、アラームはメトリック・ストリームの内部リセット期間を開始します。

この例では、メトリック・ストリームは、デフォルトの2時間の休暇欠勤検出期間とデフォルトの3分間のスラック期間を使用する休暇欠勤アラームによって評価されます。コンソールに、初期起動(2:00)およびOK(4:10)遷移状態が表示されます。内部リセット期間は、アラームが起動状態にある間に発生します。

単一のメトリック・ストリームを持つ休暇欠勤アラームの例。

次の表で、この例の内部リセット期間およびその他の重要なイベントについて説明します。

時間 状態 遷移 イベント 通知(メッセージ・タイプを参照)
1:00 結構です -- 排出が検出されます。
2:00 起動 起動 resource-zの放出は検出されません。アラームは、resource-zの休暇欠勤検出期間を開始します。 OK_TO_FIRING
4:00 起動 -- resource-zの休暇欠勤検出期間が終了します。アラームは、resource-zの内部リセット期間を開始します。 --
4:10 結構です 結構です resource-zの内部リセット期間は終了するため、アラームはresource-zからの放出をチェックしなくなります。メトリック・ストリームはアラームによって監視されなくなったため、アラームはOK状態に遷移します。 RESET (3分間のスラック期間の後、約4:13に送信)

アラームの更新を反映するために必要な時間

アラームの更新には、すべての場所で反映されるまでに最大5分かかります。

たとえば、通知を分割するようにアラームを更新した場合、メトリック・ストリーム・ステータスコンソールに移入されるまで最大5分かかることがあります。

アラームの検索

サポートされている属性を使用してアラームを検索します。

検索の詳細は、検索の概要を参照してください。属性の詳細は、アラーム・リファレンスを参照してください。

アラームの検索対応の属性
  • id

  • displayName

  • compartmentId

  • metricCompartmentId

  • namespace

  • query

  • severity

  • destinations

  • suppression

  • isEnabled

  • lifecycleState

  • timeCreated

  • timeUpdated

  • tags

メッセージ・タイプ

メッセージ・タイプは、メッセージが送信された理由を示します。

ノート

指定されたメッセージ・タイプは、指定された時間にアラームの構成済トリガー遅延(ある場合)を加えて送信されます。

アラームで設定されている場合、リピートメッセージも送信されます。

次の表に、メッセージ・タイプごとにアラームの状態と遷移を示します。

メッセージ・タイプ 状態 遷移 コメント
OK_TO_FIRING FIRING OKからFIRING
FIRING_TO_OK OK FIRINGからOK
REPEAT FIRING -- このメッセージ・タイプは、アラームがFIRING状態を維持し、アラームが繰返し通知用に構成されている場合に送信されます。
RESET OK FIRINGからOK

重要: RESETステータスの変更が発生した場合は、リソースのヘルス状態を確認してください。

このメッセージ・タイプは、アラームが1つ以上の内部リセットの後にOK状態に遷移したときに送信されます。内部リセットは、アラームをFIRING状態に遷移させたメトリック・ストリームが内部リセット期間全体にわたって継続的に存在しない場合に発生します。内部的にリセットされたメトリック・ストリームは、アラームによって追跡されなくなります。

存在しないメトリック・ストリームの考えられる原因: メトリックを発行したリソースが移動または終了したか、メトリックが障害発生時にのみ発行される場合があります。内部リセット期間の詳細は、「内部リセット期間について」を参照してください。

モニタリングの概念

モニタリングを作業するには、次の概念が必要です。

集計データ
メトリックのRAWデータ・ポイントの選択内容に統計および間隔を適用した結果。たとえば、メトリックCpuUtilizationのRAWデータ・ポイントの最後の24時間に統計maxおよび間隔1h (1時間)を適用できます。集計されたデータは、コンソールのデフォルトのメトリック・チャートに表示されます。集計データの特定のセットに対してメトリック問合せを作成することもできます。手順については、デフォルトのメトリック・チャートの表示およびメトリック問合せの作成を参照してください。
アラーム
評価されるアラーム問合せ、およびアラームが起動状態にあるときに、その他のアラーム・プロパティとともに使用される通知宛先
アラームを作成するには、基本アラームの作成を参照してください。
アラーム問合せ
アラームを評価するMonitoring Query Language (MQL)式。アラームの問合せは、メトリック統計間隔およびトリガー・ルール (しきい値または不在)を指定する必要があります。モニタリング・サービスのアラーム機能は、返された各時系列の結果をブール値として解釈します。0はfalse、0以外の値はtrueを表します。true値は、トリガー・ルール条件が満たされたことを意味します。
基本的なアラーム問合せを作成するには、アラーム・メトリック・チャートを生成するための基本問合せの作成を参照してください。アラームを作成するには、基本アラームの作成を参照してください。
データ・ポイント
指定されたメトリックのタイムスタンプ/値ペア。例: 2022-05-10T22:19:00Z, 10.4
データ・ポイントはRawまたは集計のいずれかです。Rawデータ・ポイントは、PostMetricData操作を使用してメトリック・ネームスペースによりモニタリング・サービスにポストされます。ポストされるデータ・ポイントの頻度は、メトリック・ネームスペースによって異なります。たとえば、カスタム・ネームスペースによって、メトリックのデータ・ポイントが20秒の頻度で送信される場合があります。
集計されたデータ・ポイントは、統計および間隔をRawデータ・ポイントに適用した結果です。集計データ・ポイントの間隔は、SummarizeMetricsDataリクエストで指定されます。たとえば、統計sumおよび間隔1h (1時間)を指定するリクエストでは、メトリックで使用可能なRawデータ・ポイントの毎時にsum値が返されます。
ディメンション
メトリック定義で指定される修飾子。例: oci_computeagentメトリックの定義で指定されるリソース識別子(resourceId)。ディメンションを使用してメトリック・データをフィルタ処理またはグループ化します。可用性ドメインでフィルタ処理するためのディメンション名/値ペアの例: availabilityDomain = "VeBZ:PHX-AD-1"
メトリック・チャートまたは問合せのディメンションを選択するには、メトリックをフィルタするディメンションの選択および問合せのディメンションの選択を参照してください。
アラームの間隔を選択するには、アラーム問合せの間隔の選択を参照してください。
頻度
メトリックについて、ポストされた各Rawデータ・ポイント間の期間。(RAWデータ・ポイントは、メトリック・ネームスペースによってモニタリング・サービスにポストされます。)頻度はメトリックによって異なりますが、デフォルトのサービス・メトリックの頻度は通常60秒です(1分当たりに1つのデータ・ポイントがポストされます)。レゾリューションも参照してください。
間隔
rawデータ・ポイントのセットの変換に使用される時間ウィンドウ。
集計されたデータ・ポイントのタイムスタンプは、Rawデータ・ポイントが評価される時間ウィンドウの終わりに対応します。たとえば、5分間隔では、タイムスタンプ「2:05」は2:00:nから2:05:00までの5分間の時間ウィンドウに対応します。
この図は、集計データ・ポイントのタイムスタンプが間隔にどのように対応するかを示しています。
次の問合せの例(MQL式)では、5分間隔を指定しています。MQL式の有効な間隔オプションについては、間隔(Monitoring Query Language (MQL)リファレンス)を参照してください。
CpuUtilization[5m].max()
ノート

間隔でサポートされる値は、メトリック問合せで指定された時間範囲によって異なります(アラーム問合せには適用されません)。時間範囲が小さくなるほど、多くの間隔値がサポートされます。たとえば、時間範囲に1時間を選択すると、すべての間隔値がサポートされます。時間範囲に90日を選択した場合、1時間から1日の間の間隔値のみがサポートされます。
メトリック・チャートまたは問合せの間隔を選択するには、デフォルトのメトリック・チャートの間隔の変更および問合せの間隔の選択を参照してください。
アラームの間隔を選択するには、アラーム問合せの間隔の選択を参照してください。
レゾリューションも参照してください。
メッセージ
モニタリング・サービスのアラーム機能がアラームの構成済通知宛先のトピックに公開する内容。アラームが別の状態に遷移する(OKからFIRINGへなど)と、メッセージが送信されます。
アラーム・メッセージの詳細は、メッセージの書式および例を参照してください。
メタデータ
メトリック定義で指定される参照。例: oci_computeagentメトリック DiskBytesReadの定義で指定された単位(バイト)。メタデータを使用して、メトリックに関する追加情報を調べます。メトリックの定義は、サポートされているサービスを参照してください。
メトリック
リソースのヘルス、容量またはパフォーマンスに関連する測定。例: コンピュート・インスタンスの使用状況を測定するoci_computeagentメトリック CpuUtilization。メトリックの定義は、サポートされているサービスを参照してください。
ノート

メトリック・リソースにはOCIDs がありません。
メトリック定義
メトリックメトリック・ネームスペースにより提供される参照、修飾子およびその他の情報のセット。たとえば、oci_computeagentメトリックDiskBytesReadは、ディメンション(リソース識別子など)とメタデータ(単位のバイトを指定)およびそのメトリック・ネームスペース(oci_computeagent)の識別によって定義されます。ポストされた各データ・ポイント・セットには、この情報が送信されます。ListMetricData API操作を使用してメトリック定義を取得します。メトリックの定義は、サポートされているサービスを参照してください。
問合せのメトリック名を選択するには、問合せのメトリック名の選択を参照してください。
アラームのメトリック名を選択するには、アラーム・メトリック・チャートを生成するための基本問合せの作成および基本アラームの作成を参照してください。
メトリック・ネームスペース
メトリックを発行するリソース、サービスまたはアプリケーションのインジケータ。メトリック定義で指定されます。たとえば、コンピュート・インスタンスOracle Cloud Agentソフトウェアによって発行されたCpuUtilizationメトリック定義には、メトリック・ネームスペースoci_computeagentCpuUtilizationメトリックのソースとしてリストされます。メトリックの定義は、サポートされているサービスを参照してください。
メトリック・チャートまたは問合せのメトリック・ネームスペースを選択するには、メトリック・ネームスペースのデフォルト・メトリック・チャートの表示(複数リソース)および問合せのメトリック・ネームスペースの選択を参照してください。
アラームのメトリック・ネームスペースを選択するには、アラーム・メトリック・チャートを生成するための基本問合せの作成および基本アラームの作成を参照してください。
メトリック・ストリーム
メトリックおよびゼロ以上のディメンション値集計データの個別のセット。
メトリック・ストリームのステータス・ページでは、各メトリック・ストリームはディメンションのキーと値のペアのセットに対応します。
メトリック・チャート(コンソール内)では、各メトリック・ストリームが線で示されます(すべてのメトリック・ストリームを集計しないかぎり)。
次の図は、チャート内のメトリック・ストリームを示しています。チャートの各線は、メトリック・ストリームに対応します。
この図は、チャート内のメトリック・ストリームを示しています。チャートの各線は、メトリック・ストリームに対応します。
たとえば、AD-1可用性ドメインに3つのコンピュート・インスタンスを含み(ipexampleインスタンス・プールに2つを含む)、AD-2可用性ドメインに4番目のインスタンスを含むコンパートメントがあるとします。この例では、「CPU使用率」メトリック・チャートに4本の線(インスタンスごとに1行)が表示されています。AD-1可用性ドメインでフィルタ処理されると、チャートに3本の線が表示されます。ipexampleインスタンス・プールでさらにフィルタ処理されると、チャートに2つの線が表示されます。
問合せでメトリック・ストリームを選択するには、メトリックをフィルタするディメンションの選択問合せのディメンションの選択およびアラーム問合せのディメンションの選択を参照してください。
メトリック・ストリーム当たりの通知のアラームを設定するには、メトリック・ストリーム別にメッセージを分割するアラームの作成およびシナリオ: メトリック・ストリーム別のメッセージの分割を参照してください。
通知宛先
アラームが別の状態に遷移する(OKからFIRINGなど)ときのメッセージ送信の詳細。詳細と設定は、宛先サービスによって異なる場合があります。使用可能な宛先サービスには、通知およびストリーミングが含まれます。
通知サービスには、トピックを指定します。(アラームのトピックを作成する場合は、1つ以上のサブスクリプション・プロトコル(PagerDutyなど)も指定します。
ストリーミング・サービスには、ストリームを指定します。
トピックおよびストリームに送信されるアラーム・メッセージの例については、アラーム・メッセージの例を参照してください。
通知宛先をアラームに設定するには、「アラームの通知の定義」を参照してください。
Oracle Cloud Agentソフトウェア
RAWデータ・ポイントモニタリング・サービスにポストするためにコンピュート・インスタンスで使用されるソフトウェア。サポートされているイメージの最新バージョンで自動的にインストールされます。コンピュート・インスタンスのモニタリングの有効化を参照してください。
query
集計データを返すために評価するMonitoring Query Language (MQL)式および関連情報(メトリック・ネームスペースなど)。問合せには、メトリック統計および間隔を指定する必要があります。
メトリック問合せを作成するには、問合せの作成を参照してください。
アラーム問合せを作成するには、アラーム・メトリック・チャートを生成するための基本問合せの作成を参照してください。
レゾリューション

時間ウィンドウ間の期間、または時間ウィンドウが移動する際の規則性。たとえば、1mのレゾリューションを使用すると、1分ごとに集計が取得されます。

ノート

メトリック問合せの場合、選択した間隔によってリクエストのデフォルトのレゾリューションが決定されます。これにより、返されるデータの最大時間範囲が決定されます。

アラームの問合せの場合、指定した間隔はリクエストのレゾリューションに影響しません。アラーム問合せリクエストのレゾリューションで有効な値は、1mのみです。アラーム問合せに使用されるレゾリューションのパラメータの詳細は、アラームを参照してください。

次の図に示すように、レゾリューションは前のウィンドウに対する各集計ウィンドウの開始時間を制御しますが、間隔はウィンドウの長さを制御します。両方のリクエストは、(間隔からの) 5分間の各ウィンドウ内のデータに統計maxを適用し、そのウィンドウで最も高いCPUutilizationカウンタを表す単一の集計データ・ポイントを生成します。レゾリューションの値のみが異なります。このレゾリューションによって、集計ウィンドウが移動する規則性、または連続する集計ウィンドウの開始時間が変更されます。リクエストAは解決を指定しないため、間隔と同じデフォルト値(5分)を使用します。このリクエストの5分間の集計ウィンドウは、0:nから5:00、5:nから10:00などから発行されたデータ・ポイントのセットから取得されます。リクエストBは1分のレゾリューションを指定しているため、その5分間の集計ウィンドウは、0:nから5:00、1:nから6:00などから1分ごとに発行されるデータ・ポイントのセットから取得されます。

この図は、レゾリューションに従って集計ウィンドウがどのように開始されるかを示しています。

間隔とは異なるデフォルト以外の解像度を指定するには、問合せのデフォルト以外の解像度の選択およびアラームの作成を参照してください。

リソース・グループ
フィルタまたは結果の集計に使用できるカスタム・メトリックで提供されるカスタム文字列。リソース・グループは、ポストされたメトリックの定義内に存在する必要があります。メトリックごとに適用できるリソース・グループは1つのみです。
問合せでリソース・グループを選択するには、問合せでのリソース・グループの選択を参照してください。
アラーム問合せでリソース・グループを選択するには、アラーム問合せでのリソース・グループの選択を参照してください。
統計
rawデータ・ポイントのセットに適用される集計関数。
メトリック・チャートまたは問合せの統計を選択するには、デフォルト・メトリック・チャートの統計の変更および問合せの統計の選択を参照してください。
アラーム問合せの統計を選択するには、アラーム問合せの統計の選択を参照してください。
suppression
指定した時間範囲内にメッセージの公開を停止するための構成。システムの保守中にアラーム通知を一時停止するのに役立ちます。
アラームを抑制するには、アラーム全体の抑制の追加を参照してください。
時間範囲
必要なメトリック・データの境界(タイムスタンプ)。たとえば、過去1時間などです。
メトリック・チャートまたはメトリック・チャートの時間範囲を選択するには、デフォルト・メトリック・チャートの時間範囲の変更カスタム・メトリック・チャートの時間範囲の変更および問合せのデフォルト以外の時間範囲の選択を参照してください。
トリガー・ルール
アラームを起動状態にするために満たす必要がある条件。トリガー・ルールは、メトリックのしきい値または不在に基づきます。
アラームにトリガー・ルールを設定するには、アラームへのトリガー・ルールの追加を参照してください。

可用性

モニタリング・サービスは、すべてのOracle Cloud Infrastructure商用リージョンで使用できます。使用可能なリージョンのリストと、関連する場所、リージョン識別子、リージョン・キーおよび可用性ドメインは、リージョンおよび可用性ドメインについてを参照してください。

サポートされているサービス

次のサービスには、モニタリングにメトリックを発行できるリソースまたはコンポーネントが含まれます。

リソース識別子

ほとんどのタイプのOracle Cloud Infrastructureリソースには、Oracle Cloud ID (OCID)と呼ばれるOracleによって割り当てられた一意の識別子があります。OCIDのフォーマットおよびその他のリソース識別方法の詳細は、リソース識別子を参照してください。リソース識別子を参照してください。

ノート

メトリック・リソースにはOCIDs がありません。

モニタリングにアクセスする方法

Oracle Cloud Infrastructure (OCI)には、コンソール(ブラウザベースのインタフェース)、REST APIまたはOCI CLIを使用してアクセスできます。 コンソール、APIおよびCLIの使用手順は、このドキュメント全体のトピックに記載されています。使用可能なSDKのリストは、ソフトウェア開発キットとコマンドライン・インタフェースを参照してください。

コンソール: コンソールを使用してモニタリングにアクセスするには、サポートされているブラウザを使用する必要があります。コンソールのサインイン・ページに移動するには、このページの上部にあるナビゲーション・メニューを開き、「Infrastructureコンソール」をクリックします。クラウド・テナント、ユーザー名およびパスワードの入力を求められます。ナビゲーション・メニューを開き、「監視および管理」をクリックします。「モニタリング」で、「サービス・メトリック」をクリックします。

API: APIを介してモニタリングにアクセスするには、メトリックおよびアラームにモニタリングAPIを使用し、通知に通知APIを使用します(アラームと使用)。

CLI: モニタリングのコマンドライン・リファレンスおよび通知のコマンドライン・リファレンスを参照してください。

認証と認可

Oracle Cloud Infrastructureの各サービスは、すべてのインタフェース(コンソール、SDKまたはCLI、およびREST API)の認証および認可のためにIAMと統合されています。

組織の管理者は、どのユーザーがどのサービスとリソースにアクセスできるか、およびアクセスのタイプを制御する、グループコンパートメントおよびポリシーを設定する必要があります。たとえば、ポリシーは、新規ユーザーの作成、クラウド・ネットワークの作成と管理、インスタンスの起動、バケットの作成、オブジェクトのダウンロードなどを実行できるユーザーを制御します。詳細は、ポリシーの開始を参照してください。異なる各サービスに対するポリシーの記述の詳細は、ポリシー・リファレンスを参照してください。

会社が所有するOracle Cloud Infrastructureリソースを使用する必要がある通常のユーザー(管理者ではない)の場合は、ユーザーIDを設定するよう管理者に連絡してください。管理者は、使用する必要があるコンパートメントを確認できます。

モニタリングのユーザー認可の詳細は、「IAMポリシー」を参照してください。

管理者: グループにメトリックへのアクセス権を付与する共通ポリシーについては、グループのメトリック・アクセスを参照してください。共通アラーム・ポリシーについては、グループのアラーム・アクセスを参照してください。インスタンスなどのリソースを認可してAPIコールを実行するには、リソースを動的グループに追加します。動的グループの照合ルールを使用してリソースを追加してから、メトリックへの動的グループ・アクセスを可能にするポリシーを作成します。リソースのメトリック・アクセスを参照してください。

モニタリングの制限

適用可能な制限の一覧と制限の引上げをリクエストする手順は、モニタリング制限を参照してください。

その他の制限は次のとおりです。

ストレージの制限

項目 格納された時間範囲
メトリックの定義 90日
アラーム履歴エントリ 90日

アラーム・メッセージの制限

アラーム評価当たりの最大メッセージ数は、アラームの宛先によって異なります。制限は、宛先に使用されるOracle Cloud Infrastructureサービスに関連付けられています。

モニタリングは、条件を満たすイベントについて、アラーム当たり200,000のメトリック・ストリームをトラッキングします。アラーム評価の詳細は、このページのアラーム評価を参照してください。

アラームの宛先 配信 評価当たりの最大アラーム・メッセージ数
トピック(通知) 少なくとも1回 60
ストリーム(ストリーミング) 少なくとも1回 100,000

たとえば、トピックを宛先として使用して、200個のメトリック・ストリーム間で通知を分割するアラームの次の評価を考えてみます。

アラーム評価(時間) メトリック・ストリーム遷移 生成済メッセージ 送信済メッセージ 削除済メッセージ
00:01:00 110個のメトリック・ストリームがOKからFIRINGに移行します。 110 60 50
00:02:00 90個のメトリック・ストリームがOKからFIRINGに移行します。 90 60 30

トピックまたはストリームが過剰に使用されると、アラーム通知が遅延する可能性があります。複数のリソースがそのトピックまたはストリームを使用している場合に、過剰使用が発生する可能性があります。

制限内で作業するためのベスト・プラクティス

大量のアラーム通知が予想される場合は、次のベスト・プラクティスに従って、アラーム・メッセージ制限の超過および関連する遅延を防止してください。

  • 大量のアラームで使用する単一のトピックまたはストリームを予約します。複数の大量アラームには、1つのトピックまたはストリームを使用しないでください。
  • 1分当たり60を超えるメッセージが予想される場合は、アラームの宛先としてストリーミングを指定します。
  • ストリーム:
    • 予想される負荷に基づいてパーティションを作成します。 ストリーミング・リソースの制限 を参照してください。
    • アラーム・メッセージがストリーム領域を超える場合は、より多くのパーティションを持つ別のストリームを使用するようにアラームを更新します。たとえば、元のストリームに5個のパーティションが含まれている場合は、10個のパーティションを含むストリームを作成してから、新しいストリームを使用するようにアラームを更新します。
      ノート

      メッセージが欠落しないようにするには、メッセージを受信しなくなるまで元のストリームを消費し続けます。
  • テナンシの制限を増やす:

セキュリティ

このトピックでは、モニタリングのセキュリティについて説明します。

セキュリティ情報や推奨事項など、モニタリングを保護する方法の詳細は、モニタリングの保護を参照してください。