モニタリングの概要

Oracle Cloud Infrastructure Monitoringサービスを使用して、メトリックおよびアラーム機能を使用してクラウド・リソースをアクティブまたはパッシブに監視します。モニタリングの動作について学習します。

この図は、モニタリング・サービスで使用されるメトリックおよびアラームを示しています。

ヒント

サービスの概要ビデオを視聴してください。

モニタリングの動作

モニタリング・サービスは、メトリックを使用してリソースおよびアラームをモニターし、これらのメトリックがアラームで指定されたトリガーを満たしたときに通知を行います。

メトリックは、モニタリング・サービスに対し、Rawデータ・ポイントまたはタイムスタンプ/値ペアとして、ディメンションおよびメタデータとともに発行されます。メトリックは様々なソースから取得されます:

メトリックをモニタリング・サービスから転送するには、コネクタ・ハブを使用します。詳細は、「モニタリング・ソースを使用したコネクタの作成」を参照してください。

モニタリング・サービスにポストされるメトリック・データは、メトリック・データの使用を有効にするOracle Cloud Infrastructureの機能によってのみ、表示または使用されます。

メトリックを問い合せると、モニタリング・サービスは指定されたパラメータに従って集計データを返します。範囲(過去24時間など)、統計および間隔を指定できます。コンソールには、選択したリソースのメトリックごとに1つのモニタリング・グラフが表示されます。各チャートの集計データには、選択した統計および間隔が反映されます。APIリクエストは、必要に応じてディメンションでフィルタリングし、レゾリューションを指定できます。APIレスポンスには、メトリック名とともにソースのコンパートメントとメトリック・ネームスペースが含まれます。集計されたデータをビジュアライゼーションまたはグラフ化ライブラリにフィードできます。

メトリックおよびアラームのデータには、コンソール、CLIおよびAPIからアクセスできます。保持期間については、ストレージの制限を参照してください。

モニタリング・サービスのアラーム機能は、通知のトピックやストリーミングのストリームなど、構成された宛先にアラーム・メッセージを公開します。

メトリック機能の概要

メトリック機能は、クラウド・リソースのヘルス、容量およびパフォーマンスに関するメトリック・データをリレーします。

メトリックとは、リソースのヘルス、容量またはパフォーマンスに関連する測定値です。リソース、サービス、およびアプリケーションが、モニタリング・サービスにメトリックを発行します。共通メトリックには、次に関連したデータが反映されます:

  • 可用性および待機時間
  • アプリケーションの稼働時間と停止時間
  • 完了済トランザクション
  • 失敗した操作と成功した操作
  • 売上数量やエンゲージメント数量などのキー・パフォーマンス・インジケータ(KPI)

このデータのモニタリングを問い合せることで、顧客にコミットしているサービス・レベルを達成するために、システムとプロセスがどの程度機能しているかを理解できます。たとえば、コンピュート・インスタンスのCPU使用率およびディスク読取りを監視できます。その後、このデータを使用して、増加したロードの処理、インスタンスの問題のトラブルシューティングまたはシステム動作のより適切な理解のために、さらにインスタンスをプロビジョニングするタイミングを決定できます。

メトリックの例: 失敗率

アプリケーション・ヘルスの場合、一般的なKPIの1つが失敗率で、共通の定義は、失敗したトランザクションの数を合計トランザクション数で割ったものです。通常、このKPIはアプリケーションのモニタリングおよび管理ソフトウェアを通じて提供されます。

開発者は、カスタム・メトリックを使用して、アプリケーションからこのKPIを取得できます。アプリケーション・トランザクションが発生するたびに観測データを記録し、そのデータをモニタリング・サービスにポストするだけです。この場合、失敗したトランザクション、成功したトランザクションおよびトランザクション待機時間(完了したトランザクションごとに費やされた時間)を取得するようにメトリックを設定します。

アラーム機能の概要

アラームを使用して、クラウド・リソースのヘルス、容量およびパフォーマンスをモニターします。

リソースはメトリック・データ・ポイントをモニタリングに発行します。トリガーされると、アラームは構成済の宛先にメッセージを送信します。通知の場合、メッセージは、構成済トピックのサブスクリプションに送信されます。ストリーミングの場合、メッセージは構成済ストリームに送信されます)。

モニタリング・サービスのアラーム機能は、構成された宛先サービスと連携し、メトリックがアラーム指定のトリガーを満たしたときに通知されます。前の図は、メトリックデータ・ポイントモニタリングに発行するリソースから始まるフローを示しています。トリガーされると、アラームアラーム・メッセージを構成済の宛先に送信します。通知の場合、メッセージは構成済トピックのサブスクリプションに送信されます。ストリーミングの場合、メッセージは構成されたストリームに送信されます。(この図では、RAWおよび集計メトリック・データは説明していません。これらの詳細は、このページの上部にある「モニタリングの概要」の図を参照してください。)

構成すると、繰返し通知により継続的に起動状態であることが構成した繰返し間隔で通知されます。アラームがOK状態に戻ったとき、またはアラームがリセットされたときにも通知されます。

アラーム評価

モニタリングは、アラームのステータスを判断するために、1分間に1回アラームを評価します。

アラームが通知を分割すると、モニタリングトラッキングされた各メトリック・ストリームを評価します。そのメトリック・ストリームの評価が新しいFIRINGステータスまたはその他の条件を満たすイベントを示している場合、モニタリングはアラーム・メッセージを送信します。

モニタリングは、適格なイベントについてアラーム当たりのメトリック・ストリームを追跡しますが、メッセージは宛先サービス制限の対象となります。

アラーム評価の図

メトリックCpuUtilizationの90パーセンタイルを測定するアラームについて考えてみます。

{
  "compartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "destinations": ["ocid1.onstopic.exampleuniqueID"],
  "displayName": "High CPU Utilization",
  "id": "ocid1.alarm.oc1..exampleuniqueID",
  "lifecycleState": "ACTIVE",
  "metricCompartmentId": "ocid1.compartment.oc1..exampleuniqueID",
  "namespace": "oci_computeagent",
  "pendingDuration": "PT3M",
  "query": "CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85",
  "repeatNotificationDuration": "PT2H",
  "severity": "WARNING",
  "isEnabled": true,
  "timeCreated": "2023-02-01T01:02:29.600Z",
  "timeUpdated": "2023-02-03T01:02:29.600Z"
}

このアラームの例についてのノート:

  • パーセンタイルは、問合せで統計(太字)として指定されます。
    CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
  • 各データ・ポイントは、問合せで間隔(太字)として指定される1分間のウィンドウの90パーセンタイル(percentile(0.9))です。
    CpuUtilization[1m]{availabilityDomain = \"cumS:PHX-AD-1\"}.groupBy(availabilityDomain).percentile(0.9) > 85
  • この統計のデータ・ポイント値は、null (存在しない)から100までのいずれかです。
  • データ・ポイント評価:
    • 85より大きいデータ・ポイント値の場合、評価はtrue (1)です。true評価は、トリガー・ルール条件が満たされたことを意味します。
    • 85以下のデータ・ポイント値の場合、評価はfalse (0)です。
  • アラームは、トリガー・ルール条件が3分間連続して満たされるまで起動しません。この構成は、アラームのトリガー遅延(pendingDuration)で、PT3Mとして設定されます。
  • 違反状態が直近でクリアされると、アラームの状態は「OK」に更新されます。

次の図は、アラーム例の集計メトリック・ストリームを示しています。各データ・ポイントは正方形で示されます。


アラーム例の集計メトリック・ストリーム。

次の表に、アラーム例の連続したアラーム評価を示します。アラームは、3分間隔の移動ウィンドウで評価されます。

評価期間タイムスタンプ 期間内の分数 データ・ポイント評価* ステータス
3 [1, 2, 3] [0, 0, 0] 結構です
4 [2, 3, 4] [0, 0, 1] 結構です
5 [3, 4, 5] [0, 1, 1] 結構です
6 [4, 5, 6] [1, 1, 1] 起動
7 [5, 6, 7] [1, 1, 1] 起動
8 [6, 7, 8] [1, 1, 0] 結構です
9 [7, 8, 9] [1, 0, 0] 結構です
10 [8, 9, 10] [0, 0, 0] 結構です

*値1は、トリガー・ルール条件が満たされることを意味します。

内部リセット期間について

内部リセット期間は、アラームが、前の評価で起動状態をトリガーした不在メトリックのチェックを停止するタイミングを決定します。メトリックが期間全体に存在しない場合、後続のアラーム評価では、示されたメトリック・ストリームは無視されます。アラームの起動状態を引き起こすメトリック・ストリームが他にない場合、アラームはOKに遷移し、RESETメッセージを送信します。RESETメッセージは13分後に届きます(内部リセット期間と3分のスラック期間)。

内部リセット期間の長さは10分でグローバルに構成されるため、アラーム履歴に10分の差が表示されます。

内部リセット期間の開始は、アラームのタイプによって異なります。しきい値アラームの場合、最初の不在が検出されると、内部リセット期間が開始されます。休暇欠勤アラームの場合、内部リセット期間は休暇欠勤検出期間(2時間)の完了後に開始されます。

内部リセット期間中に収集されるデータ・ポイント

10分間の内部リセット期間中の各評価では、その期間内のすべてのデータ・ポイントが考慮されます。

たとえば、しきい値(次の図では赤色の破線)を超えるメトリック・ストリーム(A)を考えてみます。アラームが起動します(F)。放出されたデータ・ポイントがないことが検出されると、内部リセット期間が開始されます。

次の図は、t5からt15までのメトリック・ストリームAの単一の内部リセット期間を示しています。t16の時点で、メトリック・ストリームAは評価されなくなります。

単一の内部リセット期間を示す図。

次の図は、メトリック・ストリームAの2つの内部リセット期間(t3からt5t6からt16)を示しています。Aは、t6にデータ・ポイントを発行し、別の内部リセット期間を開始します。t17の時点で、メトリック・ストリームAは評価されなくなります。

2つの内部リセット期間を示す図。
しきい値アラームの例

しきい値アラームは、しきい値外で発生したメトリック・ストリームについてレポートします。以前に問題があったメトリック・ストリームがない場合、アラームはメトリック・ストリームの内部リセット期間を開始します。

この例では、4つのメトリック・ストリームがしきい値アラームによって評価されます。コンソールには、初期起動(1:30)およびOK (1:51)遷移状態が表示されます。アラームが起動状態のときに内部リセット期間が発生します。

4つのメトリック・ストリームがあるしきい値アラームの例。

次の表では、この例の内部リセット期間およびその他の重要なイベントについて説明します。

時間 状態 遷移 イベント 通知(メッセージ・タイプを参照)
12:00 結構です 結構です すべての排出量はしきい値内です。 FIRING_TO_OK
1:30 起動 起動 resource1からの排出がしきい値を超えています。 OK_TO_FIRING
1:35 起動 -- resource1に対するエミッションは検出されません。アラームは、resource1の内部リセット期間を開始します。 --
1:38 起動 -- resource2に対するエミッションは検出されません。アラームは、resource2の内部リセット期間を開始します。 --
1:45 起動 -- 内部リセット期間はresource1で終了するため、アラームはresource1からの排出をチェックしなくなります。ただし、resource2はまだ独自の内部リセット期間内にあるため、アラームは起動し続けます。 --
1:48 結構です 結構です 内部リセット期間はresource2で終了するため、アラームはresource2からの排出をチェックしなくなります。残りのリソース(resource3およびresource4)からの排出量はしきい値内です。 RESET (3分間の余裕期間、約1:51に送信)
休暇欠勤アラームの例

不在アラームは、不在メトリック・ストリームについてレポートします。メトリック・ストリームがない場合、アラームはメトリック・ストリームの2時間の不在検出期間を開始します。休暇欠勤検出期間の完了後、アラームによってメトリック・ストリームの内部リセット期間が開始されます。

この例では、メトリック・ストリームは不在アラームによって評価されます。コンソールには、初期起動(2:00)およびOK (4:10)遷移状態が表示されます。アラームが起動状態のときに内部リセット期間が発生します。

単一のメトリック・ストリームを含む不在アラームの例。

次の表では、この例の内部リセット期間およびその他の重要なイベントについて説明します。

時間 状態 遷移 イベント 通知(メッセージ・タイプを参照)
1:00 結構です -- 排出が検出されました。
2:00 起動 起動 resource-zのエミッションは検出されません。アラームはresource-zの休暇欠勤検出期間を開始します。 OK_TO_FIRING
4:00 起動 -- resource-zの休暇欠勤検出期間が終了します。アラームはresource-zの内部リセット期間を開始します。 --
4:10 結構です 結構です 内部リセット期間はresource-zで終了するため、アラームはresource-zからの放出をチェックしなくなります。メトリック・ストリームはアラームによって監視されないため、アラームはOK状態に遷移します。 RESET (3分間の余裕期間、約4:13に送信)

アラームの更新を反映するために必要な時間

アラームの更新には、すべての場所で反映されるまでに最大5分かかります。

たとえば、アラームを分割通知に更新する場合、メトリック・ストリーム・ステータスコンソールに移入されるまで最大5分かかることがあります。

アラームの検索

サポートされている属性を使用してアラームを検索します。

検索の詳細は、検索の概要を参照してください。属性の詳細は、アラーム・リファレンスを参照してください。

アラームの検索対応の属性
  • id

  • displayName

  • compartmentId

  • metricCompartmentId

  • namespace

  • query

  • severity

  • destinations

  • suppression

  • isEnabled

  • lifecycleState

  • timeCreated

  • timeUpdated

  • tags

メッセージ・タイプ

メッセージ・タイプは、メッセージが送信された理由を示します。

ノート

指定されたメッセージタイプは、指定された時間にアラームの構成済みトリガー遅延(存在する場合)を加えて送信されます。

アラームで構成されている場合は、繰り返しメッセージも送信されます。

次の表に、メッセージタイプごとのアラーム状態と遷移を示します。

メッセージ・タイプ 状態 遷移 コメント
OK_TO_FIRING FIRING OKからFIRING
FIRING_TO_OK OK FIRINGからOK
REPEAT FIRING -- このメッセージ・タイプは、アラームがFIRING状態を維持し、アラームが繰返し通知用に構成されると送信されます。
RESET OK FIRINGからOK

重要: RESETステータスの変更が発生した場合は、リソースのヘルス状態を判断してください。

このメッセージ・タイプは、1つ以上の内部リセットの後にアラームがOK状態に遷移したときに送信されます。内部リセットは、以前にアラームをFIRING状態に遷移させたメトリック・ストリームが、内部リセット期間全体にわたって継続的に存在していない場合に発生します。内部的にリセットされたメトリック・ストリームは、アラームによって追跡されなくなります。

存在しないメトリック・ストリームの考えられる原因: メトリックを発行したリソースが移動または終了したか、失敗時にのみメトリックが発行される可能性があります。内部リセット期間の詳細は、「内部リセット期間について」を参照してください。

モニタリングの概念

モニタリングを作業するには、次の概念が必要です。

集計データ
メトリックのRAWデータ・ポイントの選択に統計および間隔を適用した結果。たとえば、メトリックCpuUtilizationのRAWデータ・ポイントの最後の24時間に統計maxおよび間隔1h (1時間)を適用できます。集計されたデータは、コンソールのデフォルトのメトリック・チャートに表示されます。集計データの特定のセットに対してメトリック問合せを作成することもできます。手順については、デフォルトのメトリック・チャートの表示およびメトリック問合せの作成を参照してください。
アラーム
評価されるアラーム問合せ、およびアラームが起動状態にあるときに、その他のアラーム・プロパティとともに使用される通知宛先
アラームを作成するには、基本アラームの作成を参照してください。
アラーム問合せ
アラームを評価するMonitoring Query Language (MQL)式。アラームの問合せは、メトリック統計間隔およびトリガー・ルール(しきい値または不在)を指定する必要があります。モニタリング・サービスのアラーム機能は、返された各時系列の結果をブール値として解釈します。0はfalse、0以外の値はtrueを表します。true値は、トリガー・ルール条件が満たされたことを意味します。
基本的なアラーム問合せを作成するには、「アラーム・メトリック・チャートを生成するための基本問合せの作成」を参照してください。アラームを作成するには、基本アラームの作成を参照してください。
データ・ポイント
指定されたメトリックのタイムスタンプ/値ペア。例: 2022-05-10T22:19:00Z, 10.4
データ・ポイントはRawまたは集計のいずれかです。Rawデータ・ポイントは、PostMetricData操作を使用してメトリック・ネームスペースによりモニタリング・サービスにポストされます。ポストされるデータ・ポイントの頻度は、メトリック・ネームスペースによって異なります。たとえば、カスタム・ネームスペースは、メトリックのデータ・ポイントを20秒の頻度で送信する場合があります。
集計されたデータ・ポイントは、統計および間隔をRawデータ・ポイントに適用した結果です。集計データ・ポイントの間隔は、SummarizeMetricsDataリクエストによって決まります。たとえば、統計sumおよび間隔1h (1時間)を指定するリクエストは、メトリックの使用可能なRAWデータ・ポイントの時間ごとにsum値を返します。
ディメンション
メトリック定義で指定される修飾子。例: oci_computeagentメトリックの定義で指定されるリソース識別子(resourceId)。ディメンションを使用してメトリック・データをフィルタ処理またはグループ化します。可用性ドメインでフィルタ処理するためのディメンション名/値ペアの例: availabilityDomain = "VeBZ:PHX-AD-1"
メトリック・チャートまたは問合せのディメンションを選択するには、メトリックをフィルタするディメンションの選択および問合せのディメンションの選択を参照してください。
アラームの間隔を選択するには、アラーム問合せの間隔の選択を参照してください。
頻度
メトリックに対してポストされた各RAWデータ・ポイント間の期間。(RAWデータ・ポイントは、メトリック・ネームスペースによってモニタリング・サービスにポストされます。)頻度はメトリックによって異なりますが、デフォルトのサービス・メトリックの頻度は通常60秒です(1分当たりに1つのデータ・ポイントがポストされます)。レゾリューションも参照してください。
間隔
RAWデータ・ポイントのセットを変換するために使用される時間ウィンドウ。
集計されたデータ・ポイントのタイムスタンプは、Rawデータ・ポイントが評価される時間ウィンドウの終わりに対応します。たとえば、5分間隔では、タイムスタンプ「2:05」は2:00:nから2:05:00までの5分間の時間ウィンドウに対応します。
この図は、集計データ・ポイントのタイムスタンプが間隔にどのように対応するかを示しています。
次の問合せの例(MQL式)では、5分間隔を指定します。MQL式の有効な間隔オプションについては、Interval (Monitoring Query Language (MQL)リファレンス)を参照してください。
CpuUtilization[5m].max()
ノート

間隔でサポートされる値は、メトリック問合せで指定された時間範囲によって異なります(アラーム問合せには適用されません)。時間範囲が小さくなるほど、多くの間隔値がサポートされます。たとえば、時間範囲に1時間を選択すると、すべての間隔値がサポートされます。時間範囲に90日を選択した場合、1時間から1日の間の間隔値のみがサポートされます。
メトリック・チャートまたは問合せの間隔を選択するには、デフォルトのメトリック・チャートの間隔の変更および問合せの間隔の選択を参照してください。
アラームの間隔を選択するには、アラーム問合せの間隔の選択を参照してください。
レゾリューションも参照してください。
メッセージ
モニタリング・サービスのアラーム機能がアラームの構成済通知宛先のトピックに公開する内容。アラームが別の状態に遷移する(OKからFIRINGなど)と、メッセージが送信されます。
アラームメッセージの詳細は、「メッセージの書式と例」を参照してください。
メタデータ
メトリック定義で指定される参照。例: oci_computeagentメトリック DiskBytesReadの定義で指定された単位(バイト)。メタデータを使用して、メトリックに関する追加情報を確認します。メトリックの定義は、サポートされているサービスを参照してください。
メトリック
リソースのヘルス、容量またはパフォーマンスに関連する測定。例: コンピュート・インスタンスの使用状況を測定するoci_computeagent メトリック CpuUtilization。メトリックの定義は、サポートされているサービスを参照してください。
ノート

メトリック・リソースにはOCIDs がありません。
メトリック定義
メトリックメトリック・ネームスペースによって提供される参照、修飾子およびその他の情報のセット。たとえば、oci_computeagentメトリックDiskBytesReadは、ディメンション(リソース識別子など)とメタデータ(単位のバイトを指定)およびそのメトリック・ネームスペース(oci_computeagent)の識別によって定義されます。ポストされた各データ・ポイント・セットには、この情報が送信されます。ListMetricData API操作を使用してメトリック定義を取得します。メトリックの定義は、サポートされているサービスを参照してください。
問合せのメトリック名を選択するには、問合せのメトリック名の選択を参照してください。
アラームのメトリック名を選択するには、アラーム・メトリック・チャートを生成するための基本問合せの作成および基本アラームの作成を参照してください。
メトリック・ネームスペース
メトリックを発行するリソース、サービスまたはアプリケーションのインジケータ。メトリック定義で指定されます。たとえば、コンピュート・インスタンスOracle Cloud Agentソフトウェアによって発行されたCpuUtilizationメトリック定義には、メトリック・ネームスペースoci_computeagentCpuUtilizationメトリックのソースとしてリストされます。メトリックの定義は、サポートされているサービスを参照してください。
メトリック・チャートまたは問合せのメトリック・ネームスペースを選択するには、メトリック・ネームスペースのデフォルト・メトリック・チャートの表示(複数リソース)および問合せのメトリック・ネームスペースの選択を参照してください。
アラームのメトリック・ネームスペースを選択するには、アラーム・メトリック・チャートを生成するための基本問合せの作成および基本アラームの作成を参照してください。
メトリック・ストリーム
メトリックおよびゼロ以上のディメンション値集計データの個別のセット。
メトリック・ストリームのステータス・ページでは、各メトリック・ストリームはディメンションのキーと値のペアのセットに対応します。
メトリック・チャート(コンソール内)では、各メトリック・ストリームが線で示されます(すべてのメトリック・ストリームを集計しないかぎり)。
次の図は、チャート内のメトリック・ストリームを示しています。チャートの各線は、メトリック・ストリームに対応します。
この図は、チャート内のメトリック・ストリームを示しています。チャートの各線は、メトリック・ストリームに対応します。
たとえば、AD-1可用性ドメインに3つのコンピュート・インスタンス(ipexampleインスタンス・プールに2つを含む)を含み、AD-2可用性ドメインに4番目のインスタンスを含むコンパートメントがあるとします。この例では、「CPU使用率」メトリック・チャートに4行(インスタンスごとに1行)が表示されています。AD-1可用性ドメインでフィルタされると、チャートに3行が表示されます。ipexampleインスタンス・プールでさらにフィルタすると、チャートに2つの線が表示されます。
問合せでメトリック・ストリームを選択するには、メトリックをフィルタするディメンションの選択問合せのディメンションの選択およびアラーム問合せのディメンションの選択を参照してください。
メトリック・ストリームごとの通知のアラームを設定するには、メトリック・ストリーム別にメッセージを分割するアラームの作成およびシナリオ: メトリック・ストリーム別のメッセージの分割を参照してください。
通知宛先
アラームが別の状態に遷移するときのメッセージの送信の詳細(OKからFIRINGなど)。詳細と設定は、宛先サービスによって異なる場合があります。使用可能な宛先サービスには、通知およびストリーミングが含まれます。
通知サービスには、トピックを指定します。(アラームのトピックを作成する場合は、1つ以上のサブスクリプション・プロトコル(PagerDutyなど)も指定します。
ストリーミング・サービスには、ストリームを指定します。
トピックおよびストリームに送信されるアラームメッセージの例については、Example Alarm Messagesを参照してください。
通知の宛先をアラームに設定するには、アラームの通知の定義を参照してください。
Oracle Cloud Agentソフトウェア
コンピュート・インスタンスでRAWデータ・ポイントモニタリング・サービスにポストするために使用するソフトウェア。サポートされているイメージの最新バージョンで自動的にインストールされます。コンピュート・インスタンスのモニタリングの有効化を参照してください。
query
集計データを返すために評価するMonitoring Query Language (MQL)式および関連情報(メトリック・ネームスペースなど)。問合せには、メトリック統計および間隔を指定する必要があります。
メトリック問合せを作成するには、問合せの作成を参照してください。
アラーム問合せを作成するには、アラーム・メトリック・チャートを生成するための基本問合せの作成を参照してください。
レゾリューション

時間ウィンドウ間の期間、または時間ウィンドウが移動する際の規則性。たとえば、1mのレゾリューションを使用すると、1分ごとに集計が取得されます。

ノート

メトリック問合せの場合、選択した間隔によって、返されるデータの最大時間範囲を決定するリクエストのデフォルト・解決が決定されます。

アラームの問合せの場合、指定した間隔はリクエストのレゾリューションに影響しません。アラーム問合せリクエストのレゾリューションで有効な値は、1mのみです。アラーム問合せに使用されるレゾリューションのパラメータの詳細は、アラームを参照してください。

次の図に示すように、レゾリューションは前のウィンドウに対する各集計ウィンドウの開始時間を制御しますが、間隔はウィンドウの長さを制御します。両方のリクエストは、(間隔からの) 5分間の各ウィンドウ内のデータに統計maxを適用し、そのウィンドウで最も高いCPUutilizationカウンタを表す単一の集計データ・ポイントを生成します。レゾリューションの値のみが異なります。このレゾリューションによって、集計ウィンドウが移動する規則性、または連続する集計ウィンドウの開始時間が変更されます。リクエストAは解決を指定しないため、間隔(5分)に等しいデフォルト値を使用します。このリクエストの5分間の集計ウィンドウは、0:nから5:00、5:nから10:00などから発行されたデータ・ポイントのセットから取得されます。リクエストBは1分のレゾリューションを指定しているため、その5分間の集計ウィンドウは、0:nから5:00、1:nから6:00などから1分ごとに発行されるデータ・ポイントのセットから取得されます。

この図は、レゾリューションに従って集計ウィンドウがどのように開始されるかを示しています。

間隔とは異なるデフォルト以外の解決を指定するには、問合せのデフォルト以外の解決の選択およびアラームの作成を参照してください。

リソース・グループ
フィルタまたは結果の集計に使用できるカスタム・メトリックで提供されるカスタム文字列。リソース・グループは、ポストされたメトリックの定義内に存在する必要があります。メトリックごとに適用できるリソース・グループは1つのみです。
問合せでリソース・グループを選択するには、問合せでのリソース・グループの選択を参照してください。
アラーム問合せでリソース・グループを選択するには、アラーム問合せでのリソース・グループの選択を参照してください。
統計
RAWデータ・ポイントのセットに適用される集計関数。
メトリック・チャートまたは問合せの統計を選択するには、デフォルト・メトリック・チャートの統計の変更および問合せの統計の選択を参照してください。
アラーム問合せの統計を選択するには、アラーム問合せの統計の選択を参照してください。
suppression
指定した時間範囲内にメッセージの公開を停止するための構成。システムの保守中にアラーム通知を一時停止するのに役立ちます。
アラームを抑制するには、「アラーム全体の抑制の追加」を参照してください。
時間範囲
必要なメトリック・データの境界(タイムスタンプ)。たとえば、過去1時間などです。
メトリック・チャートまたは問合せの時間範囲を選択するには、デフォルトのメトリック・チャートの時間範囲の変更カスタム・メトリック・チャートの時間範囲の変更および問合せのデフォルト以外の時間範囲の選択を参照してください。
トリガー・ルール
アラームを起動状態にするために満たす必要がある条件。トリガー・ルールは、メトリックのしきい値または不在に基づきます。
アラームにトリガー・ルールを設定するには、アラームへのトリガー・ルールの追加を参照してください。

可用性

モニタリング・サービスは、すべてのOracle Cloud Infrastructure商用リージョンで使用できます。使用可能なリージョンのリストと、関連する場所、リージョン識別子、リージョン・キーおよび可用性ドメインは、リージョンおよび可用性ドメインについてを参照してください。

サポートされているサービス

次のサービスには、モニタリングにメトリックを発行できるリソースまたはコンポーネントが含まれます。

リソース識別子

ほとんどのタイプのOracle Cloud Infrastructureリソースには、Oracle Cloud ID (OCID)と呼ばれるOracleによって割り当てられた一意の識別子があります。OCIDフォーマットおよびリソースを識別するその他の方法の詳細は、リソース識別子を参照してください。リソース識別子を参照してください。

ノート

メトリック・リソースにはOCIDs がありません。

モニタリングにアクセスする方法

Oracle Cloud Infrastructure (OCI)にアクセスするには、コンソール(ブラウザベースのインタフェース)、REST APIまたはOCI CLIを使用します。 コンソール、APIおよびCLIの使用手順は、このドキュメント全体のトピックに含まれています。使用可能なSDKのリストは、ソフトウェア開発キットとコマンドライン・インタフェースを参照してください。

コンソール: コンソールを使用してモニタリングにアクセスするには、サポートされているブラウザを使用する必要があります。コンソールのサインイン・ページに移動するには、このページの上部にあるナビゲーション・メニューを開き、「Infrastructureコンソール」をクリックします。クラウド・テナント、ユーザー名およびパスワードの入力を求められます。ナビゲーション・メニューを開き、「監視および管理」をクリックします。「モニタリング」で、「サービス・メトリック」をクリックします。

API: APIを介してモニタリングにアクセスするには、メトリックおよびアラームにモニタリングAPIを使用し、通知に通知APIを使用します (アラームと使用)。

CLI: モニタリングのコマンドライン・リファレンスおよび通知のコマンドライン・リファレンスを参照してください。

認証と認可

Oracle Cloud Infrastructureの各サービスは、すべてのインタフェース(コンソール、SDKまたはCLI、およびREST API)の認証および認可のためにIAMと統合されています。

組織の管理者は、どのユーザーがどのサービスとリソースにアクセスできるか、およびアクセスのタイプを制御する、グループコンパートメントおよびポリシーを設定する必要があります。たとえば、ポリシーは、新規ユーザーの作成、クラウド・ネットワークの作成と管理、インスタンスの起動、バケットの作成、オブジェクトのダウンロードなどを実行できるユーザーを制御します。詳細は、ポリシーの開始を参照してください。異なる各サービスに対するポリシーの記述の詳細は、ポリシー・リファレンスを参照してください。

会社が所有するOracle Cloud Infrastructureリソースを使用する必要がある通常のユーザー(管理者ではない)の場合は、ユーザーIDを設定するよう管理者に連絡してください。管理者は、使用する必要があるコンパートメントを確認できます。

モニタリングのユーザー認可の詳細は、「IAMポリシー」(モニター)を参照してください。

管理者: グループにメトリックへのアクセス権を付与する共通ポリシーについては、グループのメトリック・アクセスを参照してください。一般的なアラームポリシーについては、Alarm Access for Groupsを参照してください。インスタンスなどのリソースを認可してAPIコールを実行するには、リソースを動的グループに追加します。動的グループの照合ルールを使用してリソースを追加してから、メトリックへの動的グループ・アクセスを可能にするポリシーを作成します。リソースのメトリック・アクセスを参照してください。

モニタリングの制限

適用可能な制限の一覧と制限の引上げをリクエストする手順は、モニタリング制限を参照してください。

その他の制限は次のとおりです。

ストレージの制限

項目 格納された時間範囲
メトリックの定義 90日
アラーム履歴エントリ 90日

アラーム・メッセージの制限

アラーム評価当たりのメッセージの最大数は、アラームの宛先によって異なります。制限は、宛先に使用されるOracle Cloud Infrastructureサービスに関連付けられます。

モニタリングは、条件を満たすイベントについて、アラーム当たり200,000のメトリック・ストリームをトラッキングします。アラーム評価の詳細は、このページのアラーム評価を参照してください。

アラームの宛先 配信 評価当たりの最大アラーム・メッセージ数
トピック(通知) 少なくとも1回 60
ストリーム(ストリーミング) 少なくとも1回 100,000

たとえば、トピックを宛先として使用して、200個のメトリック・ストリーム間で通知を分割するアラームの次の評価を考えてみます。

アラーム評価(時間) メトリック・ストリーム遷移 生成済メッセージ 送信済メッセージ 削除済メッセージ
00:01:00 110個のメトリック・ストリームがOKからFIRINGに移行します。 110 60 50
00:02:00 90個のメトリック・ストリームがOKからFIRINGに移行します。 90 60 30

トピックまたはストリームが過剰に使用されると、アラーム通知が遅延する可能性があります。複数のリソースがそのトピックまたはストリームを使用している場合に、過剰使用が発生する可能性があります。

制限内で作業するためのベスト・プラクティス

大量のアラーム通知が予想される場合は、次のベスト・プラクティスに従って、アラーム・メッセージ制限の超過および関連する遅延を防止してください。

  • 大量のアラームで使用する単一のトピックまたはストリームを予約します。複数の大量アラームには、1つのトピックまたはストリームを使用しないでください。
  • 1分当たり60を超えるメッセージが予想される場合は、アラームの宛先としてストリーミングを指定します。
  • ストリーム:
    • 予想される負荷に基づいてパーティションを作成します。 ストリーミング・リソースの制限 を参照してください。
    • アラーム・メッセージがストリーム領域を超える場合は、より多くのパーティションを持つ別のストリームを使用するようにアラームを更新します。たとえば、元のストリームに5個のパーティションが含まれている場合は、10個のパーティションを含むストリームを作成してから、新しいストリームを使用するようにアラームを更新します。
      ノート

      メッセージが欠落しないようにするには、メッセージを受信しなくなるまで元のストリームを消費し続けます。
  • テナンシの制限を増やす:

セキュリティ

このトピックでは、モニタリングのセキュリティについて説明します。

セキュリティ情報や推奨事項など、モニタリングを保護する方法の詳細は、モニタリングの保護を参照してください。