クラスタ・メトリックの管理

メトリック、アラームおよび通知を使用して、ビッグ・データ・サービス・リソースのヘルス、容量およびパフォーマンスをモニターできます。

必要なIAMポリシー

リソースをモニターするためには、コンソールを使用しているのか、SDK、CLIまたはその他のツールでREST APIを使用しているのかにかかわらず、管理者が作成するポリシーで必要なタイプのアクセス権を持っている必要があります。ポリシーでは、モニタリング・サービスおよびモニター対象のリソースへのアクセス権をユーザーに付与する必要があります。アクションを実行し、権限がない、または認可されていないというメッセージが表示された場合は、付与されているアクセスのタイプと作業するコンパートメントを管理者に確認してください。モニタリングおよび通知のユーザー認可の詳細は、モニタリングおよび通知サービスの認証と認可のセクションを参照してください。

使用可能なメトリック: oci_big_data_service

ビッグ・データ・サービスには、2つのタイプのメトリックを使用できます。

クラスタ・メトリック

クラスタ・メトリックを使用すると、クラスタ・レベルのレポートを取得し、様々な分散キー・パフォーマンス・インジケータを監視できます。

ノード・メトリック

ノード・メトリックを使用すると、ノード・レベルのレポートを取得し、クラスタの個々のノードのステータスをモニターできます。

ビッグ・データ・サービスは、VMSが正常でない場合にメトリックを発行します。たとえば、VMが停止すると1つのメトリックが発行され、VMSが稼働中またはVMがSTOPPED状態の場合、メトリックは発行されません。

ノート

コンピュート・アクションがDISABLEまたはTERMINATEの場合、ビッグ・データ・サービスでは、メトリックを介してDenseIO関連のメンテナンス・イベントは公開されません。
リソース主要メトリック

リソース・プリンシパル・セッション・トークン(RPST)のメトリックは、トークンのライフサイクル、有効性およびリフレッシュ・ステータスをプロアクティブに監視するのに役立ちます。

メトリック・ディメンション

ディメンション 説明
resourceId メトリックに応じて、ビッグ・データ・サービス・ノードまたはクラスタのOCID。
clusterOcid ビッグ・データ・サービス・クラスタのOCID。
clusterName ビッグ・データ・サービス・クラスタの名前。
resourceType BigDataClusterNode (ノード・メトリックの場合)またはBigDataCluster (クラスタ・レベルの場合)。
resourceDisplayName ノード名。クラスタ詳細UIで使用できます。

ビッグ・データ・サービスのメトリックには、次のディメンションがあります:

  • resourceId

    ビッグ・データ・サービス・クラスタのOracle Cloud ID (OCID) (クラスタ・メトリックの場合)

    ビッグ・データ・サービス・ノードのOracle Cloud ID (OCID) (ノード・メトリックの場合)

  • resourceType

    BigDataCluster (クラスタ・メトリックの場合)

    BigDataClusterNode (ノード・メトリックの場合)

  • resourceDisplayName

    このフィールドは、各メトリック・エンティティの一意の識別子として機能します。このフィールドは、クラスタの詳細ページから検索できるノード名です。

MaintenanceStatus固有のディメンション
  • maintenanceDueTime

    24時間メンテナンス・ウィンドウのスケジュールされた開始時間。

  • computeMaintenanceAction

    スケジュールされたメンテナンス中にOracle Cloud Infrastructureがインスタンスに対して実行するアクション。

    • REBOOT: インスタンスは、メンテナンスが必要な物理ホストから正常なホストに移行されます。ライブ移行が可能でない場合、インスタンスは再起動移行されます。
    • REBUILD_IN_PLACE: インスタンスは停止され、同じ物理ハードウェア上に再構築されてから再起動されます。メンテナンス・プロセス中に数時間の停止時間が発生します。
  • recommendedAction

    アプリケーションで停止時間が発生する方法とタイミングを制御するために、スケジュールされたメンテナンス・イベントの前に実行可能なアクション。

次の表にリストされているメトリックは、作成するすべてのクラスタで自動的に使用可能になります。これらのメトリックを取得するためにリソースでモニタリングを有効にする必要はありません。

メトリック メトリック表示名 単位 説明 リソースの種類
HdfsSpaceUsed 使用済HDFS領域 Bytes クラスタで使用されているHDFS領域合計 クラスタ
HdfsSpaceFree HDFS空き領域 Bytes クラスタ上の空きHDFS領域合計 クラスタ
YarnJobsCompleted 完了したYarnジョブ ジョブ/分 このクラスタで完了したYARNジョブの数 クラスタ
SparkJobsCompleted 完了したSparkジョブ ジョブ/分 このクラスタで完了したSparkジョブの数 クラスタ
ServiceCertificateExpiryTime サービス証明書失効時間 クラスタ内の特定のサービス証明書の有効期限が切れるまでの残り日数 クラスタ
CpuUtilization CPU使用率 割合 使用中のCPU率 ノード
DiskUtilization ディスク使用率 Bytes 使用するディスク領域 ノード
MemoryUtilization メモリー使用率 Bytes 使用メモリー合計 ノード
NetworkBytesIn 入力ネットワーク・バイト数 バイト/分 入力ネットワーク・バイト数/分 ノード
NetworkBytesOut 出力ネットワーク・バイト数 バイト/分 出力ネットワーク・バイト数/分 ノード
CertificateExpiryTime 証明書の有効期限 証明書失効までの日数 ノード
MaintenanceStatus メンテナンス・ステータス 0の値は、ノードにスケジュールされたメンテナンス再起動がないことを示します。1の値は、ノードの保守リブートがスケジュールされていることを示します。 ノード
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold トークン失効アラート ブール RPSTトークンが存続期間の80%を超えたかどうかを示します。 BigDataClusterNode
ResourcePrincipalSessionTokenStatus RPSTステータス 件数 1: トークンの有効期限が切れました。2: トークンがありません。0: 正常なトークン。 BigDataClusterNode
ResourcePrincipalTokenRefreshedInLast30Mins トークンのリフレッシュ・ステータス ブール RPSTトークンが過去30分クラスタ・レベルでリフレッシュされたかどうかを示します。 BigDataCluster