クラスタ・メトリックの管理
メトリック、アラームおよび通知を使用して、ビッグ・データ・サービス・リソースのヘルス、容量およびパフォーマンスをモニターできます。
必要なIAMポリシー
リソースをモニターするためには、コンソールを使用しているのか、SDK、CLIまたはその他のツールでREST APIを使用しているのかにかかわらず、管理者が作成するポリシーで必要なタイプのアクセス権を持っている必要があります。ポリシーでは、モニタリング・サービスおよびモニター対象のリソースへのアクセス権をユーザーに付与する必要があります。アクションを実行し、権限がない、または認可されていないというメッセージが表示された場合は、付与されているアクセスのタイプと作業するコンパートメントを管理者に確認してください。モニタリングおよび通知のユーザー認可の詳細は、モニタリングおよび通知サービスの認証と認可のセクションを参照してください。
使用可能なメトリック: oci_big_data_service
ビッグ・データ・サービスには、2つのタイプのメトリックを使用できます。
- クラスタ・メトリック
-
クラスタ・メトリックを使用すると、クラスタ・レベルのレポートを取得し、様々な分散キー・パフォーマンス・インジケータを監視できます。
- ノード・メトリック
-
ノード・メトリックを使用すると、ノード・レベルのレポートを取得し、クラスタの個々のノードのステータスをモニターできます。
ビッグ・データ・サービスは、VMSが正常でない場合にメトリックを発行します。たとえば、VMが停止すると1つのメトリックが発行され、VMSが稼働中またはVMがSTOPPED状態の場合、メトリックは発行されません。
ノート
コンピュート・アクションがDISABLEまたはTERMINATEの場合、ビッグ・データ・サービスでは、メトリックを介してDenseIO関連のメンテナンス・イベントは公開されません。 - リソース主要メトリック
-
リソース・プリンシパル・セッション・トークン(RPST)のメトリックは、トークンのライフサイクル、有効性およびリフレッシュ・ステータスをプロアクティブに監視するのに役立ちます。
メトリック・ディメンション
ディメンション 説明 resourceId メトリックに応じて、ビッグ・データ・サービス・ノードまたはクラスタのOCID。 clusterOcid ビッグ・データ・サービス・クラスタのOCID。 clusterName ビッグ・データ・サービス・クラスタの名前。 resourceType BigDataClusterNode
(ノード・メトリックの場合)またはBigDataCluster
(クラスタ・レベルの場合)。resourceDisplayName ノード名。クラスタ詳細UIで使用できます。
ビッグ・データ・サービスのメトリックには、次のディメンションがあります:
- resourceId
ビッグ・データ・サービス・クラスタのOracle Cloud ID (OCID) (クラスタ・メトリックの場合)
ビッグ・データ・サービス・ノードのOracle Cloud ID (OCID) (ノード・メトリックの場合)
- resourceType
BigDataCluster
(クラスタ・メトリックの場合)BigDataClusterNode
(ノード・メトリックの場合) - resourceDisplayName
このフィールドは、各メトリック・エンティティの一意の識別子として機能します。このフィールドは、クラスタの詳細ページから検索できるノード名です。
- maintenanceDueTime
24時間メンテナンス・ウィンドウのスケジュールされた開始時間。
- computeMaintenanceAction
スケジュールされたメンテナンス中にOracle Cloud Infrastructureがインスタンスに対して実行するアクション。
REBOOT
: インスタンスは、メンテナンスが必要な物理ホストから正常なホストに移行されます。ライブ移行が可能でない場合、インスタンスは再起動移行されます。REBUILD_IN_PLACE
: インスタンスは停止され、同じ物理ハードウェア上に再構築されてから再起動されます。メンテナンス・プロセス中に数時間の停止時間が発生します。
- recommendedAction
アプリケーションで停止時間が発生する方法とタイミングを制御するために、スケジュールされたメンテナンス・イベントの前に実行可能なアクション。
REBOOT
: クラスタ・ノードを再起動できます。「クラスタのノードの再起動」を参照してください。
次の表にリストされているメトリックは、作成するすべてのクラスタで自動的に使用可能になります。これらのメトリックを取得するためにリソースでモニタリングを有効にする必要はありません。
メトリック | メトリック表示名 | 単位 | 説明 | リソースの種類 |
---|---|---|---|---|
HdfsSpaceUsed |
使用済HDFS領域 | Bytes | クラスタで使用されているHDFS領域合計 | クラスタ |
HdfsSpaceFree |
HDFS空き領域 | Bytes | クラスタ上の空きHDFS領域合計 | クラスタ |
YarnJobsCompleted |
完了したYarnジョブ | ジョブ/分 | このクラスタで完了したYARNジョブの数 | クラスタ |
SparkJobsCompleted |
完了したSparkジョブ | ジョブ/分 | このクラスタで完了したSparkジョブの数 | クラスタ |
ServiceCertificateExpiryTime |
サービス証明書失効時間 | 日 | クラスタ内の特定のサービス証明書の有効期限が切れるまでの残り日数 | クラスタ |
CpuUtilization |
CPU使用率 | 割合 | 使用中のCPU率 | ノード |
DiskUtilization |
ディスク使用率 | Bytes | 使用するディスク領域 | ノード |
MemoryUtilization |
メモリー使用率 | Bytes | 使用メモリー合計 | ノード |
NetworkBytesIn |
入力ネットワーク・バイト数 | バイト/分 | 入力ネットワーク・バイト数/分 | ノード |
NetworkBytesOut |
出力ネットワーク・バイト数 | バイト/分 | 出力ネットワーク・バイト数/分 | ノード |
CertificateExpiryTime |
証明書の有効期限 | 日 | 証明書失効までの日数 | ノード |
MaintenanceStatus |
メンテナンス・ステータス | 数 | 0の値は、ノードにスケジュールされたメンテナンス再起動がないことを示します。1の値は、ノードの保守リブートがスケジュールされていることを示します。 | ノード |
ResourcePrincipalTokenExpiryTimeExceeding80PercentThreshold |
トークン失効アラート | ブール | RPSTトークンが存続期間の80%を超えたかどうかを示します。 | BigDataClusterNode |
ResourcePrincipalSessionTokenStatus |
RPSTステータス | 件数 | 1: トークンの有効期限が切れました。2: トークンがありません。0: 正常なトークン。 | BigDataClusterNode |
ResourcePrincipalTokenRefreshedInLast30Mins |
トークンのリフレッシュ・ステータス | ブール | RPSTトークンが過去30分にクラスタ・レベルでリフレッシュされたかどうかを示します。 | BigDataCluster |