レプリケーション・ノード(RN)のモニタリング

各ストレージ・ノードは、キー/値ペアにデータを格納する1つ以上のレプリケーション・ノードをホストします。詳細は、Oracle NoSQL Database概要マニュアルレプリケーション・ノードおよびシャードの項を参照してください。

次の項を参照してください。

メトリック

  • repNodeServiceStatus レプリケーション・ノードの現在のステータス。これらは次のとおりです。

    • starting(1) ストレージ・ノード・エージェントが起動中です。

    • waitingForDeploy (2) レプリケーション・ノードはストレージ・ノード・エージェントへの登録を待機しています。

    • running(3) レプリケーション・ノードは実行中です。

    • stopping(4) レプリケーション・ノードはシャットダウン処理中です。

    • stopped(5) 意図的な正常なシャットダウン。

    • errorRestarting(6) レプリケーション・ノードはエラー発生後再起動しています。

    • errorNoRestart(7) サービスはエラー状態で、自動的には再起動されません。管理介入が必要です。ユーザーは、サービスのログ・ファイルと失敗したサービスを制御するSNAのログ・ファイルの両方で、SEVEREエントリの検索を開始できます。RNのモニタリング・セクション内のサービスのログは、RNログです。

      <kvroot>/<storename>/log/rg*-rn*_*.log

      ここで、<kvroot>および<storename>はユーザー入力で、*はログの番号を表します。たとえば、rg3-rn2_0.logは最新のログ、rg3-rn2_1.logは以前のログです。

      kvrootとstorenameは、すべてのインストールで異なることに注意してください。同様に、SNAのログ・ファイルを検索するには、次を使用します。

      <kvroot>/<storename>/log/sn*_*.log
      SNログの例として、sn1_0.log、sn1_1.logなどがあります。
      これらのログ・ファイルでSEVEREキーワードを検索し、検索したメッセージを読んでエラーを修正することも、Oracle NoSQL Databaseサポートから支援を受けることもできます。実行するアクションは、障害の性質によって決まります。また、サービスを明示的に停止および再起動する場合 (簡単) から、サービス・インスタンスを完全に置き換える必要がある場合 (簡単ではなく時間がかかります) によって異なります。次のような問題が起こる場合があります。
      • リソースの問題 – ディスク領域、メモリー、ネットワークなどの必要なリソースのタイプの一部が使用できません。

      • 構成の問題 – 修正が必要な構成関連の問題があります。

      • ソフトウェアのバグ – コードにバグがあり、Oracle NoSQL Databaseサポートが必要です。

      • ディスク破損時 – 永続ストレージの一部が破損しています。

      破損の状況は処理が困難ですが、そのような状況はまれで、Oracle NoSQL Databaseサポートによる支援が必要です。

    • unreachable(8) 管理サービスがレプリケーション・ノードにアクセスできません。

      注意:

      ストレージ・ノードがUNREACHABLEであるか、またはレプリケーション・ノードに問題があり、そのストレージ・ノードがUNREACHABLEである場合、最初に確認するのは、管理ノードとストレージ・ノード間のネットワーク接続です。ただし、管理しているストレージ・ノード・エージェントがアクセス可能で、管理対象のレプリケーション・ノードがアクセス不可の場合、ネットワークには問題がないと考えられ、問題は他にあることになります。

    • expectedRestarting(9) 一部の計画CLIコマンドが原因でコンポーネントが再起動されるため、予期される再起動がレプリケーション・ノードで実行されています。これは予期された再起動で、errorRestarting(6) (エラー発生後の再起動)とは異なります。

次のメトリックをモニタリングすると、クラスタ内の各レプリケーション・ノードのパフォーマンスを把握できます。メトリックには、次の2種類の粒度があります。

  • 間隔 デフォルトでは、クラスタの各ノードで20秒ごとにパフォーマンス・データのサンプルが取得され、メトリックがこの間隔で集計されます。この間隔を変更するには、admin plan change-parameters - globalを使用し、collectorIntervalパラメータに新しい値を指定します(パラメータの変更を参照)。

  • 累計 ノードが起動してから収集および集計されたメトリック。

メトリックはさらに、単一キーの操作と複数キーの操作に対する測定値に細分化されます。

注意:

すべてのタイムスタンプ・メトリックはUTCにあるため、ストアのデプロイ先に関連するタイムゾーンに適切に変換する必要があります。

  • repNodeIntervalStart 単一キー操作測定のこのサンプルが収集された開始タイムスタンプ。

  • repNodeIntervalEnd 単一キー操作測定のこのサンプルが収集された開始タイムスタンプ。

  • repNodeIntervalTotalOps 測定間隔中にレプリケーション・ノードによって処理された単一キー操作(get、put、delete)の合計数。

  • repNodeIntervalThroughput 測定間隔中に完了した秒当たりの単一キー操作(get、put、delete)の数。

  • repNodeIntervalLatMin 測定間隔中の単一キー操作(get、put、delete)の最小レイテンシ・サンプル。

  • repNodeIntervalLatMax 測定間隔中の単一キー操作(get、put、delete)の最大レイテンシ・サンプル。

  • repNodeIntervalLatAvg 測定間隔中の(浮動小数点として返された)単一キー操作(get、put、delete)の平均レイテンシ・サンプル。

  • repNodeIntervalPct95 測定間隔中の単一キー操作(get、put、delete)のレイテンシ・サンプルの95番目のパーセンタイル。

  • repNodeIntervalPct99 測定間隔中の単一キー操作(get、put、delete)のレイテンシ・サンプルの95番目のパーセンタイル。

  • repNodeCumulativeStart レプリケーションで累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された開始タイムスタンプ。

  • repNodeCumulativeEnd レプリケーションで累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が終了した終了タイムスタンプ。

  • repNodeCumulativeTotalOps レプリケーション・ノードにより処理された単一キー操作の合計数。

  • repNodeCumulativeThroughput このノードが起動されてからこのノードで測定された単一キー操作の秒当たりの持続操作。

  • repNodeCumulativeLatMin このノードが起動されてからこのノードで測定された単一キー操作の最小レイテンシ。

  • repNodeCumulativeLatMax このノードが起動されてからこのノードで測定された単一キー操作の最大レイテンシ。

  • repNodeCumulativeLatAvg このノードが起動されてからこのノードで測定された(浮動小数点として返された)単一キー操作の平均レイテンシ。

  • repNodeCumulativePct95 起動されてからの単一キー操作(get、put、delete)のレイテンシの95番目のパーセンタイル。

  • repNodeCumulativePct99 起動されてからの単一キー操作(get、put、delete)のレイテンシの99番目のパーセンタイル。

  • repNodeMultiIntervalStart 複数キー操作測定のこのサンプルが収集された開始タイムスタンプ。

  • repNodeMultiIntervalEnd 複数キー操作の測定値のこのサンプルが収集された終了タイムスタンプ。

  • repNodeMultiIntervalTotalOps 測定間隔中にレプリケーション・ノードによって処理された複数キー操作(execute)の合計数。

  • repNodeMultiIntervalThroughput 測定間隔中に完了した秒当たりの複数キー操作(execute)の数。

  • repNodeMultiIntervalLatMin 測定間隔中の複数キー操作(execute)の最小レイテンシ・サンプル。

  • repNodeMultiIntervalLatMax 測定間隔中の複数キー操作(execute)の最大レイテンシ・サンプル。

  • repNodeMultiIntervalLatAvg 測定間隔中の(浮動小数点として返された)複数キー操作(execute)の平均レイテンシ・サンプル。

  • repNodeMultiIntervalPct95 測定間隔中の複数キー操作(execute)のレイテンシ・サンプルの95番目のパーセンタイル。

  • repNodeMultiIntervalPct99 測定間隔中の複数キー操作(execute)のレイテンシ・サンプルの95番目のパーセンタイル。

  • repNodeMultiIntervalTotalRequests 測定間隔中の複数キー操作(execute)の合計数。

  • repNodeMultiCumulativeStart レプリケーション・ノードで複数キーの累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された開始タイムスタンプ。

  • repNodeMultiCumulativeEnd レプリケーション・ノードで複数キーの累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が終了した終了タイムスタンプ。

  • repNodeMultiCumulativeTotalOps レプリケーション・ノードが起動されてからこのノードで処理された複数キー操作の合計数。

  • repNodeMultiCumulativeThroughput このノードが起動されてからこのノードで測定された複数キー操作の秒当たりの持続操作。

  • repNodeMultiCumulativeLatMin このノードが起動されてからこのノードで測定された複数キー操作(execute)の最小レイテンシ。

  • repNodeMultiCumulativeLatMax このノードが起動されてからこのノードで測定された複数キー操作(execute)の最大レイテンシ。

  • repNodeMultiCumulativeLatAvg このノードが起動されてからこのノードで測定された(浮動小数点として返された)複数キー操作(execute)の平均レイテンシ。

  • repNodeMultiCumulativePct95 起動されてからの複数キー操作(execute)のレイテンシの95番目のパーセンタイル。

  • repNodeMultiCumulativePct99 起動されてからの複数キー操作(execute)のレイテンシの99番目のパーセンタイル。

  • repNodeMultiCumulativeTotalRequests このノードが起動されてからこのノードで測定された複数キー操作の合計数。

  • repNodeCommitLag 特定の時間間隔中の特定のレプリケーション・ノードの更新操作の平均コミット・ラグ(ミリ秒)。

  • repNodeCacheSize Bツリー・ノードのレプリケーション・ノードのキャッシュのサイズ(バイト)。これは、DBCacheSizeユーティリティを使用して計算されます。

  • repNodeConfigProperties レプリケーション・ノードが現在実行している構成名/値のペアのセット。各パラメータは、文字列値を持つ定数です。文字列値は、KVSTOREでパラメータを設定するために使用されます。たとえば、パラメータCHECKPOINTER_BYTES_INTERVALのjavadocにはje.checkpointer.bytesInterval文字列値があります(ここを参照)。このドキュメントには、データ型、最小、最大時間などに関する詳細も記載されています。

  • repNodeCollectEnvStats レプリケーション・ノードが現在パフォーマンス統計を収集しているかどうかに応じたtrueまたはfalse。

  • repNodeStatsInterval レプリケーション・ノードが集計統計のために利用している間隔(秒)。

  • repNodeMaxTrackedLatency レイテンシ統計を追跡する最大ミリ秒数。たとえば、このパラメータを1000に設定した場合、レイテンシが1000ミリ秒を超えてレプリケーション・ノードで実行される操作はいずれも、後続のレポートのメトリック・サンプルの配列に挿入されません。

  • repNodeJavaMiscParams このレプリケーション・ノードを実行しているJava VMが起動したときに発生した-Xms、-Xmx、および-XX:ParallelGCThreads=の値。

  • repNodeLoggingConfigProps このレプリケーション・ノードを実行しているJava VMが起動したときに発生したloggingConfigPropsパラメータの値。

  • repNodeHeapMB このレプリケーション・ノードのJavaヒープのサイズ(MB)。

  • repNodeMountPoint このレプリケーション・ノードのファイルが格納されるファイルシステム・マウント・ポイントへのパス。

  • repNodeMountPointSize このレプリケーション・ノードのファイルが格納されるファイルシステム・マウント・ポイントのサイズ。

  • repNodeHeapSize このレプリケーション・ノードの-Xmxの現在の値。

  • repNodeLatencyCeiling このレプリケーション・ノードでレイテンシ・サンプルを収集できる上限(ミリ秒)。この上限に達するとアラートが生成されます。たとえば、これを3に設定した場合、レイテンシ・サンプルが3を上回ると、アラートが生成されます。

  • repNodeCommitLagThreshold 指定した時間間隔中に特定のレプリケーション・ノードの平均コミット・ラグ(ミリ秒)が、このメソッドから返された値を超えると、アラートが生成されます。

  • repNodeReplicationState - ノードのレプリケーションの状態。

  • repNodeThroughputFloor このレプリケーション・ノードでスループット・サンプルを収集できる(秒当たりの操作の)下限。この下限に達するとアラートが生成されます。たとえば、これを300,000に設定した場合、このレプリケーション・ノードでのスループット計算で秒当たりの操作数が300,000を下回ると、アラートが生成されます。