レプリケーション・ノード(RN)の監視

各ストレージ・ノードでは、キー/値ペアのデータを格納する1つ以上のレプリケーション・ノードがホストされます。詳細は、概要マニュアルレプリケーション・ノードとシャードを参照してください。

次の項を参照してください。

レプリケーション・ノードのメトリック

  • repNodeServiceStatus レプリケーション・ノードの現在のステータス。次のものがあります。

    • starting (1) ストレージ・ノード・エージェントはブート中です。

    • waitingForDeploy (2) レプリケーション・ノードはストレージ・ノード・エージェントへの登録を待機しています。

    • running(3) レプリケーション・ノードは実行中です。

    • stopping(4) レプリケーション・ノードはシャットダウンのプロセス中です。

    • stopped(5) 意図的なクリーン・シャットダウンです。

    • errorRestarting(6) エラー発生後にレプリケーション・ノードが再起動しています。

    • errorNoRestart(7) サービスはエラー状態で、自動的に再起動されません。管理介入が必要です。ユーザーは、レプリケーション・ノードのログ・ファイルと、障害が発生したサービスを制御しているSNAのログ・ファイルの両方でSEVEREエントリを検索できます。「Monitoring for RN」セクションにあるサービスのログがRNログです。

      <kvroot>/<storename>/log/rg*-rn*_*.log

      ここで、<kvroot>および<storename>はユーザー入力で、*はログの番号を表します。たとえば、rg3-rn2_0.logは最新のログで、rg3-rn2_1.logは前のログです。

      kvrootとstorenameはすべてのインストールで異なることに注意してください。同様に、SNAのログ・ファイルを検索するには、次を使用します。

      <kvroot>/<storename>/log/sn*_*.log
      SNログの例としては、sn1_0.log、sn1_1.logなどがあります。
      これらのログ・ファイルでSEVEREキーワードを検索し、検索したメッセージを読んでエラーを修正するか、必要に応じてOracle NoSQL Databaseサポートに支援を求めることができます。対応策は障害の性質によって異なります。また、サービスを明示的に停止して再起動するという簡単な場合もあれば、サービス・インスタンスを完全に置き換える必要があるという困難で時間がかかる場合もあります。次のいずれかの問題が考えられます。
      • リソースの問題 - ディスク領域、メモリー、ネットワークなど、必要なリソースの一部が使用できません。

      • 構成の問題 - 修正が必要な構成関連の問題があります。

      • ソフトウェアのバグ – Oracle NoSQL Databaseサポートを必要とする不具合がコード内にあります。

      • ディスク上の破損 - 永続ストレージの何かが破損しています。

      破損することは稀ですが、その状況が起こった場合は対処が困難であり、Oracle NoSQL Databaseサポートの支援を受ける必要があります。

    • unreachable(8) 管理サービスがレプリケーション・ノードにアクセスできません。

      ノート:

      ストレージ・ノードがUNREACHABLEであるか、またはレプリケーション・ノードに問題があり、そのストレージ・ノードがUNREACHABLEである場合、最初に確認するのは、管理ノードとストレージ・ノード間のネットワーク接続です。ただし、管理側のストレージ・ノード・エージェントがアクセス可能で、管理対象のレプリケーション・ノードがアクセス不可の場合、ネットワークには問題がなく、問題は他にあると考えられます。

    • expectedRestarting(9) レプリケーション・ノードで予期された再起動が実行されています。plan CLIコマンドの中にはコンポーネントの再起動を必要とするものがあるためです。この再起動は、errorRestarting(6) (エラー発生後の再起動)とは異なり、予期されたものです。

次のメトリックを監視することで、クラスタの各レプリケーション・ノードのパフォーマンスを把握できます。次の2種類のメトリック粒度があります。

  • 間隔 デフォルトでは、クラスタの各ノードで20秒ごとにパフォーマンス・データのサンプルが取得され、メトリックがこの間隔で集計されます。この間隔を変更するには、admin plan change-parameters -globalを使用し、collectorIntervalパラメータに新しい値を指定します(パラメータの変更を参照)。

  • 累計 ノードが起動されてから収集および集計されたメトリックです。

さらに、メトリックは、単一キーの操作と複数キーの操作に対する測定値に細分化されます。

ノート:

すべてのタイムスタンプ・メトリックはUTCであるため、ストアのデプロイ先に関連するタイム・ゾーンに適切に変換する必要があります。

  • repNodeIntervalStart 単一キー操作の測定値のこのサンプルが収集された開始タイムスタンプ。

  • repNodeIntervalEnd 単一キー操作の測定値のこのサンプルが収集された開始タイムスタンプ。

  • repNodeIntervalTotalOps 測定間隔中にレプリケーション・ノードにより処理された単一キー操作(get、put、delete)の合計数。

  • repNodeIntervalThroughput 測定間隔中に完了した秒当たりの単一キー操作(get、put、delete)の数。

  • repNodeIntervalLatMin 測定間隔中の単一キー操作(get、put、delete)の最小レイテンシ・サンプル。

  • repNodeIntervalLatMax 測定間隔中の単一キー操作(get、put、delete)の最大レイテンシ・サンプル。

  • repNodeIntervalLatAvg 測定間隔中の単一キー操作(get、put、delete)の平均レイテンシ・サンプル(浮動小数として返されます)。

  • repNodeIntervalPct95 測定間隔中の単一キー操作(get、put、delete)のレイテンシ・サンプルの95パーセンタイル。

  • repNodeIntervalPct99 測定間隔中の単一キー操作(get、put、delete)のレイテンシ・サンプルの95パーセンタイル。

  • repNodeCumulativeStart レプリケーションで累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された開始タイムスタンプ。

  • repNodeCumulativeEnd レプリケーションで累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が終了した終了タイムスタンプ。

  • repNodeCumulativeTotalOps レプリケーション・ノードにより処理された単一キー操作の合計数。

  • repNodeCumulativeThroughput このノードが起動されてからこのノードで測定された単一キー操作の秒当たりの持続操作。

  • repNodeCumulativeLatMin このノードが起動されてからこのノードで測定された単一キー操作の最小レイテンシ。

  • repNodeCumulativeLatMax このノードが起動されてからこのノードで測定された単一キー操作の最大レイテンシ。

  • repNodeCumulativeLatAvg このノードが起動されてからこのノードで測定された単一キー操作の平均レイテンシ(浮動小数として返されます)。

  • repNodeCumulativePct95 起動されてからの単一キー操作(get、put、delete)のレイテンシの95パーセンタイル。

  • repNodeCumulativePct99 起動されてからの単一キー操作(get、put、delete)のレイテンシの99パーセンタイル。

  • repNodeMultiIntervalStart 複数キー操作の測定値のこのサンプルが収集された開始タイムスタンプ。

  • repNodeMultiIntervalEnd 複数キー操作の測定値のこのサンプルが収集された終了タイムスタンプ。

  • repNodeMultiIntervalTotalOps 測定間隔中にレプリケーション・ノードにより処理された複数キー操作(execute)の合計数。

  • repNodeMultiIntervalThroughput 測定間隔中に完了した秒当たりの複数キー操作(execute)の数。

  • repNodeMultiIntervalLatMin 測定間隔中の複数キー操作(execute)の最小レイテンシ・サンプル。

  • repNodeMultiIntervalLatMax 測定間隔中の複数キー操作(execute)の最大レイテンシ・サンプル。

  • repNodeMultiIntervalLatAvg 測定間隔中の複数キー操作(execute)の平均レイテンシ・サンプル(浮動小数として返されます)。

  • repNodeMultiIntervalPct95 測定間隔中の複数キー操作(execute)のレイテンシ・サンプルの95パーセンタイル。

  • repNodeMultiIntervalPct99 測定間隔中の複数キー操作(execute)のレイテンシ・サンプルの95パーセンタイル。

  • repNodeMultiIntervalTotalRequests 測定間隔中の複数キー操作(execute)の合計数。

  • repNodeMultiCumulativeStart レプリケーション・ノードで複数キーの累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された開始タイムスタンプ。

  • repNodeMultiCumulativeEnd レプリケーション・ノードで複数キーの累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された終了タイムスタンプ。

  • repNodeMultiCumulativeTotalOps レプリケーション・ノードが起動されてからこのノードで処理された複数キー操作の合計数。

  • repNodeMultiCumulativeThroughput このノードが起動されてからこのノードで測定された複数キー操作の秒当たりの持続操作。

  • repNodeMultiCumulativeLatMin このノードが起動されてからこのノードで測定された複数キー操作(execute)の最小レイテンシ。

  • repNodeMultiCumulativeLatMax このノードが起動されてからこのノードで測定された複数キー操作(execute)の最大レイテンシ。

  • repNodeMultiCumulativeLatAvg このノードが起動されてからこのノードで測定された複数キー操作(execute)の平均レイテンシ(浮動小数として返されます)。

  • repNodeMultiCumulativePct95 起動されてからの複数キー操作(execute)のレイテンシの95パーセンタイル。

  • repNodeMultiCumulativePct99 起動されてからの複数キー操作(execute)のレイテンシの99パーセンタイル。

  • repNodeMultiCumulativeTotalRequests このノードが起動されてからこのノードで測定された複数キー操作の合計数。

  • repNodeCommitLag 特定の時間間隔における特定のレプリケーション・ノードの更新操作の平均コミット・ラグ(ミリ秒)。

  • repNodeCacheSize Bツリー・ノードのレプリケーション・ノードのキャッシュのサイズ(バイト)。DBCacheSizeユーティリティを使用して計算されます。

  • repNodeConfigProperties 現在実行中のレプリケーション・ノードで使用されている構成名/値ペアのセット。各パラメータは文字列値を持つ定数です。この文字列値を使用してKVSTOREのパラメータが設定されます。たとえば、パラメータCHECKPOINTER_BYTES_INTERVALは、javadocのje.checkpointer.bytesInterval文字列値を持ちます(ここを参照)。このドキュメントでは、データ型、最小時間、最大時間などについても詳しく説明されています。

  • repNodeCollectEnvStats レプリケーション・ノードで現在パフォーマンス統計が収集されているかどうかを示す値(trueまたはfalse)。

  • repNodeStatsInterval レプリケーション・ノードで統計の集計に使用されている間隔(秒)。

  • repNodeMaxTrackedLatency レイテンシ統計を追跡する最大ミリ秒数。たとえば、このパラメータを1000に設定した場合、レイテンシが1000ミリ秒以上のレプリケーション・ノードで実行される操作はいずれも、後続のレポートのメトリック・サンプルの配列に挿入されません。

  • repNodeJavaMiscParams このレプリケーション・ノードを実行しているJava VMのブート時に検出された-Xms、-Xmxおよび-XX:ParallelGCThreads=の値。

  • repNodeLoggingConfigProps このレプリケーション・ノードを実行しているJava VMのブート時に検出されたloggingConfigPropsパラメータの値。

  • repNodeHeapMB このレプリケーション・ノードのJavaヒープのサイズ(MB)。

  • repNodeMountPoint このレプリケーション・ノードのファイルが格納されるファイル・システム・マウント・ポイントのパス。

  • repNodeMountPointSize このレプリケーション・ノードのファイルが格納されるファイル・システム・マウント・ポイントのサイズ。

  • repNodeHeapSize このレプリケーション・ノードの-Xmxの現在の値。

  • repNodeLatencyCeiling このレプリケーション・ノードでレイテンシ・サンプルを収集できる上限(ミリ秒)。この上限に達するとアラートが生成されます。たとえば、これを3に設定した場合、レイテンシ・サンプルが3を上回ると、アラートが生成されます。

  • repNodeCommitLagThreshold 特定の時間間隔における特定のレプリケーション・ノードの平均コミット・ラグ(ミリ秒)がこのメソッドからの戻り値を上回ると、アラートが生成されます。

  • repNodeReplicationState ノードのレプリケーション状態。

  • repNodeThroughputFloor このレプリケーション・ノードでスループット・サンプルを収集できる(秒当たりの操作の)下限。この下限に達するとアラートが生成されます。たとえば、これを300,000に設定した場合、このレプリケーション・ノードでのスループット計算で秒当たりの操作数が300,000を下回ると、アラートが生成されます。