レプリケーション・ノード(RN)の監視
各ストレージ・ノードでは、キー/値ペアのデータを格納する1つ以上のレプリケーション・ノードがホストされます。詳細は、概要マニュアルのレプリケーション・ノードとシャードを参照してください。
次の項を参照してください。
レプリケーション・ノードのメトリック
-
repNodeServiceStatus – レプリケーション・ノードの現在のステータス。次のものがあります。
-
starting (1) – ストレージ・ノード・エージェントはブート中です。
-
waitingForDeploy (2) – レプリケーション・ノードはストレージ・ノード・エージェントへの登録を待機しています。
-
running(3) – レプリケーション・ノードは実行中です。
-
stopping(4) – レプリケーション・ノードはシャットダウンのプロセス中です。
-
stopped(5) – 意図的なクリーン・シャットダウンです。
-
errorRestarting(6) – エラー発生後にレプリケーション・ノードが再起動しています。
-
errorNoRestart(7) – サービスはエラー状態で、自動的に再起動されません。管理介入が必要です。ユーザーは、レプリケーション・ノードのログ・ファイルと、障害が発生したサービスを制御しているSNAのログ・ファイルの両方でSEVEREエントリを検索できます。「Monitoring for RN」セクションにあるサービスのログがRNログです。
<kvroot>/<storename>/log/rg*-rn*_*.log
ここで、<kvroot>および<storename>はユーザー入力で、*はログの番号を表します。たとえば、rg3-rn2_0.logは最新のログで、rg3-rn2_1.logは前のログです。
kvrootとstorenameはすべてのインストールで異なることに注意してください。同様に、SNAのログ・ファイルを検索するには、次を使用します。
SNログの例としては、sn1_0.log、sn1_1.logなどがあります。<kvroot>/<storename>/log/sn*_*.log
これらのログ・ファイルでSEVEREキーワードを検索し、検索したメッセージを読んでエラーを修正するか、必要に応じてOracle NoSQL Databaseサポートに支援を求めることができます。対応策は障害の性質によって異なります。また、サービスを明示的に停止して再起動するという簡単な場合もあれば、サービス・インスタンスを完全に置き換える必要があるという困難で時間がかかる場合もあります。次のいずれかの問題が考えられます。-
リソースの問題 - ディスク領域、メモリー、ネットワークなど、必要なリソースの一部が使用できません。
-
構成の問題 - 修正が必要な構成関連の問題があります。
-
ソフトウェアのバグ – Oracle NoSQL Databaseサポートを必要とする不具合がコード内にあります。
-
ディスク上の破損 - 永続ストレージの何かが破損しています。
破損することは稀ですが、その状況が起こった場合は対処が困難であり、Oracle NoSQL Databaseサポートの支援を受ける必要があります。
-
-
unreachable(8) – 管理サービスがレプリケーション・ノードにアクセスできません。
注意:
ストレージ・ノードがUNREACHABLEであるか、またはレプリケーション・ノードに問題があり、そのストレージ・ノードがUNREACHABLEである場合、最初に確認するのは、管理ノードとストレージ・ノード間のネットワーク接続です。ただし、管理側のストレージ・ノード・エージェントがアクセス可能で、管理対象のレプリケーション・ノードがアクセス不可の場合、ネットワークには問題がなく、問題は他にあると考えられます。
-
expectedRestarting(9) – レプリケーション・ノードで予期された再起動が実行されています。plan CLIコマンドの中にはコンポーネントの再起動を必要とするものがあるためです。この再起動は、errorRestarting(6) (エラー発生後の再起動)とは異なり、予期されたものです。
-
次のメトリックを監視することで、クラスタの各レプリケーション・ノードのパフォーマンスを把握できます。次の2種類のメトリック粒度があります。
-
間隔 – デフォルトでは、クラスタの各ノードで20秒ごとにパフォーマンス・データのサンプルが取得され、メトリックがこの間隔で集計されます。この間隔を変更するには、admin plan change-parameters -globalを使用し、collectorIntervalパラメータに新しい値を指定します(パラメータの変更を参照)。
-
累計 – ノードが起動されてから収集および集計されたメトリックです。
さらに、メトリックは、単一キーの操作と複数キーの操作に対する測定値に細分化されます。
注意:
すべてのタイムスタンプ・メトリックはUTCであるため、ストアのデプロイ先に関連するタイム・ゾーンに適切に変換する必要があります。
-
repNodeIntervalStart – 単一キー操作の測定値のこのサンプルが収集された開始タイムスタンプ。
-
repNodeIntervalEnd – 単一キー操作の測定値のこのサンプルが収集された開始タイムスタンプ。
-
repNodeIntervalTotalOps – 測定間隔中にレプリケーション・ノードにより処理された単一キー操作(get、put、delete)の合計数。
-
repNodeIntervalThroughput – 測定間隔中に完了した秒当たりの単一キー操作(get、put、delete)の数。
-
repNodeIntervalLatMin – 測定間隔中の単一キー操作(get、put、delete)の最小レイテンシ・サンプル。
-
repNodeIntervalLatMax – 測定間隔中の単一キー操作(get、put、delete)の最大レイテンシ・サンプル。
-
repNodeIntervalLatAvg – 測定間隔中の単一キー操作(get、put、delete)の平均レイテンシ・サンプル(浮動小数として返されます)。
-
repNodeIntervalPct95 – 測定間隔中の単一キー操作(get、put、delete)のレイテンシ・サンプルの95パーセンタイル。
-
repNodeIntervalPct99 – 測定間隔中の単一キー操作(get、put、delete)のレイテンシ・サンプルの95パーセンタイル。
-
repNodeCumulativeStart – レプリケーションで累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された開始タイムスタンプ。
-
repNodeCumulativeEnd – レプリケーションで累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が終了した終了タイムスタンプ。
-
repNodeCumulativeTotalOps – レプリケーション・ノードにより処理された単一キー操作の合計数。
-
repNodeCumulativeThroughput – このノードが起動されてからこのノードで測定された単一キー操作の秒当たりの持続操作。
-
repNodeCumulativeLatMin – このノードが起動されてからこのノードで測定された単一キー操作の最小レイテンシ。
-
repNodeCumulativeLatMax – このノードが起動されてからこのノードで測定された単一キー操作の最大レイテンシ。
-
repNodeCumulativeLatAvg – このノードが起動されてからこのノードで測定された単一キー操作の平均レイテンシ(浮動小数として返されます)。
-
repNodeCumulativePct95 – 起動されてからの単一キー操作(get、put、delete)のレイテンシの95パーセンタイル。
-
repNodeCumulativePct99 – 起動されてからの単一キー操作(get、put、delete)のレイテンシの99パーセンタイル。
-
repNodeMultiIntervalStart – 複数キー操作の測定値のこのサンプルが収集された開始タイムスタンプ。
-
repNodeMultiIntervalEnd – 複数キー操作の測定値のこのサンプルが収集された終了タイムスタンプ。
-
repNodeMultiIntervalTotalOps – 測定間隔中にレプリケーション・ノードにより処理された複数キー操作(execute)の合計数。
-
repNodeMultiIntervalThroughput – 測定間隔中に完了した秒当たりの複数キー操作(execute)の数。
-
repNodeMultiIntervalLatMin – 測定間隔中の複数キー操作(execute)の最小レイテンシ・サンプル。
-
repNodeMultiIntervalLatMax – 測定間隔中の複数キー操作(execute)の最大レイテンシ・サンプル。
-
repNodeMultiIntervalLatAvg – 測定間隔中の複数キー操作(execute)の平均レイテンシ・サンプル(浮動小数として返されます)。
-
repNodeMultiIntervalPct95 – 測定間隔中の複数キー操作(execute)のレイテンシ・サンプルの95パーセンタイル。
-
repNodeMultiIntervalPct99 – 測定間隔中の複数キー操作(execute)のレイテンシ・サンプルの95パーセンタイル。
-
repNodeMultiIntervalTotalRequests – 測定間隔中の複数キー操作(execute)の合計数。
-
repNodeMultiCumulativeStart – レプリケーション・ノードで複数キーの累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された開始タイムスタンプ。
-
repNodeMultiCumulativeEnd – レプリケーション・ノードで複数キーの累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された終了タイムスタンプ。
-
repNodeMultiCumulativeTotalOps – レプリケーション・ノードが起動されてからこのノードで処理された複数キー操作の合計数。
-
repNodeMultiCumulativeThroughput – このノードが起動されてからこのノードで測定された複数キー操作の秒当たりの持続操作。
-
repNodeMultiCumulativeLatMin – このノードが起動されてからこのノードで測定された複数キー操作(execute)の最小レイテンシ。
-
repNodeMultiCumulativeLatMax – このノードが起動されてからこのノードで測定された複数キー操作(execute)の最大レイテンシ。
-
repNodeMultiCumulativeLatAvg – このノードが起動されてからこのノードで測定された複数キー操作(execute)の平均レイテンシ(浮動小数として返されます)。
-
repNodeMultiCumulativePct95 – 起動されてからの複数キー操作(execute)のレイテンシの95パーセンタイル。
-
repNodeMultiCumulativePct99 – 起動されてからの複数キー操作(execute)のレイテンシの99パーセンタイル。
-
repNodeMultiCumulativeTotalRequests – このノードが起動されてからこのノードで測定された複数キー操作の合計数。
-
repNodeCommitLag – 特定の時間間隔における特定のレプリケーション・ノードの更新操作の平均コミット・ラグ(ミリ秒)。
-
repNodeCacheSize – Bツリー・ノードのレプリケーション・ノードのキャッシュのサイズ(バイト)。DBCacheSizeユーティリティを使用して計算されます。
-
repNodeConfigProperties – 現在実行中のレプリケーション・ノードで使用されている構成名/値ペアのセット。各パラメータは文字列値を持つ定数です。この文字列値を使用してKVSTOREのパラメータが設定されます。たとえば、パラメータCHECKPOINTER_BYTES_INTERVALは、javadocのje.checkpointer.bytesInterval文字列値を持ちます(ここを参照)。このドキュメントでは、データ型、最小時間、最大時間などについても詳しく説明されています。
-
repNodeCollectEnvStats – レプリケーション・ノードで現在パフォーマンス統計が収集されているかどうかを示す値(trueまたはfalse)。
-
repNodeStatsInterval – レプリケーション・ノードで統計の集計に使用されている間隔(秒)。
-
repNodeMaxTrackedLatency – レイテンシ統計を追跡する最大ミリ秒数。たとえば、このパラメータを1000に設定した場合、レイテンシが1000ミリ秒以上のレプリケーション・ノードで実行される操作はいずれも、後続のレポートのメトリック・サンプルの配列に挿入されません。
-
repNodeJavaMiscParams – このレプリケーション・ノードを実行しているJava VMのブート時に検出された-Xms、-Xmxおよび-XX:ParallelGCThreads=の値。
-
repNodeLoggingConfigProps – このレプリケーション・ノードを実行しているJava VMのブート時に検出されたloggingConfigPropsパラメータの値。
-
repNodeHeapMB – このレプリケーション・ノードのJavaヒープのサイズ(MB)。
-
repNodeMountPoint – このレプリケーション・ノードのファイルが格納されるファイル・システム・マウント・ポイントのパス。
-
repNodeMountPointSize – このレプリケーション・ノードのファイルが格納されるファイル・システム・マウント・ポイントのサイズ。
-
repNodeHeapSize – このレプリケーション・ノードの-Xmxの現在の値。
-
repNodeLatencyCeiling – このレプリケーション・ノードでレイテンシ・サンプルを収集できる上限(ミリ秒)。この上限に達するとアラートが生成されます。たとえば、これを3に設定した場合、レイテンシ・サンプルが3を上回ると、アラートが生成されます。
-
repNodeCommitLagThreshold – 特定の時間間隔における特定のレプリケーション・ノードの平均コミット・ラグ(ミリ秒)がこのメソッドからの戻り値を上回ると、アラートが生成されます。
-
repNodeReplicationState – ノードのレプリケーション状態。
-
repNodeThroughputFloor – このレプリケーション・ノードでスループット・サンプルを収集できる(秒当たりの操作の)下限。この下限に達するとアラートが生成されます。たとえば、これを300,000に設定した場合、このレプリケーション・ノードでのスループット計算で秒当たりの操作数が300,000を下回ると、アラートが生成されます。