レプリケーション・ノード(RN)のモニタリング
各ストレージ・ノードは、キー/値ペアにデータを格納する1つ以上のレプリケーション・ノードをホストします。詳細は、Oracle NoSQL Database概要マニュアルのレプリケーション・ノードおよびシャードの項を参照してください。
次の項を参照してください。
メトリック
-
repNodeServiceStatus – レプリケーション・ノードの現在のステータス。これらは次のとおりです。
-
starting(1) – ストレージ・ノード・エージェントが起動中です。
-
waitingForDeploy (2) – レプリケーション・ノードはストレージ・ノード・エージェントへの登録を待機しています。
-
running(3) – レプリケーション・ノードは実行中です。
-
stopping(4) – レプリケーション・ノードはシャットダウン処理中です。
-
stopped(5) – 意図的な正常なシャットダウン。
-
errorRestarting(6) – レプリケーション・ノードはエラー発生後再起動しています。
-
errorNoRestart(7) – サービスはエラー状態で、自動的には再起動されません。管理介入が必要です。ユーザーは、サービスのログ・ファイルと失敗したサービスを制御するSNAのログ・ファイルの両方で、SEVEREエントリの検索を開始できます。RNのモニタリング・セクション内のサービスのログは、RNログです。
<kvroot>/<storename>/log/rg*-rn*_*.logここで、<kvroot>および<storename>はユーザー入力で、*はログの番号を表します。たとえば、rg3-rn2_0.logは最新のログ、rg3-rn2_1.logは以前のログです。
kvrootとstorenameは、すべてのインストールで異なることに注意してください。同様に、SNAのログ・ファイルを検索するには、次を使用します。
SNログの例として、sn1_0.log、sn1_1.logなどがあります。<kvroot>/<storename>/log/sn*_*.logこれらのログ・ファイルでSEVEREキーワードを検索し、検索したメッセージを読んでエラーを修正することも、Oracle NoSQL Databaseサポートから支援を受けることもできます。実行するアクションは、障害の性質によって決まります。また、サービスを明示的に停止および再起動する場合 (簡単) から、サービス・インスタンスを完全に置き換える必要がある場合 (簡単ではなく時間がかかります) によって異なります。次のような問題が起こる場合があります。-
リソースの問題 – ディスク領域、メモリー、ネットワークなどの必要なリソースのタイプの一部が使用できません。
-
構成の問題 – 修正が必要な構成関連の問題があります。
-
ソフトウェアのバグ – コードにバグがあり、Oracle NoSQL Databaseサポートが必要です。
-
ディスク破損時 – 永続ストレージの一部が破損しています。
破損の状況は処理が困難ですが、そのような状況はまれで、Oracle NoSQL Databaseサポートによる支援が必要です。
-
-
unreachable(8) – 管理サービスがレプリケーション・ノードにアクセスできません。
注意:
ストレージ・ノードがUNREACHABLEであるか、またはレプリケーション・ノードに問題があり、そのストレージ・ノードがUNREACHABLEである場合、最初に確認するのは、管理ノードとストレージ・ノード間のネットワーク接続です。ただし、管理しているストレージ・ノード・エージェントがアクセス可能で、管理対象のレプリケーション・ノードがアクセス不可の場合、ネットワークには問題がないと考えられ、問題は他にあることになります。
-
expectedRestarting(9) – 一部の計画CLIコマンドが原因でコンポーネントが再起動されるため、予期される再起動がレプリケーション・ノードで実行されています。これは予期された再起動で、errorRestarting(6) (エラー発生後の再起動)とは異なります。
-
次のメトリックをモニタリングすると、クラスタ内の各レプリケーション・ノードのパフォーマンスを把握できます。メトリックには、次の2種類の粒度があります。
-
間隔 – デフォルトでは、クラスタの各ノードで20秒ごとにパフォーマンス・データのサンプルが取得され、メトリックがこの間隔で集計されます。この間隔を変更するには、admin plan change-parameters - globalを使用し、collectorIntervalパラメータに新しい値を指定します(パラメータの変更を参照)。
-
累計 – ノードが起動してから収集および集計されたメトリック。
メトリックはさらに、単一キーの操作と複数キーの操作に対する測定値に細分化されます。
注意:
すべてのタイムスタンプ・メトリックはUTCにあるため、ストアのデプロイ先に関連するタイムゾーンに適切に変換する必要があります。
-
repNodeIntervalStart – 単一キー操作測定のこのサンプルが収集された開始タイムスタンプ。
-
repNodeIntervalEnd – 単一キー操作測定のこのサンプルが収集された開始タイムスタンプ。
-
repNodeIntervalTotalOps – 測定間隔中にレプリケーション・ノードによって処理された単一キー操作(get、put、delete)の合計数。
-
repNodeIntervalThroughput – 測定間隔中に完了した秒当たりの単一キー操作(get、put、delete)の数。
-
repNodeIntervalLatMin – 測定間隔中の単一キー操作(get、put、delete)の最小レイテンシ・サンプル。
-
repNodeIntervalLatMax – 測定間隔中の単一キー操作(get、put、delete)の最大レイテンシ・サンプル。
-
repNodeIntervalLatAvg – 測定間隔中の(浮動小数点として返された)単一キー操作(get、put、delete)の平均レイテンシ・サンプル。
-
repNodeIntervalPct95 – 測定間隔中の単一キー操作(get、put、delete)のレイテンシ・サンプルの95番目のパーセンタイル。
-
repNodeIntervalPct99 – 測定間隔中の単一キー操作(get、put、delete)のレイテンシ・サンプルの95番目のパーセンタイル。
-
repNodeCumulativeStart – レプリケーションで累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された開始タイムスタンプ。
-
repNodeCumulativeEnd – レプリケーションで累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が終了した終了タイムスタンプ。
-
repNodeCumulativeTotalOps – レプリケーション・ノードにより処理された単一キー操作の合計数。
-
repNodeCumulativeThroughput – このノードが起動されてからこのノードで測定された単一キー操作の秒当たりの持続操作。
-
repNodeCumulativeLatMin – このノードが起動されてからこのノードで測定された単一キー操作の最小レイテンシ。
-
repNodeCumulativeLatMax – このノードが起動されてからこのノードで測定された単一キー操作の最大レイテンシ。
-
repNodeCumulativeLatAvg – このノードが起動されてからこのノードで測定された(浮動小数点として返された)単一キー操作の平均レイテンシ。
-
repNodeCumulativePct95 – 起動されてからの単一キー操作(get、put、delete)のレイテンシの95番目のパーセンタイル。
-
repNodeCumulativePct99 – 起動されてからの単一キー操作(get、put、delete)のレイテンシの99番目のパーセンタイル。
-
repNodeMultiIntervalStart – 複数キー操作測定のこのサンプルが収集された開始タイムスタンプ。
-
repNodeMultiIntervalEnd – 複数キー操作の測定値のこのサンプルが収集された終了タイムスタンプ。
-
repNodeMultiIntervalTotalOps – 測定間隔中にレプリケーション・ノードによって処理された複数キー操作(execute)の合計数。
-
repNodeMultiIntervalThroughput – 測定間隔中に完了した秒当たりの複数キー操作(execute)の数。
-
repNodeMultiIntervalLatMin – 測定間隔中の複数キー操作(execute)の最小レイテンシ・サンプル。
-
repNodeMultiIntervalLatMax – 測定間隔中の複数キー操作(execute)の最大レイテンシ・サンプル。
-
repNodeMultiIntervalLatAvg – 測定間隔中の(浮動小数点として返された)複数キー操作(execute)の平均レイテンシ・サンプル。
-
repNodeMultiIntervalPct95 – 測定間隔中の複数キー操作(execute)のレイテンシ・サンプルの95番目のパーセンタイル。
-
repNodeMultiIntervalPct99 – 測定間隔中の複数キー操作(execute)のレイテンシ・サンプルの95番目のパーセンタイル。
-
repNodeMultiIntervalTotalRequests – 測定間隔中の複数キー操作(execute)の合計数。
-
repNodeMultiCumulativeStart – レプリケーション・ノードで複数キーの累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が開始された開始タイムスタンプ。
-
repNodeMultiCumulativeEnd – レプリケーション・ノードで複数キーの累計パフォーマンス・メトリック(下の累計メトリックすべて)の収集が終了した終了タイムスタンプ。
-
repNodeMultiCumulativeTotalOps – レプリケーション・ノードが起動されてからこのノードで処理された複数キー操作の合計数。
-
repNodeMultiCumulativeThroughput – このノードが起動されてからこのノードで測定された複数キー操作の秒当たりの持続操作。
-
repNodeMultiCumulativeLatMin – このノードが起動されてからこのノードで測定された複数キー操作(execute)の最小レイテンシ。
-
repNodeMultiCumulativeLatMax – このノードが起動されてからこのノードで測定された複数キー操作(execute)の最大レイテンシ。
-
repNodeMultiCumulativeLatAvg – このノードが起動されてからこのノードで測定された(浮動小数点として返された)複数キー操作(execute)の平均レイテンシ。
-
repNodeMultiCumulativePct95 – 起動されてからの複数キー操作(execute)のレイテンシの95番目のパーセンタイル。
-
repNodeMultiCumulativePct99 – 起動されてからの複数キー操作(execute)のレイテンシの99番目のパーセンタイル。
-
repNodeMultiCumulativeTotalRequests – このノードが起動されてからこのノードで測定された複数キー操作の合計数。
-
repNodeCommitLag –特定の時間間隔中の特定のレプリケーション・ノードの更新操作の平均コミット・ラグ(ミリ秒)。
-
repNodeCacheSize – Bツリー・ノードのレプリケーション・ノードのキャッシュのサイズ(バイト)。これは、DBCacheSizeユーティリティを使用して計算されます。
-
repNodeConfigProperties – レプリケーション・ノードが現在実行している構成名/値のペアのセット。各パラメータは、文字列値を持つ定数です。文字列値は、KVSTOREでパラメータを設定するために使用されます。たとえば、パラメータCHECKPOINTER_BYTES_INTERVALのjavadocにはje.checkpointer.bytesInterval文字列値があります(ここを参照)。このドキュメントには、データ型、最小、最大時間などに関する詳細も記載されています。
-
repNodeCollectEnvStats – レプリケーション・ノードが現在パフォーマンス統計を収集しているかどうかに応じたtrueまたはfalse。
-
repNodeStatsInterval – レプリケーション・ノードが集計統計のために利用している間隔(秒)。
-
repNodeMaxTrackedLatency – レイテンシ統計を追跡する最大ミリ秒数。たとえば、このパラメータを1000に設定した場合、レイテンシが1000ミリ秒を超えてレプリケーション・ノードで実行される操作はいずれも、後続のレポートのメトリック・サンプルの配列に挿入されません。
-
repNodeJavaMiscParams – このレプリケーション・ノードを実行しているJava VMが起動したときに発生した-Xms、-Xmx、および-XX:ParallelGCThreads=の値。
-
repNodeLoggingConfigProps – このレプリケーション・ノードを実行しているJava VMが起動したときに発生したloggingConfigPropsパラメータの値。
-
repNodeHeapMB – このレプリケーション・ノードのJavaヒープのサイズ(MB)。
-
repNodeMountPoint – このレプリケーション・ノードのファイルが格納されるファイルシステム・マウント・ポイントへのパス。
-
repNodeMountPointSize – このレプリケーション・ノードのファイルが格納されるファイルシステム・マウント・ポイントのサイズ。
-
repNodeHeapSize – このレプリケーション・ノードの-Xmxの現在の値。
-
repNodeLatencyCeiling – このレプリケーション・ノードでレイテンシ・サンプルを収集できる上限(ミリ秒)。この上限に達するとアラートが生成されます。たとえば、これを3に設定した場合、レイテンシ・サンプルが3を上回ると、アラートが生成されます。
-
repNodeCommitLagThreshold – 指定した時間間隔中に特定のレプリケーション・ノードの平均コミット・ラグ(ミリ秒)が、このメソッドから返された値を超えると、アラートが生成されます。
-
repNodeReplicationState - ノードのレプリケーションの状態。
-
repNodeThroughputFloor – このレプリケーション・ノードでスループット・サンプルを収集できる(秒当たりの操作の)下限。この下限に達するとアラートが生成されます。たとえば、これを300,000に設定した場合、このレプリケーション・ノードでのスループット計算で秒当たりの操作数が300,000を下回ると、アラートが生成されます。