A.1 TCMPのログ・メッセージ
TCMPに関連するログ・メッセージは次のとおりです。
- Experienced a %n1 ms communication delay (probable remote GC) with Member %s
-
%n1: 通信遅延の待機時間(ミリ秒)、%s: 全メンバー情報。重要度: 2: 警告、5: デバッグ・レベル5、6: デバッグ・レベル6(遅延の長さによる)。
-
原因: このノードで、指定されたノードからの確認パケットの受信遅延が検出され、リモートGC(ローカルGCではなく)が原因である可能性が高いと判断されました。このメッセージは、指定されたノードから期限切れの確認パケットを受信しており、その問題がそのノードのGCが原因で発生したと推測されることを示しています。
-
処置: ガベージ・コレクションが長期化したり、頻度が高かったりすると、クラスタのパフォーマンスと可用性に悪影響を及ぼす場合があります。この警告が頻繁に表示される場合は、JVMヒープおよびGCの構成とチューニングを確認してください。詳細は、
第6章「パフォーマンス・チューニング」を参照してください。
- Failed to satisfy the variance: allowed=%n1 actual=%n2
-
%n1: 許容最大待機時間(ミリ秒)、%n2: 実際の待機時間(ミリ秒)。重要度: 3: 情報、5: デバッグ・レベル5(メッセージの発生頻度による)。
-
原因: Coherenceクラスタ検出プロトコルの最初のステップの1つとして、新しいノードと上位ノードとの間のクロックの差異が計算されます。このステップでは、ノード間のpeer-to-peerラウンドトリップUDP通信の待機時間が比較的短いと想定されます。デフォルトの構成済の最大許容待機時間(<maximum-time-variance
構成要素の値)は16ミリ秒です。『Oracle Coherence開発者ガイド』の<incoming-message-handler
要素を参照してください。待機時間を超えると、このメッセージがログに記録され、待機時間のしきい値が大きくなり、以降のメッセージに反映されます。
-
- Created a new cluster "%s1" with Member(%s2)
-
%s1: クラスタ名、%s2: 全メンバー情報。重大度: 3: 情報。
-
原因: Coherenceノードが構成時間内(<join-timeout-milliseconds
要素で指定されますが、「<multicast-listener
要素」を参照してください)に既存のクラスタに参加しようとしましたが、他のノードからの応答をまったく受信しませんでした。そのため、指定された名前の新しいクラスタを作成しました(<cluster-name
要素(「<member-identity
要素」を参照)によって構成された名前か、マルチキャスト・リスナーのアドレスやポートまたは<well-known-addresses
リストに基づいて計算された名前のいずれか)。メンバー情報には、ノードID、作成タイムスタンプ、ユニキャスト・アドレスとポート、ロケーション、プロセスID、ロールなどが含まれます。
-
処置: このノードがクラスタ内の最初のノードである場合、処置は特に必要ありません。最初のノードでない場合は、オペレーション構成を確認して、このノードが既存クラスタに参加できない原因を調べる必要があります。
- This Member(%s1) joined cluster "%s2" with senior Member(%s3)
-
%s1: このノードの全メンバー情報、%s2: クラスタ名、%s3: クラスタの上位ノードの全メンバー情報。重大度: 3: 情報。
-
原因: このCoherenceノードは既存クラスタに参加しました。
-
処置: このノードが既存クラスタに参加予定である場合、処置は特に必要ありません。それ以外の場合は、実行中のクラスタを特定して、修正処置について検討してください。
- Member(%s) joined Cluster with senior member %n
-
%s: このノードが属するクラスタに参加した新しいノードの全メンバー情報、%n: クラスタの上位ノードのノードID。重大度: 5: デバッグ・レベル5。
-
原因: 新しいノードが既存のCoherenceクラスタに参加しました。
-
処置: なし。
- Member(%s) left Cluster with senior member %n
-
%s: クラスタから離脱したノードの全メンバー情報、%n: クラスタの上位ノードのノードID。重大度: 5: デバッグ・レベル5。
-
原因: ノードがクラスタから離脱しました。この離脱の原因としては、プログラムによるシャットダウン、プロセスの終了(正常または異常)またはその他の通信障害(たとえば、ネットワークの切断または非常に長期のGCの一時停止)が考えられます。このメッセージは、ノードの離脱をレポートするものです。
-
処置: このノードの離脱が計画的なものである場合、処置は特に必要ありません。計画外の場合は離脱したノードのログを分析する必要があります。
- MemberLeft notification for Member %n received from Member(%s)
-
%n: 離脱したノードのノードID、%s: クラスタから離脱したノードの全メンバー情報。重大度: 5: デバッグ・レベル5。
-
原因: Coherenceノードが終了すると、他よりも早くこの離脱がノードによって検出されます。通常、TCPリング接続を介して接続されたノード(TCPリング・バディ)が最初にこれを検出します。このメッセージは、離脱を最初に検出したノードに関する情報を提供します。
-
処置: このノードの離脱が計画的なものである場合、処置は特に必要ありません。計画外の場合は、離脱したノードと離脱を検出したノードの両方のログを分析する必要があります。
- Service %s joined the cluster with senior service member %n
-
%s: サービス名、%n: 上位サービス・メンバーのID。重大度: 5: デバッグ・レベル5。
-
原因: 所定のノードでクラスタ・サービスが開始すると、Coherenceは特定のサービスを実行するすべてのクラスタ・ノード間でハンドシェイク・プロトコルを開始します。このメッセージは、このプロトコルが開始したことを通知するものです。この時点で上位ノードが不明の場合は、n/aと表示されます。
-
処置: なし。
- This node appears to have partially lost the connectivity: it receives responses from MemberSet(%s1) which communicate with Member(%s2), but is not responding directly to this member; that could mean that either requests are not coming out or responses are not coming in; stopping cluster service.
-
%s1: %s2に示されるメンバーと通信できるメンバー・セット、%s2: %s1に示されるメンバー・セットと通信できるメンバー。重大度: 1: エラー。
-
原因: このメンバーと%s2で示されたメンバー間の通信リンクが切断されました。しかし、%s1で示された証人セットは、%s2との通信の問題を報告しません。したがって、このノードは部分障害の状態であると見なされ、その結果、そのクラスタ・スレッドがシャットダウンされます。
-
処置: クラスタの残りの部分は動作を継続し、このノードは回復してクラスタに再参加すると推測されるため、修正処置が必要になるとはかぎりません。ただし、問題の根本原因の調査が必要になる場合もあります(特に一定の頻度で繰返し発生する場合)。
- validatePolls: This senior encountered an overdue poll, indicating a dead member, a significant network issue or an Operating System threading library bug (e.g. Linux NPTL): Poll
-
重大度: 2: 警告。
-
原因: ノードがクラスタに参加すると、各クラスタ・ノードとハンドシェイクを行います。ハンドシェイク・レスポンスが欠落しているため、このノードはサービスに参加できません。これに続くログ・メッセージは、このノードが取る修正処置を示します。
-
処置: このメッセージが再度表示される場合は、根本原因の詳細な調査が必要になることがあります。
- Received panic from senior Member(%s1) caused by Member(%s2)
-
%s1: このノードで知られているクラスタ上位メンバー、%s2: 上位メンバーであると主張するメンバー。重大度: 1: エラー。
-
原因: これは、(通常、ネットワーク・リンク障害のため)クラスタが複数のクラスタ・アイランドに分割された後に発生します。リンクが回復し、対応するアイランドの上位メンバーが互いを認識すると、パニック・プロトコルが開始され、競合を解決します。
-
処置: この問題が頻繁に発生する場合は、クラスタが分割される根本原因を調査する必要があります。
- Member %n1 joined Service %s with senior member %n2
-
%n1: サービスに参加するCoherenceノードのID、%s: サービス名、%n2: サービスの上位ノード。重大度: 5: デバッグ・レベル5。
-
原因: いずれかのクラスタ・ノードでクラスタ・サービスが開始されると、Coherenceは特定のサービスを実行するすべてのクラスタ・ノード間でハンドシェイク・プロトコルを開始します。このメッセージは、指定されたノードがハンドシェイクを正常に完了してサービスに参加したことを通知するものです。
-
処置: なし。
- Member %n1 left Service %s with senior member %n2
-
%n1: サービスに参加するCoherenceノードのID、%s: サービス名、%n2: サービスの上位ノード。重大度: 5: デバッグ・レベル5。
-
原因: いずれかのクラスタ・ノードでクラスタ・サービスが終了すると、そのサービスを実行する他のすべてのノードにこのイベントが通知されます。このメッセージは、指定されたノードで指定されたクラスタ・サービスが終了したことを通知するものです。
-
処置: なし。
- Service %s: received ServiceConfigSync containing %n entries
-
%s: サービス名、%n: サービス構成マップ内のエントリ数。重大度: 5: デバッグ・レベル5。
-
原因: サービスの上位メンバーは、指定のサービスを実行しているすべてのクラスタ・ノード間のサービス・ハンドシェイク・プロトコルの一部として、新しいノードのそれぞれについて、サービス構成マップの全コンテンツを更新します。パーティション・キャッシュ・サービスの場合は、完全なパーティション所有権カタログとすべての既存キャッシュの内部IDがこのマップに含まれます。このメッセージは、サービスの上位ノードの役割を新しいノードが引き継ぐ際に上位ノードでサービスが異常終了した場合にも送信されます。このメッセージは、指定されたノードが構成の更新を受信したことを通知するものです。
-
処置: なし。
- TcpRing: connecting to member %n using TcpSocket{%s}
-
%s: 他のノードへのTcpRingコネクタとして機能するTcpSocketに関する全情報、%n: このノードが接続されるノードのID。重大度: 5: デバッグ・レベル5。
-
原因: Coherenceは、TcpRingと呼ばれる機能を利用して、プロセスの終了を迅速に検出します。TcpRingは、クラスタ内の異なるノード間でのTCP/IP接続のスパース・コレクションです。クラスタ内の各ノードが(可能であれば)別の物理的なボックスで実行されている1つ以上の他のノードに接続されます。この接続は、データ転送には使用されません。各リンクで1秒に1回単純なハートビート通信が送信されるだけです。このメッセージは、このノードと指定されたノードの間で接続が開始されたことを示しています。
-
処置: なし。
- Rejecting connection to member %n using TcpSocket{%s}
-
%n: このノードへの接続を試行するノードのID、%s: 他のノードへのTcpRingコネクタとして機能するTcpSocketに関する全情報。重大度: 4: デバッグ・レベル4。
-
原因: 異なるノード上で実行されているTCPリング・デーモンが相互に、または同じノード上で同時に参加を試みることがあります。その場合、受信側のノードが、その接続が冗長であると判断して、着信接続リクエストを拒否することがあります。このメッセージは、このような状況が発生したときに、リクエストを拒否したノードによってログに記録されます。
-
処置: なし。
- Timeout while delivering a packet; requesting the departure confirmation for Member(%s1) by MemberSet(%s2)
-
%s1: このノードが通信に失敗したノードの全メンバー情報、%s2: メンバーが離脱した疑いについて確認するよう要求された証人ノードに関する全情報。重大度: 2: 警告。
-
原因: Coherenceでは、すべてのデータ通信(大半はpeer-to-peerユニキャスト)にUDPが使用されますが、UDP自体では、配信について保証されているわけではありません。それについては、Coherenceで使用されるクラスタ管理プロトコル(TCMP)で保証されています。TCMPデーモンは、すべての着信通信の確認(ACKまたはNACK)を行う役割があります。ACK間隔(ack-delay-milliseconds)の期限内に確認できなかったパケットが1つ以上ある場合、それらのパケットは再送信されます。パケットが最終的に確認できるまで、またはタイムアウト間隔(timeout-milliseconds)が経過するまで、この処理が繰り返されます。このときに、このメッセージがログに記録され、証人プロトコルによって、他のクラスタ・ノードで応答のないノードとの間に同様の通信遅延が発生したことがあるかどうかが確認されます。証人ノードは、ロールとロケーションを基準にして選択されます。
-
処置: クラスタの残りの部分は動作を継続し、このノードは回復してクラスタに再参加すると推測されるため、修正処置が必要になるとはかぎりません。ただし、問題の根本原因の調査が必要になる場合もあります(特に一定の頻度で繰返し発生する場合)。
- This node appears to have become disconnected from the rest of the cluster containing %n nodes.All departure confirmation requests went unanswered.Stopping cluster service.
-
%n: このノードがメンバーとして属していたクラスタ内の他のノードの数。重大度: 1: エラー。
-
原因: 有効なJavaプロセス内のアクティブなノードが他のクラスタ・ノードとの通信を停止する場合があります(想定される原因としては、ネットワーク障害、極端に長期にわたるGCの停止、プロセスのスワップアウトなどがあります)。その場合、他のクラスタ・ノードは、一時停止したノードからのクラスタ・メンバーシップを無効にして、そのノードによるその後の通信の試行を完全に回避することを選択できます。その場合、プロセスがクラスタ通信を再開しようとすると、このメッセージがログに記録されます。
-
処置: クラスタの残りの部分は動作を継続し、このノードは回復してクラスタに再参加すると推測されるため、修正処置が必要になるとはかぎりません。ただし、問題の根本原因の調査が必要になる場合もあります(特に一定の頻度で繰返し発生する場合)。
- A potential communication problem has been detected.A packet has failed to be delivered (or acknowledged) after %n1 seconds, although other packets were acknowledged by the same cluster member (Member(%s1)) to this member (Member(%s2)) as recently as %n2 seconds ago.Possible causes include network failure, poor thread scheduling (see FAQ if running on Windows), an extremely overloaded server, a server that is attempting to run its processes using swap space, and unreasonably lengthy GC times.
-
%n1: パケットを配信または認識できなかった秒数、%s1: メッセージに示されたパケットの受信側、%s2: メッセージに示されたパケットの送信側、%n2: 前述の2つのメンバー間でパケットが正常に配信されてからの秒数。重大度: 2: 警告。
-
原因: 考えられる原因は、メッセージのテキストに示されています。
-
処置: この問題が頻繁に発生する場合は、根本原因を調査する必要があります。
- Node %s1 is not allowed to create a new cluster; WKA list: [%s2]
-
%s1: クラスタへの参加を試みるノードのアドレス、%s2: WKAアドレスのリスト。重大度: 1: エラー。
-
原因: クラスタはWKAを使用するように構成されていますが、そのクラスタにはWKAリストにあるノードが存在しません。
-
処置: WKAリスト内のノードの少なくとも1つはクラスタに存在するようにするか、このノードのアドレスをWKAリストに追加します。
- This member is configured with a compatible but different WKA list then the senior Member(%s).It is strongly recommended to use the same WKA list for all cluster members.
-
%s: クラスタの上位ノード。重大度: 2: 警告。
-
原因: このノードのWKAリストが、上位ノードのWKAリストと異なります。
-
処置: このノードのWKAリストが、上位ノードのWKAリストと異なります。
- UnicastUdpSocket failed to set receive buffer size to %n1 packets (%n2 bytes); actual size is %n3 packets (%n4 bytes).Consult your OS documentation regarding increasing the maximum socket buffer size.Proceeding with the actual value may cause sub-optimal performance.
-
%n1: Coherenceが割当てを試みたバッファに収まるパケットの数、%n2: Coherenceが割当てを試みたバッファのサイズ、%n3: 割り当てられた実際のバッファ・サイズに収まるパケットの数、%n4: 割り当てられたバッファの実際のサイズ。重大度: 2: 警告。
-
-
- The timeout value configured for IpMonitor pings is shorter than the value of 5 seconds.Short ping timeouts may cause an IP address to be wrongly reported as unreachable on some platforms.
-
重大度: 2: 警告。
-
原因: pingのタイムアウト値が5秒より小さくなっています。
-
処置: <tcp-ring-listener>
要素内で構成されたpingタイムアウトは、5秒より大きくしてください。
- Network failure encountered during InetAddress.isReachable(): %s
-
%n: スタック・トレース。重大度: 5: デバッグ・レベル5。
-
原因: IpMonitorコンポーネントがメンバーにpingを送信できないまま、構成されたタイムアウト間隔に達しています。
-
処置: メンバーが動作中であることを確認するか、ネットワークの停止を確認してください。<tcp-ring-listener>
要素内で構成するpingタイムアウトは、そのネットワークに必要になるタイムアウトを考慮に入れて長くできます。
- TcpRing has been explicitly disabled, this is not a recommended practice and will result in a minimum death detection time of %n seconds for failed processes.
-
%n: パケット・パブリッシャの再送信タイムアウトで指定された秒数(デフォルトは5秒)。重大度: 2: 警告。
-
原因: TcpRingリスナー・コンポーネントが無効化されています。
-
処置: <tcp-ring-listener>
要素内のTcpRingリスナーを有効化してください。
- IpMonitor has been explicitly disabled, this is not a recommended practice and will result in a minimum death detection time of %n seconds for failed machines or networks.
-
%n: パケット・パブリッシャの再送信タイムアウトで指定された秒数(デフォルトは5秒)。重大度: 2: 警告。
-
原因: IpMonitorコンポーネントが無効化されています。
-
処置: <tcp-ring-listener>
要素内のTcpRingリスナーが有効化されたときに、IpMonitorコンポーネントを有効化します。
- TcpRing connecting to %s
-
%s: このメンバーがTCP-Ringを形成するために結合しているクラスタ・メンバー重大度: 6: デバッグ・レベル6。
-
原因: このメッセージは、これと指定メンバーの間で接続が開始されたことを示しています。TCP-Ringは、プロセスの終了を迅速に検出するために使用されます。TCP-Ringとは、クラスタ内の異なるノード間でのTCP/IPベースの接続のスパース・コレクションのことです。
-
処置: なし。
- TcpRing disconnected from %s to maintain ring
-
%s: このメンバーが切断されたクラスタ・メンバー。重大度: 6: デバッグ・レベル6。
-
原因: このメッセージは、このメンバーが指定メンバーから切断されたことと、指定されたメンバーがTCP-Ringのメンバーでないことを示しています。TCP-Ringは、プロセスの終了を迅速に検出するために使用されます。TCP-Ringとは、クラスタ内の異なるノード間でのTCP/IPベースの接続のスパース・コレクションのことです。
-
処置: メンバーが意図的に停止された場合、さらなる処置は必要ありません。それ以外の場合、そのメンバーは障害の発生またはネットワークの停止のためにクラスタから切り離されている可能性があります。メンバーを再起動します。
- TcpRing disconnected from %s due to a peer departure; removing the member.
-
%s: このメンバーが切断されたクラスタ・メンバー。重大度: 5: デバッグ・レベル5。
-
原因: このメッセージは、このメンバーが指定メンバーから切断されたことと、指定されたメンバーがTCP-Ringのメンバーでないことを示しています。TCP-Ringは、プロセスの終了を迅速に検出するために使用されます。TCP-Ringとは、クラスタ内の異なるノード間でのTCP/IPベースの接続のスパース・コレクションのことです。
-
処置: メンバーが意図的に停止された場合、さらなる処置は必要ありません。それ以外の場合、そのメンバーは障害の発生またはネットワークの停止のためにクラスタから切り離されている可能性があります。メンバーを再起動します。
- TcpRing connection to "%s" refused ("%s1"); removing the member.
-
%s: このメンバーが接続を拒否されたクラスタ・メンバー。%s1: 拒否メッセージ。重大度: 5: デバッグ・レベル5。
-
原因: 指定したメンバーは、このメンバーからのTCP接続を拒否した後でTCP-Ringから削除されています。
-
処置: メンバーが意図的に停止された場合、さらなる処置は必要ありません。それ以外の場合、そのメンバーは障害の発生またはネットワークの停止のためにクラスタから切り離されている可能性があります。メンバーを再起動します。