B ログ・メッセージのリファレンス

Coherenceからは、可能性のある問題を含む重要な情報を特定する多くのログ・メッセージが発行されます。この付録では、一般的なCoherenceのログ・メッセージと、メッセージの原因および可能な処置について説明します。

この付録の内容は次のとおりです。

TCMPのログ・メッセージ

TCMPに関連するログ・メッセージ
Experienced a %n1 ms communication delay (probable remote GC) with Member %s

%n1 - 通信遅延の待機時間(ミリ秒)、%s - 全メンバー情報。重大度: 2: 警告、5: デバッグ・レベル5、6: デバッグ・レベル6(遅延の長さによる)。

原因: このノードで、指定されたノードからの確認パケットの受信遅延が検出され、リモートGC(ローカルGCではなく)が原因である可能性が高いと判断されました。このメッセージは、指定されたノードから期限切れの確認パケットを受信しており、その問題がそのノードのGCが原因で発生したと推測されることを示しています。ネットワークまたはリモート・サーバーの処理速度の低下によって、この現象が発生する可能性がありますが、最も一般的な原因はGCであるため、これを最初に調査する必要があります。

処置: ガベージ・コレクションが長期化したり、頻度が高かったりすると、クラスタのパフォーマンスと可用性に悪影響を及ぼす場合があります。この警告が頻繁に表示される場合は、JVMヒープおよびGCの構成とチューニングを確認してください。「パフォーマンス・チューニング」を参照してください。

Failed to satisfy the variance: allowed=%n1 actual=%n2

%n1 - 許容最大待機時間(ミリ秒)、%n2 - 実際の待機時間(ミリ秒)。重大要度: 3: 情報、5: デバッグ・レベル5(メッセージの発生頻度による)。

原因: Coherenceクラスタ検出プロトコルの最初のステップの1つとして、新しいノードと上位ノードとの間のクロックの差異が計算されます。このステップでは、ノード間のpeer-to-peerラウンドトリップ通信の待機時間が比較的短いと想定されます。デフォルトの構成済の最大許容待機時間(<maximum-time-variance>構成要素の値)は16ミリ秒です。Oracle Coherenceでのアプリケーションの開発incoming-message-handlerを参照してください。待機時間を超えると、このメッセージがログに記録され、待機時間のしきい値が大きくなり、以降のメッセージに反映されます。

処置: 待機時間が依然として非常に長い場合は(100ミリ秒超)、ネットワーク管理者に連絡して、「ネットワーク・パフォーマンス・テストの実行」を参照してください。

Created a new cluster "%s1" with Member(%s2)

%s1 - クラスタ名、%s2 - 全メンバー情報。重大度: 3: 情報。

原因: 構成された時間内(<join-timeout-milliseconds>要素で指定)にこのCoherenceノードが既存のクラスタに参加しようとしましたが、他のノードからの応答をまったく受信しませんでした。そのため、指定された名前で新しいクラスタを作成しました(<cluster-name>要素によって構成されている名前か、マルチキャスト・リスナーのアドレスとポート、またはウェル・ノウン・アドレス・リストに基づいて計算された名前のいずれか)。メンバー情報には、ノードID、作成タイムスタンプ、ユニキャスト・アドレスとポート、ロケーション、プロセスID、ロールなどが含まれます。

処置: このノードがクラスタ内の最初のノードである場合、処置は特に必要ありません。そうでない場合は、オペレーション構成を確認して、このノードが既存クラスタに参加できない原因を調べる必要があります。

This Member(%s1) joined cluster "%s2" with senior Member(%s3)

%s1 - このノードの全メンバー情報、%s2 - クラスタ名、%s3 - クラスタの上位ノードの全メンバー情報。重大度: 3: 情報。

原因: このCoherenceノードは既存クラスタに参加しました。

処置: このノードが既存クラスタに参加予定である場合、処置は特に必要ありません。それ以外の場合は、実行中のクラスタを特定して、修正処置について検討してください。

Member(%s) joined Cluster with senior member %n

%s - このノードが属するクラスタに参加した新しいノードの全メンバー情報、%n - クラスタの上位ノードのノードID。重大度: 5: デバッグ・レベル5。

原因: 新しいノードが既存のCoherenceクラスタに参加しました。

処置: 処置は必要ありません。

クラスタ%sのその他のメンバーは、矛盾したネットワーク構成ですでに実行されており、%nへの参加が中止されます。

%sは、参加を試みたクラスタの名前です。%nは、クラスタの情報です。重大度: 5: デバッグ・レベル5。

原因:参加するメンバーのネットワーク構成が、クラスタの既存のメンバーと競合しています。

処置: オペレーション構成を確認して、このノードが既存クラスタに参加できない原因を調べる必要があります。

Member(%s) left Cluster with senior member %n

%s - クラスタから離脱したノードの全メンバー情報、%n - クラスタの上位ノードのノードID。重大度: 5: デバッグ・レベル5。

原因: ノードがクラスタから離脱しました。この離脱の原因としては、プログラムによるシャットダウン、プロセスの終了(正常または異常)またはその他の通信障害(たとえば、ネットワークの切断または非常に長期のGCの一時停止)が考えられます。このメッセージは、ノードの離脱をレポートするものです。

処置: このノードの離脱が計画的なものである場合、処置は特に必要ありません。そうでない場合は、離脱したノードのログを分析する必要があります。

MemberLeft notification for Member %n received from Member(%s)

%n - 離脱したノードのノードID、%s - クラスタから離脱したノードの全メンバー情報。重大度: 5: デバッグ・レベル5。

原因: Coherenceノードが終了すると、いくつかのノードでは、他よりも早くこの離脱が検出されます。通常、TCPリング接続を介して接続されたノード(TCPリング・バディ)が最初にこれを検出します。このメッセージは、離脱を最初に検出したノードに関する情報を提供します。

処置: このノードの離脱が計画的なものである場合、処置は特に必要ありません。そうでない場合は、離脱したノードと離脱を検出したノードの両方のログを分析する必要があります。

Received cluster heartbeat from the senior %n that does not contain this %s ; stopping cluster service

%n - 上位サービス・メンバーID、%s - クラスタ・サービス・メンバーのID。重大度: 1: エラー。

原因: ハートビートが、クラスタ・メンバー・セットを含む上位クラスタ・サービス・メンバーからブロードキャストされています。このクラスタ・サービス・メンバーがブロードキャスト・セットの一部でない場合、上位メンバーはこのサービス・メンバーを利用不可能と判断し、メンバーに対するクラスタ・サービスが停止していると想定されます。これは通常、(ネットワークの問題または長時間のガベージ・コレクションが原因が考えられるために)メンバーが長時間クラスタとの通信を喪失し、クラスタから拒否された場合に発生します。

処置: クラスタの残りの部分は動作を継続すると推測されるため、修正処置が必要になるとはかぎりません。ただし、問題の根本原因の調査が必要になる場合もあります(特に一定の頻度で繰返し発生する場合)。

Service %s joined the cluster with senior service member %n

%s - サービス名、%n - 上位サービス・メンバーのID。重大度: 5: デバッグ・レベル5。

原因: 所定のノードでクラスタ化サービスが開始すると、Coherenceは特定のサービスを実行するすべてのクラスタ・ノード間でハンドシェイク・プロトコルを開始します。このメッセージは、このプロトコルが開始したことを通知するものです。この時点で上位ノードが不明の場合は、n/aと表示されます。

処置: 処置は必要ありません。

This node appears to have partially lost the connectivity: it receives responses from MemberSet(%s1) which communicate with Member(%s2), but is not responding directly to this member; that could mean that either requests are not coming out or responses are not coming in; stopping cluster service

%s1 - %s2に示されるメンバーと通信できるメンバー・セット、%s2 - %s1に示されるメンバー・セットと通信できるメンバー。重大度: 1: エラー。

原因: このメンバーと%s2で示されたメンバー間の通信リンクが切断されました。しかし、%s1で示された証人セットは、%s2との通信の問題を報告しません。したがって、このノードは部分障害の状態であると見なされ、その結果、そのクラスタ・スレッドがシャットダウンされます。

処置: クラスタの残りの部分は動作を継続し、このノードは回復してクラスタに再参加すると推測されるため、修正処置が必要になるとはかぎりません。ただし、問題の根本原因の調査が必要になる場合もあります(特に一定の頻度で繰返し発生する場合)。

validatePolls: This senior encountered an overdue poll, indicating a dead member, a significant network issue or an Operating System threading library bug (e.g. Linux NPTL): Poll

重大度: 2: 警告

原因: ノードがクラスタに参加すると、各クラスタ・ノードとハンドシェイクを行います。ハンドシェイク・レスポンスが欠落しているため、このノードはサービスに参加できません。これに続くログ・メッセージは、このノードが取る修正処置を示します。

処置: このメッセージが再度表示される場合は、根本原因の詳細な調査が必要になることがあります。

Received panic from junior member %s1 caused by %s2

%s1 - 危機的状況を送信したクラスタ・メンバー、%s2 - 上位メンバーであると主張するメンバー。重大度2 - 警告

原因: これは、(通常、ネットワーク・リンク障害のため)クラスタが複数のクラスタ・アイランドに分割された後に発生します。このメッセージは、この上位メンバーには上位メンバーであると主張しているその他のメンバーに関する情報がないため、その他の上位メンバーと通信できるまでは下位メンバーからの危機的状況が無視されることを示しています。

処置: この問題が頻繁に発生する場合は、クラスタが分割される根本原因を調査する必要があります。

Received panic from senior Member(%s1) caused by Member(%s2)

%s1 - このノードで知られているクラスタ上位メンバー、%s2 - 上位メンバーであると主張するメンバー。重大度: 1: エラー。

原因: これは、(通常、ネットワーク・リンク障害のため)クラスタが複数のクラスタ・アイランドに分割された後に発生します。リンクが回復し、対応するアイランドの上位メンバーが互いを認識すると、パニック・プロトコルが開始され、競合を解決します。

処置: この問題が頻繁に発生する場合は、クラスタが分割される根本原因を調査する必要があります。

Member %n1 joined Service %s with senior member %n2

%n1 - サービスに参加するCoherenceノードのID、%s - サービス名、%n2 - サービスの上位ノード。重大度: 5: デバッグ・レベル5。

原因: いずれかのクラスタ・ノードでクラスタ化サービスが開始されると、Coherenceは特定のサービスを実行するすべてのクラスタ・ノード間でハンドシェイク・プロトコルを開始します。このメッセージは、指定されたノードがハンドシェイクを正常に完了してサービスに参加したことを通知するものです。

処置: 処置は必要ありません。

Member %n1 left Service %s with senior member %n2

%n1 - サービスに参加するCoherenceノードのID、%s - サービス名、%n2 - サービスの上位ノード。重大度: 5: デバッグ・レベル5。

原因: いずれかのクラスタ・ノードでクラスタ化サービスが終了すると、そのサービスを実行する他のすべてのノードにこのイベントが通知されます。このメッセージは、指定されたノードで指定されたクラスタ化サービスが終了したことを通知するものです。

処置: 処置は必要ありません。

Service %s: received ServiceConfigSync containing %n entries

%s - サービス名、%n - サービス構成マップ内のエントリ数。重大度: 5: デバッグ・レベル5。

原因: サービスの上位メンバーは、指定のサービスを実行しているすべてのクラスタ・ノード間のサービス・ハンドシェイク・プロトコルの一部として、新しいノードのそれぞれについて、サービス構成マップの全コンテンツを更新します。パーティション・キャッシュ・サービスの場合は、完全なパーティション所有権カタログとすべての既存キャッシュの内部IDがこのマップに含まれます。このメッセージは、サービスの上位ノードの役割を新しいノードが引き継ぐ際に上位ノードでサービスが異常終了した場合にも送信されます。このメッセージは、指定されたノードが構成の更新を受信したことを通知するものです。

処置: 処置は必要ありません。

TcpRing: connecting to member %n using TcpSocket{%s}

%s - 他のノードへのTcpRingコネクタとして機能するTcpSocketに関する全情報、%n - このノードが接続されるノードのID。重大度: 5: デバッグ・レベル5。

原因: Coherenceは、TcpRingと呼ばれる機能を利用して、プロセスの終了を迅速に検出します。TcpRingは、クラスタ内の異なるノード間でのTCP/IP接続のスパース・コレクションです。クラスタ内の各ノードが(可能であれば)別の物理的なボックスで実行されている1つ以上の他のノードに接続されます。この接続は、データ転送には使用されません。各リンクで1秒に1回単純なハートビート通信が送信されるだけです。このメッセージは、このノードと指定されたノードの間で接続が開始されたことを示しています。

処置: 処置は必要ありません。

Rejecting connection to member %n using TcpSocket{%s}

%n - このノードへの接続を試行するノードのID、%s - 他のノードへのTcpRingコネクタとして機能するTcpSocketに関する全情報。重大度: 4: デバッグ・レベル4。

原因: 異なるノード上で実行されているTCPリング・デーモンが相互に、または同じノード上で同時に参加を試みることがあります。その場合、受信側のノードが、その接続が冗長であると判断して、着信接続リクエストを拒否することがあります。このメッセージは、このような状況が発生したときに、リクエストを拒否したノードによってログに記録されます。

処置: 処置は必要ありません。

Timeout while delivering a packet; requesting the departure confirmation for Member(%s1) by MemberSet(%s2)

%s1 - このノードが通信に失敗したノードの全メンバー情報、%s2 - メンバーが離脱した疑いについて確認するよう要求された証人ノードに関する全情報。重大度: 2: 警告

原因: Coherenceでは、すべてのデータ通信(大半はpeer-to-peerユニキャスト)にTMBが使用されますが、それ自体では、配信について保証されているわけではありません。それについては、Coherenceで使用されるクラスタ管理プロトコル(TCMP)で保証されています。TCMPデーモンは、すべての着信通信の確認(ACKまたはNACK)を行う役割があります。ACK間隔(ack-delay-milliseconds)の期限内に確認できなかったパケットが1つ以上ある場合、それらのパケットは再送信されます。パケットが最終的に確認できるまで、またはタイムアウト間隔(timeout-milliseconds)が経過するまで、この処理が繰り返されます。このときに、このメッセージがログに記録され、証人プロトコルによって、他のクラスタ・ノードで応答のないノードとの間に同様の通信遅延が発生したことがあるかどうかが確認されます。証人ノードは、ロールとロケーションを基準にして選択されます。

処置: クラスタの残りの部分は動作を継続し、このノードは回復してクラスタに再参加すると推測されるため、修正処置が必要になるとはかぎりません。ただし、問題の根本原因の調査が必要になる場合もあります(特に一定の頻度で繰返し発生する場合)。

This node appears to have become disconnected from the rest of the cluster containing %n nodes All departure confirmation requests went unanswered Stopping cluster service.

%n - このノードがメンバーとして属していたクラスタ内の他のノードの数。重大度: 1: エラー。

原因: 有効なJavaプロセス内のアクティブなノードが他のクラスタ・ノードとの通信を停止する場合があります。(想定される原因としては、ネットワーク障害、極端に長期にわたるGCの停止、プロセスのスワップアウトなどがあります。)その場合、他のクラスタ・ノードは、一時停止したノードのクラスタ・メンバーシップを無効にして、そのノードによるその後の通信の試行を完全に回避することを選択できます。その場合、プロセスがクラスタ通信を再開しようとすると、このメッセージがログに記録されます。

処置: クラスタの残りの部分は動作を継続し、このノードは回復してクラスタに再参加すると推測されるため、修正処置が必要になるとはかぎりません。ただし、問題の根本原因の調査が必要になる場合もあります(特に一定の頻度で繰返し発生する場合)。

A potential communication problem has been detected A packet has failed to be delivered (or acknowledged) after %n1 seconds, although other packets were acknowledged by the same cluster member (Member(%s1)) to this member (Member(%s2)) as recently as %n2 seconds ago Possible causes include network failure, poor thread scheduling (see FAQ if running on Windows), an extremely overloaded server, a server that is attempting to run its processes using swap space, and unreasonably lengthy GC times

%n1 - パケットを配信または認識できなかった秒数、%s1 - メッセージに示されたパケットの受信側、%s2 - メッセージに示されたパケットの送信側、%n2 - 前述の2つのメンバー間でパケットが正常に配信されてからの秒数。重大度: 2: 警告

原因: 考えられる原因は、メッセージのテキストに示されています。

処置: この問題が頻繁に発生する場合は、根本原因を調査する必要があります。

Node %s1 is not allowed to create a new cluster; WKA list: [%s2]

%s1 - クラスタへの参加を試みるノードのアドレス、%s2 - WKAアドレスのリスト。重大度: 1: エラー。

原因: クラスタはWKAを使用するように構成されていますが、そのクラスタにはWKAリストにあるノードが存在しません。

処置: WKAリスト内のノードの少なくとも1つはクラスタに存在するようにするか、このノードのアドレスをWKAリストに追加します。

This member is configured with a compatible but different WKA list then the senior Member(%s) It is strongly recommended to use the same WKA list for all cluster members

%s - クラスタの上位ノード。重大度: 2: 警告

原因: このノードのWKAリストが、上位ノードのWKAリストと異なります。異なるWKAリストを使用すると、様々なクラスタ・メンバーが他のクラスタ・メンバーと無関係に稼働する原因となり得ます。

処置: 2つのリストが意図的に異なっていることを確認するか、それらを同じ値に設定してください。

<socket implementation> failed to set receive buffer size to %n1 packets (%n2 bytes); actual size is %n3 packets (%n4 bytes) Consult your OS documentation regarding increasing the maximum socket buffer size Proceeding with the actual value may cause sub-optimal performance

%n1 - Coherenceが割当てを試みたバッファに収まるパケットの数、%n2 - Coherenceが割当てを試みたバッファのサイズ、%n3 - 割り当てられた実際のバッファ・サイズに収まるパケットの数、%n4 - 割り当てられたバッファの実際のサイズ。重大度: 2: 警告

原因: オペレーティング・システムのチューニングを参照してください。

処置: オペレーティング・システムのチューニングを参照してください。

The timeout value configured for IpMonitor pings is shorter than the value of 5 seconds Short ping timeouts may cause an IP address to be wrongly reported as unreachable on some platforms

重大度: 2: 警告

原因: pingのタイムアウト値が5秒より小さくなっています。

処置: <tcp-ring-listener>要素内で構成されたpingタイムアウトは、5秒より大きくしてください。

Network failure encountered during InetAddress.isReachable(): %s

%n - スタック・トレース。重大度: 5: デバッグ・レベル5。

原因: IpMonitorコンポーネントがメンバーにpingを送信できないまま、構成されたタイムアウト間隔に達しています。

処置: メンバーが動作中であることを確認するか、ネットワークの停止を確認してください。<tcp-ring-listener>要素内で構成するpingタイムアウトは、そのネットワークに必要になるタイムアウトを考慮に入れて長くできます。

TcpRing has been explicitly disabled, this is not a recommended practice and will result in a minimum death detection time of %n seconds for failed processes

%n - パケット・パブリッシャの再送信タイムアウトで指定された秒数(デフォルトは5秒)。重大度: 2: 警告

原因: TcpRingリスナー・コンポーネントが無効化されています。

処置: <tcp-ring-listener>要素内のTcpRingリスナーを有効化してください。

IpMonitor has been explicitly disabled, this is not a recommended practice and will result in a minimum death detection time of %n seconds for failed machines or networks

%n - パケット・パブリッシャの再送信タイムアウトで指定された秒数(デフォルトは5秒)。重大度: 2: 警告

原因: IpMonitorコンポーネントが無効化されています。

処置: <tcp-ring-listener>要素内のTcpRingリスナーが有効化されたときに、IpMonitorコンポーネントを有効化します。

TcpRing connecting to %s

%s - このメンバーがTCP-Ringを形成するために結合しているクラスタ・メンバー重大度: 6: デバッグ・レベル6。

原因: このメッセージは、これと指定メンバーの間で接続が開始されたことを示しています。TCP-Ringは、プロセスの終了を迅速に検出するために使用されます。TCP-Ringとは、クラスタ内の異なるノード間でのTCP/IPベースの接続のスパース・コレクションのことです。

処置: 処置は必要ありません。

TcpRing disconnected from %s to maintain ring

%s - このメンバーが切断されたクラスタ・メンバー。重大度: 6: デバッグ・レベル6。

原因: このメッセージは、このメンバーが指定メンバーから切断されたことと、指定されたメンバーがTCP-Ringのメンバーでないことを示しています。TCP-Ringは、プロセスの終了を迅速に検出するために使用されます。TCP-Ringとは、クラスタ内の異なるノード間でのTCP/IPベースの接続のスパース・コレクションのことです。

処置: メンバーが意図的に停止された場合、さらなる処置は必要ありません。それ以外の場合、そのメンバーは障害の発生またはネットワークの停止のためにクラスタから切り離されている可能性があります。メンバーを再起動します。

TcpRing disconnected from %s due to a peer departure; removing the member

%s - このメンバーが切断されたクラスタ・メンバー。重大度: 5: デバッグ・レベル5。

原因: このメッセージは、このメンバーが指定メンバーから切断されたことと、指定されたメンバーがTCP-Ringのメンバーでないことを示しています。TCP-Ringは、プロセスの終了を迅速に検出するために使用されます。TCP-Ringとは、クラスタ内の異なるノード間でのTCP/IPベースの接続のスパース・コレクションのことです。

処置: メンバーが意図的に停止された場合、さらなる処置は必要ありません。それ以外の場合、そのメンバーは障害の発生またはネットワークの停止のためにクラスタから切り離されている可能性があります。メンバーを再起動します。

TcpRing connection to "%s" refused ("%s1"); removing the member

%s - このメンバーが接続を拒否されたクラスタ・メンバー。%s1 - 拒否メッセージ。重大度: 5: デバッグ・レベル5。

原因: 指定したメンバーは、このメンバーからのTCP接続を拒否した後でTCP-Ringから削除されています。

処置: メンバーが意図的に停止された場合、さらなる処置は必要ありません。それ以外の場合、そのメンバーは障害の発生またはネットワークの停止のためにクラスタから切り離されている可能性があります。メンバーを再起動します。

構成のログ・メッセージ

構成に関連するログ・メッセージ
java.io.IOException: Configuration file is missing: "tangosol-coherence.xml"

重大度: 1: エラー。

原因: オペレーション構成ディスクリプタをロードできません。

処置: Javaコマンド行で指定されたクラス・パスからtangosol-coherence.xmlリソースがロードできることを確認してください。

Loaded operational configuration from resource "%s"

%s - オペレーション構成ディスクリプタの完全なリソース・パス(URI)。重大度: 3: 情報。

原因: Coherenceでは、指定された場所から、オペレーション構成ディスクリプタがロードされます。

処置: オペレーション構成ディスクリプタの場所がシステム・プロパティまたはプログラムを使用して明示的に指定されている場合は、レポートされたURIが予期されている場所と一致しているかどうかを確認してください。

Loaded operational overrides from "%s"

%s - オペレーション構成ディスクリプタ・オーバーライドのURI(ファイルまたはリソース)。重大度: 3: 情報。

原因: オペレーション構成ディスクリプタがポイントするオーバーライドの場所から、ディスクリプタのオーバーライドがロードされています。

処置: オペレーション構成ディスクリプタの場所が、システム・プロパティ、ディスクリプタ・オーバーライド、またはプログラムを使用して明示的に指定されている場合は、レポートされたURIが予期されている場所と一致しているかどうかを確認してください。

Optional configuration override "%s" is not specified

%s - オペレーション構成ディスクリプタ・オーバーライドのURI。重大度: 3: 情報。

原因: オペレーション構成ディスクリプタがオーバーライドの場所をポイントしていますが、その場所にはリソースがありません。

処置: オペレーション構成ディスクリプタ・オーバーライドが存在していなくてもよいかどうかを確認してください。

java.io.IOException: Document "%s1" is cyclically referenced by the 'xml-override' attribute of element %s2

%s1 - オペレーション構成ディスクリプタまたはオーバーライドのURI、%s2 - 間違った参照URIが含まれたXML要素の名前。重大度: 1: エラー。

原因: オペレーション構成オーバーライドが、それ自体をポイントしているかそのオーバーライドをポイントする別のオーバーライドをポイントしており、無限再帰が発生しています。

処置: 無効なxml-override属性値を修正してください。

java.io.IOException: Exception occurred during parsing: %s

%s - XMLパーサーのエラー。重大度: 1: エラー。

原因: 指定されたXMLが無効のため解析できません。

処置: XMLドキュメントを修正してください。

Loaded cache configuration from "%s"

%s - キャッシュ構成ディスクリプタのURI(ファイルまたはリソース)。重大度: 3: 情報。

原因: オペレーション構成ディスクリプタ、またはプログラムによって作成されたConfigurableCacheFactoryインスタンスが、すでにロードされているキャッシュ構成ディスクリプタをポイントしています。

処置: レポートされたURIが、予期されているキャッシュ構成ディスクリプタの場所と一致していることを確認してください。

パーティション・キャッシュ・サービスのログ・メッセージ

パーティション・キャッシュ・サービスに関連するログ・メッセージ
Application code running on "%s1" service thread(s) should not call ensureCache as this may result in a deadlock

The most common case is a CacheFactory call from a custom CacheStore implementation.

%s1 - アプリケーション・コードを実行しているサービス

原因: このメッセージは、アプリケーション・コードを実行している同じサービスのキャッシュに対してensureCache操作がコールされたことを示します。このコードは、インターセプタ、エントリ・プロセッサまたはキャッシュ・ストアなどの任意のユーザー・アプリケーション・コードからの場合があります。これは、同じサービスへのコールバックによる潜在的なデッドロックから保護するためです。

処置: アプリケーション・コードで、Coherenceによって管理されていない別のスレッドでコードが実行されるように、エグゼキュータでensureCacheを実行するコードを実行する必要があります。リクエストの性質および予想される負荷に応じて、スレッド・プールまたは単一のエグゼキュータを使用できます。

Asking member %n1 for %n2 primary partitions

%n1 - このノードがパーティションの転送を依頼したノードのID、%n2 - このノードが取得しようとしているパーティションの数。重大度: 4: デバッグ・レベル4。

原因: Coherenceノードで記憶域が有効なパーティション・サービスを開始すると、最初に、記憶域が有効な他のサービス・ノードと現在のパーティション所有情報を知らせる、構成の更新を受信します。この情報によって、再分散プロセスの後に各ノードが所有するパーティションの均等な所有数の計算が可能になります。このメッセージは、所有権を均等に分散できるようにするための特定のノードに対する転送リクエストが開始されたことを示しているわけではありません。

処置: 処置は必要ありません。

Transferring %n1 out of %n2 primary partitions to member %n3 requesting %n4

%n1 - このノードがリクエスト元のノードに転送するプライマリ・パーティションの数、%n2 - このノードが現在所有しているプライマリ・パーティションの合計数、%n3 - 転送先ノードのID、%n4 - リクエスト元ノードが要求するパーティションの数。重大度: 4: デバッグ・レベル4。

原因: パーティション分散プロトコルでは、所有するプライマリ・パーティションの数が均等な所有数よりも少ないノードが、多く所有するノードに対して所有パーティションの一部の転送をリクエストします。所有者は、リクエストされた数以内の任意の数のパーティションを送信できます。このメッセージは、対応するプライマリ・データの転送の開始位置を示します。

処置: 処置は必要ありません。

Transferring %n1 out of %n2 partitions to a machine-safe backup 1 at member %n3 (under %n4)

%n1 - このノードが別のノードに転送するバックアップ・パーティションの数、%n2 - このノードが現在所有している、消失する危険のある(バックアップがない)パーティションの合計数、%n3 - 転送先ノードのID、%n4 - 受領側が均等な所有数に達するために取得する必要のあるパーティション数。重大度: 4: デバッグ・レベル4。

原因: プライマリ・パーティションの所有権の調整が完了すると、ノードでは、強力なバックアップ・ポリシーを確実に実現するためのバックアップの分散が開始され、プライマリ所有者のコンピュータとは異なるコンピュータで実行されるノードにバックアップの所有権が割り当てられます。このメッセージは、対応するバックアップ・データの転送の開始位置を示します。

処置: 処置は必要ありません。

Transferring backup%n1 for partition %n2 from member %n3 to member %n4

%n1 - このノードが別のノードに転送しようとするバックアップ・パーティションの索引、%n2 - 転送対象のパーティション数、%n3 - このバックアップ・パーティションの前所有者のノードID、%n4 - バックアップ・パーティションの転送先ノードのID。重大度: 5: デバッグ・レベル5。

原因: パーティション分散プロトコルでは、ノードが、そのプライマリ・パーティションのいずれかのバックアップの所有者に過負荷が生じていると判断した場合、そのノードバックアップの所有権を負荷の小さい別のノードに転送することを選択できます。このメッセージは、対応するバックアップ・データの転送の開始位置を示します。

処置: 処置は必要ありません。

Failed backup transfer for partition %n1 to member %n2; restoring owner from: %n2 to: %n3

%n1 - バックアップ転送が進行中だったパーティションの番号、%n2 - バックアップ・パーティションの転送先のノードID、%n3 - パーティションの前のバックアップ所有者のノードID。重大度: 4: デバッグ・レベル4。

原因: このノードは、新しいバックアップ所有者へのバックアップ・パーティションの転送中に、サービスから離脱しました。このノードは、バックアップの所有権を元のバックアップ所有者に戻しています。

処置: 処置は必要ありません。

Deferring the distribution due to %n1 pending configuration updates

%n1 - 構成の更新数。重大度: 5: デバッグ・レベル5。

原因: 定期的にスケジュールされた分散チェックの実行時に、このノードはグローバル所有権マップを更新(他のノードに所有権の変更を通知)していました。このノードは、以前の所有権の変更(ほとんどの場合は、すでに完了した転送によるもの)が完了し、サービスの他のメンバーによる確認が済むまで、以降のスケジュールされた分散チェックを延期します。

処置: 処置は必要ありません。

Limiting primary transfer to %n1 KB (%n2 partitions)

%n1 - 転送サイズの制限(KB)、%n2 - 転送されたパーティションの数。重大度: 4: デバッグ・レベル4。

原因: ノードは、負荷の小さいノードから一部のプライマリ・パーティションの転送リクエストを受信した場合、任意の数のパーティション(要求された数以内)をリクエスト側に転送できます。転送のサイズは、<transfer-threshold>要素によって制限されます。このメッセージは、transfer-thresholdの制限に従い、分散アルゴリズムによって転送が指定パーティション数に制限されたことを示しています。

処置: 処置は必要ありません。

DistributionRequest was rejected because the receiver was busy Next retry in %n1 ms

%n1 - 次回の分散チェックがスケジュールされるまでの期間(ミリ秒)。重大度: 6: デバッグ・レベル6。

原因: この(負荷の少ない)ノードは、別のノードに対して、1つ以上のパーティションの転送を求める分散リクエストを発行しました。しかし、そのノードは、以前のさらに別のノードとの間での転送を完了しようとしていたため、転送の開始を拒否しました。このノードは、少なくとも指定された期間待機してから(以前の転送が完了できるようにするため)、次の分散チェックを実行します。

処置: 処置は必要ありません。

Restored from backup %n1 partitions

%n1 - リストアされるパーティションの数。重大度: 3: 情報。

原因: このノードが所有するバックアップ・パーティションの一部のプライマリ所有者がサービスから離脱しました。このノードは、それらのパーティションをバックアップ記憶域からリストアしています(プライマリの所有権を引き継ぎます)。このメッセージの後には、リストア対象のパーティションのリストが続きます。

処置: 処置は必要ありません。

Re-publishing the ownership for partition %n1 (%n2)

%n1 - 所有権が再公開されるパーティションの番号、%n2 - プライマリ・パーティションの所有者のノードIDか0(パーティションが孤立している場合)。重大度: 4: デバッグ・レベル4。

原因: サービス・メンバーシップの変更の発生時に、このノードは別のノードにパーティションを転送中であったため、再分散が必要です。このメッセージは、転送中のパーティションに関する所有権の情報をこのノードが再公開していることを示しています。

処置: 処置は必要ありません。

%n1> Ownership conflict for partition %n2 with member %n3 (%n4!=%n5)

%n1 - 所有権の競合の解決の試行回数、%n2 - 所有権の問題が発生しているパーティション、%n3 - パーティションの所有権に関する不一致のあるサービス・メンバーのノードID、%n4 - このノードの所有権マップにおけるパーティションのプライマリ所有者のノードID、%n5 - 別のノードの所有権マップにおけるパーティションのプライマリ所有者のノードID。重大度: 4: デバッグ・レベル4。

原因: パーティション所有者が流動的な状態のときにサービス・メンバーシップの変更が発生すると、一時的に所有権の同期がとれなくなり、調整が必要になる場合があります。このメッセージは、そのような競合が検出され、その解決が試みられていることを示しています。

処置: 処置は必要ありません。

Unreconcilable ownership conflict; conceding the ownership

重大度: 1: エラー。

原因: パーティション所有者が流動的な状態のときにサービス・メンバーシップの変更が発生すると、一時的に所有権の同期がとれなくなり、調整が必要になる場合があります。このメッセージは、2つのサービス間でパーティションに対する所有権の競合が解決できなかったことを示しています。競合を解決するために、一方のメンバーがパーティションの所有権を強制的に解除され、もう一方のメンバーがパーティションの所有権を上位メンバーに再公開します。

処置: 処置は必要ありません。

Multi-way ownership conflict; requesting a republish of the ownership

重大度: 1: エラー。

原因: パーティション所有者が流動的な状態のときにサービス・メンバーシップの変更が発生すると、一時的に所有権の同期がとれなくなり、調整が必要になる場合があります。このメッセージは、サービス・メンバーと、記憶域が有効な最上位メンバーにパーティションの所有権に関する競合ビューがあることを示しています。競合を解決するために、パーティションの所有者がそのパーティションの所有権を再公開するまでパーティションは孤立していると宣言されます。

処置: 処置は必要ありません。

Assigned %n1 orphaned primary partitions

%n1 - 再割当てされた孤立プライマリ・パーティションの数。重大度: 2: 警告

原因: このサービス・メンバー(記憶域が有効な最上位のメンバー)により、1つ以上のパーティションにプライマリ所有者がないこと(孤立)が検出されました。複数のノードがサービスから同時に離脱したことが原因だと推定されます。残りのサービス・メンバーは、パーティションの所有権について合意し、その後、上位の記憶域がそれ自体に孤立パーティションを割り当てました。このメッセージの後には、割当て対象の孤立パーティションのリストが続きます。このメッセージは、対応するパーティションのデータが失われる恐れがあることを示しています。

処置: 処置は必要ありません。

validatePolls: This service timed-out due to unanswered handshake request Manual intervention is required to stop the members that have not responded to this Poll

重大度: 1: エラー。

原因: ノードがクラスタ化サービスに参加すると、そのサービスを実行する各クラスタ化ノードとハンドシェイクを行います。ハンドシェイク・レスポンスが欠落しているため、このノードはサービスに参加できません。通常、これは応答しない(たとえば、デッドロック)サービス・スレッドにより発生します。

処置: 応答しないサービスを実行しているJVMを見つけてシャットダウンする修正処置が必要となる場合があります。詳細は、My Oracle Supportでノート845363.1を参照してください。

com.tangosol.net.RequestPolicyException: No storage-enabled nodes exist for service service_name

重大度: 1: エラー。

原因: 記憶域が有効なサービス・メンバーがないサービスに対するキャッシュ・リクエストが発行されました。キャッシュ・リクエストを処理できるのは記憶域が有効なサービス・メンバーに限られるため、記憶域が有効なメンバーが1つ以上は必要です。

処置: 構成/デプロイメントをチェックして、キャッシュ・データを格納する予定のメンバーの記憶域が有効に構成されていることを確認してください。記憶域は、<local-storage>要素を使用するか-Dcoherence.distributed.localstorageコマンド行オーバーライドを使用してメンバーに対して有効化されます。

An entry was inserted into the backing map for the partitioned cache "%s" that is not owned by this member; the entry will be removed"

%s - 挿入が試行されたキャッシュ名。重大度: 1: エラー。

原因: パーティション・キャッシュのバッキング・マップには、そのメンバーが所有するキーのみを格納できます。キャッシュ・リクエストは、リクエストされたキーを所有するサービス・メンバーにルーティングされ、そのサービス・メンバーが、所有するキーのリクエストのみを処理することが保証されます。このメッセージは、メンバーが所有していないキーの挿入がキャッシュのバッキング・マップで検出されたことを示しています。ほとんどの場合、この原因は、キャッシュ・サーバーで実行されるユーザー・コードで、公開キャッシュAPI(たとえば、NamedCache)を使用せずにバッキング・マップが直接使用されたことです。このメッセージの後には、挿入場所を示すJava例外スタック・トレースが続きます。

処置: スタック・トレースで示されたユーザー・コードを調べて、バッキング・マップの操作に問題がないことを確認してください。このエラーは、KeyAssociationの実装方法が不適切であることを示す場合もあります。

Exception occurred during filter evaluation: %s; removing the filter...

%s - 評価時にエラーが発生したフィルタの説明。重大度: 1: エラー。

原因: このキャッシュに登録されたMapListener実装のフィルタの評価中に例外がスローされました。そのため、一部のマップ・イベントが発行されない可能性があります。また、以降のエラーの発生を防ぐため、フィルタ(および関連付けられたMapListener実装)が削除されます。このメッセージの後には、エラーの発生場所を示すJava例外スタック・トレースが続きます。

処置: フィルタの実装および関連するスタック・トレースのエラーを確認してください。

Exception occurred during event transformation: %s; removing the filter...

%s - イベント変換時にエラーが発生したフィルタの説明。重大度: 1: エラー。

原因: 指定されたフィルタで、このキャッシュに登録されたMapListener実装に対するMapEventが変換される際に、例外がスローされました。そのため、一部のマップ・イベントが発行されない可能性があります。また、以降のエラーの発生を防ぐため、フィルタ実装(および関連付けられたMapListener実装)が削除されます。このメッセージの後には、エラーの発生場所を示すJava例外スタック・トレースが続きます。

処置: フィルタの実装および関連するスタック・トレースのエラーを確認してください。

Exception occurred during index rebuild: %s

%s - 索引の再ビルド時に発生した例外のスタック・トレース。重大度: 1: エラー。

原因: 索引の追加または再ビルド中に例外がスローされました。ValueExtractorが正しく実装されていないことが原因として考えられます。このエラーが発生すると、関連する索引が削除されます。このメッセージの後には、エラーの発生場所を示すJava例外スタック・トレースが続きます。

処置: ValueExtractorの実装および関連するスタック・トレースのエラーを確認してください。

Exception occurred during index update: %s

%s - 索引の更新時に発生した例外のスタック・トレース。重大度: 1: エラー。

原因: 索引の更新中に例外がスローされました。ValueExtractorが正しく実装されていないことが原因として考えられます。このエラーが発生すると、関連する索引が削除されます。このメッセージの後には、エラーの発生場所を示すJava例外スタック・トレースが続きます。

処置: ValueExtractorの実装および関連するスタック・トレースのエラーを確認してください。

Exception occurred during query processing: %s

%s - 問合せの処理時に発生した例外のスタック・トレース。重大度: 1: エラー。

原因: 問合せの処理中に例外がスローされました。問合せで使用されるfilterの実装エラーが原因として考えられます。このメッセージの後には、エラーの発生場所を示すJava例外スタック・トレースが続きます。

処置: フィルタの実装および関連するスタック・トレースのエラーを確認してください。

BackingMapManager %s1: returned "null" for a cache: %s2

%s1 - nullバッキング・マップを返したBackingMapManager実装のクラス名、%s2 - BackingMapManagerからnullが返されたキャッシュの名前。重大度: 1: エラー。

原因: 指定されたキャッシュのバッキング・マップに対して、BackingMapManagerからnullが返されました。

処置: 指定されたBackingMapManagerの実装でエラーがないかを調べて、指定されたキャッシュのバッキング・マップが正しくインスタンス化されることを確認してください。

BackingMapManager %s1: failed to instantiate a cache: %s2

%s1 - バッキング・マップの作成に失敗したBackingMapManager実装のクラス名、%s2 - BackingMapManagerのエラーが発生したキャッシュの名前。重大度: 1: エラー。

原因: 指定されたキャッシュのバッキング・マップをインスタンス化しようとしたときに、BackingMapManagerから予期しない例外がスローされました。

処置: 指定されたBackingMapManagerの実装でエラーがないかを調べて、指定されたキャッシュのバッキング・マップが正しくインスタンス化されることを確認してください。

BackingMapManager %s1: failed to release a cache: %s2

%s1 - バッキング・マップの解放に失敗したBackingMapManager実装のクラス名、%s2 - BackingMapManagerのエラーが発生したキャッシュの名前。重大度: 1: エラー。

原因: 指定されたキャッシュのバッキング・マップを解放しようとしたときに、BackingMapManagerから予期しない例外がスローされました。

処置: 指定されたBackingMapManagerの実装でエラーがないかを調べて、指定されたキャッシュのバッキング・マップが正しく解放されることを確認してください。

Unexpected event during backing map operation: key=%s1; expected=%s2; actual=%s3

%s1 - キャッシュで変更されていたキー、%s2 - 進行中のキャッシュ操作から予期されるバッキング・マップ・イベント、%s3 - 受信した実際のMapEvent。重大度: 6: デバッグ・レベル6。

原因: キャッシュ操作の実行中に、バッキング・マップで予期しないMapEventを受信しました。これは、バッキング・マップ上で同時操作が直接実行されたことを示しており、その原因はほとんどの場合、キャッシュ・サーバーで実行されるユーザー・コードで公開キャッシュAPI(たとえば、NamedCache)を使用せずにバッキング・マップが直接操作されたことです。

処置: バッキング・マップを直接変更する可能性があるユーザー・コードを調べて、バッキング・マップの操作に問題がないことを確認してください。

Application code running on "%s1" service thread(s) should not call %s2 as this may result in deadlock The most common case is a CacheFactory call from a custom CacheStore implementation

%s1 - リエントラント・コールを実行したサービスの名前、%s2 - リエントラント・コールが実行されたメソッドの名前。重大度: 2: 警告

原因: 指定されたサービスでアプリケーション・コードを実行中に、リエントラント・コール(同一サービスに対するリクエスト)が実行されました。Coherenceでは、リエントラント・サービス・コールをサポートしていないため、サービス・スレッド上で実行されるあらゆるアプリケーション・コード(CacheStore、EntryProcessorなど)でキャッシュ・リクエストが発行されないようにする必要があります。

処置: サービス・スレッド(1つまたは複数)で実行されているアプリケーション・コードからリエントラント・コールを削除し、かわりの設計戦略を使用することを検討します。Oracle Coherenceでのアプリケーションの開発リエントラント・コールの制約を参照してください。

Repeating %s1 for %n1 out of %n2 items due to re-distribution of %s2

%s1 - 再送信が必要なリクエストの説明、%n1 - 再分散により未処理になった項目の数、%n2 - リクエストされた項目の合計数、%s2 - 再分散処理を実行中のためリクエストの再送信が必要なパーティションのリスト。重大度: 5: デバッグ・レベル5。

原因: キャッシュ・リクエストの発行時に、リクエストが参照するパーティションを所有するサービス・メンバーにリクエストが送信されました。リクエストが参照する1つ以上のパーティションで(たとえば、再分散などによる)転送処理を実行中の場合は、リクエストが(転送前の)パーティション所有者によって拒否され、新しいパーティション所有者に自動的に再送信されます。

処置: 処置は必要ありません。

Error while starting cluster: com.tangosol.net.RequestTimeoutException: Timeout during service start: ServiceInfo(%s)

%s - 開始できないサービスに関する情報。重大度: 1: エラー。

原因: サービスへの参加時、クラスタ内のすべてのサービスが参加リクエストに応答する必要があります。1つ以上のノードに、タイムアウト期間内に応答しないサービスがあると、参加はタイムアウトします。

処置: 詳細は、My Oracle Supportで845363.1を参照してください。

Failed to restart services: com.tangosol.net.RequestTimeoutException: Timeout during service start: ServiceInfo(%s)

%s - 開始できないサービスに関する情報。重大度: 1: エラー。

原因: サービスへの参加時、クラスタ内のすべてのサービスが参加リクエストに応答する必要があります。1つ以上のノードに、タイムアウト期間内に応答しないサービスがあると、参加はタイムアウトします。

処置: My Oracle SupportのNote を参照してください。

詳細は、My Oracle Supportで845363.1を参照してください。

Failed to recover partition 0 from SafeBerkeleyDBStore(...); partition-countmismatch 501(persisted) != 277(service); reinstate persistent store fromtrash once validation errors have been resolved

原因: アクティブ永続性が有効化されている間にパーティション数が変更されました。現在のアクティブなデータはごみ箱ディレクトリにコピーされます。

処置: 次のステップを完了してデータをリカバリします。

  1. クラスタ全体を停止します。

  2. 各クラスタ・メンバーで影響を受けたクラスタとサービスで現在アクティブなディレクトリの内容を削除します。

  3. アクティブなディレクトリへのサービスごとに、ごみ箱ディレクトリの内容を(再帰的に)コピーします。

  4. パーティション数を元の値にリストアします。

  5. クラスタを再起動します。

サービス・スレッド・プールのログ・メッセージ

サービス・スレッド・プールに関連するログ・メッセージ

プールが安定していないため、DaemonPool "%s"のプール・サイズが%n1から%n2スレッドに増えています

%s - サービス名、%n1 - 現在のスレッド・プールの数、%n2 - 新しいスレッド・プールの数。重大度: 3 - 情報。

原因: スレッド・プールの数が断続的に増加するため、スレッド・プールのスループットを測定して、増加することが有効かどうかが判断されます。スレッド数は、動的スレッド・プールが有効で、新しいスレッド数が構成された最大値を超えていない場合にのみ増加します。

処置:: 処置は必要ありません。これは、最も効果的なスレッド・プール数を決定するプロセスの一部です。

%n3op/秒のスループットが低下したため、DaemonPool "%s"のプール・サイズが%n1から%n2スレッドに増えています

%s - サービス名、%n1 - 現在のスレッド・プールの数、%n2 - 新しいスレッド・プールの数、%n3 - 1秒当たりの操作数の変更。重大度: 3 - 情報。

原因: スレッド数が少ないため、スレッド・プールのタスクのスループットが低下しました。スループットを向上させるため、スレッド数が増加しています。スレッド数は、動的スレッド・プールが有効で、新しいスレッド数が構成された最大値を超えていない場合にのみ増加します。

処置:: 処置は必要ありません。これは、最も効果的なスレッド・プール数を決定するプロセスの一部です。

%n3op/秒のスループットが低下したため、DaemonPool "%s"のプール・サイズが%n1から%n2スレッドに減っています

%s - サービス名、%n1 - 現在のスレッド・プールの数、%n2 - 新しいスレッド・プールの数、%n3 - 1秒当たりの操作数の変更。重大度: 3 - 情報。

原因: スレッド数が多いため、スレッド・プールのタスクのスループットが低下しました。スループットを向上させるため、スレッド数が減少しています。スレッド数は、動的スレッド・プールが有効で、新しいスレッド数が構成された最小値を下回らない場合にのみ減少します。

処置:: 処置は必要ありません。これは、最も効果的なスレッド・プール数を決定するプロセスの一部です。

TMBログ・メッセージ

TMBに関連するログ・メッセージ。

%s1 rejecting connection from %s2 using incompatible protocol id %s3, required %s4

%s1 - ローカル・エンドポイント、%s2 - ソケット・アドレス、%s3 - 接続プロトコルID、%s4 - 必要なプロトコルID。重大度: 2-警告。

原因: 互換性のないプロトコル識別子を持つCoherenceノードがこのノードとの接続を確立しようとしました。これは、リクエストが悪意のある接続試行によるものであるか、メッセージ・ヘッダーが破損していないかぎり発生しません。

処置: リモート・ノードを再起動してください。問題が解決しない場合は、すべての関連情報を調査のためにOracle Supportに送信します。

%s1 rejecting connection from %s2, bus is closing

%s1 - ローカル・エンドポイント、%s2 - ソケット・アドレス。重大度: 5-デバッグ。

原因: ローカル・メッセージ・バス接続が、閉じられている間に接続リクエストを受信しました。これは、ローカル・ノードの停止中に発生する可能性があります。

処置:: 処置は必要ありません。

%s1 deferring reconnect attempt from %s2 on %s3, pending release

%s1 - ローカル・エンドポイント、%s2 - ピアのエンドポイント、%s3 - 関連付けられたチャネル・ソケット。重大度: 5-デバッグ。

原因: 現在の接続がアプリケーションが完全に解放されるのを待機している間に、ローカル・メッセージ・バス接続が同じリモート・エンドポイントから再接続リクエストを受信しました。

処置:: 処置は必要ありません。

%s1 replacing deferred reconnect attempt from %s2 on %s3, pending release

%s1 - ローカル・エンドポイント、%s2 - ピアのエンドポイント、%s3 - 関連付けられたチャネル・ソケット。重大度: 5-デバッグ。

原因: アプリケーションが完全に解放されるまで待機している間に、ローカルTCPソケットが後続の再接続リクエストを受信したため、以前の再接続の試行を置き換えます。接続ハンドシェイク・プロトコルの一部としてリモート・エンドポイントとローカル・エンドポイントの両方から同時接続が開始される可能性があるため、これは想定内です。

処置:: 処置は必要ありません。

%s1 initiating connection migration with %s2 after %n ack timeout %s3

%s1 – ローカル・エンドポイント、%s2 - ピアのエンドポイント、%n - ACKタイムアウト値、%s3 - デバッグ情報。重大度: 2: 警告

原因: メッセージが送信されましたが、そのメッセージの論理ACKが構成されているACKタイムアウトを超えても受信されませんでした。このタイムアウトのデフォルト値は15秒ですが、Coherenceとしては長時間メッセージを配信しないことになります。これは、ストールした接続を検出し、状況を解決するための修正アクションを開始する手段です。

処置: ストールした接続が正しく推測された場合は、接続を新しいTCP接続に移行する処置で問題を解決できます。ストールした接続を解決するには、特定のLinuxカーネル・バージョンでストールが確認されているため、OSの最新バージョンがインストールされていることを確認します。接続がインストールされていない可能性やプロセスが応答しないことが原因である可能性があります。したがって、%s2に示されているマシンへのネットワーク接続が適切であり、プロセスが(GCループせず)応答していることも確認してください。頻繁な移行は、パフォーマンスと可用性に重大な影響を及ぼします。メッセージが頻繁に繰り返される場合は、ローカルとピアの両方からヒープ・ダンプを収集し、使用可能なネットワーク・レポートおよびすべてのCoherenceログを収集します。調査のためにOracle Supportに情報を送信します。

%s1 accepting connection migration with %s2, replacing %s3 with %s4:%s5

%s1 - ローカル・エンドポイント、%s2 - ピア・エンドポイント、%s3 - 古いSocketChannel、%s4 - 新しいSocketChannel、%s5 – 古いメッセージ・バス接続。重大度: 2: 警告

原因: ローカルが接続の問題を認識していないときに、ピアが接続の移行を開始しました。ローカル・メッセージ・バスはリクエストを受け入れ、古いソケット・チャネルを新しいソケット・チャネルに置き換えました。この移行は、TCP接続ストール、GCまたはネットワークの問題が原因で発生する可能性があります。

処置: 問題が解決しない場合は、ローカル・サーバーとリモート・サーバーのヒープ・ダンプ、使用可能なネットワーク・レポートおよびすべてのCoherenceログを収集してください。調査のためにOracle Supportに情報を送信します。また、TCPキャプチャを有効にすると、メッセージがピアと送信者によって受信されているかどうかについて意義深い知見を得られます。

%s1 migrating connection with %s2 off %s3 on %s4

%s1 - ローカル・エンドポイント、%s2 - ピア・エンドポイント、%s3 - ソケット・チャネル、%s4 - メッセージ・バス接続の文字列表現。重大度: 6-デバッグ。

原因: ローカル・メッセージ・バスが、ACKタイムアウトまたは別のエラーのために接続の移行を開始しました。アプリケーションがまだ機能している間にメッセージが頻繁に表示される場合は、プロセスが応答していないか(GCが原因であることが多い)、ネットワークに問題があることを示しており、クラスタのパフォーマンスに影響する可能性があります。

処置: リモートGCまたはネットワークの問題を調べてください。問題が解決しない場合は、ローカルとピアの両方のヒープ・ダンプおよびすべてのCoherenceログを調査のためにOracle Supportに送信します。また、TCPキャプチャを有効にすると、メッセージがピアと送信者によって受信されているかどうかについて意義深い知見を得られます。

%s1 synchronizing migrated connection with %s2 will result in %n1 skips and %n2 re-deliveries: %s3

%s1 – ローカル・エンドポイント、%s2 - ピアのエンドポイント、%n1 - スキップするメッセージ数、%n2 - 再配信するメッセージ数、%s3 – ローカル・バス接続の文字列表現。重大度: 5-デバッグ。

原因: これは情報のみです。移行された接続では、メッセージのACKを受信したかどうかに応じて、キューに入れられたメッセージをスキップまたは再配信する必要があります。

処置:: 処置は必要ありません。

%s1 rejecting connection migration from %s2 on %s3, no existing connection %s4/%s5

%s1 - ローカル・エンドポイント、%s2 - ピア・エンドポイント、%s3 - ローカル・ソケット・アドレス、%s4 - 現在の接続識別子、%s5 - 古い接続識別子、または古い接続が存在しない場合は0。重大度: 5-デバッグ。

原因: ローカル・メッセージ・バスが、存在しない接続で移行リクエストを受信しました。したがって、リクエストを拒否します。ほとんどの場合、接続は解放されています。

処置:: 処置は必要ありません。

%s1, %s2 accepted connection migration with %s3:%s4

%s1 - ローカル・エンドポイント、%s2 - ピア・エンドポイント、%s3 - ソケット・チャネル、%s4 - メッセージ・バス接続の文字列表現。重大度: 2: 警告

原因: これは情報メッセージです。接続の移行でハンドシェイク・プロトコルが正常に終了しました。

処置:: 処置は必要ありません。

%s1 resuming migrated connection with %s2

%s1 - ローカル・エンドポイント、%s2 - バス接続の文字列表現。重大度: 5-デバッグ。

原因: これは情報メッセージです。接続は正常に移行されました。移行された新しいソケット・チャネルで通常の処理を再開しています。

処置:: 処置は必要ありません。

%s1 ServerSocket failure; no new connection will be accepted.

%s2 - ローカル・エンドポイント。重大度: 1: エラー。

原因: このメッセージは、メッセージ・バスが新しい接続を受け入れるサーバー・ソケット・チャネルが選択サービスへの登録に失敗したことを示しています。

処置: これは予期しない状態であり、プロセスが正常状態に戻らない場合はノードの再起動が必要になることがあります。

%s1 disconnected connection with %s2

%s1 - ローカル・エンドポイント、%s2 - リモート・エンドポイント。重大度: 3-情報。

原因: 示されたリモート・エンドポイントとの接続が切断されました。

処置:: 処置は必要ありません。

%s1 close due to exception during handshake phase %s2 on %s3

%s1 - ローカル・エンドポイント、%s2 - ハンドシェイクのフェーズ、%s3 - 接続チャネルに関連付けられたソケット。重大度: 2: 警告

原因: SSLExceptionが原因で、示されたハンドシェイク・フェーズ中に接続リクエストが拒否されました。関連付けられたソケット・チャネルは閉じられました。

処置: エラー・メッセージにハンドシェイクが失敗した理由が示され、解決するのに十分な情報(期限切れの証明書など)が提供されます。問題が解決しない場合は、Oracle Supportにお問い合せください。

%s1 dropping connection with %s2 after %s3 fatal ack timeout %s4

%s1 - ローカル・エンドポイント、%s2 - リモート・エンドポイント、%s3 - 致命的なACKタイムアウト値(ミリ秒)、%s4 - デバッグ用の情報。重大度: 2: 警告

原因: ローカル・バス接続は、構成されている致命的なACKタイムアウトの間にピアからの応答を得られませんでした。接続はリカバリ不能なため削除されます。これは、プロセスが長く応答しないこと(潜在的なGCの問題)またはネットワークの問題が原因である可能性があります。

処置: リモートGCログまたはネットワーク・ログを調べてください(TCPキャプチャ/ネットワーク・モニタリング)。問題が解決しない場合は、ローカルとピアの両方のヒープ・ダンプおよびすべてのCoherenceログを調査のためにOracle Supportに送信します。

%s unexpected exception during Bus accept, ignoring

%s - ローカル・エンドポイント。重大度: 3-情報。

原因: サーバー・ソケットがによる接続リクエストの受入れ中に例外が発生しました。サーバー・ソケット・チャネルがまだ開いているため、例外を無視してリクエストの受入れを続行できます。

処置:: 処置は必要ありません。

%s ServerSocket failure; no new connection will be accepted

%s - ローカル・エンドポイント。重大度: 1: エラー。

原因: サーバー・ソケットによる接続リクエストの受入れ中に例外が発生し、サーバー・ソケットが予期せず閉じられました。

処置: ノードを再起動してください。問題が解決されない場合は、Oracleサポートに連絡してください。

Unhandled exception in %s, attempting to continue

%s - 選択サービス。重大度: 1: エラー。

原因: セレクタ・スレッドの実行中に予期しないエラーが発生しました。スレッドは引き続きメッセージを選択して処理します。

処置:: 処置は必要ありません。

%s1 disconnected connection with %s2

%s1 - ローカル・エンドポイント、%s2 - バス接続の文字列表現。重大度: 2-警告(切断の理由がSSLExceptionの場合)、6-デバッグ(それ以外の場合)。

原因: 示された接続は閉じられました。例外やエラーの発生、想定された解放など様々な原因が考えられます。

処置:: 処置は必要ありません。

クラスタ・サービスの例外

クラスタ・サービスによってスローされる例外。

IllegalStateException: クラスタは停止されており、再起動できません。

原因: サービス・ガーディアンが応答しないサービス・スレッドの終了に失敗し、ガーディアン・サービス失敗ポリシーがexit-clusterになっている場合、クラスタが停止されます。クラスタの停止後にCoherenceクラスタ操作を使用しようとすると、この例外が発生します。

処置: クラスタが停止したら、サーバー・プロセスを再開します。今後サーバー・プロセスを再開しなくてもよいように、より環境に適したガーディアン・サービス失敗ポリシー・オプションが他にないか確認します。『Oracle Coherenceでのアプリケーションの開発』ガーディアン・サービス失敗ポリシーの設定に関する項を参照してください。

デフォルトのガーディアン・サービス失敗ポリシーは、exit-clusterです。この失敗が発生した時間を特定するには、サーバー・ログでガーディアン・サービス・ログ・メッセージ"Oracle Coherence <Error>: Halted the cluster: Cluster is not running: State=5"を検索します。

ガーディアン・サービスのログ・メッセージ

ガーディアン・サービスに関連するログ・メッセージ。

%s1/{WrapperGuardable Guard{Daemon=%s2 } Service=%s3{Name=%s4, State=(SERVICE_STARTED), …}}後にハード・タイムアウトが検出されました

%s1 – 期間; %s2 - キャッシュ・スキーム:サービス名; %s3 – サービスの種類: %s4 – サービス名

原因: ガーディアン・サービスが、%s1の期間中、サービスからハートビートを受信していませんでした。サービスは、応答しないスレッドの終了を試みます。

処置:: 情報です。通常、ガーディアンはサービス・スレッドをリカバリして続行できます。

onServiceFailed: 状態=%n、isAlive=%b1、サービス停止スレッドisAlive=%b2で、サービス%sの停止に失敗しました

%s – サービス名; %n – サービス状態; %b1 – サービスがまだ有効である場合はtrue; %b2 – サービス終了スレッドがまだ有効である場合はtrue

原因: ガーディアン・サービスが、ハングしているサービス・スレッド%sを中断できませんでした。

処置: ハングしているサービスのスタック・トレースを分析し(次のメッセージを参照)、サーバー・ログで次のスレッドのフル・ダンプおよび未処理のポーリングを見つけて、サービス・スレッドが何を待機してスタックしたかを分析します。

onServiceFailed: サービス・スレッド: スレッドThread[%s1:%s2,%n,Cluster]のスタック・トレース: <%stackTrace>

%s1 – キャッシュの種類; %s2 – サービス名; %n – スレッド識別子; <%stackTrace> - 割込み不能スレッドの複数行スタック・トレース

原因: ガーディアン・サービスがサービス%s2を中断できませんでした。

処置: ハングしているサービスのスタック・トレースを分析し、スレッドのフル・ダンプを検索して、スタックしたスレッドと実行中の別のスレッドの間にデッドロックがあったかどうかを確認します。

Oracle Coherence <Error>: クラスタを停止しました: クラスタは実行されていません: 状態=5

原因: サービス・ガーディアンがスタックしたスレッドのリカバリに失敗し、ガーディアン・サービス失敗ポリシーがexit-clusterになっている場合、クラスタが停止されます。

処置: クラスタが停止したら、サーバー・プロセスを再開します。今後サーバー・プロセスを再開しなくてもよいように、より環境に適したガーディアン・サービス失敗ポリシー・オプションが他にないか確認します。『Oracle Coherenceでのアプリケーションの開発』ガーディアン・サービス失敗ポリシーの設定に関する項を参照してください。デフォルトのガーディアン・サービス失敗ポリシーは、exit-clusterです。クラスタの停止の原因となった失敗を理解するには、サーバー・ログでこの項に示されているログ・メッセージを探します。このメッセージのタイムスタンプにより、クラスタが停止した正確な時間がわかります。

(スレッド = リカバリ・スレッド、メンバー = %n): スレッドのフル・ダンプ: (デッドロック分析を除く)

%n = 短いCoherenceメンバーID

原因: スタックしたサービス・スレッドのリカバリが失敗すると、ガーディアン・サービス・リカバリ・スレッドによってこの診断が出力されます。

処置: 停止できなかったスタックしたサービス・スレッドが、失敗の時点で別のアクティブなスレッドによって保持されているロックを待機していてブロックされたかどうかを分析します。

永続性ログ・メッセージ

永続性に関連するログ・メッセージ。

"/xx/xx/CoherenceSnapshot/xxCoherenceCluster/DistributedCache/CoherenceSnapshotnnnn"はリモート・ファイル・システムを参照しているように見えるため、Coherenceの永続性では、リモート・コミットの整合性を確保するために"coherence.distributed.persistence.bdb.je.log.useODSYNC"を有効にしています。これは書込みパフォーマンスに影響を与える可能性があるため、この決定をオーバーライドするためにシステム・プロパティを明示的に"false"に設定できます。ただし、これは、場所が実際にはローカル・ファイル・システムである場合にのみ推奨されます。

原因: Coherenceは、永続性環境がローカル・ファイル・システムではなく、NFSなどのリモート・ファイル・システムを指していることを検出しました。そのため、プロパティcoherence.distributed.persistence.bdb.je.log.useODSYNCは、永続化されるキャッシュ・データのリモート・コミットの整合性を確保するために自動的に有効化されます。

処置: リモート・ファイル・システムに対してODSYNCを有効にすることを強くお薦めします。coherence.distributed.persistence.bdb.je.log.useODSYNCプロパティは、書込みパフォーマンスを高速化するためにfalseに設定することで明示的に無効にすることもできます(たとえば、ファイル・システムがリモートとして検出されたが、事実上ローカルである場合)。