ユーザーズガイド

モニタ

BEA AquaLogic Service Bus では、システム処理の実行時情報をモニタおよび収集できます。AquaLogic Service Bus で集約された実行時統計は、カスタマイズ可能なダッシュボードに表示できます。ダッシュボードでは、システムのヘルス状態をモニタし、メッセージングサービスの問題があった場合にアラートを受けることができます。この情報を使用すると、時間をかけずに簡単に、発生した問題を特定し、診断できます。

この章では、以下のトピックについて説明します。

モニタのシナリオ

次に、AquaLogic Service Bus を使用してシステムの処理を調べ、メッセージをモニタする方法について説明します。

処理のヘルス状態

AquaLogic Service Bus Console の [ダッシュボード] ページでは、すべてのサーバとモニタされたサービスの状態を即座に表示できます。ダッシュボードには、2 つの円グラフ、1 つのテーブル、およびいくつかのリンクが表示されます。[サービス概要] 円グラフでは、アラートルールが定義され、直前 30 分間モニタが有効にされていたすべてのサービスの重大度に従って、アラートの割合が示されます。[サーバ概要] 円グラフには、AquaLogic Service Bus ドメインにあるすべてのサーバの現在の状態が示されます。また、[サーバ概要] パネルから、重大度に従ってグループ化されたドメインログを表示することもできます。

円グラフに加え、これらの概要には最もアクティブなサービスと重大度が最も高いサーバのリストが表示されます。リストには、アラート数の多い順に 10 個までサービスが表示されます。重大度が最も高いサーバのリストには、重大度が最も高いサーバが 10 個まで表示されます。これは、WebLogic 診断サービスでの定義に従い、実行中のサーバのヘルス状態に基づいて表示されます。WebLogic 診断サービスの詳細については、『WebLogic 診断フレームワークのコンフィグレーションと使い方』を参照してください。

このページの各概要で、円グラフの特定の領域をクリックするか、リンクの 1 つをクリックすると、さらに詳細な情報を表示できます。

デフォルトの [アラート概要] テーブルには、アラートの重大度、アラートの発生日時、対応するサービスの名前、および違反されたアラートルールが表示されます。アラートは重大度順に表示されます。このテーブルは、カスタマイズ、検索、およびスクロールが可能です。

アラートのモニタ

AquaLogic Service Bus Console にログインすると、ダッシュボードにアラートのリストが表示されます。テーブルの各行には、重大度、タイムスタンプ、関連サービスなど、コンフィグレーションした情報が表示されます。最後に表示してから多くのアラートが生成されています。この問題を調べるために、アラートをフィルタし、サービスレベルアグリーメント (SLA) 違反の原因が、取引後処理プロキシサービスで生成されたエラーであることを確認します。SLA は、AquaLogic Service Bus ビジネスサービスおよびプロキシサービスで想定される正確なサービスレベルを定義するアグリーメントです。

また、SLA 違反の発生時にアラートルールでメッセージを送信し、問題に対処することもできます。この場合、アラートルール違反が電子メールで通知されます。電子メールの受信後、問題を調べ、エラーが取引後処理プロキシサービスによって生成されたことを確認します。

問題を絞り込むために、レポートモジュールを使用できます。このシナリオは「メッセージトラッキング」に続きます。

統計のモニタ

特定のサービスで処理が成功したメッセージと失敗したメッセージの数を調べるとします。この情報を調べるには、ダッシュボードで [サービスのモニタの概要] ページにアクセスし、表示をフィルタして該当するサービスを検索します。処理に成功または失敗したメッセージの数を表示する以外に、サービスが属するプロジェクト、メッセージ処理の平均実行時間、およびサービスに関連するアラートの数を表示することもできます。現在の集約間隔でのモニタ統計を表示したり、このサービスの統計またはすべてのサービスの統計を最後にリセットした時点からのモニタ統計を表示したりできます。

注意 : 統計をリセットするには、AquaLogic Service Bus Console の [システムの管理] モジュールにある [グローバル設定] ページを使用します。これを行うときは、WebLogic Server Administration Console の WebLogic セッション内で作業していないことを確認してください。

サービスの名前をクリックすると、そのサービスの [サービスのモニタの詳細] ページが表示されます。このページには、最小/最大応答時間およびサービスでのメッセージの実行にかかる全体の平均時間、成功と失敗の割合、セキュリティまたは検証のエラーのために失敗したメッセージの数、プロキシサービスコンポーネント (パイプラインとルートノード) に関連するメッセージの数などの情報が表示されます。サービスに関連付けられた特定の操作について、この情報を表示することができます。このページでも、現在の集約間隔でのこれらの統計を表示したり、このサービスの統計またはすべてのサービスの統計を最後にリセットした時点からの統計を表示したりできます。

サービスレベルアグリーメントの検証

取引実行プロキシサービスから電子メールで多数の実行時 SLA 違反が通知されます。この問題を追跡するため、AquaLogic Service Bus Console にログインします。ダッシュボードからアラートに関連するサービスを表示し、Avitek Web サービスを呼び出すパイプライン操作が許容できないほど遅いことを確認します。Avitek とのサービスレベル特性の再ネゴシエーションに成功した後、Avitek がアグリーメントに準拠しているかどうかを追跡するようにアラートメトリックをコンフィグレーションします。会社ではこれらの結果に基づいて、Avitek のパフォーマンスについて Avitek と継続的に話し合いを行います。

モニタについて

この節の内容は以下のとおりです。

集約間隔

AquaLogic Service Bus で、モニタサブシステムは集約間隔中にメッセージ数、実行時間などの統計情報を収集します。集約間隔は、統計のデータポイントが収集され、AquaLogic Service Bus Console に表示されるまでの時間を指します。

集約間隔の動作方法を示すため、購入注文プロキシサービスをコンフィグレーションし、10 分の集約間隔でモニタを有効にしたとします。ユーザがプロキシサービスを使用して最初のメッセージを送信すると、モニタが開始されます。最初の 10 分間、[サービス概要] ページには部分的に計算されたデータが表示されます。この時点で、システムに 10 分間のデータはありません。集約間隔の最初の 10 分が経過した後は、常に直前 10 分間のデータが表示されます。たとえば、14 分経過した時点で、ダッシュボードには 4 ～ 14 分間のデータが表示されます。15 分以降メッセージが処理されない場合、25 分経過した時点で表示されるメッセージは 0 個になります。集約間隔がモニタ情報の表示に与える影響の詳細については、「アラートルール」を参照してください。

作成したビジネスサービスまたはプロキシサービスのモニタは明示的に有効にする必要があります。デフォルトでは、モニタは無効になります。モニタを有効にし、個々のサービスの集約間隔を設定した後、[システムの管理] モジュールの [グローバル設定] ページからこれらすべてのサービスのモニタを有効または無効にできます。詳細については、「サービスのモニタ」を参照してください。

アラートは、サービスレベルアグリーメント (SLA) の違反または発生に対する応答が自動化されたものであり、ダッシュボードに表示されます。ビジネスおよびパフォーマンスの要件に従い、許容できないサービスパフォーマンスを指定するアラートルールを定義します。アラートルールをコンフィグレーションするときに、アラートルールごとにそのルールの集約間隔を指定できます。この集約間隔は、サービスに設定された集約間隔の影響を受けません。アラートルールでは、電子メールによる通知を送信したり、JMS キューまたはトピックに違反に関するメッセージをポストすることもできます。

モニタのアーキテクチャ

次の図に、AquaLogic Service Bus モニタのアーキテクチャを示します。

図 5-1 モニタのアーキテクチャ

モニタのアーキテクチャ

統計コンフィグレーションマネージャでは、操作リソースごとの統計コンフィグレーションを保存し、管理します。操作リソースは、モニタサブシステムにより統計情報を収集できる単位として定義されます。操作リソースには、プロキシサービス、サービス操作、およびパイプラインがあります。パイプラインの追加、更新、削除などのサービス定義の変更は、統計コンフィグレーションマネージャに通知されます。

クラスタ内の管理対象サーバがそれぞれ統計コレクタをホストします。統計コレクタは、統計コンフィグレーションマネージャの指示に従って、操作リソースの統計を収集します。また、集約間隔の時間が経過するまで、収集した統計のサンプル履歴も保持します。システム定義のチェックポイント間隔が過ぎるたびに、コレクタは回復を目的に現在の統計のスナップショットを永続ストアに格納し、情報を集約機能に送信します。

クラスタ内の管理対象サーバの 1 つはクラスタ全体の統計の集約機能に指定され、「集約サーバ」または「アグリゲータ」と呼ばれます。システム定義のチェックポイント間隔ごとに、クラスタの各管理対象サーバは統計のチェックポイントスナップショットを集約機能に送信します。次に、集約機能はこの情報を結合し、クラスタ全体の統計を統計取得 API によりクライアントに提供します。集約機能のクライアントはダッシュボード、SLA マネージャ、およびサービスモニタモジュールです。

データポイントをシステムに提供するために、プロキシサービスパイプラインランタイムなどのシステムの操作リソースが統計コレクタのメソッドを呼び出し、リソース自身の身元を証明し、統計とデータポイントを示します。

ダッシュボードには、AquaLogic Service Bus の全般的なヘルス関連の情報が表示されます。サーバ、サービス、およびアラートで構成されたシステムの状態の概要が示されます。

モニタを有効にした後、AquaLogic Service Bus Console の [サービスのモニタの概要] ページには、収集された各サービスの統計が表示されます。また、SLA 違反のために生成されたアラートに関する情報も表示されます。

前に説明したように、SLA は AquaLogic Service Bus のビジネスサービスとプロキシサービスで想定される正確なサービスレベルを定義するアグリーメントです。ユーザは SLA マネージャで AquaLogic サービスコンフィグレーションモジュールを利用して、SLA ルールの条件とアクションをコンフィグレーションできます。SLA マネージャでは、集約機能で提供されるデータを使用して SLA 違反をモニタし、アラートルールアクションのコンフィグレーションに従って通知を送信します。SLA マネージャは常に集約機能とともにデプロイされ、クラスタ内の 1 つの管理対象サーバに置かれます。SLA マネージャはアラートストアに格納するアラートをアラートログに渡します。

サービスのモニタ

ビジネスサービスまたはプロキシサービスを作成した場合、そのサービスのモニタはデフォルトでは無効です。モニタを有効する方法は以下のとおりです。

個々のサービスのモニタを有効にするには、モニタの管理ページの [モニタを有効化] チェックボックスを選択する。その後で、時間と分のドロップダウンリストから間隔を選択してサービスの集約間隔を設定します。この方法については、『AquaLogic Service Bus Console の使い方』の「モニタ」で「ダッシュボードの統計の表示」を参照してください。
すべてのサービスのモニタを有効にするには、[グローバル設定] ページの [モニタを有効化] チェックボックスを選択する。この方法については、『AquaLogic Service Bus Console の使い方』の「システムの管理」で「モニタの有効化」を参照してください。

注意 : [モニタを有効化] オプションを使用すると、個々にモニタを有効にしたすべてのサービスのモニタを有効または無効にできます。特定のサービスのモニタを有効にしていない場合、そのサービスの統計の収集を開始するには、最初にモニタの管理ページでモニタを有効にし、集約間隔を設定します。

アラートルールを作成する場合、ルールを作成する前にモニタを有効にする必要があります。詳細については、「アラートルール」および『AquaLogic Service Bus Console の使い方』の「モニタ」で「アラートルールの作成」を参照してください。

モニタ情報の更新間隔

実行時の [ダッシュボード] ページのデフォルトの更新間隔は 1 分です。ただし、情報がダッシュボードに表示されるまでに最大 3 分かかることがあります。このような遅れが生じるのは、プロキシサービスがメッセージを処理した時間、メトリックが収集された時間、およびダッシュボードの更新間隔の間に時間のずれがあるためです。システムの動作は以下のとおりです。

データコレクタが 1 分ごとに現在のスナップショットを集約機能に送信する。

集約機能が 60 秒ごとに、最後の 1 分間に管理対象サーバから受け取ったすべてのドキュメントを結合する。

AquaLogic Service Bus Console が 1 分ごとに更新される。つまり、集約されたドキュメントに対してクエリを実行し、その結果を表示します。

図 5-2 集約の時間表

集約の時間表

たとえば、図 5-2 に示すように、プロキシサービスが T1 でデータの送信を開始します。T2 (2 分目) で、コレクタがデータを集約機能に送信します。しかし、集約機能は、集約サイクルをすでに開始している場合は次の集約サイクルまでこのデータを結合しません。次のサイクルは、前の集約サイクルから 1 分後または最大 2 分後に始まります。データが結合されたら、AquaLogic Service Bus Console に表示できるようになります。コンソールは 1 分ごとに更新されるため、更新サイクルが直前に始まっていた場合、データは 3 分目までコンソールに表示されません。したがって、最大で 3 分間遅れることになります。

ダッシュボードのポーリング間隔は、AquaLogic Service Bus Console の [システムの管理] モジュールで変更します。この方法については、『AquaLogic Service Bus Console の使い方』の「システムの管理」で「ダッシュボードを更新するポーリング間隔の設定」を参照してください。

ダッシュボード

AquaLogic Service Bus Console にログオンすると、ダッシュボードが自動的に表示されます。ダッシュボードには、直前 30 分間のモニタ情報が表示されます。次の図に示すように、サーバ、サービス、およびアラートで構成されるシステムの状態の概要が表示されます。

図 5-3 AquaLogic Service Bus ダッシュボード

AquaLogic Service Bus ダッシュボード

この図に示すように、ダッシュボードには以下の情報が表示されます。

[サービス概要] - アラートがコンフィグレーションされている場合、プロキシサービスとビジネスサービスのアラートの状態の概要が表示されます。アラートは作成されたルールに基づき、サービスのパフォーマンスを通知します。
[サーバ概要] - サーバの状態が表示されます。
[アラート概要] - アラートがコンフィグレーションされている場合、トリガされたアラートルールが表示されます。

ダッシュボードからは、サービスの平均実行時間、アラートの発生日時、サーバの実行時間など、システムに関する詳細な情報を簡単に取得できます。

ダッシュボードとモニタは AquaLogic Service Bus Console でコンフィグレーションします。詳細については、『AquaLogic Service Bus Console の使い方』の「モニタ」および「システムの管理」を参照してください。

サービス概要

この節の内容は以下のとおりです。

サービス概要について

[サービス概要] パネルには、サービスの状態の概要が表示されます。[サービス概要] 円グラフでは、アラートが定義され、直前 30 分間モニタが有効にされていたすべてのサービスの重大度に従って、アラートの割合が示されます。アラートの重大度レベルはユーザがコンフィグレーションでき、絶対的な意味はありません。重大度の種類は、致命的、重大、重要、軽度、警告、通常です。次の図に示すように、重大度が最も高いアラートを発生するサービスは円グラフの下に表示されます。アラートの多い順に 10 個までのサービスが表示されます。

図 5-4 [サービス概要] ペイン

[サービス概要] ペイン

[サービス概要] パネルから、次の部分をクリックして、アラートに関する詳細情報にアクセスできます。

円グラフの特定の領域 - [サービスのモニタの概要] ページが表示されます。
[重大度が最も高いアラートを発生するサービス] の下にあるサービスの名前 - そのサービスの [サービスのモニタの詳細] ページが表示されます。
[サービス概要リストの表示] - [サービスのモニタの概要] ページが表示されます。特定のサービスを検索するため、さまざまな条件を使用してサービスをフィルタできます。

各ページについて、以下の節で詳しく説明します。

警告 : サービス (またはパイプラインノードなどのコンポーネント) の名前を変更するか場所を移動すると、統計データは失われます。

詳細なアラート情報を参照する方法については、『AquaLogic Service Bus Console の使い方』の「モニタ」で「ダッシュボードの統計の表示」を参照してください。

サービスのモニタの概要

次の 2 つの図に示すように、[サービスのモニタの概要] ページには、サービスのモニタ統計の 2 つのビューが表示されます。

1 つ目のビューは、各サービスで収集されたデータの動的な統計です。このビューは、[次のメトリックの表示] フィールドで [現在の集約間隔] を選択した場合に表示されます。[集約間隔] カラムに表示される集約間隔によって、表示される統計が決まります。たとえば、特定のサービスの集約間隔が 20 分である場合、そのサービスの行には直前 20 分間に収集されたデータが表示されます。

図 5-5 [サービスのモニタの概要] ページ - [現在の集約間隔]

[サービスのモニタの概要] ページ - [現在の集約間隔]

2 つ目のビューでは、メトリックの集計カウントが表示されます。このビューは、[次のメトリックの表示] フィールドで [最後のリセット以降] を選択した場合に表示されます。各行に表示される統計は、[システムの管理] モジュールにある [グローバル設定] ページで個々のサービスの統計またはすべてのサービスの統計を最後にリセットした時点からのものです。

図 5-6 [サービスのモニタの概要] ページ - [最後のリセット以降]

[サービスのモニタの概要] ページ - [最後のリセット以降]

この図に示すように、情報の表示はページ上部で以下の条件を使用してフィルタできます。

[名前] - プロキシサービスまたはビジネスサービスの名前。
[パス] - プロキシサービスまたはビジネスサービスが格納されているプロジェクトフォルダ。
[アラートあり] - アラートメッセージがあるサービス別。
[エラーあり] - 失敗したメッセージがあるサービス別。
[プロキシによる呼び出し] - プロキシサービスの名前とパス。

[サービスのモニタの概要] のテーブルには以下の情報が表示されます。

[名前] - プロキシサービスまたはビジネスサービスの名前。[サービスのモニタの詳細] ページにリンクされています。「サービスのモニタの詳細」を参照してください。
[パス] - サービスが置かれたプロジェクトフォルダ。サービスがプロジェクトの最上位に置かれている場合はプロジェクトビュー ページにリンクされ、フォルダに格納されている場合はフォルダビューページにリンクされています。
[集約間隔] - 特定の統計のデータポイントが収集され、サービスに表示されるまでの時間。この情報は、[次のメトリックの表示] フィールドで [現在の集約間隔] を選択した場合のみ表示されます。
[平均実行時間] - 現在の集約間隔での、または最後のリセット以降の、サービスがメッセージの処理にかかった平均実行時間。
[メッセージ数] - 現在の集約間隔での、または最後のリセット以降の、このサービスが処理したメッセージの総数。
[エラー数] - 現在の集約間隔での、または最後のリセット以降の、失敗したメッセージの数。
[アラート数] - 現在の集約間隔での、または最後のリセット以降の、アラートルールの発生と違反により発動したアラートの数。

注意 : [次のメトリックの表示] フィールドで [最後のリセット以降] を選択すると、[アクション] カラムが表示されます。このカラムでは、特定のサービスについて [統計のリセット] アイコンをクリックし、そのサービスの統計をリセットすることができます。リセットを確定すると、[統計のリセット] アイコンを最後にクリックした時点、または [グローバル設定] ページで [統計をリセット] を最後にクリックした時点からそのサービスに関して収集されたすべてのモニタ統計が削除されます。ただし、サービスの現在の集約間隔において収集中の統計は削除されません。また、[統計のリセット] アイコンをクリックすると、サービスのモニタ統計の収集が再び直ちに開始されます。

サービスのモニタの詳細

次の 2 つの図に示すように、[サービスのモニタの詳細] ページには、特定のサービスに関する詳細情報の 2 つのビューが表示されます。

1 つ目のビューは、サービスで収集されたデータの動的な統計です。このビューは、[次のメトリックの表示] フィールドで [現在の集約間隔] を選択した場合に表示されます。[集約間隔] カラムに表示される集約間隔によって、表示される統計が決まります。たとえば、このサービスの集約間隔が 20 分である場合、このビューには直前 20 分間に収集されたデータが表示されます。

図 5-7 [サービスのモニタの詳細] ページ - [現在の集約間隔]

[サービスのモニタの詳細] ページ - [現在の集約間隔]

2 つ目のビューでは、メトリックの集計カウントが表示されます。このビューは、[次のメトリックの表示] フィールドで [最後のリセット以降] を選択した場合に表示されます。表示される統計は、[システムの管理] モジュールにある [グローバル設定] ページでこの特定のサービスの統計またはすべてのサービスの統計を最後にリセットした時点からのものです。

図 5-8 [サービスのモニタの詳細] ページ - [最後のリセット以降]

[サービスのモニタの詳細] ページ - [最後のリセット以降]

表示される詳細情報は、次のように定義されています。

[サービスのモニタの詳細]

[アラートの状態] - 現在のアラートの状態。この情報は、[次のメトリックの表示] フィールドで [現在の集約間隔] を選択した場合のみ表示されます。
[集約間隔] - 特定の統計のデータポイントが収集され、サービスに表示されるまでの時間。この情報は、[次のメトリックの表示] フィールドで [現在の集約間隔] を選択した場合のみ表示されます。
[最後の集約間隔のアラート] - 最後の集約時間の、このサービスに関連するアラートの合計数。この情報は、[次のメトリックの表示] フィールドで [現在の集約間隔] を選択した場合のみ表示されます。
[最後のリセット以降のアラート] - このサービスを最後にリセットした時点、または [グローバル設定] ページですべてのサービスの統計を最後にリセットした時点からの、このサービスに関連するアラートの合計数。この情報は、[次のメトリックの表示] フィールドで [最後のリセット以降] を選択した場合のみ表示されます。
[アラート履歴] - [カスタマイズされたシステムアラート履歴] ページへのリンク。「システムアラート履歴」を参照してください。
[場所のパス] - サービスが置かれたプロジェクトとフォルダ。
[次のメトリックの表示] - サーバのメトリックが表示されます。単一のノードの場合、表示される項目は 1 つだけです。

[操作]

[操作] - サービスに関連付けられている操作 (存在する場合)。
[メッセージ数] - 現在の集約間隔での、または最後のリセット以降の、各操作に関連するメッセージの数。
[最小応答時間] - 現在の集約間隔での、または最後のリセット以降の、この操作でメッセージの実行にかかった最小時間。
[最大応答時間] - 現在の集約間隔での、または最後のリセット以降の、この操作でメッセージの実行にかかった最大時間。
[平均実行時間] - 現在の集約間隔での、または最後のリセット以降の、この操作でメッセージの実行にかかった平均時間。

[パフォーマンス]

[最小応答時間] - 現在の集約間隔での、または最後のリセット以降の、このサービスでメッセージの実行にかかった最小時間。
[最大応答時間] - 現在の集約間隔での、または最後のリセット以降の、このサービスでメッセージの実行にかかった最大時間。
[全体の平均実行時間] - 現在の集約間隔での、または最後のリセット以降の、このサービスでメッセージの実行にかかった全体の平均時間。
[メッセージの総数] - 現在の集約間隔での、または最後のリセット以降の、失敗したメッセージを含めたメッセージの合計数。
[エラーによるメッセージ] - 現在の集約間隔での、または最後のリセット以降の、失敗したメッセージの数。双方向メッセージングで、応答メッセージが失敗したが、要求メッセージは処理された場合、失敗した応答メッセージのみカウントされます。
[フェイルオーバ数] - 現在の集約間隔での、または最後のリセット以降の、フェイルオーバメッセージの数 (ビジネスサービスの場合のみ)。
[成功率] - 現在の集約間隔での、または最後のリセット以降の、正しく処理されたメッセージの割合。
[失敗率] - 現在の集約間隔での、または最後のリセット以降の、失敗したメッセージの割合。
[セキュリティ] - 現在の集約間隔での、または最後のリセット以降の、認証エラー、セキュリティポリシー違反、認可エラーなど、セキュリティ上の理由で失敗したメッセージの数。
[検証] - 現在の集約間隔での、または最後のリセット以降の、検証アクションでメッセージの 1 つ以上の部分を XSD スキーマまたは WSDL リソースと比較したときに失敗したメッセージの数。プロキシサービスの場合のみ表示されます。

[フローコンポーネント] (プロキシサービスの場合)

[コンポーネント名] - メッセージフローのパイプラインまたはノードの名前。
[メッセージ数] - 現在の集約間隔での、または最後のリセット以降の、各コンポーネントに関連するメッセージの数。
[エラー数] - 現在の集約間隔での、または最後のリセット以降の、各コンポーネントに関連する失敗したメッセージの数。
[平均実行時間] - 現在の集約間隔での、または最後のリセット以降の、このコンポーネントでメッセージの実行にかかった平均時間。

サーバ概要

この節の内容は以下のとおりです。

サーバ概要について

[サーバ概要] パネルには、サーバの状態の概要が表示されます。円グラフには、ドメインの各サーバの状態が示されます。各サーバの状態は WebLogic 診断サービス (『WebLogic 診断フレームワークのコンフィグレーションと使い方』を参照) から取得されます。図 5-9 に示すように、重大度が最も高い 10 個のサーバが表示されます。

図 5-9 [サーバ概要] ペイン

[サーバ概要] ペイン

表示される状態には次の意味があります。

[致命的] - サーバに障害が発生し、サーバを再起動する必要があります。
[重大] - サーバに障害が発生しようとしています。障害を防ぐために何らかの措置をすぐに講じる必要があります。詳細については、サーバログと対応する RuntimeMBean を確認してください。
[警告] - 将来的にサーバに障害が発生する可能性があります。詳細については、サーバログと対応する RuntimeMBean を確認してください。
[OK] - サーバは障害なしで稼働しています。
[オーバーロード] - 設定されたしきい値よりも多い作業がサーバに割り当てられています。これ以上の作業は拒否される可能性があります。

ログ概要

AquaLogic Service Bus Console で WebLogic Server のドメインログを表示できます。ドメインログファイルは、ドメイン全体のステータスを確認するための中心となるファイルです。各サーバインスタンスでは、メッセージのサブセットをドメイン全体のログファイルに転送します。デフォルトでは、重大度が NOTICE 以上のメッセージのみが転送されます。転送されるメッセージの集合を変更できます。詳細については、『ログファイルのコンフィグレーションとログメッセージのフィルタ処理』の「WebLogic ロギングサービスについて」を参照してください。

パイプラインにロギングアクションをコンフィグレーションした場合、ログはサーバログに転送されます。これらのメッセージをドメインログに転送するよう WebLogic Server をコンフィグレーションしていない限り、AquaLogic Service Bus Console からこのログは表示できません。この方法については、WebLogic Server の『Administration Console オンラインヘルプ』の「ログフィルタの作成」を参照してください。

システムで現在発生したメッセージの数を調べるには、[サーバ概要] パネルの [ログ概要の表示] リンクをクリックします。次の図のように、重大度別に分類されたメッセージ数を示すテーブルが表示されます。

図 5-10 ログ概要

ログ概要

表示されるメッセージの状態には次の意味があります。

[アラート] - 特定のサービスが使用不可状態にあるものの、システムの他の部分は引き続き稼働しています。自動回復できないので、管理者が直ちに問題を解決する必要があります。
[重大] - システムまたはサービスエラーが発生しました。システムは回復できますが、サービスが一時的に停止するか、永続的に停止するおそれがあります。
[緊急] - サーバが使用不可状態にあります。深刻なシステム障害を示します。
[エラー] - ユーザエラーが発生しました。システムまたはアプリケーションでは、サービスの中断なしにエラーを処理できます。サービスが一部低下することはあります。
[情報] - 通常の処理を報告する、低レベルの情報メッセージ。
[注意] - [情報] メッセージよりも重要度が高い情報メッセージ。
[警告] - 問題のある処理またはコンフィグレーションが行われました。しかし、通常の処理は影響を受けません。

これは、WebLogic 診断サービスでの定義に従い、実行中のサーバのヘルス状態に基づいて表示されます。WebLogic 診断サービスの詳細については、『WebLogic 診断フレームワークのコンフィグレーションと使い方』を参照してください。

特定のタイプのメッセージのドメインログを表示するには、そのメッセージのタイプに対応している数字をクリックします。次の図は、AquaLogic Service Bus Console に表示されるドメインログファイルの例です。

図 5-11 ドメインログファイルエントリ

ドメインログファイルエントリ

以下の情報が表示されます。

[Date] - エントリが記録された日時 (ローカルタイムゾーンおよびフォーマットに固有の形式)。
[Subsystem] - EJB コンテナ、Java Messaging Service など、メッセージのソースとなった WebLogic Server サブシステム。
[Severity] - イベントの影響または深刻さの度合い。
[Message ID] - メッセージのユニークな 6 桁の識別子。
[Message] - イベントまたは状況の説明。

詳細については、『ログファイルのコンフィグレーションとログメッセージのフィルタ処理』の「WebLogic ロギングサービスについて」で「メッセージの属性」を参照してください。

ページにある 1 つのログファイルの詳細を表示するには、該当するログのラジオボタンを選択し、[表示] ボタンを選択します。

サーバ概要

次の図に示すように、[サーバ概要] ページには、サーバのカスタマイズ可能なテーブルが表示されます。

図 5-12 [サーバ概要] ページ

[サーバ概要] ページ

この図にあるように、[サーバ概要] ページの上部には、システムで現在発生しているメッセージの数が表示されます。それぞれの種類の状態メッセージについては、「ログ概要」を参照してください。

このサーバテーブルには以下の情報が表示されます。

[状態] - サーバの状態 :

[致命的] - サーバに障害が発生し、サーバを再起動する必要があります。
[重大] - サーバに障害が発生しようとしています。障害を防ぐために何らかの措置をすぐに講じる必要があります。詳細については、サーバログと対応する RuntimeMBean を確認してください。
[警告] - 将来的にサーバに障害が発生する可能性があります。詳細については、サーバログと対応する RuntimeMBean を確認してください。
[OK] - サーバは障害なしで稼働しています。
[オーバーロード] - 設定されたしきい値よりも多い作業がサーバに割り当てられています。これ以上の作業は拒否される可能性があります。

[サーバ] - サーバの名前。この名前は、サーバの詳細表示ページにリンクされています。「サーバ詳細」を参照してください。
[クラスタ名] - サーバがクラスタに関連付けられている場合、クラスタの名前。
[マシン名] - サーバに関連付けられているコンピュータの名前。
[状態] - サーバの状態 :

[RUNNING]
[FAILED]
[SHUTDOWN]

[アップタイム] - このサーバの稼働時間。

テーブルのこの情報を円グラフまたは棒グラフで表示するには、[グラフで表示] をクリックします。

サーバの表示をフィルタするには、サーバテーブルの上の [テーブルのカスタマイズ] をクリックします。利用可能なフィルタを次の図に示します。

図 5-13 サーバ概要テーブルフィルタ

サーバ概要テーブルフィルタ

サーバ概要テーブルフィルタの使用方法については、『AquaLogic Service Bus Console の使い方』の「モニタ」で「サーバ概要の表示のカスタマイズ」を参照してください。

サーバ詳細

サーバの詳細表示ページにアクセスするには、[重大度が最も高いサーバ] の下のサーバ名をクリックするか、[サーバ概要] ページでサーバ名をクリックします。

サーバの詳細表示ページを使用すると、次の図に示すように、サーバモニタの詳細を表示できます。

図 5-14 サーバの詳細ページ - [全般] タブ

サーバの詳細ページ - [全般] タブ

このページに表示される情報は、WebLogic Server Administration Console のサーバの設定ページの [モニタ] タブのサブセットです。以下の詳細情報が表示されます。

[全般] - サーバに関する全般的な実行時情報が表示されます。[詳細] をクリックすると、WebLogic Server のバージョン、オペレーティングシステム名など、さらに詳しい情報が表示されます。
[チャネル] - 各チャネルに関するモニタ情報が表示されます。
[パフォーマンス] - サーバに関するパフォーマンス情報が表示されます。
[スレッド] - サーバのアクティブ実行キューの現在の実行時特性と統計が表示されます。
[タイマー] - サーバで使用されているタイマーに関する情報が表示されます。
[負荷] - サーバにコンフィグレーションされているワークマネージャ、制約、およびポリシーの統計が表示されます。
[セキュリティ] - サーバのユーザロックアウトの管理統計をモニタできます。
[JMS] - サーバに関する JMS 情報をモニタできます。
[JTA] - サーバのあらゆる種類のリソースに関するすべてのトランザクション情報の概要が表示されます。

詳細については、WebLogic Server の『Administration Console オンラインヘルプ』を参照してください。

アラート概要

この節の内容は以下のとおりです。

アラート概要について

[アラート概要] パネルには、システムにおける違反またはイベントの発生に関する情報を表示するカスタマイズ可能なテーブルがあります。これらの違反と発生は SLA に基づいています。AquaLogic Service Bus には、プロキシサービスおよびビジネスサービスをモニタするためにコンフィグレーションできるさまざまな SLA モニタが用意されています。SLA モニタの例としては、最大実行時間、認可の失敗があります。これらのモニタをコンフィグレーションするには、アラートルールを作成します。ルールの評価が true の場合は、アラートが発生します。また、アラートルールをコンフィグレーションして電子メールを送信したり、JMS キューやトピックにメッセージをポストすることもできます。

注意 : アラートルールをコンフィグレーションして JMS 送り先にメッセージをポストする場合、JMS 接続ファクトリおよびキューまたはトピックを作成し、WebLogic Server Administration Console の該当する JMS サーバを対象に設定します。この方法については、『Weblogic JMS のコンフィグレーションと管理』の「JMS システムリソースのコンフィグレーション」で「JMS 接続ファクトリのコンフィグレーション」および「ドメインの相互運用性を実現するための JMS リソースの命名規則」を参照してください。

AquaLogic Service Bus Console には、重大度順、サービス順など、アラートを表示し、検索するいくつかの方法が用意されています。また、アラートをグラフィカルに表示することもできます。この方法については、『AquaLogic Service Bus Console の使い方』の「モニタ」で「アラートの表示と検索」および「アラートのグラフの表示」を参照してください。

次の図に [アラート概要] パネルを示します。

図 5-15 [アラート概要] パネル

[アラート概要] パネル

[アラート概要] パネルには直前 30 分間のアラートが表示されます。次のような情報が表示されます。

[アラート重大度] - アラートのユーザ定義の重大度。この重大度は、アラートの詳細ページにリンクされています。「システムアラートの詳細」を参照してください。
[タイムスタンプ] - アラートが発生した日時。
[アラートルール名] - アラートに割り当てられた名前。[アラートルールの詳細の表示] ページにリンクされています。「アラートルールの詳細の表示」を参照してください。
[サービス/プロジェクト名] - アラートに関連するサービスとプロジェクトの名前。[サービスのモニタの詳細] ページにリンクされています。「サービスのモニタの詳細」を参照してください。

アラートのリストを表示するには、[アラート概要リストの表示] をクリックしてください。「システムアラート履歴」を参照してください。

[アラート概要] パネルに表示される情報をカスタマイズするには、概要テーブルの上の [テーブルのカスタマイズ] をクリックします。利用可能なフィルタを次の図に示します。

図 5-16 アラート概要テーブルフィルタ

アラート概要テーブルフィルタ

システムアラート履歴

[カスタマイズされたシステムアラート履歴] ページにアクセスするには、[アラート概要] ページで [アラート概要リストの表示] をクリックします。[カスタマイズされたシステムアラート履歴] ページでは、テーブルをスクロールするか (図 5-17) アラートの表示をフィルタする (図 5-18) ことですべてのアラートを表示できます。

図 5-17 カスタマイズされたシステムアラート履歴

カスタマイズされたシステムアラート履歴

この図に示したテーブルはカスタマイズでき、次の情報が表示されます。

[アラート重大度] - アラートの重大度レベルはユーザがコンフィグレーションでき、絶対的な意味はありません。このフィールドは、システムアラートの詳細ページにリンクされています。「システムアラートの詳細」を参照してください。
[タイムスタンプ] - アラートが発生した日時。
[アラートルール名] - アラートに割り当てられた名前。[アラートルールの詳細の表示] ページにリンクされています。「アラートルールの詳細の表示」を参照してください。
[サービス/プロジェクト名] - アラートに関連するサービスとプロジェクトの名前。[サービスのモニタの詳細] ページにリンクされています。「サービスのモニタの詳細」を参照してください。

アラートの円グラフまたは棒グラフを表示するには、テーブルの [グラフを表示] をクリックします。

特定のアラートを検索するには、[カスタマイズされたシステムアラート履歴] テーブルで [テーブルのカスタマイズ] をクリックしてアラートの表示をフィルタできます。利用可能なフィルタを次の図に示します。

図 5-18 システムアラートテーブルフィルタ

システムアラートテーブルフィルタ

アラートテーブルフィルタの使用方法については、『AquaLogic Service Bus Console の使い方』の「モニタ」で「アラートの表示のカスタマイズ」を参照してください。

注意 : コンフィグレーションでアラートが発生すると、次の場所にあるドメインログにメッセージが送信されます。

BEA_home\servers\<server_name>\logs\<domain_name>.log

ここで、domain_name は、AquaLogic Service Bus ドメインを作成したときに指定した名前を表します。

メッセージはアラートとしてログに記録され、BEA-394015 というメッセージ ID が付いています。

メッセージ本文は、次の要素で構成される文字列です。

アラートルール ID
アラートルール名
重大度
タイムスタンプ
アラートに関連付けられたサービスの名前

システムアラートの詳細

システムアラートの詳細ページには、アラートに関する詳しい情報が表示されます。次の図に示すように、アラートにアノテーションを追加できます。

図 5-19 ルールの詳細ページ

ルールの詳細ページ

以下の情報が表示されます。

[アラート名] - アラートに割り当てられた名前。
[説明] - アラートの説明。
[タイムスタンプ] - アラートが発生した日時。
[重大度] - アラートのユーザ定義の重大度。
[アラートルール名] - アラートルールの名前。[アラートルールの詳細の表示] ページにリンクされています。「アラートルールの詳細の表示」を参照してください。
[サービス] - アラートに関連するサービスの名前。[サービスのモニタの詳細] ページにリンクされています。「サービスのモニタの詳細」を参照してください。
[アノテーション] - このフィールドを使用してアラートにメモを追加します。

ダッシュボードからこのページにアクセスするには、[アラート概要] テーブルでアラート重大度をクリックします。このページでは、アラートを削除することもできます。

アラートルールの詳細の表示

[アラートルールの詳細の表示] ページには、次の図に示すように、特定のアラートルールに関する詳細情報が表示されます。

図 5-20 [アラートルールの詳細の表示] ページ

[アラートルールの詳細の表示] ページ

以下の情報が表示されます。

[全般的なコンフィグレーション]

[ルール名] - アラートルールに割り当てられた名前。
[説明] - ルールの説明。
[開始時刻 (HH:MM)] - 期限前の各日で、ルールのアクティブ化を開始する時間を指定します。
[終了時刻 (HH:MM)] - 期限前の各日で、ルールのアクティブ化を終了する時間を指定します。
[ルールの有効期限 (MM/DD/YY)] - ルールの有効期限。ルールは、指定日の午前 12 時 01 分に期限切れになります。日付を指定しない場合は、ルールの有効期限がなくなります。
[ルールを有効化] - ルールを有効にするかどうかを示します。
[アラートの重大度] - アラートのユーザ定義の重大度。
[アラート間隔] - アラートルールに指定されたアクション (電子メールまたは JMS 送り先) を、アラートルールが true に評価されるごとに実行するか、ルールが初めて true に評価されたときに実行するかを示します。
[これ以上のルールの処理を停止] - 複数のルールが 1 つのサービスに関連付けられている場合、現在のルールが true に評価されたとき、サービスに関連付けられた後続のルールを評価する必要があるかどうかを示します。
[ログイン管理データセットを含める] - アラートのログを管理データセットに含めるかどうかを示します。これらのアラートログは、ダッシュボードの [アラート概要] テーブルに表示できます。
[ログインレポートデータセットを含める] - アラートのログをレポートデータセットを含めるかどうかを示します。レポートデータセットを表示するには、これらのログを取得して表示するレポートプロバイダを開発する必要があります。詳細については、「レポートフレームワーク」を参照してください。

[条件]

[条件式] - アラートルールをトリガする条件を示します。

[アクションパラメータ]

[アラートを電子メールで送信]
[JMS 送り先にアラートを送信]

アラートルールを定義する方法については、『AquaLogic Service Bus Console の使い方』の「モニタ」で「アラートルールの作成」を参照してください。

アラートルール

この節の内容は以下のとおりです。

アラートルールについて

前に説明したように、アラートはSLA の違反または発生に対する自動的な応答であり、ダッシュボードに表示されます。ビジネスおよびパフォーマンスの要件に従い、許容できないサービスパフォーマンスを指定するアラートルールを定義します。アラートルールをコンフィグレーションするときに、アラートルールごとにそのルールの集約間隔を指定できます。アラートの集約間隔は、サービスに設定された集約間隔の影響を受けません。

ルールは集約間隔ごとに 1 回実行されます。アラートルールページで [アラート間隔] を [毎回] に設定した場合、アラートルールが true に評価されるごとにルールのアクションが実行されます。[アラート間隔] を [条件がクリアされるまでに 1 回] に設定した場合、アラートルールが初めて true に評価されたときにルールのアクションが実行されます。それ以降は、条件がリセットされ、もう一度 true に評価されるまで、アラートは生成されません。

[アラート間隔] を [毎回] に設定した場合、アラートルールの発生回数は、集約間隔およびそのルールに関連付けられたサンプル間隔によって異なります。たとえば、集約間隔が 5 分に設定されている場合は、サンプル間隔が 1 分になります。5 つのデータサンプルが利用可能になると、ルールが評価されます。したがって、ルールは作成されてから約 5 分後に初めて評価され、それ以降は 1 分ごとに評価されます。

[アラート間隔] を [条件がクリアされるまでに 1 回] に設定した場合、最初に集約間隔でアラートが発生した後は、同じ集約間隔でアラートは再び発生しません。

アラートルールを作成するには、以下の 3 つの定義を行います。

[全般的なコンフィグレーション] - 名前、期間、重大度、頻度、ロギングなどの全般的な動作を定義します。
[条件の定義] - アラートルールをトリガする 1 つ以上の条件を定義します。また、このページでは条件の集約間隔も定義しています。
[アクションの定義] - ルールのトリガを通知する電子メールまたは JMS メッセージを定義します。

注意 : ルールは、モニタが有効なサービスに対してのみ作成できます。

アラートルールの作成方法の詳細については、『AquaLogic Service Bus Console の使い方』の「モニタ」で「アラートルールの作成」を参照してください。

アラートの使用例

以下に、アラートの使用例を示します。

WS-Security エラーをモニタし、電子メールで通知する。
特定のパイプラインを通過するメッセージ数をモニタする。
株式取引時間中に平均実行時間が 5 秒を超えた場合、電子メールで通知する。

アラートルールを理解する

この項では、質問と回答の形式で説明します。

質問 1 : 以下の条件式を持つアラートルールを使用してサービスを作成しました。

集約間隔 : 0 時間 1 分
メッセージ数 = 0

10 分経過してもアラートを受け取っていません。

回答 : メッセージ数やエラー数など、サービスに関連する各統計属性のモニタ統計収集は、その統計の値が変化したときに始まります。メッセージ数属性のデータ収集は、最初のメッセージがサービスによって処理され、メッセージ数属性の値が増えたときに始まります。同様に、エラー数統計のデータ収集は、サービスで最初のエラーが発生し、エラー数属性の値が増えたときに始まります。サービスがアイドル状態にあると、そのサービスのモニタ情報は収集されず、その結果アラートルールはトリガされません。最初のメッセージが処理された後は、サービスがそれ以降要求を受信しなくても、そのサービスのモニタデータは続けて収集されます。サービスが要求を受信したかどうかを調べてください。

質問 2 : 以前存在しなかった集約間隔で新しいアラートルールを定義しましたが、そのルールはまったく発動していないようです。それより前に作成した他のすべてのルールは正しく動作しています。

回答 : 原因は質問 1 の場合と同じです。新しい集約間隔を持つルールを作成した後、そのアラートルールをトリガするには、サービスで少なくとも 1 つの要求を処理する必要があります。異なる集約間隔値で定義された他のルールは、このアラートルールには影響されません。

質問 3 : サーバを再起動し、サービスでは要求を処理していません。なぜアラートが生成されるのでしょうか。

回答 : モニタサブシステムでサービスのデータ収集を開始すると、サーバを強制終了し再起動しても収集プロセスは停止されません。収集されたデータは保持され、統計収集は中断された箇所から再開されます。

質問 4 : 以下のように定義されたアラートルールがあります。

集約間隔 : 0 時間 5 分
成功率 < 80%

[サービスのモニタの概要] ページに、以下の値が表示されます。

[メッセージ数] : 4
[エラー数] : 1

この場合、なぜアラートが発生したのでしょうか。この場合の成功率は 80% ではないでしょうか。

回答 : いいえ。表示されたメッセージ数の値は、エラーが発生したメッセージを含め、サービスで処理されたメッセージの総数です。したがって、この場合の成功率は 75% です。

質問 5 : JMS メッセージを送信する集約間隔 10 分のサービスを作成しました。[サービスのモニタの概要] ページにメッセージ数が表示されていましたが、一定時間の経過後、このサービスのメッセージ数が 0 と表示されます。

回答 : [サービスのモニタの概要] ページには動的な統計が表示されます。この場合、直前 10 分間のメッセージ数が表示されます。直前 10 分間にシステムでメッセージが処理されていなかったため、メッセージ数は 0 と表示されました。

質問 6 : サービスの集約間隔を 10 分から 5 分に変更しました。[サービスのモニタの概要] ページには、すべての統計が 0 と表示されます。このサーバのアラートの 1 つは 2 分の集約間隔を持つ統計要素にコンフィグレーションされていましたが、さらに 1 分経過しても発動しませんでした。

回答 : 1 つのサービスの集約間隔を変更すると、すべてのサービスの統計情報およびそのサービスに関連するアラートが削除されます。アラートは再度初期化され、次に集約間隔が期限切れになった後、発動されます。

質問 7 : ビジネスサービスの 1 つには複数のエンドポイントがあり、フェイルオーバ数 > 0 と定義されたアラートルールがあります。エンドポイントの 1 つがダウンしたとき、アラートがトリガされました。しかし、サービスに 1 つのエンドポイントしかない場合、このサービスのフェイルオーバ数は増分されず、代わりに、エラーが発生します。

回答 : 再試行回数を 0 より大きい数に設定してください。再試行回数の設定については、『AquaLogic Service Bus Console の使い方』の「ビジネスサービス」で「ビジネスサービスの追加」を参照してください。

質問 8 : ダッシュボードでアラートが生成されたことがわかりますが、[サービスのモニタの詳細] ページの [最後の集約間隔のアラート] フィールドの値は 0 と表示されます。

回答 : アラートルールは間隔の完了後に評価されます。これは、チェックポイントの完了後に発生します。ルールが true に評価されると、ルールのアクションがトリガされ、ログが生成され、間隔数統計属性 ([最後の集約間隔のアラート]) の値が増えます。このカウンタの更新値は 60 秒後の次のチェックポイントで処理されます。[サービスのモニタの詳細] ページには、アラート生成の約 1 分後の更新された数が表示されます。

質問 9 : 午前 0 時にまたがるルールのアクティブな時間はどのようになりますか。

回答 : ルールのアクティブな時間が 22:00 ～ 09:00 と指定されている場合を考えてみましょう。

特定の日 (たとえば 6 月 7 日) に、ルールは以下のようにアクティブおよび非アクティブになります。

6 月 6 日午後 10 時 00 分から 6 月 7 日午前 9 時 00 分 - アクティブ
6 月 7 日午前 9 時 01 分から 6 月 7 日午後 9 時 59 分 - 非アクティブ
6 月 7 日午後 10 時 00 分から 6 月 8 日午前 9 時 00 分 - アクティブ

コレクタは、集約機能に ServerStatistics を送信します。ServerStatistics は、その時点のモニタの実行時データを表します。つまり、有効になっているサービスの統計情報が含まれています。

集約機能はコレクタから受信したデータを 1 分ごとに集約し、統計取得サブシステムに提供します。集約機能のスレッドとコレクタのチェックポイントスレッドの書き込みには 15 秒間のスキューがあります。

ドメインのモニタを無効にすると、統計の収集とチェックポイントの処理が無効になります。コレクタは、集約サーバに ServerStatistics を送信しなくなり、次の集約間隔以降は集約サーバに集約データが保持されません。つまり、データを取得しようとしても返されるデータがありません。ドメインのモニタを有効にした場合も同様です。最初はデータがまったく表示されませんが、最大 2 分後には、データが集約機能に保持され、[サービス概要] ページにこのデータが表示されます。

このように、ドメインのモニタを無効にすると、統計の収集とチェックポイントの処理が無効になります。つまり、集約サーバに serverStatistics が送信されなくなり、次の集約間隔以降は集約サーバに集約データが保持されません。そのため、データを取得しようとしてもコンフィグレーションが返されません。

ドメインのモニタを有効にした場合も同様です。最初はデータがまったく表示されませんが、最大 2 分後には、データが集約機能に保持され、[サービス概要] ページにこのデータが表示されます。

モニタ

モニタのシナリオ

モニタについて

集約間隔

モニタのアーキテクチャ

サービスのモニタ

モニタ情報の更新間隔

ダッシュボード

サービス概要

サービス概要について

サービスのモニタの概要

サービスのモニタの詳細

サーバ概要

サーバ概要について

ログ概要

サーバ概要

サーバ詳細

アラート概要

アラート概要について

システム アラート履歴

システム アラートの詳細

アラート ルールの詳細の表示

アラート ルール

アラート ルールについて

アラートの使用例

アラート ルールを理解する

システムアラート履歴

システムアラートの詳細

アラートルールの詳細の表示

アラートルール

アラートルールについて

アラートルールを理解する