キャパシティプランニングのプロセス

キャパシティプランニングのプロセスには、複数のアクティビティが含まれます。以下の節で、これらのアクティビティについて説明します。

WLI アプリケーションの設計

以下に、設計者および開発者が、WLI アプリケーションを設計する際に留意する必要がある、パフォーマンスに関連する設計上の問題をいくつか示します。

JPD の呼び出し

(サービスコントロールではなく) プロセスコントロールのみを使用して、サブプロセスを呼び出す必要があります。サービスコントロールは、別のサーバまたはクラスタの Web サービスおよび JPD を呼び出すときにのみ使用することをお勧めします。

プロセスコントロールコールバックとメッセージブローカサブスクリプション

プロセスコントロールコールバックは、JPD インスタンスに直接ルーティングされるため、メッセージブローカサブスクリプションよりも高速です。フィルタが指定されたメッセージブローカサブスクリプションでは、データベースアクセスにより、フィルタ値がプロセスインスタンスにマップされます。

注意 :

動的なサブスクリプションは、疎結合を提供します。そのため、疎結合が必要な設計シナリオでは、プロセスコントロールコールバックの代わりに、動的なサブスクリプションを使用できます。

永続性フラグ

プロセスがステートフルになり、操作で、データベースに状態を永続させる必要がない場合は、意図的に、永続性フラグを Never または Overflow に変更することを検討してください。

注意 :

Never または Overflow に設定された永続性フラグは、クラスタで適切に動作しない可能性があります。

ワークリスト API を使用したワークリストへのアクセスと WLI JPD コントロールを使用したワークリストへのアクセス

ワークリスト API を使用したワークリストへのアクセスは、WLI JPD コントロールを使用した場合よりも高速です。ただし、コントロールの方が、使いやすく、プログラミングが容易です。

プロセスオーケストレーションでワークリストアクセスが必要なシナリオでは、JPD コントロールを使用したワークリストへのアクセスをお勧めします。
単純なワークリストの操作の場合は、ワークリスト API の方が、JPD コントロールよりも高速で動作します。

JPD の状態管理

ステートレス JPD は、メモリで実行され、状態が永続化されないため、パフォーマンスでは、ステートフル JPD よりも優れています。プロセスの以前の状態に関する情報が必要ないシナリオでは、ステートレス JPD を使用してください。

JMS を使用したコールバック

非同期プロセスでは、コールバックの場所が WLS JMS キューであり、プロセスのすべてのインスタンスで同一である場合、高負荷条件で WLI のパフォーマンスが影響を受けます。

同期プロセスと非同期プロセス

完了するまでに数百ミリ秒かかるタスクについて検討します。

このタスクを非同期 JPD として設計した場合、非同期処理インフラストラクチャのオーバーヘッドにより、処理時間が大幅に増加すると考えられます。
一方で、このタスクを同期 JPD として設計した場合、処理時間に大きく影響することはないと考えられます。

非同期処理は、長いプロセスの場合に多大な効果を発揮します。一方で、同期処理は、あまり時間がかからないと考えられるタスクにより適しています。

環境のチューニング

WLI アプリケーションのパフォーマンスは、アプリケーションの設計だけでなく、アプリケーションが動作する環境によっても異なります。

環境には、WLI サーバ、データベース、オペレーティングシステムとネットワーク、および JVM があります。システムから十分なパフォーマンスを引き出すには、これらすべてのコンポーネントが適切にチューニングされている必要があります。

WLI のチューニング

JDBC データソース、weblogic.wli.DocumentMaxInlinSize、プロセストラッキングレベル、B2B メッセージトラッキングレベル、および Log4j などのパラメータを適切に設定する必要があります。詳細については、「WLI のチューニング」を参照してください。

データベースのチューニング

これには、初期化パラメータ、統計の生成、ディスク I/O、インデックス作成などの設定の定義が含まれます。データベースのチューニングの詳細については、データベースチューニングガイドを参照してください。

オペレーティングシステムとネットワークのチューニング

OS とネットワークを適切にチューニングすると、エラー状態の発生が回避され、システムパフォーマンスが向上します。詳細については、『WebLogic Server パフォーマンスチューニングガイド』の「オペレーティングシステムのチューニング」を参照してください。

JVM のチューニング

JVM ヒープサイズをチューニングして、JVM によるガベージコレクションの実行時間を最小限に抑え、サーバで所定の時間に処理できるクライアントの数を最大限に増やす必要があります。詳細については、『WebLogic Server パフォーマンスチューニングガイド』の「Java 仮想マシン (JVM) のチューニング」を参照してください。

注意 :

スケーラビリティテストおよびベンチマークテストを実行する際に、ヒープサイズに大きな値を設定して、ガベージコレクションの頻繁な発生を回避することができます。ただし、これによりパフォーマンスが影響を受ける場合があります。

パフォーマンステストのためのアプリケーションの準備

ロードジェネレータスクリプトを使用して、パフォーマンステストの実行、およびアプリケーションの起動を行うためには、アプリケーションにいくつかの細かい変更を加える必要がある場合があります。

変更の程度は、アプリケーションの特性、ロードジェネレータの能力、およびキャパシティプランニングプロセスから予期される結果によって異なります。

ロードジェネレータスクリプトで、コールバックハンドラを記述せずに、非同期 JPD のエンドツーエンドのパフォーマンス (プロセスの呼び出しから完了まで) を測定する場合は、プロセスの SyncAsync WSDL を生成し、これをロードジェネレータスクリプトで使用できます。これにより、ロードジェネレータスクリプトが簡潔になり、複雑な手続きがすべてサーバに委ねられ、フ焦点が、ロードジェネレータスクリプトではなく、サーバに維持されます。
JPD がサードパーティ製ソフトウェアと対話しており、(ライセンスの問題から、またはサードパーティ製ソフトウェアの呼び出しによる遅延の発生を回避するために) そのソフトウェアを使用しない、または使用できない場合は、サードパーティ製ソフトウェアの代わりにシミュレータを使用できます。こうすることで、テストの結果から、WLI アプリケーションの本来のパフォーマンスおよびキャパシティに関する信頼性の高い情報が得られます。

作業負荷の設計

パフォーマンステストの結果の質は、使用される作業負荷に依存します。

作業負荷は、システムが実行すると考えられる処理の量です。これは、システムに接続している、およびシステムと対話している一定数のユーザを持つシステムで実行されている特定のアプリケーションで構成されます。

作業負荷は、可能な限りプロダクション環境に近くなるように設計する必要があります。

多数の同時ユーザが存在するプロダクション環境では、すべてのユーザが同じ操作を実行するとは限りません。操作は、ユーザのプロファイルと関心によって異なることが予想されます。

さらに、ユーザが、思考時間を必要とする場合があります。思考時間は、ユーザが、システムでアクションをトリガする前に、可能性のある代替案について考え、決定するために必要な時間です。

たとえば、Web サービス、JMS、およびファイルの 3 種類のクライアントを持つ WLI アプリケーションには、次の図に示すようなユーザプロファイルがある可能性があります。

図 2-1 ユーザプロファイルのサンプル

ユーザプロファイルのサンプル

ユーザの動作は、アプリケーションの種類によって異なります。実行時間の長いプロセスのユーザは、操作を立て続けには実行しない可能性があります。一方で、バッチ処理のユーザの動作は、まったく異なる場合があります。

作業負荷を設計する際は、以下のパラメータを考慮する必要があります。

さまざまな負荷条件 (低、中、ピーク) でのユーザの数
同時ユーザの平均数
思考時間 (ユーザが、システムでアクションを実行する前に考える時間)
ユーザのプロファイル (ユーザが実行すると思われる操作)
ピーク時のメッセージの到着率
メッセージサイズ

作業の単位および SLA の定義

サービスレベルアグリーメント (SLA) は、サービスの提供者とサービスの消費者との間の契約であり、サービスの許容 (および非許容) レベルを定義します。一般的に、SLA は、応答時間またはスループット (1 秒あたりのトランザクション数) で定義されます。

キャパシティプランニングを行うためには、作業の単位 (つまり、各トランザクションに含まれる一連のアクティビティ) を定義してから、それを使用して SLA を定義することが重要です。

次の図に示されている、注文アプリケーションについて検討します。

各ノードは JPD です。注文を処理するには、これらすべての JPD が必要です。このシナリオでは、作業の単位 (トランザクション) を、次のいずれかとして定義できます。

注文を処理するために実行する必要がある各 JPD。
ビジネス転送クライアントから、倉庫プロセッサからの応答の受信までのオペレーションのフロー全体。

各 JPD ではなく、ビジネスオペレーションのフロー全体を作業の単位と見なすことをお勧めします。

負荷生成スクリプトの設計

負荷生成スクリプトは、テストの実行時に、サーバで意図した作業負荷を発生させるために必要です。

負荷生成スクリプトを作成する際は、以下の点に留意する必要があります。

到着率をシステムのスループットと等しくする必要があります。つまり、各ユーザは、前の要求が処理され、応答を受信した場合のみ、新しい要求を送信します。
システムで、要求をバッチ処理する場合は、前のバッチが処理された場合のみ、新しい要求のバッチが送信されるようにします。

要求を送信する速度が制御されていない場合、フローの均衡が維持される比率を超えてもなおシステムに要求が到着し続け、キューのオーバーフローなどの問題が発生する可能性があります。

以下の図は、前の要求がサーバによって処理された場合にのみ、単一のユーザが次の要求を送信する様子を表しています。

この手法により、同時ユーザの数を増やすことで、システムに悪影響を与えずに、システムの到着率 (負荷) を上げることができるため、システムのキャパシティを正確に測定することができます。

以下の図は、単一のユーザが、サーバによる前の要求の処理が完了するのを待たずに新しい要求を送信する様子を表しています。

このやり方は、キューのオーバーフローなどの問題の原因となり、キャパシティの誤認を招く可能性があります。

テスト環境のコンフィグレーション

この節の説明に従ってテスト環境をコンフィグレーションし、テストの結果を、信頼性の高い、外的要因に影響されないものにする必要があります。

テストを実施する際は、いずれのテストマシン (ロードジェネレータ、WLI サーバ、およびデータベース) でも、テストする必要があるプロセス以外のプロセスを実行しないでください。また、他のマシンまたは外部プログラムが、データベースマシンにアクセスしたり、データベースマシンを使用したりしないようにしてください。
自動システムアップデートやスケジュールされたジョブなどの OS タスクが、テストを妨害しないようにしてください。
ネットワーク関連の問題 (低速なネットワークまたはネットワークトラフィック) がテスト結果に影響しないようにするために、テストに関係するすべてのマシンで VLAN を設定することをお勧めします。これにより、テストに関係のないマシンからの、またはそれらのマシンへのネットワークトラフィックからテストマシンが隔離されるようになります。
テストの実行には、1000 Mbps のネットワーク速度をお勧めします。テストの実行中は、帯域幅を監視する必要があります。

ベンチマークテストの実行

ベンチマークテストは、システムのボトルネックの特定およびシステムの適切なチューニングに役立ちます。

テストでは、スループットがそれ以上増加しなくなるまで、システムへの負荷を徐々に増加させます。

スループットの増加が停止した場合、以下のいずれかが発生した可能性があります。

ハードウェアリソースのいずれかの使用率が 100% に達し、特定のリソースがボトルネックになっていることを示しています。
いずれのハードウェアリソースの使用率も 100% には達していませんが、スループットがピークに達しており、使用可能なハードウェアリソースをより有効に活用するには、システムをさらにチューニングする必要があることを示しています。

以下の図は、Mercury LoadRunner の負荷の増加スケジュールを表しています。最初の 10 分間は、10 の同時ユーザによるウォームアップテストのための時間です。その後、15 分ごとに 10 のユーザを追加する割合で、負荷を増加させます。

テストの実行時に、以下のデータを記録する必要があります。

アプリケーションの動作

同時ユーザの負荷
応答時間
作業単位ごとのスループット

ユーザのエミュレートおよびメトリクスの記録には、Mercury LoadRunner および Grinder などのツールを使用します。

リソースの使用率

CPU 使用率
メモリフットプリント
ネットワーク使用率
I/O 使用率

負荷生成ツールでこれらのデータを完全に捕捉しきれない場合は、vmstat、iostat、および perfmon などの OS 固有のユーティリティを使用します。

ユーザの追加に従い、平均 TPS が増加しています。ハードウェアリソースのいずれか (この場合は CPU) の使用率が 100% に達した時点で、平均 TPS がピークに達しています。この時点での応答時間が、最適な結果です。システムにユーザをさらに追加すると、TPS が減少し始めます。

この結果のパターンは、システムでリソースが最大限に使用されていることを示しています。

キャパシティプランニングプロセスの次のアクティビティは、ベンチマークテストの結果の検証です。

リトルの法則を使用した結果の検証

テスト結果を分析する前に、リトルの法則を使用してそれらを検証し、テストのセットアップでのボトルネックを特定する必要があります。テスト結果は、リトルの法則を適用した場合に得られる結果から大きく外れるものであってはなりません。

マルチユーザシステムの応答時間の式は、リトルの法則を使用して証明することができます。応答時間が r の任意のシステムに接続している、平均思考時間が z である n 人のユーザについて検討します。各ユーザは、思考と応答の待機を繰り返すため、メタシステム (ユーザとコンピュータシステムで構成される) でのジョブの合計数は n に固定されます。

n は平均負荷、z + r は平均応答時間、および x はスループットです。

結果の解釈

結果を解釈する際は、システムの定常値のみを考慮するように注意してください。負荷を増加および減少させるための時間をパフォーマンスメトリクスに含めないでください。

スループットが飽和状態に達したときに、リソース (CPU、メモリ、ハードディスク、またはネットワーク) の使用率がピークに達していなければなりません。リソースのいずれも使用率がピークに達していない場合は、システムにボトルネックがないかどうか分析し、適切にチューニングします。

ボトルネック分析とチューニングのヒント

ディスク I/O に関連する潜在的なボトルネックを特定するには、ディスクのアイドル時間の割合が低くなっているかどうか、またはディスクキューの平均長が常に長くなっているかどうかを確認します。

これらに当てはまる場合は、アプリケーションまたは WLI によって発生している I/O アクティビティを調べて、それらのアクティビティの数の削減を試みてください。
これらが当てはまらない場合は、より高速なハードディスクが必要な可能性があります。

データベースマシンの I/O アクティビティを監視します。
メモリ関連のボトルネックを特定するには、ヒープの使用率およびガベージコレクション時間を監視します。
さらに、以下について確認します。

プロセッサの実行時間が長いキュー : これが当てはまる場合は、負荷の削減を試みます。
ネットワーク帯域幅の高い使用率 : これが当てはまる場合は、ネットワーク速度をアップグレードします。

ボトルネックがロードジェネレータマシン上に存在する場合は、複数のロードジェネレータマシンの使用を試みてください。

スループットが飽和状態に達した時点で、リソースのボトルネックが存在していない場合は、ボトルネックがアプリケーションおよびシステムパラメータに存在している可能性があります。これらのボトルネックは、以下のいずれかが原因となっている可能性があります。

「WLI のチューニング」で説明されているチューニングパラメータのいずれかが影響していないかを確認します。
アプリケーションが、ベストプラクティスに従って設計されていることを確認します。詳細については、WebLogic Integration のベストプラクティスを参照してください。
ej-technologies の JProfiler および Quest Software の jProbe などのプロファイリングツールを使用して、WLI アプリケーションに関連する CPU またはメモリの問題を検出します。

データベース

データベースが適切にチューニングされていることを確認します。詳細については、データベースチューニングガイドを参照してください。
statspack および Oracle Performance Manager などのツールを使用して、データベースのパフォーマンスの問題がないかどうかを調べます。

OS およびネットワーク

オペレーティングシステムおよびネットワークのパラメータが適切にチューニングされていることを確認します。詳細については、『WebLogic Server パフォーマンスチューニングガイド』を参照してください。

JVM オプション

JVM パラメータが、パフォーマンスに大きな影響を及ぼしている可能性があります。詳細については、『WebLogic Server パフォーマンスチューニングガイド』の「Java 仮想マシン (JVM) のチューニング」を参照してください。
Sun Java JConsole および BEA JRockit Runtime Analyzer などのツールを使用して、JVM に関連する問題を検出します。

スケーラビリティテストの実行

増加した負荷を、パフォーマンスを低下させることなく処理できる場合、そのアプリケーションはスケーラブルであると見なすことができます。増加した負荷を処理するために、ハードウェアリソースを追加する必要がある場合があります。

アプリケーションは、マシンを追加することで水平に拡張できます。また、同じマシンにリソース (CPU など) を追加することで垂直に拡張することもできます。

水平拡張と垂直拡張

以下の表では、水平拡張と垂直拡張の相対的な利点を比較しています。

表 2-1 水平拡張と垂直拡張の相対的な利点
垂直拡張 (単一のマシンにリソースを追加)	水平拡張 (マシンを追加)
管理が容易です。管理性が向上します。システムリソース間のより効率的な相互接続を提供します。	優れた負荷分散および高可用性を提供します。

アプリケーションを拡張する必要がある場合、要件に応じて、水平拡張、垂直拡張、またはこれらの組み合わせを選択できます。

多くの場合、当初は低コストのサーバに投資し、負荷の増大に合わせて追加のマシンを確保する方針の組織には、水平拡張が適しています。ただし、この場合、負荷分散およびシステム管理の追加のコストがかかります。
垂直拡張には、必要が生じた場合に、容易にリソースを追加できるハイエンドマシンが必要です。
水平拡張と垂直拡張の組み合わせが最適なソリューションである場合もあります。これにより、組織は、両方の手法の相対的な利点を有効活用できます。

以下の図は、単一のクラスタ化されていない 4 CPU マシン (垂直拡張) と、2 台のクラスタ化された 2 CPU マシン (水平拡張) で実行されている WLI の比較を示しています。

水平拡張シナリオ (2 台の 2 CPU マシン) のパフォーマンスは、垂直拡張シナリオ (単一の 4 CPU マシン) のパフォーマンスよりもわずかに低くなっています。これは、水平拡張シナリオでは、追加の負荷分散およびクラスタリングのオーバーヘッドが発生するためです。

スケーラビリティテストの実施

スケーラビリティテストにより、システムに (水平または垂直に) リソースを追加した場合に、アプリケーションがどのように拡張されるかが分かります。この情報は、任意のシナリオに必要な追加のハードウェアリソースを見積る場合に役立ちます。

スケーラビリティテストでは、SLA が達成されるか、またはターゲットリソースの使用率が上限に達するかの、いずれか早い方が発生するまで、負荷を徐々に増加させます。

スケーラビリティテストを実行するためには、可能な限り厳密にプロダクションシナリオをエミュレートするように、作業負荷を設計する必要があります。ユーザによる対話が不要な場合、およびプロセスの呼び出しをプログラムによって行う場合は、ベンチマークテストの手法と同様に、思考時間をゼロとする手法を使用することをお勧めします。

SLA が達成される前に、ターゲットリソースの使用率レベルが上限に達した場合は、システムにリソースを追加する必要があります。追加されるリソース (垂直拡張) またはマシン (水平拡張) の数は、1、2、4、8... といった順序である必要があります。

ベンチマークテストの実行時に記録したすべてのデータを、スケーラビリティテストの実行時に捕捉する必要があります。詳細については、「ベンチマークテストの実行」を参照してください。

テストの実行後に、ベンチマークテストで説明した手順に沿って結果を検証および分析し、必要に応じて、次の節の説明に従って、追加のリソース要件を見積ります。

リソース要件の見積り

要求される SLA が達成されない場合は、テスト結果をつなぐ曲線を描きます。曲線の方程式を導き出し、それを使用して、必要な追加のハードウェアリソースを見積ります。線形回帰および曲線の当てはめどの手法を使用して、必要なリソースを予測できます。これらの手法は、Microsoft Excel などのスプレッドシートアプリケーションを使用して実施できます。

以下の図は、水平スケーラビリティテストの結果を示しています。

グラフは、ノード数がさまざまなクラスタにおける、70% の CPU 使用率での 1 秒あたりの平均トランザクション数 (TPS) を示しています。

このスケーラビリティテストの結果の場合、線型方程式が最も当てはまります。最良適合曲線では、R2 は、値 1 に近付きます。

方程式は、y = 12.636x + 4.065 です。y は平均 TPS であり、x はノード数です。

スケーラビリティテストの結果、および要求される結果を達成するために必要なチューニングを踏まえて、アプリケーションをコンフィグレーションし、プロダクション環境にデプロイする必要があります。

キャパシティ プランニングとパフォーマンス チューニング

キャパシティ プランニングのプロセス

WLI アプリケーションの設計

環境のチューニング

パフォーマンス テストのためのアプリケーションの準備

作業負荷の設計

作業の単位および SLA の定義

負荷生成スクリプトの設計

テスト環境のコンフィグレーション

ベンチマーク テストの実行

リトルの法則を使用した結果の検証

結果の解釈

ボトルネック分析とチューニングのヒント

スケーラビリティ テストの実行

水平拡張と垂直拡張

スケーラビリティ テストの実施

リソース要件の見積り

キャパシティプランニングとパフォーマンスチューニング

キャパシティプランニングのプロセス

パフォーマンステストのためのアプリケーションの準備

ベンチマークテストの実行

スケーラビリティテストの実行

スケーラビリティテストの実施