キャパシティプランニングプロセス

キャパシティプランニングプロセスはいくつかの手順で構成されます。以下の節では、これらの手順について説明します。

WLI アプリケーションの設計

ここでは、アーキテクトや開発者が WLI アプリケーションを設計する際に、パフォーマンスの面で留意すべき事項について説明します。

JPD の呼び出し

サブプロセスの呼び出しには、(サービスコントロールではなく) プロセスコントロールのみを使用するようにしてください。サービスコントロールは、別のサーバやクラスタにある Web サービスや JPD の呼び出しにのみ使用することをお勧めします。プロセスコントロールを使用しても Web サービスにオーバーヘッドがかかることはありません。この点は、CPU と入出力のコストが大きいサービスコントロールとは異なります。

プロセスコントロールコールバックとメッセージブローカサブスクリプションの違い

プロセスコントロールコールバックは、JPD インスタンスに直接ルーティングされるため、メッセージブローカサブスクリプションに比べ高速です。フィルタを使用するメッセージブローカサブスクリプションでは、フィルタ値をプロセスインスタンスにマップするためにデータベースアクセスが必要になります。

注意 :

動的サブスクリプションは疎結合に対応しています。したがって、疎結合が必要な場合は、プロセスコントロールコールバックの代わりに動的サブスクリプションを使用して設計することをお勧めします。

永続性フラグ

プロセスがステートフルになり、処理においてステートをデータベースに永続化する必要がない設計であれば、永続性フラグを [なし] または [オーバーフロー時] に変更することを検討してください。

注意 :

永続性を [なし] または [ [オーバーフロー時] に設定しても、クラスタでは正常に機能しない場合があります。

ワークリストへのアクセスにワークリスト API と WLI JPD コントロールのどちらを使用するか

ワークリスト API を使用すると、WLI JPD コントロールよりも高速にワークリストにアクセスできます。ただし、コントロールのほうが使用方法やプログラミングが容易です。API で直接ワークリストにアクセスすると、コントロールが内部的にワークリスト API を使用することになり、コントロールランタイムのオーバーヘッドを軽減できます。

プロセスの統合においてワークリストアクセスが必要になる場合は、JPD コントロールを使用してワークリストにアクセスすることをお勧めします。
ワークリストを普通に操作する場合は、JPD コントロールよりもワークリスト API のほうが高速に動作します。

JPD の状態管理

ステートレス JPD はメモリ内で実行され、ステートは永続化されません。したがって、ステートフル JPD を使用する場合に比べパフォーマンスが向上します。プロセスの以前のステートに関する情報が必要ない場合は、ステートレス JPD を使用してください。ステートレス JPD の場合、ステートが永続化されないため入出力コストはかかりません。ステートレス JPD は本質的にスケーラブルです。

JMS でのコールバック

非同期プロセスでは、コールバックの場所が WLS JMS キューで、それがプロセスのすべてのインスタンスで同じである場合、負荷が大きくなると WLI パフォーマンスが低下します。

同期プロセスと非同期プロセスの違い

非同期プロセスは、ある程度のレイテンシコストを必要とします。完了するまでに数百ミリ秒かかるタスクを考えてみましょう。

このタスクを非同期 JPD として設計すると、非同期処理インフラストラクチャのオーバーヘッドのせいで、処理時間が大幅に長くなる可能性があります。
一方、このタスクを同期 JPD として設計すると、処理時間への影響はそれほど大きくありません。

通常、非同期処理は、時間のかかるプロセスで大きな効果を発揮します。一方、同期処理は、あまり時間のかからないタスクに向いています。ただし、同期プロセスがブロックされるアプリケーションではそれがボトルネックとなり、サーバで必要以上のスレッドが使用される結果になる場合があります。

環境のチューニング

WLI アプリケーションのパフォーマンスは、アプリケーションの設計だけでなく、それを実行する環境にも大きく左右されます。

環境には、WLI サーバ、データベース、オペレーティングシステムとネットワーク、および JVM が含まれます。良好なパフォーマンスを実現するには、すべての構成要素を適切にチューニングする必要があります。

WLI のチューニング

JDBC データソース、weblogic.wli.DocumentMaxInlinSize、プロセストラッキングレベル、B2B メッセージトラッキングレベル、Log4j などの要素を適切に設定する必要があります。詳細については、「WLI のチューニング」を参照してください。

データベースのチューニング

データベースのチューニング項目としては、初期化パラメータのデフォルト設定、統計情報の生成、ディスク I/O、インデックス化などがあります。詳細については、『Oracle9i データベースチューニングガイド』を参照してください。

オペレーティングシステムとネットワークのチューニング

OS とネットワークを適切にチューニングすることで、エラーの発生を抑制し、システムのパフォーマンスを向上させることができます。詳細については、『WebLogic Server パフォーマンスチューニングガイド』の「オペレーティングシステムのチューニング」を参照してください。

JVM のチューニング

JVM のヒープサイズをチューニングして、ガベージコレクションにかかる時間を最短にすると同時に、特定の時点でサーバが処理できるクライアントの数を最大にする必要があります。詳細については、『WebLogic Server パフォーマンスチューニングガイド』の「Java 仮想マシン (JVM) のチューニング」を参照してください。

アプリケーションのパフォーマンステストの準備

アプリケーションのパフォーマンステストを実行したり、負荷生成スクリプトでアプリケーションを呼び出したりするには、アプリケーションを少し変更しなければならない場合があります。

どの程度の変更が必要になるかは、アプリケーションの性質、ロードジェネレータの性能、キャパシティプランニングプロセスにどのような成果を期待するか、などによって異なります。

負荷生成スクリプトにコールバックハンドラを記述することなく、非同期 JPD のエンドツーエンド (プロセスの呼び出しから完了まで) のパフォーマンスを測定したい場合は、プロセスの SyncAsync WSDL を生成し、それをロードジェネレータで使用できます。これにより、負荷生成スクリプトがシンプルになり、すべての複雑さをサーバ側に残すことができるため、負荷生成スクリプトではなくサーバのパフォーマンスを重点的に測定できます。
JPD とサードパーティソフトウェアの間に対話が発生するアプリケーションで、そのソフトウェアを呼び出す際の遅延が測定結果に影響しないようにしたい場合は、ソフトウェアの代わりにシミュレータを使用できます。これにより、WLI アプリケーションの本当のパフォーマンスと性能を測定でき、テスト結果の信頼性が増します。

作業負荷の設計

パフォーマンステストの品質は、使用する作業負荷によって大きく左右されます。

作業負荷は、システムが完了できると想定される処理の量です。つまり、システムでどのくらいのアプリケーションを実行できるか、何人のユーザがシステムに接続して処理を実行できるかです。

作業負荷は、できるだけプロダクション環境に近い状態になるように設計する必要があります。

プロダクション環境では、数多くのユーザが同時にシステムに接続します。ユーザの属性や関心によって、それぞれが実行する処理も異なります。

また、ユーザの思考時間も考慮する必要があります。ユーザがシステムに対して指示を出すまでには、どのような選択肢があるかを考えて意思決定するための時間が必要です。

WLI アプリケーションには、Web サービス、JMS、ファイルという 3 種類のクライアントがあります。ユーザの属性は、たとえば次の図のように表現できます。

図 2-1 ユーザ属性の例

ユーザ属性の例

ユーザの操作パターンは、アプリケーションの種類によって異なります。実行時間の長いプロセスのユーザは、立て続けに処理を実行することはないかもしれません。一方、バッチ処理ユーザの操作パターンはまったく異なるでしょう。

作業負荷を設計する際は、以下の要素を考慮に入れる必要があります。

異なる負荷状況下 (小さい、中程度、ピーク) におけるユーザ数
平均同時ユーザ数
思考時間 (ユーザがシステムに対して操作を実行する前に考えをまとめるための時間)
ユーザの属性 (どのような処理を実行することが想定されるか)
ピーク時のメッセージ受信率
メッセージのサイズ

作業単位と SLA の定義

サービスレベルアグリーメント (SLA) とは、許容できる (許容できない) サービスレベルを定義したもので、サービスのプロバイダとコンシューマの間で契約として締結します。通常、SLA は応答時間やスループット (1 秒あたりのトランザクション数) を基準として定義されます。

同期型のシステムの場合、応答時間の要件 (現実的にはトランザクションの 95% 程度) を満たしたうえで、最大のスループットを達成できるようにシステムをチューニングすることが目標となります。したがって、応答時間が SLA になります。非同期型のシステムの場合は、スループットまたは 1 秒あたりのメッセージ数が SLA になります。

キャパシティプランニングの目的に照らすと、キャパシティプランニングに基づいて SLA を定義する前に、作業単位 (各トランザクションに含まれるアクティビティのセット) を定義することが重要になってきます。

各ノードは JPD です。すべての JPD は、注文処理に必要なプロセスです。このケースでは、作業単位 (トランザクション) の定義として以下が考えられます。

注文処理のため実行する必要のある各 JPD
ビジネス転送クライアントから始まり、倉庫プロセッサから応答を受け取るまでの処理フロー全体

各 JPD ではなく、ビジネス処理のフロー全体を単一の作業単位とみなすことをお勧めします。

負荷生成スクリプトの設計

負荷生成スクリプトは、テストを実行する際に、設計した負荷をサーバにかけるために必要となります。

負荷生成スクリプトの記述にあたっては、以下の点に留意する必要があります。

各ユーザは、以前のリクエストが処理されて応答を受け取った後にのみ、新しいリクエストを送信することとします。
システムがリクエストをバッチで処理する場合は、以前のバッチが処理された後にのみ、新しいバッチが送信されることとします。

各仮想ユーザは処理中のリクエストを 1 つしか持たないと制限することで、負荷レベルの把握と管理が容易になります。リクエストの送信率を制御できないと、フローバランスを超えるペースで送信され続け、キューオーバーフローなどの問題につながる可能性があります。

次の図には、単一のユーザが、以前のリクエストがサーバによって処理された後にのみ、次のリクエスト送信する場合を示します。

この方法であれば、同時ユーザの数を増やすことで、システムでの受信率 (システムへの負荷) を増やすことができます。システムに悪影響を及ぼすことがないため、システムの性能を正確に計測できます。

次の図には、単一のユーザが、以前のリクエストの処理をサーバが完了するのを待つことなく、新しいリクエストを送信する場合を示します。

この方法では、キューオーバーフローなどの問題が発生し、システムの性能を見誤るおそれがあります。

バランスのよい負荷生成スクリプトを設計することをお勧めします。

テスト環境のコンフィグレーション

外部要因による影響を排除してテスト結果の信頼性の高めるため、以下の説明に従ってテスト環境をコンフィグレーションする必要があります。

テストを実行する際のテストマシンでは、そのテストに必要なプロセス (ロードジェネレータ、WLI サーバ、データベース) のみを実行するようにし、それ以外のプロセスはどのテストマシンでも実行しないようにしてください。また、他のマシンや外部プログラムがデータベースにアクセスしたり使用したりしないようにしてください。
システムの自動更新、スケジュールが設定されたジョブなど、OS タスクによってテストが干渉されないようにしてください。
ネットワーク関連の問題 (ネットワークが遅い、トラフィックが多いなど) がテストに影響しないようにするには、テストに関係するすべてのマシンに VLAN を設定することをお勧めします。これにより、テストとは無関係のマシンに関わるネットワークトラフィックから、テストマシンを完全に切り離すことができます。
テストを実行する際のネットワーク速度としては 1,000Mbps をお勧めします。帯域幅は、テストの実行中にモニタする必要があります。

ベンチマークテストの実行

ベンチマークテストを実行すると、システムのボトルネックを特定し、システムを適切にチューニングできるようになります。

ベンチマークテストでは、スループットがそれ以上増えなくなるまで、徐々にシステムへの負荷を増やしていきます。

スループットがこれ以上大きくならなくなると、以下のいずれかの現象が発生します。

いずれかのハードウェアリソースの使用率が 100% に達する。これにより、特定のリソースがボトルネックになっていることが分かります。
どのハードウェアリソースの使用率も 100% には達していないが、スループットがピークに達した。これにより、使用可能なハードウェアリソースをもっと効率的に使用できるよう、システムをさらにチューニングする必要があることが分かります。

次の図に、Mercury LoadRunner による始動スケジュールを示します。最初の 10 分間は、同時ユーザ 10 人でのウォーミングアップテストです。その後、15 分ごとに 10 人ずつ同時ユーザを追加して負荷を徐々に増やしていきます。

テストの実行中に以下のデータを記録する必要があります。

アプリケーションの動作

同時ユーザ数による負荷
応答時間
作業単位ごとのスループット

Mercury LoadRunner、Grinder などのツールを使用すると、ユーザを操作したりメトリックを捕捉したりできます。

リソース使用率

CPU 使用率
メモリ占有率
ネットワーク使用率
I/O 使用率

負荷生成ツールでこれらすべてのデータを捕捉できない場合は、OS に合わせて vmstat、iostat、perfmon などのユーティリティを使用してください。

ユーザを追加するにつれ、平均 TPS (トランザクション/秒) が増大しています。いずれかのハードウェアリソース (ここでは CPU) の使用率が 100% に達すると、平均 TPS もピークに達します。その時点の応答時間が最適解です。さらにユーザを追加すると TPS は減少し始めます。TPS は、負荷が大きくなるにつれほぼ線形に増大しますが、CPU や入出力の制限によってシステムが飽和状態になるとピークに達し、それ以降は減少傾向になることが分かりました。応答時間は、システムが飽和状態になるまでほぼ線形に増大し、その後は非線形に増大します。

このようなテストを実行することで、リソースの使用率が最大値に達したとき、システムがどのように動作するかが分かります。

リトルの法則に基づく結果の検証

テスト結果を分析する前に、リトルの法則に基づいて検証し、そのテスト設定におけるボトルネックを特定する必要があります。テスト結果は、リトルの法則を適用した場合の結果と大きく食い違うべきではありません。

複数ユーザシステムの応答時間の算出式は、リトルの法則を用いて導出できます。平均思考時間 z のユーザ n 人が、応答時間 r の任意のシステムに接続しているとします。各ユーザは、思考と応答待ちを繰り返します。したがって、ユーザとコンピュータシステムから構成されるこのメタシステム内のジョブの総数は定数 n となります。

n はユーザ数として表される負荷、z + r は平均応答時間、x はスループットです。

結果のスループットを検証するためのヒント

ベンチマークは、最低でも 30 分間は実行することをお勧めします。できればもっと長く実行してください。
少なくと最初の 15 分間に得られたデータは無視します。これは、アプリケーション、データベースキャッシュ、および接続プールにデータが行き渡り、システムが本格的に稼働するのを待つためです。以下に例を示します。

Sun JVM であればホットスポットがネイティブコードにコンパイルされるまで、JRockit であればホットスポットでネイティブコードが最適化されるまで待ちます。
JVM によるガベージコレクションのチューニングが完了するまで待ちます (JRockit では、ガベージコレクション戦略が動的に選択され、いくつかの主要パラメータが動的に調整されます)。
アプリケーション、データベースキャッシュ、および接続プールにデータが行き渡るのを待ちます。

個々の応答時間の変動を観察して、不規則な現象の影響によって結果がゆがめられないようにします。たとえば、テストの実行中に、オペレーティングシステムで偶発的なジョブが発生する場合があります。品質の高いメトリックとして、応答時間の標準偏差を平均応答時間で除算することをお勧めします。テストを繰り返し実行し、この値をモニタしてある程度安定していることを確認します。

結果の解釈

結果の解釈にあたっては、安定状態のシステムの値のみを考慮します。始動段階や終了段階をパフォーマンスメトリクスに含めないようにしてください。

CPU、メモリ、ハードディスク、ネットワークなどのリソースの使用率は、スループットが飽和するときにピークになるようにする必要があります。いずれかのリソースがピークに達しない場合は、システムのボトルネックを分析してチューニングしなおします。

ボトルネックの分析とチューニングのヒント

ディスク I/O 関連の潜在的なボトルネックを特定するには、アイドル時間率が低いディスクがないかどうか、平均ディスクキューの長さが常に長いかどうかをチェックします。

これらが見つかった場合は、その原因となったアプリケーションや WLI の I/O アクティビティをチェックし、そのようなアクティビティができる限り発生しないようにします。
これらが見つからない場合は、ハードディスクの速度を上げる必要があるかもしれません。

データベースマシンでの I/O アクティビティをモニタします。
メモリ関連のボトルネックを特定するには、ヒープ使用率とガベージコレクション時間をモニタします。
これらに加え、以下もチェックします。

長時間実行中のプロセッサキュー。これが見つかった場合は、負荷を軽減できないか検討してください。
使用率の高いネットワーク帯域幅。これが見つかった場合は、ネットワーク速度のアップグレードを検討してください。

ロードジェネレータマシンにボトルネックが見つかった場合は、複数のロードジェネレータマシンを使用してください。

スレッドプールが飽和した時点でリソースにボトルネックが存在しない場合は、アプリケーションやシステムのパラメータがボトルネックになっている可能性があります。こうしたボトルネックの原因としては以下が考えられます。

「WLI のチューニング」で説明するチューニングパラメータが原因になっていないかチェックします。
アプリケーションがベストプラクティスに従って設計されていることを確認します。詳細については、『WLI アプリケーションライフサイクルのベストプラクティス』を参照してください。
ej-technologies の JProfiler、Quest Software の jProbe などのプロファイリングツールを使用して、WLI アプリケーションに関係する CPU やメモリの問題を検出します。一般に jProbe は負荷状態で使用すると動作が遅くなるようですので、JProfiler を使用することをお勧めします。

データベース

データベースが適切にチューニングされていることを確認します。詳細については、『Oracle9i データベースチューニングガイド』を参照してください。
statspack、Oracle Performance Manager などのツールを使用して、データベースのパフォーマンスに問題がないか確認します。

OS とネットワーク

オペレーティングシステムとネットワークのパラメータが適切にチューニングされていることを確認します。詳細については、『WebLogic Server パフォーマンスチューニングガイド』を参照してください。

JVM オプション

JVM パラメータは、パフォーマンスを大きく左右する可能性があります。詳細については、『WebLogic Server パフォーマンスチューニングガイド』の「Java 仮想マシン (JVM) のチューニング」を参照してください。
Sun Java JConsole、JRockit Runtime Analyzer などのツールを使用して、JVM に関連する問題を検出します。

スケーラビリティテストの実行

新たなハードウェアリソースを追加したときに、それに見合った分確実にパフォーマンスが向上するようであれば、そのシステムはスケーラブルであると考えられます。このようなシステムであれば、ある程度負荷が増大してもパフォーマンスが低下することはありません。負荷の増大に対応するには、ハードウェアリソースを追加する必要があるかもしれません。

アプリケーションについては、マシンを追加することで水平スケーラビリティを強化でき、同じマシンにリソース (たとえば CPU) を追加することで垂直スケーラビリティを強化できます。

水平スケーラビリティと垂直スケーラビリティ

次の表に、水平スケーラビリティと垂直スケーラビリティそれぞれの利点を示します。

表 2-1 水平スケーラビリティと垂直スケーラビリティの相対的な利点
垂直スケーラビリティ (1 つのマシン内のリソースを増設する)	水平スケーラビリティ (マシンを増設する)
運用が容易になる管理しやすくなるシステムリソース間の相互接続が効率化される	可用性が高いスケーラビリティに上限がない

アプリケーションのスケーラビリティを強化する必要がある場合は、そのときの要件に応じて水平スケーラビリティ、垂直スケーラビリティ、またはこれらの組み合わせを選択できます。

水平スケーラビリティは、初期はサーバ導入コストを抑え、負荷が増大するにつれてマシンを増設したい組織に適しています。ただし、ロードバランシングやシステム管理には追加コストがかかります。水平スケーラビリティのもう 1 つの利点は、スケーラビリティの上限に悩まされることが少ない点です。この上限の問題は、解決にかなりのコストがかかります。垂直スケーラビリティでは、マシンにこれ以上リソースを増設できなくなった時点でスケーラビリティの上限に達します。それ以上にスケーラビリティを強化するには、そのマシンを廃棄してより大きなマシンを導入するしかありません。
垂直スケーラビリティでは、必要に応じて簡単にリソースを追加できるよう、ハイエンドマシンを導入する必要があります。
水平スケーラビリティと垂直スケーラビリティを組み合わせるのが最適な場合があります。2 つを組み合わせることで、両方の手法の利点を享受できます。

次の図に、WLI をクラスタ化されていない 4 CPU のマシン 1 台で稼働させた場合 (垂直スケーラビリティ) と、クラスタ化された 2 CPU のマシン 2 台で稼働させた場合 (水平スケーラビリティ) の比較結果を示します。

水平スケーラビリティ (2 CPU のマシン 2 台) の場合のパフォーマンスは、垂直スケーラビリティ (4 CPU のマシン 1 台) の場合に比べ少し劣っています。これは、水平スケーラビリティの場合、ロードバランシングとクラスタリングによるオーバーヘッドが余分にかかるためです。しかし、水平スケーラビリティシステムなら、マシンを追加することでキャパシティを広げることができます。これは垂直スケーラビリティシステムでは不可能です。

スケーラビリティテストの実行

スケーラビリティテストを実行すると、システムの水平スケーラビリティや垂直スケーラビリティを強化したときに、アプリケーションのスケーラビリティがどうなるかが分かります。この情報に基づいて、特定の状況に対応するためには、どのくらいのハードウェアリソースを追加する必要があるかを推定できます。

スケーラビリティテストでは、SLA が満たされるか、目標とするリソース使用率に達するまで、徐々に負荷を増やします。

スケーラビリティテストを実行する場合は、できるだけプロダクション環境に近い負荷を再現する必要があります。ユーザの介在が必要なく、プロセスの呼び出しをプログラム的に発生させる場合は、ベンチマークテストの場合のように思考時間をゼロとみなす手法をお勧めします。

SLA を満たす前に目標とするリソース使用率に達した場合は、システムに新たなリソースを追加する必要があります。追加のリソース (垂直スケーラビリティ) またはマシン (水平スケーラビリティ) は、1、2、4、8 のような順序で追加する必要があります。

ベンチマークテストの実行中に記録されたすべてのデータは、スケーラビリティテストの実行中にも捕捉する必要があります。詳細については、「ベンチマークテストの実行」を参照してください。

テストを実行したら、ベンチマークテストと同じように検証と分析を行います。追加のリソース要件を推定する必要がある場合は、次の節の説明に従ってください。

リソース要件の推定

キャパシティプランニングを実施すると、現時点での SLA と将来の負荷に基づいて、現在および将来のリソース要件を推定できます。キャパシティプランを作成するためには、システムの負荷モデルを作成する必要があります。

テスト結果は、この負荷モデルを作成するためのデータポイントを提供します。テスト結果から得られる曲線の式を導出し、これを使って必要となる追加ハードウェアリソースを推定します。線形回帰や曲線適合などの手法に基づいて、必要となるリソースを予測します。Microsoft Excel のようなスプレッドシートアプリケーションを使用すると、これらの手法の精度を上げることができます。

次の図に、水平スケーラビリティテストの結果を示します。

このグラフには、クラスタのノード数が異なると、CPU 使用率 70% の時点での平均 TPS がどう変化するかが示されています。

このスケーラビリティテストの結果には、線形方程式が最も適合します。最も適合する曲線 R2 は、単位元 (値 1) に近似していなければなりません。

平均 TPS を y、ノード数を x とすると、式は y = 12.636x + 4.065 となります。

スケーラビリティテストの結果に基づいてチューニングを実施し、要求されるレベルを実現できたら、プロダクション環境にデプロイできるようにアプリケーションをコンフィグレーションします。

キャパシティ プランニングとパフォーマンス チューニング

キャパシティ プランニング プロセス

WLI アプリケーションの設計

環境のチューニング

アプリケーションのパフォーマンス テストの準備

作業負荷の設計

作業単位と SLA の定義

負荷生成スクリプトの設計

テスト環境のコンフィグレーション

ベンチマーク テストの実行

リトルの法則に基づく結果の検証

結果のスループットを検証するためのヒント

結果の解釈

ボトルネックの分析とチューニングのヒント

スケーラビリティ テストの実行

水平スケーラビリティと垂直スケーラビリティ

スケーラビリティ テストの実行

リソース要件の推定

キャパシティプランニングとパフォーマンスチューニング

キャパシティプランニングプロセス

アプリケーションのパフォーマンステストの準備

ベンチマークテストの実行

スケーラビリティテストの実行

スケーラビリティテストの実行