25 Analyticsアーキテクチャの概要

この章では、Analyticsスイートを構成するコンポーネントの概要を示し、Analyticsをインストールする場合に実装を選択できるシナリオについて説明します。

この章の内容は、次のとおりです。

第25.1項「Analyticsインストールのコンポーネント」
第25.2項「インストールのシナリオ」
第25.3項「プロセス・フロー」
第25.4項「用語と定義」

25.1 Analyticsインストールのコンポーネント

Analyticsは、高度なスケーラビリティを可能にするモジュラー・システムです。Analyticsインストールは、次のコンポーネントで構成されており、データベースにアクセスするためのJDBC、HTTP接続、RMIおよび固有のSocketプロトコルを介して相互に通信します。

Hadoop
WebCenter Sites: Analytics
ロード・バランサ

Hadoop

Hadoopは、分散データ・ストレージ(HDFS)および分散データ処理(Map/Reduce)を提供します。Hadoop分散ファイル・システム (HDFS)では、Hadoopクラスタ全体にわたる分散方式でHadoopプログラムの入力ファイルおよび出力ファイルが格納され、高速な集約された帯域幅が提供されます。

WebCenter Sites: Analytics

Analyticsデータ取得アプリケーション(Analytics Sensorとも呼ぶ): 自身のオンライン・サイトをビジターが閲覧する際の彼らのアクティビティに関するデータを取得し、そのデータをローカル・ファイル・システムに格納するWebアプリケーション。(データ取得を機能させるには、特別なタグであるAddAnalyticsImgTagを、監視対象のページに埋め込む必要があります。そのタグによって、データ取得プロセスがトリガーされます。)
Hadoop分散ファイル・システム(HDFS)エージェントは、データ取得サーバーによって収集されたRAWデータを取得し、それをローカル・ファイル・システムからHDFSにコピーします。
Hadoopジョブ(スケジューラ)は、HDFSに格納されているRAWデータに対する統計を効率的に計算するために、並列かつ分散形式でジョブを実行します。

HadoopによってMap/Reduceという計算パラダイムが実装されます。それによって、大規模な計算が小さい作業フラグメントに分割され、それらをそれぞれクラスタ上の任意のノードで実行または再実行できます。Map/Reduceには、jarファイルとクラスの組合せが必要であり、それらはすべて、通常jobファイルと呼ばれる1つのjarファイルに収集されています。ジョブを実行するには、それをJobTrackerに送信します。Hadoopジョブは、次のアクションを実行することで反応します。
- ジョブをスケジュールし、JobTrackerに送信します。
- データ取得サーバーによって取得されたRAWデータを処理して統計データにし、それをAnalyticsデータベースに書き込みます。
Hadoopは、HDFSを参照し、ジョブのステータスを判別するためのWebインタフェースを備えています。
Analyticsデータベース: データ取得サーバーによって取得されたRAWデータに対する集計および統計データが格納されます。
Analyticsレポート作成および管理Webアプリケーション
- このレポート作成コンポーネントは、レポートの生成に使用されるユーザー・インタフェースを提供します。
- 管理コンポーネントは、ご使用のWebCenter SitesシステムとAnalyticsを統合するために使用される管理インタフェースを提供します。
通常、レポート作成コンポーネントと管理コンポーネントは、同じコンピュータ上に常駐します。

ロード・バランサ

ロード・バランサは、パフォーマンスの向上のために、複数のデータ取得サーバーとリンクするために使用されます。フェイルオーバーのために、ロード・バランシングもお薦めします。

ご使用のWebCenter SitesおよびAnalyticsシステムを侵入から保護するために、ファイアウォールも強くお薦めします。Analyticsのモジュラー特質によって、Analyticsはいくつかの方法でインストールできます。第25.2項「インストールのシナリオ」では、一般的な方法について説明します。

25.2 インストールのシナリオ

この項では、サイトにAnalyticsを実装する場合に選択できる様々なインストール・シナリオについて説明します。シナリオは次のとおりです。

第25.2.1項「単一サーバーのインストール: 単一サーバー上にAnalyticsとそのデータベース」
第25.2.2項「デュアルサーバーのインストール: 別々のサーバー上にAnalyticsとそのデータベース」
第25.2.3項「エンタープライズレベルのインストール: 完全に分散」

25.2.1 単一サーバーのインストール: 単一サーバー上にAnalyticsとそのデータベース

このシナリオでは、すべてのAnalyticsコンポーネントが、単一の専用コンピュータ上に配置されます。このシナリオは、Analyticsでテストおよび試験を実行する必要がある場合に最適です。図25-1は、単一サーバーのAnalyticsのインストールを示しており、どこに構成ファイルが配置され、サービスが実行されるのかを示しています。矢印はデータ・フローを表しています。

図25-1 単一サーバーのAnalyticsのインストール

「図25-1 単一サーバーのAnalyticsのインストール」の説明

25.2.2 デュアルサーバーのインストール: 別々のサーバー上にAnalyticsとそのデータベース

このシナリオでは、Analyticsデータベース以外のAnalyticsコンポーネントが単一の専用サーバーでホストされます。Analyticsデータベースはそれ自体のサーバーにインストールされます。このシナリオは、向上したパフォーマンス条件の下でAnalyticsでのテストおよび試験を実行する必要がある場合に最適です(データベース・トランザクションをHadoopジョブから切り離すことで、リソースに対する競合が最小化されます)。図25-2は、デュアルサーバーのAnalyticsのインストールを示しており、どこに構成ファイルが配置され、サービスが実行されるのかを示しています。矢印はデータ・フローを表しています。

図25-2 デュアルサーバーのAnalyticsのインストール

「図25-2 デュアルサーバーのAnalyticsのインストール」の説明

25.2.3 エンタープライズレベルのインストール: 完全に分散

このシナリオでは、Analyticsコンポーネントは、別々のコンピュータ上で実行されます。この方法は、より複雑ですが、各コンポーネントは自由に使用できる専用の処理能力を確保できるため、スケーラビリティが得られ、パフォーマンスが向上します。図25-3は、エンタープライズレベルのインストールを示しており、どこに構成ファイルが配置され、サービスが実行されるのかを示しています。矢印はデータ・フローを表しています。リモートSatellite ServerとともにAnalyticsをインストールする場合の詳細は、図25-3の注意を参照してください。

図25-3 エンタープライズレベルのAnalyticsのインストール

「図25-3 エンタープライズレベルのAnalyticsのインストール」の説明

25.3 プロセス・フロー

機能しているAnalyticsインストールでは、RAWサイト・ビジター・データは、Analytics Sensor (データ取得アプリケーション)によって継続的に取得され、ローカル・ファイル・システムに格納されます。ファイル・システム内のRAWデータは、HDFSエージェントによって定期的に呼び出されます。HDFSエージェントは、RAWデータをHadoop分散ファイル・システム(HDFS)にコピーし、そこでそのデータがHadoopジョブによって処理されます(図25-4)。

Hadoopジョブは、場所とOracle固有のプロセッサ(1つの場所のサイト・ビジター・データを読み取り、そのデータを統計的に処理し、その結果を、次のプロセッサが取得できるように別の場所に書き込む)で構成されています。処理が完了すると、結果(RAWデータ上の統計)がAnalyticsデータベースに注入されます。

Hadoopジョブのステータスは、Analytics管理インタフェースの「ステータス・サマリー」パネルから監視できます。データ処理および「ステータス・サマリー」パネルの詳細は、『Oracle Fusion Middleware WebCenter Sites: Analytics管理者ガイド』の「リファレンス: Hadoopジョブのプロセッサと場所」の章に記載されています。

図25-4 Hadoopジョブのプロセス・フロー

「図25-4 Hadoopジョブのプロセス・フロー」の説明

25.4 用語と定義

次にリストする用語は、このガイド全体でよく使用されます。用語集には、追加の用語が定義されています。

「Analyticsデータ取得アプリケーション」は、Analytics Sensorまたは単にセンサーとも呼ばれます。
インストールおよび構成手順のコンテキストおよびレポート統計の解釈における用語「サイト」は、オンライン・サイトのバック・エンドとして機能するコンテンツ管理(CM)サイトを指します。
「FirstSite II」は、サンプル・コンテンツ管理サイトであり、このガイド全体にわたって、レポートの例のサポートおよびコード・スニペットの提供のために使用されます。FirstSite IIは、etravelという名前のオンライン・サンプル・サイトのバック・エンドでもあります。