3 Hadoopジョブ: プロセッサとロケーション

Hadoopジョブは、ロケーションとプロセッサで構成されます。ロケーションはサイト・ビジターのデータが格納される場所で、プロセッサはそれぞれ、データの一部を選択的に処理するようにプログラムされています。特定のプロセッサが特定のロケーションのデータを読み取って処理し、次のロケーションに結果を書き込むと、次のプロセッサがそれを取得して処理します。

この章では、Hadoopジョブの概要、Hadoopジョブの監視ガイドライン、および各プロセッサとロケーションについて説明します。この章の内容は、次のとおりです。

第3.1項「Hadoopジョブの処理フロー」
第3.2項「Hadoopジョブの監視」
第3.3項「プロセッサとロケーション」
第3.4項「オブジェクト・インプレッションと作業パッケージ」
第3.5項「プロセッサの説明」

3.1 Hadoopジョブの処理フロー

Hadoopジョブは、Analyticsのデータを統計的に処理し、結果をAnalyticsデータベースに格納するOracleアプリケーションです。

正常に機能しているインストール済Analyticsでは、生のサイト・ビジター・データはAnalyticsセンサー(データ取得アプリケーション)によって連続的に取得され、ローカル・ファイル・システムに格納されます。ファイル・システム内の生データは、Hadoop分散ファイル・システム(HDFS)エージェントにより定期的に要求され、HDFSにコピーされてから、Hadoopジョブで処理されます。

Hadoopジョブは、複数のロケーションと、Oracle固有の複数のプロセッサで構成されます。プロセッサがあるロケーションでサイト・ビジター・データを読み取って統計的に処理し、結果を別のロケーションに書き込むと、次のプロセッサがそれを取得して処理します。処理が完了すると、結果(生データに関する統計)がAnalyticsデータベースに挿入されます。

Hadoopジョブは、Analytics管理インタフェースのステータス・サマリー・パネルから監視できます(第3.2項「Hadoopジョブの監視」を参照)。図3-1は、Hadoopジョブの処理フローを表しています。

図3-1 Hadoopジョブの処理フロー

「図3-1 Hadoopジョブの処理フロー」の説明

3.2 Hadoopジョブの監視

Hadoopジョブは、Analytics管理インタフェースのステータス・サマリー・パネルから監視できます。ステータス・サマリー・パネルには、Hadoopジョブのコンポーネントが表示されます。Hadoopジョブのコンポーネントとは、Analyticsセンサー(データ取得アプリケーション)によって取得されたサイト・ビジター・データを格納するロケーションと、格納されたサイト・ビジター・データの日次、週次および月次合計を計算するプロセッサです。

ステータス・サマリー・パネルへのアクセス

Analytics管理インタフェースを操作している場合は、コンポーネント・タブをクリックして概要オプションを選択することにより、ステータス・サマリー・パネルにアクセスできます(図3-2)。

図3-2 ステータス・サマリー・パネル(コンポーネント・タブの概要オプション内)

「図3-2 ステータス・サマリー・パネル(コンポーネント・タブの概要オプション内)」の説明

各ロケーションには、異なるタイプのサイト・ビジター・データが格納されます。特定のロケーションに格納されるサイト・ビジター・データのタイプは、そのロケーションに関連付けられたプロセッサでデータがどのように集計されるかによって決まります。たとえば、oiprocessedロケーションはOIProcessorに関連付けられている(OIProcessorの計算結果を格納する)ので、特定日付の特定の期間に特定のアセットが表示された回数などのデータを格納します。

ロケーションをクリックすると、そのロケーションのステータスとデータを表示できます。
プロセッサをクリックすると、データ処理ジョブのステータスを表示できます。
Analyticsセンサー・ボタンとHDFSエージェント・ボタンをクリックすると、これらのコンポーネントのステータス・サマリーが表示されます。Analyticsセンサーの監視の詳細は、第2.1項「センサーの過負荷アラート」を参照してください。

3.3 プロセッサとロケーション

この項では、サイト・ビジター・データの格納に関係する各種のロケーションと、それらのロケーションからデータを読み取り、マップ/リデュースして結果を別のロケーションに書き込む各プロセッサについて説明します。

プロセッサ: HDFSには、オラクル社がAnalyticsデータの処理用に開発した複数のプロセッサが含まれます。プロセッサは、マッパーとリデューサの2つの部分で構成されます。マッパーは、最初に一連のオブジェクト・インプレッション(生データのコレクション)を処理して、中間データ(n個のJava Bean)を作成します。中間データは、リデューサによって処理されます。この処理で、n個のJava Beanは集計され、特定のデータ型のx回の発生を含んだ1つのJava Bean、別のデータ型のy回の発生を含んだ次のJava Bean、などのように分けられます。リデューサの実行に伴い、集計されたデータは次のロケーションに書き込まれます。プロセッサの出力は、作業パッケージと呼ばれます(詳細は、第3.4.2項「作業パッケージ」を参照)。

プロセッサの実行ごとに行われる処理は、それぞれジョブと呼ばれます。どのジョブも、マップ/リデュース・ジョブです。各ジョブがスケジュールされると、ジョブに一意のジョブ識別子が割り当てられます。
ロケーション: HDFSでは、ロケーションと呼ばれる異なる複数のフォルダにサイト・ビジター・データ(生データと処理済データの両方)が格納されます。ロケーションとは、HDFS内の特定のフォルダであり、管理インタフェースのステータス・サマリー・パネルで監視できます(図3-2)。

ロケーションには、年、月、日および時間を表すサブフォルダがあり、これらのサブフォルダが階層的に管理されています(図3-3を参照)。

図3-3 ロケーション

「図3-3 ロケーション」の説明

第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」の例を参照してください。

各ロケーションは、サイト・ビジターのデータを、ロケーションに応じて次のいずれかのフォーマットで格納します。

生データ: Analyticsセンサー(データ取得アプリケーション)によって取得される各オブジェクト・インプレッションに含まれるサイト・ビジター・データ。
処理済データ: 生の形式から処理されたサイト・ビジター・データ。完全に処理されたサイト・ビジター・データは、レポート作成用に、Analyticsデータベースに挿入されます。

次に、Analyticsのステータス・サマリー・パネルから監視できる各種のプロセッサをアルファベット順に示します。

OIInjection
OIProcessor
SessionInjection
SessionMerger
SessionProcessor
VisitorInjection
VisitorMerger
VisitorMonthInjection
VisitorMonthProcessor
VisitorProcessor
VisitorWeekInjection
VisitorWeekMerger
VisitorWeekProcessor

次に、Analyticsのステータス・サマリー・パネルから監視できる各種のロケーションをアルファベット順に示します。

oiinjected
oiprocessed
oirawdata
sesdata
sesinjected
sesprocessed
sesrawdata
visdata
visinjected
vismonthinjected
vismonthprocessed
visprocessed
visweekdata
visweekinjected
visweekprocessed

3.4 オブジェクト・インプレッションと作業パッケージ

オブジェクト・インプレッションと作業パッケージは、Hadoopジョブの主要な構成単位です。オブジェクト・インプレッションは、ビジターがサイトを参照したときに取得される生のサイト・ビジター・データです。その後、このデータが、Hadoopジョブで作業パッケージと呼ばれる単位で処理されます。処理結果はAnalyticsデータベースに格納され、ユーザーが生成するレポートにオンデマンドで使用できるようになります。

この項の内容は、次のとおりです。

第3.4.1項「オブジェクト・インプレッション」
第3.4.2項「作業パッケージ」

3.4.1 オブジェクト・インプレッション

オブジェクト・インプレッションとは、sensorサーブレットの1回の起動です。オブジェクト・インプレッションを、分析用に取得される生のサイト・ビジター・データのスナップショットと考えることもできます。

オブジェクト・インプレッションには、データが取得された瞬間の、サイト・ビジターに関する多くのタイプの生データが含まれます。含まれるセッション・データとビジター・データには、オブジェクト・タイプ、オブジェクトID、セッション、セッションID、IPアドレス、使用されたオペレーティング・システム、使用されたブラウザ、リファラなどがあります。Engageがインストールされている場合は、生データにセグメントや推奨も含まれます。

サイト・ビジターがサイトを参照すると、オブジェクト・インプレッションが収集されます。オブジェクト・インプレッションは、作業パッケージとして、oirawdataとsesrawdataの各ロケーションに24時間の期間で収集されます。

3.4.2 作業パッケージ

作業パッケージはロケーション内のディレクトリです(図3-4を参照)。

図3-4 作業パッケージ

「図3-4 作業パッケージ」の説明

1つの作業パッケージには、次のものが格納されます。

オブジェクト・インプレッション(生データ)または中間データ(Java Bean)を含む1つのデータ・ファイル。データ・ファイルの内容は、一連のプロセッサにより統計的に分析されます。分析が完了すると、最後のプロセッサによって結果がAnalyticsデータベースに挿入され、レポート生成に使用されます。
1つのメタデータ・ファイル。メタデータ・ファイルは、データ処理のステータスを報告します。

Hadoop分散ファイル・システムの各ロケーションには少なくとも1つの作業パッケージが存在します(作業パッケージ数はロケーションにより異なります。第3.4.2.1項「データ収集」の例を参照してください)。各作業パッケージは、ロケーションのディレクトリ構造内に、カレンダ型の構造に従って階層的に配置されます。

作業パッケージ内のデータ・ファイルは、その作業パッケージを含むロケーションに関連付けられたプロセッサに対する入力となります。プロセッサは、データ・ファイルの分析を完了するとその結果を作業パッケージとして次のロケーションに書き込みます。これを次のプロセッサが取得して処理します。

注意:

新たに取得されたオブジェクト・インプレッションを含んだ最初の作業パッケージは、Analyticsセンサーによって作成されます。その他のすべての作業パッケージは、プロセッサにより作成されます。

データ処理の間に、作業パッケージやその内容が別のロケーションに移動されることはありません。各作業パッケージのデータ・ファイルは適切なプロセッサによって読み取られ、そのプロセッサによって分析されます。結果は(そのプロセッサにより)作業ファイルとして次のロケーションに書き込まれます。

この項の内容は、次のとおりです。

第3.4.2.1項「データ収集」
第3.4.2.2項「処理済データ」
第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」
第3.4.2.4項「日次作業パッケージのディレクトリ構造」
第3.4.2.5項「週次作業パッケージのディレクトリ構造」
第3.4.2.6項「月次作業パッケージのディレクトリ構造」

3.4.2.1 データ収集

オブジェクト・インプレッションは、oirawdataとsesrawdataの2つのロケーションに、24時間の期間で作業パッケージとして同時に収集されます。2つのロケーションにあるすべての作業パッケージには、data.txtというデータ・ファイルが1つ含まれています。これらのロケーション(およびその作業パッケージ)の違いは、次のとおりです。

oirawdataロケーションでは、24時間の期間中に決まった間隔でオブジェクト・インプレッションが収集され、間隔ごとに固有の作業パッケージが作成されます。この間隔は、センサーのglobal.xmlファイル内のsensor.thresholdtimeプロパティで指定されます。たとえば、sensor.thresholdtimeが4時間に設定されている場合、oirawdataロケーションでは24時間の最後に6つの作業パッケージに収集が行われていることになります。6つのパッケージにはすべて作成時刻のタイムスタンプが付けられ、どのパッケージにもdata.txtファイルが1つ含まれます。
sesrawdataロケーションでは、オブジェクト・インプレッションが24時間連続して1つの作業パッケージとして収集されます。作業パッケージには作成時刻のタイムスタンプが付けられ、data.txtファイルが1つ含まれます。

oirawdataロケーションにある作業パッケージには、それぞれその日の生データの一部のみが含まれています。sesrawdataロケーションにある1つの作業パッケージには、その日の生データの全セットが含まれています。どちらのロケーションでも、各作業パッケージは完成後すぐに分析され、計算用リソースが使用できる状態になります。

3.4.2.2 処理済データ

すべての作業パッケージは、24時間の期間で収集されます(第3.4.2.1項「データ収集」を参照)。作業パッケージは日次で処理されます。ビジター・データの場合は、週次と月次の統計を表す作業パッケージが追加で作成されます。週次および月次処理用の作業パッケージのディレクトリ構造は、日次処理やデータ収集用のディレクトリ構造とは異なります。

注意:

Analytics管理者は、ロケーションのディレクトリ構造と作業パッケージへのパスを、HDFSファイル・ブラウザから取得できます。

 http://<hostname_MasterNode>:50070/

3.4.2.3 生データとoiprocessedのデータのディレクトリ構造

生データとoiprocessedのデータを含む作業パッケージは、作業パッケージが作成された日と時間を示す構造のディレクトリに格納されます。oirawdata、sesrawdata、oiprocessedの各ロケーションでは、日時によるディレクトリ構造が使用されます(ただし、他と違って、oiprocessedロケーションには処理済のデータが含まれます)。

生データまたはoiprocessedの作業パッケージへのパスは、次のとおりです。

/<hadoop.hdfs.defaultfs>/<location>/<yyyy>/<mm>/<dd>/
<workpackageDir>-<n>-<time>/data.txt <or part-<xxxxx>

例:

/analytics/data/oirawdata/2009/01/14/Sensor-localhost.localdomain-10-1231924822209/data.txt

各変数の定義は、次のとおりです。

<hadoop.hdfs.defaultfs>は、Hadoopファイル・システムのルート・ディレクトリの位置です。この下に、生データ、出力およびキャッシュ・ファイルが格納されます。
<location>は、生データの作業パッケージを格納するロケーションの名前です。<location>の有効な値は次のとおりです。
- oirawdata: 24時間の期間でデータを複数の作業パッケージに分けて収集します。
- sesrawdata: 24時間の期間でデータを1つの作業パッケージに収集します。
- oiprocessed: このロケーションには処理済データが含まれています。
(各ロケーションとその説明は、第3.3項「プロセッサとロケーション」を参照してください。)
<yyyy>は、作業パッケージが作成された年です。
<mm>は、作業パッケージが作成された月です。
<dd>は、作業パッケージが作成された日です。この日は、サイトのタイムゾーンから決定されます。
<workpackageDir>は、センサー名(データ取得サーバーのIPアドレスまたはホスト名)です。
<n>は、システムで生成される番号です。
<time>は、作業パッケージの作成時刻です。この時刻は、1970年1月1日からの経過時間をミリ秒単位で計算した値です。
data.txtは、オブジェクト・インプレッションを含むファイルです。オブジェクト・インプレッションの生データは、そのファイルを読み取るプロセッサにより、統計的に分析されます。data.txtファイルはoirawdataロケーションおよびsesrawdataロケーションに格納されます(第3.4.2.1項「データ収集」を参照)。

すべての生データ・ファイルがdata.txtという名前になります。データ・ファイルは、そのデータ・ファイルを格納している作業パッケージ・ディレクトリの<time>のタイムスタンプで、一意に識別されます。
<part-xxxxx>は、oiprocessedロケーションにある作業パッケージの名前です。

図3-5に、oirawdataロケーションのディレクトリ構造を示します。図3-5に示すように、oirawdataロケーションで2009年1月14日に作成された最初のdata.txtファイルは、次の場所に格納されています。

/analytics/data/oirawdata/2009/01/14/Sensor-localhost.localdomain-10-1231924822209/data.txt

2番目のデータ・ファイル、data.txt.tempは、現在作業中です。(該当の収集間隔の最後にファイルが完成し、data.txt.という名前になります。)このファイルは、図3-5に示す場所に格納されます。

図3-5 oirawdataのディレクトリ構造

「図3-5 oirawdataのディレクトリ構造」の説明

3.4.2.4 日次作業パッケージのディレクトリ構造

生データの作業パッケージが完成すると、関連付けられたプロセッサがその作業パッケージのdata.txtファイルを統計的に分析し、結果を次のロケーションの作業パッケージに書き込みます。これを次のプロセッサが取得し、処理します。

日次統計を含む作業パッケージは、作業パッケージの作成日で識別される構造を持ったディレクトリに格納されます。oiinjected、sesdata、sesprocessed、sesinjected、visdata、visprocessed、visinjectedの各ロケーションでは、日に基づくディレクトリ構造が使用されます。

日次作業パッケージへのパスは、次のとおりです。

/<hadoop.hdfs.defaultfs>/<location>/<yyyy>/<mm>/<dd>/<workpackageID>/part-<xxxxx>

例:

/analytics/sesprocessed/2009/06/25/181bd6cd-c040-46a2-abb4/part-00000

各変数の定義は、次のとおりです。

<location>は、日次作業パッケージを格納するロケーションの名前です。<location>の有効な値は次のとおりです。
oiinjected、sesdata、sesprocessed、sesinjected、visdata、visprocessedおよびvisinjectedです。
<workpackageID>はシステムで生成された番号で、作業パッケージの識別に使用されます。
残りの変数の定義は、第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。

3.4.2.5 週次作業パッケージのディレクトリ構造

週次統計用に処理される作業パッケージは、作業パッケージが格納されたISO週で識別される構造を持ったディレクトリに格納されます。visweekdata、visweekprocessed、visweekinjectedの各ロケーションでは、週に基づくディレクトリ構造が使用されます。

週次作業パッケージへのパスは、次のとおりです。

visweekdata
```
/<hadoop.hdfs.defaultfs>/visweekdata/<yyyy>/W<no.>/<yyyy>/<mm>/<dd>/<workpackageID>/part-<xxxxx>
```
例:
```
/analytics/visweekdata/2009/W26/2009/06/25/1db1039-0b10-417d-9895/part-00000
```
各変数の定義は、次のとおりです。
- W<no.>は、該当の年の週番号を表します。
- <workpackageID>は、システムで生成された番号です。
- 残りの変数の定義は、第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。

visweekprocessedとvisweekinjected

/<hadoop.hdfs.defaultfs>/<location>/<yyyy>/W<no.>/
<workpackageID>/part-<xxxxx>

例:

/analytics/visweekprocessed/2009/W26/9fe7607b-31b1-417d-9895/part-00000

各変数の定義は、visweekdataの場合と同じです。

3.4.2.6 月次作業パッケージのディレクトリ構造

月次統計用に処理される作業パッケージは、作業パッケージが格納された月で識別される構造を持ったディレクトリに格納されます。vismonthprocessedとvismonthinjectedの各ロケーションでは、月に基づくディレクトリ構造が使用されます。

月次作業パッケージへのパスは、次のとおりです。

/<hadoop.hdfs.defaultfs>/<location>/<yyyy>/<mm>/ <workpackageID>/part-<xxxxx>

例:

/analytics/vismonthprocessed/2009/06/c3b9ex84-0417-4b6f-9e38/part-00000

各変数の定義は、次のとおりです。

<workpackageID>はシステムで生成された番号で、作業パッケージの識別に使用されます。
残りの変数の定義は、第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。

3.5 プロセッサの説明

Analyticsは、3つのタイプのプロセッサをサポートします。これらは、24時間の期間内に収集された同じオブジェクト・インプレッションを分析しますが、実行する計算が異なります。

この項の内容は、次のとおりです。

第3.5.1項「オブジェクト・インプレッション・プロセッサ」
第3.5.2項「セッション・データ・プロセッサ」
第3.5.3項「ビジター・データ・プロセッサ」

3.5.1 オブジェクト・インプレッション・プロセッサ

オブジェクト・インプレッション・プロセッサは、オブジェクト・インプレッションに含まれる各タイプのデータの発生頻度を計算することにより、直接オブジェクト・インプレッションを分析します。

この項の内容は、次のとおりです。

第3.5.1.1項「OIProcessor」
第3.5.1.2項「OIInjection」

3.5.1.1 OIProcessor

出力: 日次小計。このプロセッサは、oirawdataロケーションに作成された各作業パッケージを読み取り、オブジェクト・インプレッション内のすべてのデータ・タイプについて、日次小計(発生頻度)を計算します。

24時間未満のデータが含まれる作業パッケージに対する計算の場合、日次合計は小計と呼ばれます。作業パッケージは、1日の全体にわたって、センサーのglobal.xmlファイルのsensor.thresholdtimeプロパティで指定された間隔で(たとえば4時間ごとに)、oirawdataロケーションに収集されます。こうして、各作業パッケージは、指定された間隔(この例では4時間)の間に収集されたデータを保持します。24時間の終わりには、oirawdataロケーションに6つの作業パッケージが収集されていることになります。

計算処理の詳細を次に説明します。

oirawdataロケーションに収集される作業パッケージが1つ完成すると、OIProcessorはその作業パッケージのデータ・ファイルを読み取り、その作業パッケージ内の選択されたタイプの各生データの発生回数をカウント(合計および集計)します。つまり、作業パッケージには、パッケージ内の選択されたタイプの生データごとに1つずつ、日次小計が含まれることになります。(24時間の期間で6つの作業パッケージが収集および処理された場合は、作業パッケージごとに固有の日次小計セットを持ちます。)

OIProcessorが各作業パッケージの日次小計をoiprocessedロケーションに書き込むと、それらがOIInjectionプロセッサによって取得されます。

oiprocessedロケーションに書き込まれた日次小計は、OIInjectionプロセッサによってカウント(合計および集計)され、Analyticsデータベースに挿入されます。特定のタイプの生データの日次小計を合計したものが、そのタイプの生データのその日の総計となります。これは、完全な日次合計または集計済日次合計と呼ばれます。

注意:

WebCenter SitesデータベースとAnalyticsデータベースは同期していません。そのため、Analyticsでは、一意の各オブジェクト・インプレッションにL2ObjectBeanオブジェクトが作成されます。L2ObjectBeanは、AnalyticsデータベースのL2_Object表に、オブジェクト・インプレッションの名前(タイトル)とオブジェクト(アセット)IDを保存します。

3.5.1.1.1 OIProcessorの入力ロケーション

oirawdata: 現在の日のdata.txtファイル(およびメタデータ・ファイル)を格納します。data.txtの詳細は、第3.4.2.1項「データ収集」を参照してください。

表3-1 OIProcessorの入力ロケーション

oirawdata	説明
ディレクトリ構造	第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。
作業パッケージ	`<workpackageDir>-<n>-<time>/data.txt`
作業パッケージのデータ・ファイル	`TransferObject`タイプのBeanを含みます。
データ・ソース	ローカル・ファイル・システムの`oirawdata`フォルダ。 Hadoopファイル・システム内の`oirawdata`ロケーションは、Analyticsセンサーがインストールされているサーバーの`oirawdata`ディレクトリの複製です。 Analyticsセンサーは、10分ごとに(または`sensor.thresholdtime`プロパティに明示的に設定された時間間隔で)、新しい作業パッケージ(`OIProcessor`への入力)を作成します。 Analyticsセンサーによって取得される各オブジェクト・インプレッションが、作業パッケージの1行分のデータになります。`/<dd>`フォルダ(第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照)は、オブジェクト・インプレッションの日(作業パッケージが作成された日)を表します。
作業パッケージを使用するプロセッサ	このプロセッサ。

3.5.1.1.2 OIProcessorの出力ロケーション

oiprocessed: このプロセッサの作業パッケージを格納します。各作業パッケージには、そのパッケージの日次小計(作業パッケージに収集された各タイプのデータの発生頻度)のデータ・ファイルが含まれます。(各作業パッケージにはメタデータ・ファイルも含まれます。)

表3-2 OIProcessorの出力ロケーション

oiprocessed	説明
ディレクトリ構造	第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。
作業パッケージ	`<workpackageDir>-<n>-<time>/part-<xxxxx>`
作業パッケージのデータ・ファイル	`L2ObjectBean`、`L3ObjecttypeBean`、`L3DownloadBean`、`L3InternalSearchBean`および`L3ObjectBean`の各タイプのBean (およびカスタムの事前集計済オブジェクト・インプレッション・データ)を含みます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	OIInjectionプロセッサ。

3.5.1.2 OIInjection

出力: 特定タイプのデータの完全な日次合計(最後の24時間で収集された各タイプのデータの発生頻度)。挿入ステータス・レポート。

このプロセッサは、oiprocessedロケーションにある作業パッケージのデータ・ファイル内の日次小計を読み取り、日次小計をカウント(集計および合計)します。結果は総計、つまり、最後の24時間で収集された各タイプのデータの完全な日次合計です。
このプロセッサは、完全な日次合計をAnalyticsデータベース内の各種の表に挿入し、oiinjectedロケーションにステータス・レポートを作成します。(日次小計の詳細は「OIProcessor」を参照してください。)

データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。

3.5.1.2.1 OIInjectionプロセッサの入力ロケーション

「oiprocessed」(「OIProcessorの出力ロケーション」)を参照してください。

3.5.1.2.2 OIInjectionプロセッサの出力ロケーション

Analyticsデータベース: このプロセッサの出力を格納します。出力は、完全な日次合計(最後の24時間で収集された各タイプのデータの発生頻度)です。

oiinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。

表3-3 OIInjectionプロセッサの出力ロケーション

oiinjected	説明
ディレクトリ構造	第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	この作業パッケージにはデータ・ファイルは作成されません。メタデータ・ファイル`(.txt)`で挿入処理のステータスが報告されます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	該当プロセッサなし。管理者は、HDFSファイル・ブラウザを開いてメタデータ・ファイル(挿入ステータス・レポート)を表示できます。

3.5.2 セッション・データ・プロセッサ

セッション・データ・プロセッサは、オブジェクト・インプレッションから得られたセッション・オブジェクトを分析します。

この項の内容は、次のとおりです。

第3.5.2.1項「SessionMerger」
第3.5.2.2項「SessionProcessor」
第3.5.2.3項「SessionInjection」

3.5.2.1 SessionMerger

出力: 最後の24時間のセッション・データに対応するセッション・オブジェクト(集計されたオブジェクト・インプレッションが個々のセッション別にグループ化され、sesdataロケーションに格納される)。

このプロセッサは、sesrawdataロケーションにある作業パッケージのデータ・ファイル内のオブジェクト・インプレッションを読み取ります。オブジェクト・インプレッションからセッション・データを取り出し、データを組み合せて、セッションごとにそのセッション全体に対応する1つのセッション・オブジェクトを作成します。このセッション・オブジェクトには、該当セッションに関連するすべての情報が含まれます。このように、SessionMergerは、24時間の期間で収集されたすべてのオブジェクト・インプレッションを個々のセッション別に集計します。このプロセッサは、集計済データを(作業パッケージとして)sesdataロケーションに書き込みます(SessionProcessorがこれを取得します)。

3.5.2.1.1 SessionMergerプロセッサの入力ロケーション

sesrawdata: 現在の日のdata.txtファイル(およびメタデータ・ファイル)を格納します。data.txtの詳細は、第3.4.2.1項「データ収集」を参照してください。

表3-4 SessionMergerプロセッサの入力ロケーション

sesrawdata	説明
ディレクトリ構造	第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください(暦日ごとに1つの作業パッケージが含まれます)。
作業パッケージ	`<workpackageDir>-<n>-<time>`/`data.txt`
作業パッケージのデータ・ファイル	`RawSensorCallBean`タイプのBeanを含みます。
データ・ソース	Analyticsセンサー。 Analyticsセンサーは、24時間ごとに新しい作業パッケージを作成します。(作業パッケージには24時間間隔で収集された生データが含まれ、これが`SessionMerger`プロセッサの入力になります。)ディレクトリ構造内の作業パッケージ・フォルダは、収集されたすべてのセッション情報が属する日を表しています(この日はサイトのタイムゾーンで決定されます)。
作業パッケージを使用するプロセッサ	`SessionMerger`プロセッサ。

3.5.2.1.2 SessionMergerプロセッサの出力ロケーション

sesdata: SessionMergerプロセッサの作業パッケージを格納します。作業パッケージのデータ・ファイルには、最後の24時間のセッション・データに対応するセッション・オブジェクト(集計されたオブジェクト・インプレッションが個々のセッション別にグループ化されたもの)が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)

表3-5 SessionMergerプロセッサの出力ロケーション

sesdata	説明
ディレクトリ構造	第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照してください(暦日ごとに1つの作業パッケージが含まれます)。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	`SessionBean`タイプのBeanを含みます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	SessionProcessor。

3.5.2.2 SessionProcessor

出力: セッション・データの完全な日次合計(最後の24時間で実行された各セッション全体にわたる各タイプのデータの発生頻度)。

このプロセッサは、sesdataロケーションにある作業パッケージのデータ・ファイル内のセッション・オブジェクトを読み取り、完全な日次合計を計算して、その結果を(作業パッケージとして)sesprocessedロケーションに書き込みます。これをSessionInjectionプロセッサが取得して処理します。

3.5.2.2.1 SessionProcessorの入力ロケーション

「sesdata」(「SessionMergerプロセッサの出力ロケーション」)を参照してください。

3.5.2.2.2 SessionProcessorの出力ロケーション

sesprocessed: このプロセッサによって作成された作業パッケージを格納します。作業パッケージのデータ・ファイルには、セッション・データの完全な日次合計(最後の24時間で実行された各セッション全体にわたる各タイプのデータの発生頻度)が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)

表3-6 SessionProcessorの出力ロケーション

sesprocessed	説明
ディレクトリ構造	第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照してください(暦日ごとに1つの作業パッケージが含まれます)。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	`L3*`タイプのすべてのBean (`L3BrowserBean`、`L3ClickStreamBean`、`L3SessionEntryBean`など、およびカスタムの事前集計済データ)を含みます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	SessionInjectionプロセッサ。

3.5.2.3 SessionInjection

出力: 挿入ステータス・レポート。

このプロセッサは、sesprocessedロケーションにある作業パッケージのデータ・ファイル内の完全な日次合計を読み取って、それをAnalyticsデータベース内の各種の表に挿入し、sesinjectedロケーションにステータス・レポートを作成します。データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。

3.5.2.3.1 SessionInjectionプロセッサの入力ロケーション

第3.5.2.2.2項「SessionProcessorの出力ロケーション」を参照してください。

3.5.2.3.2 SessionInjectionプロセッサの出力ロケーション

Analyticsデータベース: セッション・データの完全な日次合計(最後の24時間で実行された各セッション全体にわたる各タイプのデータの発生頻度)を格納します。

sesinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。

表3-7 SessionInjectionプロセッサの出力ロケーション

sesinjected	説明
ディレクトリ構造	第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照してください(暦日ごとに1つの作業パッケージが含まれます)。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	この作業パッケージにはデータ・ファイルは作成されません。メタデータ・ファイル`(.txt)`で挿入処理のステータスが報告されます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	該当プロセッサなし。管理者は、HDFSファイル・ブラウザを開いてメタデータ・ファイル(挿入ステータス・レポート)を表示できます。

3.5.3 ビジター・データ・プロセッサ

ビジター・データは、サイト・ビジターのIPアドレスなどによってビジターを特定します。ビジター・データには、ビジターが属するセグメントや、そのセグメントに関連付けられた推奨などがあります。

この項の内容は、次のとおりです。

第3.5.3.1項「VisitorMerger」
第3.5.3.2項「VisitorMonthProcessor」
第3.5.3.3項「VisitorMonthInjection」
第3.5.3.4項「VisitorProcessor」
第3.5.3.5項「VisitorInjection」
第3.5.3.6項「VisitorWeekMerger」
第3.5.3.7項「VisitorWeekProcessor」
第3.5.3.8項「VisitorWeekInjection」

3.5.3.1 VisitorMerger

出力: 生のサイト・ビジター・データ。

このプロセッサは、sesdataロケーションの作業パッケージのデータ・ファイルからビジター固有のデータ(セグメントや推奨など)を読み取ります。すべてのビジターIDを保存するために、このビジター・データを(作業パッケージとして)生のフォーマットで(集計しないで)visdataロケーションに書き込みます。このプロセッサでは、ビジター・データの集計は行われません。これは、他のビジター・データ・プロセッサが日次、週次および月次の合計を計算する際、このデータを生の形式で使用する必要があるからです。

3.5.3.1.1 VisitorMergerプロセッサの入力ロケーション

「sesdata」(「SessionMergerプロセッサの出力ロケーション」)を参照してください。

3.5.3.1.2 VisitorMergerプロセッサの出力ロケーション

visdata: このプロセッサによって作成された作業パッケージを格納します。作業パッケージには生フォーマットのサイト・ビジター・データを持つデータ・ファイルが含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)

表3-8 VisitorMergerプロセッサの出力ロケーション

visdata	説明
ディレクトリ構造	第0項「日次作業パッケージのディレクトリ構造」を参照してください。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	`VisitorLocationBean`および`VisitorBean`タイプのBean (およびカスタムのビジター関連データ)を含みます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	VisitorProcessor VisitorWeekMergerプロセッサ。 VisitorMonthProcessor

3.5.3.2 VisitorMonthProcessor

出力: ビジター・データの完全な月次合計(最後の月に収集された各タイプのビジター・データの発生頻度)。

このプロセッサは、visdataロケーションにある作業パッケージのデータ・ファイル内の生のビジター・データを読み取り、月次合計を計算します。このプロセッサが月次合計を(作業パッケージとして)vismonthprocessedロケーションに書き込むと、VisitorMonthInjectionプロセッサがこれを取得して処理します。

3.5.3.2.1 VisitorMonthProcessorの入力ロケーション

「visdata」(「VisitorMergerプロセッサの出力ロケーション」)を参照してください。

3.5.3.2.2 VisitorMonthProcessorの出力ロケーション

vismonthprocessed: このプロセッサによって作成された作業パッケージを格納します。この作業パッケージのデータ・ファイルには、ビジター・データの完全な月次合計が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)

表3-9 VisitorMonthProcessorの出力ロケーション

vismonthprocessed	説明
ディレクトリ構造	第3.4.2.6項「月次作業パッケージのディレクトリ構造」を参照してください。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	`L3CityBean`、`L3CountryBean`、`L3RegionBean`、`L3VisitorBean`の各タイプのBean (およびカスタムのビジター関連データ)を含みます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	VisitorMonthInjectionプロセッサ。

3.5.3.3 VisitorMonthInjection

出力: 挿入ステータス・レポート。

このプロセッサは、vismonthprocessedロケーションにある作業パッケージのデータ・ファイル内の完全な月次合計を読み取って、それをAnalyticsデータベースに挿入し、vismonthinjectedロケーションにステータス・レポートを作成します。データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。

3.5.3.3.1 VisitorMonthInjectionプロセッサの入力ロケーション

「vismonthprocessed」 (「VisitorMonthProcessorの出力ロケーション」)を参照してください。

3.5.3.3.2 VisitorMonthInjectionプロセッサの出力ロケーション

Analyticsデータベース: このプロセッサの入力ロケーションからのデータを格納します。

vismonthinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。

表3-10 VisitorMonthInjectionプロセッサの出力ロケーション

vismonthinjected	説明
ディレクトリ構造	第3.4.2.6項「月次作業パッケージのディレクトリ構造」を参照してください。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	この作業パッケージにはデータ・ファイルは作成されません。メタデータ・ファイル`(.txt)`で挿入処理のステータスが報告されます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	該当プロセッサなし。管理者は、HDFSファイル・ブラウザを開いてメタデータ・ファイル(挿入ステータス・レポート)を表示できます。

3.5.3.4 VisitorProcessor

出力: ビジター・データの完全な日次合計(最後の24時間で収集された各タイプのビジター・データの発生頻度)。

このプロセッサは、visdataロケーションにある作業パッケージのデータ・ファイル内の生のビジター・データを読み取ります。その後、完全な日次合計を計算し、それを(作業パッケージとして)visprocessedロケーションに書き込みます。これをVisitorInjectionプロセッサが取得して処理します。

3.5.3.4.1 VisitorProcessorの入力ロケーション

「visdata」(「VisitorMergerプロセッサの出力ロケーション」)を参照してください。

3.5.3.4.2 VisitorProcessorの出力ロケーション

visprocessed: このプロセッサによって作成された作業パッケージを格納します。この作業パッケージのデータ・ファイルには、ビジター・データの完全な日次合計が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)

表3-11 VisitorProcessorの出力ロケーション

visprocessed	説明
ディレクトリ構造	第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	`L3CityBean`、`L3CountryBean`、`L3RegionBean`、`L3VisitorBean`の各タイプのBean (およびカスタムのビジター関連データ)を含みます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	VisitorInjectionプロセッサ。

3.5.3.5 VisitorInjection

出力: 挿入ステータス・レポート。

このプロセッサは、visprocessedロケーションにある作業パッケージのデータ・ファイル内の完全な日次合計を読み取って、それをAnalyticsデータベース内の各種の表に挿入し、visinjectedロケーションにステータス・レポートを作成します。データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。

3.5.3.5.1 VisitorInjectionプロセッサの入力ロケーション

「visprocessed」を参照してください。

3.5.3.5.2 VisitorInjectionプロセッサの出力ロケーション

Analyticsデータベース: このプロセッサの入力ロケーションからのデータを格納します。

visinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。

表3-12 VisitorInjectionプロセッサの出力ロケーション

visinjected	説明
ディレクトリ構造	第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	この作業パッケージにはデータ・ファイルは作成されません。メタデータ・ファイル`(.txt)`で挿入処理のステータスが報告されます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	該当プロセッサなし。管理者は、HDFSファイル・ブラウザを開いてメタデータ・ファイル(挿入ステータス・レポート)を表示できます。

3.5.3.6 VisitorWeekMerger

出力: visdataロケーションから週次フォルダにマージされた生のサイト・ビジター・データ。

このプロセッサは、visdataロケーションにある作業パッケージのデータ・ファイル内の生のビジター・データを読み取ります。このプロセッサは、生のサイト・ビジター・データを適切なISO週ディレクトリ(のプロセッサの作業パッケージに)マージします。このプロセッサではデータは変更されません。その後、作業パッケージをvisweekdataロケーションに書き込みます。

3.5.3.6.1 VisitorWeekMergerプロセッサの入力ロケーション

「visdata」(「VisitorMergerプロセッサの出力ロケーション」)を参照してください。

3.5.3.6.2 VisitorWeekMergerプロセッサの出力ロケーション

visweekdata: このプロセッサによって作成された作業パッケージを格納します。作業パッケージのデータ・ファイルには、(visdataロケーションから)週次ディレクトリにマージされた生のサイト・ビジター・データが含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)

表3-13 VisitorWeekMergerプロセッサの出力ロケーション

visweekdata	説明
ディレクトリ構造	第3.4.2.5項「週次作業パッケージのディレクトリ構造」を参照。
作業パッケージ	`<workpackageID>/part-<xxxxx>`
作業パッケージのデータ・ファイル	`VisitorLocationBean`および`VisitorBean`タイプのBean (およびカスタムのビジター関連データ)を含みます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	VisitorWeekProcessor VisitorMonthProcessor

3.5.3.7 VisitorWeekProcessor

出力: サイト・ビジター・データの完全な週次合計(最後の週に収集された各タイプのビジター・データの発生頻度)。

このプロセッサは、visweekdataロケーションにある作業パッケージのデータ・ファイル内の週次の生データを読み取ります。週次合計を計算し、それを(作業パッケージとして)visweekprocessedロケーションに書き込みます。

3.5.3.7.1 VisitorWeekProcessorの入力ロケーション

「visweekdata」(「VisitorWeekMergerプロセッサの出力ロケーション」)を参照してください。

3.5.3.7.2 VisitorWeekProcessorの出力ロケーション

visweekprocessed: このプロセッサによって作成された作業パッケージを格納します。作業パッケージのデータ・ファイルには、サイト・ビジター・データの週次合計(最後の週に収集された各タイプのサイト・ビジター・データの発生頻度)が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)

表3-14 VisitorWeekProcessorの出力ロケーション

visweekprocessed	説明
ディレクトリ構造	第3.4.2.5項「週次作業パッケージのディレクトリ構造」を参照。
作業パッケージ	`<workpackageID>/part-<xxxxx>` 注意: 週が新年をまたぐ場合、作業パッケージには、その年の最後の週のビジター・データとともに、新しい年のビジター・データも含まれます。
作業パッケージのデータ・ファイル	`L3CityBean`、`L3CountryBean`、`L3RegionBean`、`L3VisitorBean`の各タイプのBean (およびカスタムのビジター関連データ)を含みます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	VisitorWeekInjectionプロセッサ。

3.5.3.8 VisitorWeekInjection

出力: 挿入ステータス・レポート。

このプロセッサは、visweekprocessedロケーションにある作業パッケージのデータ・ファイル内の週次合計を読み取って、それをAnalyticsデータベースに挿入し、visweekinjectedロケーションにステータス・レポートを作成します。データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。

3.5.3.8.1 VisitorWeekInjectionプロセッサの入力ロケーション

第3.5.3.7.2項「VisitorWeekProcessorの出力ロケーション」を参照してください。

3.5.3.8.2 VisitorWeekInjectionプロセッサの出力ロケーション

このプロセッサの入力ロケーションからのデータを格納します。

Analyticsデータベース: このプロセッサの入力ロケーションからのデータを格納します。

visweekinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。

表3-15 VisitorWeekInjectionプロセッサの出力ロケーション

visweekinjected	説明
ディレクトリ構造	第3.4.2.5項「週次作業パッケージのディレクトリ構造」を参照。
作業パッケージ	<workpackageID>/part-<xxxxx>
作業パッケージのデータ・ファイル	この作業パッケージにはデータ・ファイルは作成されません。メタデータ・ファイル`(.txt)`で挿入処理のステータスが報告されます。
データ・ソース	このプロセッサ。
作業パッケージを使用するプロセッサ	該当プロセッサなし。管理者は、HDFSファイル・ブラウザを開いてメタデータ・ファイル(挿入ステータス・レポート)を表示できます。