Oracle® Fusion Middleware WebCenter Sites: Analytics管理者ガイド 11g リリース1 (11.1.1.6.0) E49679-01 |
|
前 |
次 |
Hadoopジョブは、ロケーションとプロセッサで構成されます。ロケーションはサイト・ビジターのデータが格納される場所で、プロセッサはそれぞれ、データの一部を選択的に処理するようにプログラムされています。特定のプロセッサが特定のロケーションのデータを読み取って処理し、次のロケーションに結果を書き込むと、次のプロセッサがそれを取得して処理します。
この章では、Hadoopジョブの概要、Hadoopジョブの監視ガイドライン、および各プロセッサとロケーションについて説明します。この章の内容は、次のとおりです。
Hadoopジョブは、Analyticsのデータを統計的に処理し、結果をAnalyticsデータベースに格納するOracleアプリケーションです。
正常に機能しているインストール済Analyticsでは、生のサイト・ビジター・データはAnalyticsセンサー(データ取得アプリケーション)によって連続的に取得され、ローカル・ファイル・システムに格納されます。ファイル・システム内の生データは、Hadoop分散ファイル・システム(HDFS)エージェントにより定期的に要求され、HDFSにコピーされてから、Hadoopジョブで処理されます。
Hadoopジョブは、複数のロケーションと、Oracle固有の複数のプロセッサで構成されます。プロセッサがあるロケーションでサイト・ビジター・データを読み取って統計的に処理し、結果を別のロケーションに書き込むと、次のプロセッサがそれを取得して処理します。処理が完了すると、結果(生データに関する統計)がAnalyticsデータベースに挿入されます。
Hadoopジョブは、Analytics管理インタフェースのステータス・サマリー・パネルから監視できます(第3.2項「Hadoopジョブの監視」を参照)。図3-1は、Hadoopジョブの処理フローを表しています。
Hadoopジョブは、Analytics管理インタフェースのステータス・サマリー・パネルから監視できます。ステータス・サマリー・パネルには、Hadoopジョブのコンポーネントが表示されます。Hadoopジョブのコンポーネントとは、Analyticsセンサー(データ取得アプリケーション)によって取得されたサイト・ビジター・データを格納するロケーションと、格納されたサイト・ビジター・データの日次、週次および月次合計を計算するプロセッサです。
ステータス・サマリー・パネルへのアクセス
Analytics管理インタフェースを操作している場合は、コンポーネント・タブをクリックして概要オプションを選択することにより、ステータス・サマリー・パネルにアクセスできます(図3-2)。
各ロケーションには、異なるタイプのサイト・ビジター・データが格納されます。特定のロケーションに格納されるサイト・ビジター・データのタイプは、そのロケーションに関連付けられたプロセッサでデータがどのように集計されるかによって決まります。たとえば、oiprocessed
ロケーションはOIProcessor
に関連付けられている(OIProcessor
の計算結果を格納する)ので、特定日付の特定の期間に特定のアセットが表示された回数などのデータを格納します。
ロケーションをクリックすると、そのロケーションのステータスとデータを表示できます。
プロセッサをクリックすると、データ処理ジョブのステータスを表示できます。
Analyticsセンサー・ボタンとHDFSエージェント・ボタンをクリックすると、これらのコンポーネントのステータス・サマリーが表示されます。Analyticsセンサーの監視の詳細は、第2.1項「センサーの過負荷アラート」を参照してください。
この項では、サイト・ビジター・データの格納に関係する各種のロケーションと、それらのロケーションからデータを読み取り、マップ/リデュースして結果を別のロケーションに書き込む各プロセッサについて説明します。
プロセッサ: HDFSには、オラクル社がAnalyticsデータの処理用に開発した複数のプロセッサが含まれます。プロセッサは、マッパーとリデューサの2つの部分で構成されます。マッパーは、最初に一連のオブジェクト・インプレッション(生データのコレクション)を処理して、中間データ(n個のJava Bean)を作成します。中間データは、リデューサによって処理されます。この処理で、n個のJava Beanは集計され、特定のデータ型のx回の発生を含んだ1つのJava Bean、別のデータ型のy回の発生を含んだ次のJava Bean、などのように分けられます。リデューサの実行に伴い、集計されたデータは次のロケーションに書き込まれます。プロセッサの出力は、作業パッケージと呼ばれます(詳細は、第3.4.2項「作業パッケージ」を参照)。
プロセッサの実行ごとに行われる処理は、それぞれジョブと呼ばれます。どのジョブも、マップ/リデュース・ジョブです。各ジョブがスケジュールされると、ジョブに一意のジョブ識別子が割り当てられます。
ロケーション: HDFSでは、ロケーションと呼ばれる異なる複数のフォルダにサイト・ビジター・データ(生データと処理済データの両方)が格納されます。ロケーションとは、HDFS内の特定のフォルダであり、管理インタフェースのステータス・サマリー・パネルで監視できます(図3-2)。
ロケーションには、年、月、日および時間を表すサブフォルダがあり、これらのサブフォルダが階層的に管理されています(図3-3を参照)。
第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」の例を参照してください。
各ロケーションは、サイト・ビジターのデータを、ロケーションに応じて次のいずれかのフォーマットで格納します。
生データ: Analyticsセンサー(データ取得アプリケーション)によって取得される各オブジェクト・インプレッションに含まれるサイト・ビジター・データ。
処理済データ: 生の形式から処理されたサイト・ビジター・データ。完全に処理されたサイト・ビジター・データは、レポート作成用に、Analyticsデータベースに挿入されます。
次に、Analyticsのステータス・サマリー・パネルから監視できる各種のプロセッサをアルファベット順に示します。
次に、Analyticsのステータス・サマリー・パネルから監視できる各種のロケーションをアルファベット順に示します。
オブジェクト・インプレッションと作業パッケージは、Hadoopジョブの主要な構成単位です。オブジェクト・インプレッションは、ビジターがサイトを参照したときに取得される生のサイト・ビジター・データです。その後、このデータが、Hadoopジョブで作業パッケージと呼ばれる単位で処理されます。処理結果はAnalyticsデータベースに格納され、ユーザーが生成するレポートにオンデマンドで使用できるようになります。
この項の内容は、次のとおりです。
オブジェクト・インプレッションとは、sensor
サーブレットの1回の起動です。オブジェクト・インプレッションを、分析用に取得される生のサイト・ビジター・データのスナップショットと考えることもできます。
オブジェクト・インプレッションには、データが取得された瞬間の、サイト・ビジターに関する多くのタイプの生データが含まれます。含まれるセッション・データとビジター・データには、オブジェクト・タイプ、オブジェクトID、セッション、セッションID、IPアドレス、使用されたオペレーティング・システム、使用されたブラウザ、リファラなどがあります。Engageがインストールされている場合は、生データにセグメントや推奨も含まれます。
サイト・ビジターがサイトを参照すると、オブジェクト・インプレッションが収集されます。オブジェクト・インプレッションは、作業パッケージとして、oirawdata
とsesrawdata
の各ロケーションに24時間の期間で収集されます。
作業パッケージはロケーション内のディレクトリです(図3-4を参照)。
1つの作業パッケージには、次のものが格納されます。
オブジェクト・インプレッション(生データ)または中間データ(Java Bean)を含む1つのデータ・ファイル。データ・ファイルの内容は、一連のプロセッサにより統計的に分析されます。分析が完了すると、最後のプロセッサによって結果がAnalyticsデータベースに挿入され、レポート生成に使用されます。
1つのメタデータ・ファイル。メタデータ・ファイルは、データ処理のステータスを報告します。
Hadoop分散ファイル・システムの各ロケーションには少なくとも1つの作業パッケージが存在します(作業パッケージ数はロケーションにより異なります。第3.4.2.1項「データ収集」の例を参照してください)。各作業パッケージは、ロケーションのディレクトリ構造内に、カレンダ型の構造に従って階層的に配置されます。
作業パッケージ内のデータ・ファイルは、その作業パッケージを含むロケーションに関連付けられたプロセッサに対する入力となります。プロセッサは、データ・ファイルの分析を完了するとその結果を作業パッケージとして次のロケーションに書き込みます。これを次のプロセッサが取得して処理します。
注意: 新たに取得されたオブジェクト・インプレッションを含んだ最初の作業パッケージは、Analyticsセンサーによって作成されます。その他のすべての作業パッケージは、プロセッサにより作成されます。 データ処理の間に、作業パッケージやその内容が別のロケーションに移動されることはありません。各作業パッケージのデータ・ファイルは適切なプロセッサによって読み取られ、そのプロセッサによって分析されます。結果は(そのプロセッサにより)作業ファイルとして次のロケーションに書き込まれます。 |
この項の内容は、次のとおりです。
オブジェクト・インプレッションは、oirawdata
とsesrawdata
の2つのロケーションに、24時間の期間で作業パッケージとして同時に収集されます。2つのロケーションにあるすべての作業パッケージには、data.txt
というデータ・ファイルが1つ含まれています。これらのロケーション(およびその作業パッケージ)の違いは、次のとおりです。
oirawdata
ロケーションでは、24時間の期間中に決まった間隔でオブジェクト・インプレッションが収集され、間隔ごとに固有の作業パッケージが作成されます。この間隔は、センサーのglobal.xml
ファイル内のsensor.thresholdtime
プロパティで指定されます。たとえば、sensor.thresholdtime
が4
時間に設定されている場合、oirawdata
ロケーションでは24時間の最後に6つの作業パッケージに収集が行われていることになります。6つのパッケージにはすべて作成時刻のタイムスタンプが付けられ、どのパッケージにもdata.txt
ファイルが1つ含まれます。
sesrawdata
ロケーションでは、オブジェクト・インプレッションが24時間連続して1つの作業パッケージとして収集されます。作業パッケージには作成時刻のタイムスタンプが付けられ、data.txt
ファイルが1つ含まれます。
oirawdata
ロケーションにある作業パッケージには、それぞれその日の生データの一部のみが含まれています。sesrawdata
ロケーションにある1つの作業パッケージには、その日の生データの全セットが含まれています。どちらのロケーションでも、各作業パッケージは完成後すぐに分析され、計算用リソースが使用できる状態になります。
すべての作業パッケージは、24時間の期間で収集されます(第3.4.2.1項「データ収集」を参照)。作業パッケージは日次で処理されます。ビジター・データの場合は、週次と月次の統計を表す作業パッケージが追加で作成されます。週次および月次処理用の作業パッケージのディレクトリ構造は、日次処理やデータ収集用のディレクトリ構造とは異なります。
注意: Analytics管理者は、ロケーションのディレクトリ構造と作業パッケージへのパスを、HDFSファイル・ブラウザから取得できます。 http://<hostname_MasterNode>:50070/ |
生データとoiprocessed
のデータを含む作業パッケージは、作業パッケージが作成された日と時間を示す構造のディレクトリに格納されます。oirawdata
、sesrawdata
、oiprocessed
の各ロケーションでは、日時によるディレクトリ構造が使用されます(ただし、他と違って、oiprocessedロケーションには処理済のデータが含まれます)。
生データまたはoiprocessed
の作業パッケージへのパスは、次のとおりです。
/<hadoop.hdfs.defaultfs>/<location>/<yyyy>/<mm>/<dd>/ <workpackageDir>-<n>-<time>/data.txt <or part-<xxxxx>
例:
/analytics/data/oirawdata/2009/01/14/Sensor-localhost.localdomain-10-1231924822209/data.txt
各変数の定義は、次のとおりです。
<hadoop.hdfs.defaultfs>
は、Hadoopファイル・システムのルート・ディレクトリの位置です。この下に、生データ、出力およびキャッシュ・ファイルが格納されます。
<location>
は、生データの作業パッケージを格納するロケーションの名前です。<location>
の有効な値は次のとおりです。
oirawdata
: 24時間の期間でデータを複数の作業パッケージに分けて収集します。
sesrawdata
: 24時間の期間でデータを1つの作業パッケージに収集します。
oiprocessed
: このロケーションには処理済データが含まれています。
(各ロケーションとその説明は、第3.3項「プロセッサとロケーション」を参照してください。)
<yyyy>
は、作業パッケージが作成された年です。
<mm>
は、作業パッケージが作成された月です。
<dd>
は、作業パッケージが作成された日です。この日は、サイトのタイムゾーンから決定されます。
<workpackageDir>
は、センサー名(データ取得サーバーのIPアドレスまたはホスト名)です。
<n>
は、システムで生成される番号です。
<time>
は、作業パッケージの作成時刻です。この時刻は、1970年1月1日からの経過時間をミリ秒単位で計算した値です。
data.txt
は、オブジェクト・インプレッションを含むファイルです。オブジェクト・インプレッションの生データは、そのファイルを読み取るプロセッサにより、統計的に分析されます。data.txt
ファイルはoirawdata
ロケーションおよびsesrawdata
ロケーションに格納されます(第3.4.2.1項「データ収集」を参照)。
すべての生データ・ファイルがdata.txt
という名前になります。データ・ファイルは、そのデータ・ファイルを格納している作業パッケージ・ディレクトリの<time>
のタイムスタンプで、一意に識別されます。
<part-xxxxx>
は、oiprocessed
ロケーションにある作業パッケージの名前です。
図3-5に、oirawdata
ロケーションのディレクトリ構造を示します。図3-5に示すように、oirawdata
ロケーションで2009年1月14日に作成された最初のdata.txt
ファイルは、次の場所に格納されています。
/analytics/data/oirawdata/2009/01/14/Sensor-localhost.localdomain-10-1231924822209/data.txt
2番目のデータ・ファイル、data.txt.temp
は、現在作業中です。(該当の収集間隔の最後にファイルが完成し、data.txt.
という名前になります。)このファイルは、図3-5に示す場所に格納されます。
生データの作業パッケージが完成すると、関連付けられたプロセッサがその作業パッケージのdata.txt
ファイルを統計的に分析し、結果を次のロケーションの作業パッケージに書き込みます。これを次のプロセッサが取得し、処理します。
日次統計を含む作業パッケージは、作業パッケージの作成日で識別される構造を持ったディレクトリに格納されます。oiinjected
、sesdata
、sesprocessed
、sesinjected
、visdata
、visprocessed
、visinjected
の各ロケーションでは、日に基づくディレクトリ構造が使用されます。
日次作業パッケージへのパスは、次のとおりです。
/<hadoop.hdfs.defaultfs>/<location>/<yyyy>/<mm>/<dd>/<workpackageID
>/part-<xxxxx>
例:
/analytics/sesprocessed/2009/06/25/181bd6cd-c040-46a2-abb4/part-00000
各変数の定義は、次のとおりです。
<location>
は、日次作業パッケージを格納するロケーションの名前です。<location>
の有効な値は次のとおりです。
oiinjected
、sesdata
、sesprocessed
、sesinjected
、visdata
、visprocessed
およびvisinjected
です。
<workpackageID
>はシステムで生成された番号で、作業パッケージの識別に使用されます。
残りの変数の定義は、第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。
週次統計用に処理される作業パッケージは、作業パッケージが格納されたISO週で識別される構造を持ったディレクトリに格納されます。visweekdata
、visweekprocessed
、visweekinjected
の各ロケーションでは、週に基づくディレクトリ構造が使用されます。
週次作業パッケージへのパスは、次のとおりです。
visweekdata
/<hadoop.hdfs.defaultfs>/visweekdata/<yyyy>/W<no.>/<yyyy>/<mm>/<dd>/<workpackageID>/part-<xxxxx>
例:
/analytics/visweekdata/2009/W26/2009/06/25/1db1039-0b10-417d-9895/part-00000
各変数の定義は、次のとおりです。
W<no.>
は、該当の年の週番号を表します。
<workpackageID
>は、システムで生成された番号です。
残りの変数の定義は、第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。
visweekprocessed
とvisweekinjected
/<hadoop.hdfs.defaultfs>/<location>/<yyyy>/W<no.>/ <workpackageID>/part-<xxxxx>
例:
/analytics/visweekprocessed/2009/W26/9fe7607b-31b1-417d-9895/part-00000
各変数の定義は、visweekdata
の場合と同じです。
月次統計用に処理される作業パッケージは、作業パッケージが格納された月で識別される構造を持ったディレクトリに格納されます。vismonthprocessed
とvismonthinjected
の各ロケーションでは、月に基づくディレクトリ構造が使用されます。
月次作業パッケージへのパスは、次のとおりです。
/<hadoop.hdfs.defaultfs>/<location>/<yyyy>/<mm>/ <workpackageID
>/part-<xxxxx>
例:
/analytics/vismonthprocessed/2009/06/c3b9ex84-0417-4b6f-9e38/part-00000
各変数の定義は、次のとおりです。
<workpackageID
>はシステムで生成された番号で、作業パッケージの識別に使用されます。
残りの変数の定義は、第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。
Analyticsは、3つのタイプのプロセッサをサポートします。これらは、24時間の期間内に収集された同じオブジェクト・インプレッションを分析しますが、実行する計算が異なります。
この項の内容は、次のとおりです。
オブジェクト・インプレッション・プロセッサは、オブジェクト・インプレッションに含まれる各タイプのデータの発生頻度を計算することにより、直接オブジェクト・インプレッションを分析します。
この項の内容は、次のとおりです。
出力: 日次小計。このプロセッサは、oirawdata
ロケーションに作成された各作業パッケージを読み取り、オブジェクト・インプレッション内のすべてのデータ・タイプについて、日次小計(発生頻度)を計算します。
24時間未満のデータが含まれる作業パッケージに対する計算の場合、日次合計は小計と呼ばれます。作業パッケージは、1日の全体にわたって、センサーのglobal.xml
ファイルのsensor.thresholdtime
プロパティで指定された間隔で(たとえば4時間ごとに)、oirawdata
ロケーションに収集されます。こうして、各作業パッケージは、指定された間隔(この例では4時間)の間に収集されたデータを保持します。24時間の終わりには、oirawdata
ロケーションに6つの作業パッケージが収集されていることになります。
計算処理の詳細を次に説明します。
oirawdata
ロケーションに収集される作業パッケージが1つ完成すると、OIProcessor
はその作業パッケージのデータ・ファイルを読み取り、その作業パッケージ内の選択されたタイプの各生データの発生回数をカウント(合計および集計)します。つまり、作業パッケージには、パッケージ内の選択されたタイプの生データごとに1つずつ、日次小計が含まれることになります。(24時間の期間で6つの作業パッケージが収集および処理された場合は、作業パッケージごとに固有の日次小計セットを持ちます。)
OIProcessor
が各作業パッケージの日次小計をoiprocessed
ロケーションに書き込むと、それらがOIInjection
プロセッサによって取得されます。
oiprocessed
ロケーションに書き込まれた日次小計は、OIInjection
プロセッサによってカウント(合計および集計)され、Analyticsデータベースに挿入されます。特定のタイプの生データの日次小計を合計したものが、そのタイプの生データのその日の総計となります。これは、完全な日次合計または集計済日次合計と呼ばれます。
注意: WebCenter SitesデータベースとAnalyticsデータベースは同期していません。そのため、Analyticsでは、一意の各オブジェクト・インプレッションに |
oirawdata: 現在の日のdata.txt
ファイル(およびメタデータ・ファイル)を格納します。data.txt
の詳細は、第3.4.2.1項「データ収集」を参照してください。
表3-1 OIProcessorの入力ロケーション
oirawdata | 説明 |
---|---|
ディレクトリ構造 |
第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
|
データ・ソース |
ローカル・ファイル・システムの Hadoopファイル・システム内の Analyticsセンサーは、10分ごとに(または Analyticsセンサーによって取得される各オブジェクト・インプレッションが、作業パッケージの1行分のデータになります。 |
作業パッケージを使用するプロセッサ |
このプロセッサ。 |
oiprocessed: このプロセッサの作業パッケージを格納します。各作業パッケージには、そのパッケージの日次小計(作業パッケージに収集された各タイプのデータの発生頻度)のデータ・ファイルが含まれます。(各作業パッケージにはメタデータ・ファイルも含まれます。)
表3-2 OIProcessorの出力ロケーション
oiprocessed | 説明 |
---|---|
ディレクトリ構造 |
第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
|
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
OIInjectionプロセッサ。 |
出力: 特定タイプのデータの完全な日次合計(最後の24時間で収集された各タイプのデータの発生頻度)。挿入ステータス・レポート。
このプロセッサは、oiprocessed
ロケーションにある作業パッケージのデータ・ファイル内の日次小計を読み取り、日次小計をカウント(集計および合計)します。結果は総計、つまり、最後の24時間で収集された各タイプのデータの完全な日次合計です。
このプロセッサは、完全な日次合計をAnalyticsデータベース内の各種の表に挿入し、oiinjected
ロケーションにステータス・レポートを作成します。(日次小計の詳細は「OIProcessor」を参照してください。)
データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。
Analyticsデータベース: このプロセッサの出力を格納します。出力は、完全な日次合計(最後の24時間で収集された各タイプのデータの発生頻度)です。
oiinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。
セッション・データ・プロセッサは、オブジェクト・インプレッションから得られたセッション・オブジェクトを分析します。
この項の内容は、次のとおりです。
出力: 最後の24時間のセッション・データに対応するセッション・オブジェクト(集計されたオブジェクト・インプレッションが個々のセッション別にグループ化され、sesdataロケーションに格納される)。
このプロセッサは、sesrawdata
ロケーションにある作業パッケージのデータ・ファイル内のオブジェクト・インプレッションを読み取ります。オブジェクト・インプレッションからセッション・データを取り出し、データを組み合せて、セッションごとにそのセッション全体に対応する1つのセッション・オブジェクトを作成します。このセッション・オブジェクトには、該当セッションに関連するすべての情報が含まれます。このように、SessionMerger
は、24時間の期間で収集されたすべてのオブジェクト・インプレッションを個々のセッション別に集計します。このプロセッサは、集計済データを(作業パッケージとして)sesdata
ロケーションに書き込みます(SessionProcessorがこれを取得します)。
sesrawdata: 現在の日のdata.txt
ファイル(およびメタデータ・ファイル)を格納します。data.txt
の詳細は、第3.4.2.1項「データ収集」を参照してください。
表3-4 SessionMergerプロセッサの入力ロケーション
sesrawdata | 説明 |
---|---|
ディレクトリ構造 |
第3.4.2.3項「生データとoiprocessedのデータのディレクトリ構造」を参照してください(暦日ごとに1つの作業パッケージが含まれます)。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
|
データ・ソース |
Analyticsセンサー。 Analyticsセンサーは、24時間ごとに新しい作業パッケージを作成します。(作業パッケージには24時間間隔で収集された生データが含まれ、これが |
作業パッケージを使用するプロセッサ |
|
sesdata: SessionMerger
プロセッサの作業パッケージを格納します。作業パッケージのデータ・ファイルには、最後の24時間のセッション・データに対応するセッション・オブジェクト(集計されたオブジェクト・インプレッションが個々のセッション別にグループ化されたもの)が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)
表3-5 SessionMergerプロセッサの出力ロケーション
sesdata | 説明 |
---|---|
ディレクトリ構造 |
第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照してください(暦日ごとに1つの作業パッケージが含まれます)。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
|
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
出力: セッション・データの完全な日次合計(最後の24時間で実行された各セッション全体にわたる各タイプのデータの発生頻度)。
このプロセッサは、sesdata
ロケーションにある作業パッケージのデータ・ファイル内のセッション・オブジェクトを読み取り、完全な日次合計を計算して、その結果を(作業パッケージとして)sesprocessed
ロケーションに書き込みます。これをSessionInjectionプロセッサが取得して処理します。
「sesdata」(「SessionMergerプロセッサの出力ロケーション」)を参照してください。
sesprocessed: このプロセッサによって作成された作業パッケージを格納します。作業パッケージのデータ・ファイルには、セッション・データの完全な日次合計(最後の24時間で実行された各セッション全体にわたる各タイプのデータの発生頻度)が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)
表3-6 SessionProcessorの出力ロケーション
sesprocessed | 説明 |
---|---|
ディレクトリ構造 |
第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照してください(暦日ごとに1つの作業パッケージが含まれます)。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
|
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
SessionInjectionプロセッサ。 |
出力: 挿入ステータス・レポート。
このプロセッサは、sesprocessed
ロケーションにある作業パッケージのデータ・ファイル内の完全な日次合計を読み取って、それをAnalyticsデータベース内の各種の表に挿入し、sesinjected
ロケーションにステータス・レポートを作成します。データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。
Analyticsデータベース: セッション・データの完全な日次合計(最後の24時間で実行された各セッション全体にわたる各タイプのデータの発生頻度)を格納します。
sesinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。
表3-7 SessionInjectionプロセッサの出力ロケーション
sesinjected | 説明 |
---|---|
ディレクトリ構造 |
第3.4.2.4項「日次作業パッケージのディレクトリ構造」を参照してください(暦日ごとに1つの作業パッケージが含まれます)。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
この作業パッケージにはデータ・ファイルは作成されません。メタデータ・ファイル |
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
該当プロセッサなし。管理者は、HDFSファイル・ブラウザを開いてメタデータ・ファイル(挿入ステータス・レポート)を表示できます。 |
ビジター・データは、サイト・ビジターのIPアドレスなどによってビジターを特定します。ビジター・データには、ビジターが属するセグメントや、そのセグメントに関連付けられた推奨などがあります。
この項の内容は、次のとおりです。
出力: 生のサイト・ビジター・データ。
このプロセッサは、sesdata
ロケーションの作業パッケージのデータ・ファイルからビジター固有のデータ(セグメントや推奨など)を読み取ります。すべてのビジターIDを保存するために、このビジター・データを(作業パッケージとして)生のフォーマットで(集計しないで)visdata
ロケーションに書き込みます。このプロセッサでは、ビジター・データの集計は行われません。これは、他のビジター・データ・プロセッサが日次、週次および月次の合計を計算する際、このデータを生の形式で使用する必要があるからです。
visdata: このプロセッサによって作成された作業パッケージを格納します。作業パッケージには生フォーマットのサイト・ビジター・データを持つデータ・ファイルが含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)
表3-8 VisitorMergerプロセッサの出力ロケーション
visdata | 説明 |
---|---|
ディレクトリ構造 |
第0項「日次作業パッケージのディレクトリ構造」を参照してください。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
|
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
VisitorWeekMergerプロセッサ。 |
出力: ビジター・データの完全な月次合計(最後の月に収集された各タイプのビジター・データの発生頻度)。
このプロセッサは、visdata
ロケーションにある作業パッケージのデータ・ファイル内の生のビジター・データを読み取り、月次合計を計算します。このプロセッサが月次合計を(作業パッケージとして)vismonthprocessed
ロケーションに書き込むと、VisitorMonthInjectionプロセッサがこれを取得して処理します。
vismonthprocessed: このプロセッサによって作成された作業パッケージを格納します。この作業パッケージのデータ・ファイルには、ビジター・データの完全な月次合計が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)
表3-9 VisitorMonthProcessorの出力ロケーション
vismonthprocessed | 説明 |
---|---|
ディレクトリ構造 |
第3.4.2.6項「月次作業パッケージのディレクトリ構造」を参照してください。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
|
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
VisitorMonthInjectionプロセッサ。 |
出力: 挿入ステータス・レポート。
このプロセッサは、vismonthprocessed
ロケーションにある作業パッケージのデータ・ファイル内の完全な月次合計を読み取って、それをAnalyticsデータベースに挿入し、vismonthinjected
ロケーションにステータス・レポートを作成します。データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。
「vismonthprocessed」 (「VisitorMonthProcessorの出力ロケーション」)を参照してください。
Analyticsデータベース: このプロセッサの入力ロケーションからのデータを格納します。
vismonthinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。
表3-10 VisitorMonthInjectionプロセッサの出力ロケーション
vismonthinjected | 説明 |
---|---|
ディレクトリ構造 |
第3.4.2.6項「月次作業パッケージのディレクトリ構造」を参照してください。 |
作業パッケージ |
|
作業パッケージのデータ・ファイル |
この作業パッケージにはデータ・ファイルは作成されません。メタデータ・ファイル |
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
該当プロセッサなし。管理者は、HDFSファイル・ブラウザを開いてメタデータ・ファイル(挿入ステータス・レポート)を表示できます。 |
出力: ビジター・データの完全な日次合計(最後の24時間で収集された各タイプのビジター・データの発生頻度)。
このプロセッサは、visdata
ロケーションにある作業パッケージのデータ・ファイル内の生のビジター・データを読み取ります。その後、完全な日次合計を計算し、それを(作業パッケージとして)visprocessed
ロケーションに書き込みます。これをVisitorInjectionプロセッサが取得して処理します。
visprocessed: このプロセッサによって作成された作業パッケージを格納します。この作業パッケージのデータ・ファイルには、ビジター・データの完全な日次合計が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)
表3-11 VisitorProcessorの出力ロケーション
visprocessed | 説明 |
---|---|
ディレクトリ構造 |
|
作業パッケージ |
|
作業パッケージのデータ・ファイル |
|
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
VisitorInjectionプロセッサ。 |
出力: 挿入ステータス・レポート。
このプロセッサは、visprocessed
ロケーションにある作業パッケージのデータ・ファイル内の完全な日次合計を読み取って、それをAnalyticsデータベース内の各種の表に挿入し、visinjected
ロケーションにステータス・レポートを作成します。データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。
Analyticsデータベース: このプロセッサの入力ロケーションからのデータを格納します。
visinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。
出力: visdataロケーションから週次フォルダにマージされた生のサイト・ビジター・データ。
このプロセッサは、visdata
ロケーションにある作業パッケージのデータ・ファイル内の生のビジター・データを読み取ります。このプロセッサは、生のサイト・ビジター・データを適切なISO週ディレクトリ(のプロセッサの作業パッケージに)マージします。このプロセッサではデータは変更されません。その後、作業パッケージをvisweekdata
ロケーションに書き込みます。
visweekdata: このプロセッサによって作成された作業パッケージを格納します。作業パッケージのデータ・ファイルには、(visdataロケーションから)週次ディレクトリにマージされた生のサイト・ビジター・データが含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)
出力: サイト・ビジター・データの完全な週次合計(最後の週に収集された各タイプのビジター・データの発生頻度)。
このプロセッサは、visweekdata
ロケーションにある作業パッケージのデータ・ファイル内の週次の生データを読み取ります。週次合計を計算し、それを(作業パッケージとして)visweekprocessed
ロケーションに書き込みます。
「visweekdata」(「VisitorWeekMergerプロセッサの出力ロケーション」)を参照してください。
visweekprocessed: このプロセッサによって作成された作業パッケージを格納します。作業パッケージのデータ・ファイルには、サイト・ビジター・データの週次合計(最後の週に収集された各タイプのサイト・ビジター・データの発生頻度)が含まれます。(作業パッケージのメタデータ・ファイルには、データ処理のステータス・レポートが含まれます。)
表3-14 VisitorWeekProcessorの出力ロケーション
visweekprocessed | 説明 |
---|---|
ディレクトリ構造 |
|
作業パッケージ |
注意: 週が新年をまたぐ場合、作業パッケージには、その年の最後の週のビジター・データとともに、新しい年のビジター・データも含まれます。 |
作業パッケージのデータ・ファイル |
|
データ・ソース |
このプロセッサ。 |
作業パッケージを使用するプロセッサ |
VisitorWeekInjectionプロセッサ。 |
出力: 挿入ステータス・レポート。
このプロセッサは、visweekprocessed
ロケーションにある作業パッケージのデータ・ファイル内の週次合計を読み取って、それをAnalyticsデータベースに挿入し、visweekinjected
ロケーションにステータス・レポートを作成します。データベースに挿入されたデータは、Analyticsのユーザーが生成するレポートに取り込まれます。
このプロセッサの入力ロケーションからのデータを格納します。
Analyticsデータベース: このプロセッサの入力ロケーションからのデータを格納します。
visweekinjected: このプロセッサによって作成された作業パッケージを格納します。作業パッケージにデータ・ファイルは含まれません。含まれているのは、挿入処理のステータスを示すメタデータ・ファイルのみです。