ワークスペース・ディレクトリと出力ファイルについて

このトピックでは、ファイルの出力設定について説明します。デフォルトでは、Webクロールの出力ファイルを格納するには、ワークスペース・ディレクトリを使用します。レコードの格納設定の詳細は、Integrator Acquisition System開発者ガイドを参照してください。

ワークスペース・ディレクトリ

クロールを実行する場合は、(-wフラグのパスを使用して)明示的またはdefault.xml構成ファイルのoutput.file.directoryプロパティを使用して暗黙的にワークスペース・ディレクトリを指定します。-wフラグは、値が異なる場合、output.file.directoryプロパティの設定をオーバーライドします。

ワークスペース・ディレクトリにはデフォルトで次のサブディレクトリがあります。
  • output: クロール出力ファイルのデフォルトの場所。
  • state/web: クロール履歴データベースの場所。
  • logs: ログ・ファイル(クロール・データベースのderby.logなど)の場所。

同時クロールを実行している場合は、各クロールに固有のワークスペース・ディレクトリが必要です。

レコードの出力ファイル

クロールの出力ファイル名は、default.xml構成ファイルのoutput.file.nameプロパティで設定されます(この構成ファイルはsite.xmlファイルでオーバーライドできます)。デフォルト名がendecaOutの場合、出力ファイルの完全名は構成設定によって次のように異なります。
  • 圧縮済バイナリ・ファイル(デフォルト)の場合は、endecaOut-sgmt000.bin.gzという名前になります。2つ以上の出力ファイルが生成されると、2つ目のファイルはendecaOut-sgmt001.bin.gzとなり、これ以降も同様になります。
  • 非圧縮バイナリ・ファイルの場合は、最初のファイル名はendecaOut-sgmt000.bin、2つ目のファイル名はendecaOut-sgmt001.binとなり、これ以降も同様になります。
  • XMLファイルの場合は、endecaOut.xml.gz (圧縮が指定された場合)またはendecaOut.xml (圧縮が無効の場合)という名前になります。バイナリ形式とは異なり、XMLファイルの出力はそのサイズに関係なく1つのみです。

ファイル形式はoutput.file.is-xmlプロパティで設定されますが、output.file.is-compressedプロパティは圧縮を有効または無効にします。

アーカイブ済の出力ファイル

任意のワークスペース・ディレクトリで初めてクロールを実行する場合は、前の項で説明したように出力ファイルに名前が付けられます。たとえば、完全クロールを実行する場合、出力ファイル名はendecaOut-sgmt000.bin.gzとなります。2回目のクロール(完全または再開可能)を実行する場合、Web Crawlerは次のように動作します。
  1. archiveという名前のディレクトリがoutputディレクトリの下に作成されます。
  2. 元のendecaOut-sgmt000.bin.gzファイルはarchiveディレクトリに移動され、タイムスタンプを名前に追加することで次のように名前が変更されます。
    endecaOut-20091015173554-sgmt000.bin.gz
  3. 2回目の実行の出力ファイルにはendecaOut-sgmt000.bin.gzという名前が付けられ、outputディレクトリに格納されます。
  4. 同じワークスペース・ディレクトリを使用したその後のすべてのクロールに対して、ステップ2およびステップ3が繰り返されます。
名前の変更に使用されるタイムスタンプ書式は次のとおりです。
YYYYMMDDHHmmSS
ここで、
  • YYYYは、4桁で表される年です(2009など)。
  • MMは、数値(01-12)で表される月です(10月は10など)。
  • DDは、日を表します((10月15日の場合は)15など)。
  • HHは、24時間(00-23)で表される時間です((午後5時の場合は)17など)。
  • mmは、分(00-59)を表します。
  • SSは、秒(00-59)を表します。
タイムスタンプ書式はハードコードされ、再構成できません。