default.xmlファイル内に、出力に関するプロパティを設定します。出力ファイルを出力先として構成できます(デフォルト)。または、レコード・ストア・インスタンスに出力するように構成することもできます。
次の表に示すプロパティを使用して、クロール出力ファイルの属性(名前、場所、出力のタイプなど)を指定できます。出力ファイルのデフォルトの名前はendecaOutであり、デフォルトでは圧縮されたバイナリ・ファイルです。
プロパティ名 | 説明 |
---|---|
output.file.directory | ディレクトリ名です(デフォルトはworkspace)。出力ファイルのディレクトリを指定します。この名前は大文字と小文字が区別され、クロールを実行した場所からの相対位置となります。マルチレベル・パスを指定できます。この設定は、コマンドラインの-wフラグによってオーバーライドできます。 |
output.file.name | ファイル名です(デフォルトはwebcrawler-output)。出力ファイルのファイル名を指定します。この名前は大/小文字が区別されます。 |
output.file.is-xml | ブール値です(デフォルトはfalse)。出力タイプをXML(true)、またはバイナリ(false)のいずれにするかを指定します。クロール後にEndecaのレコードを表示して確認する場合、XMLが便利です。 |
output.file.is-compressed | ブール値です(デフォルトはtrue)。Endecaのレコードを.gzファイル形式で圧縮するかどうかを指定します。大きなファイルを保存したり、転送したりする場合は、このプロパティをtrueに設定すると便利です。 |
output.file.binary.file-size-max | 整数値です(デフォルトは-1)。バイナリ出力ファイルの最大ファイル・サイズを設定します。この最大サイズに到達すると、出力は新しいファイルに書き出されます。この値を-1に設定すると、ファイル・サイズに制限はなくなります。 |
output.dom.include | ブール値です(デフォルトはfalse)。Endecaの出力レコードにWebページのDOMを含めるかどうかを指定します。 |
output.records.properties.excludes | 出力レコードのプロパティの空白区切りリストです(デフォルトは空)。レコードから除外するプロパティを指定します。この名前は、大文字と小文字を区別せずに指定できます。ワイルドカードによる名前はサポートされないことに注意してください。 |
log.interval | 整数値(秒数)です(デフォルトは60)。この秒数が経過するたびに、クロールのそれぞれの深さのメトリック情報をログに出力します。 |
log.interval.summary | 整数値(秒数)です(デフォルトは300)。この秒数が経過するたびに、クロールの詳細な進捗情報をホスト単位にまとめて出力します。 |