パーサーのプロパティ

default.xmlファイル内に、パーサーに関するプロパティを設定します。

Web Crawlerには、HTMLドキュメントを解析するための2つのHTMLスキャナ(NekoHTMLとTagSoup)が含まれています。次の表に記載されているプロパティを使用して、どのHTMLパーサーを使用するか、および他の解析動作を構成できます。
プロパティ名 プロパティの値
parse.plugin.file ファイル名です(デフォルトはparse-plugins.xml)。コンテンツ・タイプとパーサーの関連を定義する構成ファイルを指定します。
parser.character.encoding.default ISOコードまたは他のエンコーディングを表す値です(デフォルトはwindows-1252)。他に情報が存在しない場合に使用する文字エンコーディングを指定します。
parser.html.impl nekoまたはtagsoupです(デフォルトはneko)。どのHTMLパーサーの実装を使用するかを指定します。nekoを指定するとNekoHTMLが使用され、tagsoupを指定するとTagSoupが使用されます。
parser.html.form.use_action ブール値です(デフォルトはfalse)。trueに設定すると、HTMLパーサーはFormのaction属性からURLを収集します。
注意: この設定にすると、次回のフェッチ・サイクルで空のフォームを送信するなど、望ましくない動作を引き起こす可能性があります。

falseに設定すると、formのaction属性は無視されます。

Web Crawlerの構成にEndecaの出力レコード内のWebページを処理するためのDOMが含まれている場合、HTMLパーサーは無効なXML文字を次のように処理します。
  • NekoHTMLパーサーは、0x00-0x1Fと0x7F-0x9Fの範囲の無効なXML文字をDOMから削除します。
  • TagSoupでは無効なXML文字を適切に扱うことができるため、TagSoupパーサーはDOMから何も除去しません。

デフォルトのHTMLパーサーはNekoHTMLパーサーであることに注意してください。