Web Crawlerのプラグインのアクティブ化

グローバルのdefault.xmlファイルではなく、クロール固有のsite.xmlファイルを変更することをお薦めします(site.xml設定によりdefault.xmlグローバル設定がオーバーライドされるためです)。

プラグインをアクティブ化するには次の手順を使用します。

Web Crawlerのプラグインをアクティブ化するには:

  1. (IAS\workspace\conf\web-crawler\defaultにある) default.xmlを開き、plugin.includesおよびplugin.excludesプロパティを、(IAS\workspace\conf\web-crawler\polite-crawlまたはIAS\workspace\conf\web-crawler\non-polite-crawlにある)site.xmlにコピーします。
  2. 次の省略された例に示すように、プラグインIDをsite.xmlファイルのplugin.includesプロパティに追加します。
    ...
    <property>
      <name>plugin.includes</name>
      <value>filter-htmlmetatags|... | output-endeca-record</value>
      <description>
        Regular expression naming plugin directory names to include.
      </description>
    </property>
    ...
    
    注意: 値の名前(この例ではfilter-htmlmetatags)は、プラグインのplugin.xml定義ファイルで設定されたプラグインIDを参照する必要があります。
  3. 次の例で示すように、plugin.excludesプロパティの構成ファイル(default.xmlおよびsite.xml)をチェックして、プラグインIDが除外されていないことを確認します。
    ...
    <property>
      <name>plugin.excludes</name>
      <value></value>
      <description>
        Regular expression naming plugin directory names to exclude.
      </description>
    </property>
    
  4. 解析のフィルタ順をチェックします。parser.filters.order構成プロパティを使用して、解析フィルタの適用順序を指定している場合は、プロパティ値にfilter-htmlmetatagsが含まれていることを確認してください。このプロパティを使用していない場合(値が空の場合)は、プロパティをそのまま残すことができます。

新規プラグインを使用してWeb Crawlerを実行できるようになりました。