生成関数は、フィルタリングの生成段階で使用されます。生成関数は、リソース記述に入る情報を作成することができます。通常、リソースの本体から情報を抽出するか、リソースのメタデータから情報をコピーします。
extract-full-text 関数は、リソースの完全なテキストを抽出して、リソース記述に追加します。
extract-full-text 関数の使用には注意が必要です。リソース記述のサイズを非常に大きくすることができるため、データベースが膨大化したり、ネットワーク帯域幅全体に悪影響を及ぼしたりする可能性があります。
Generate fn=extract-full-text
リソースから抽出する文字の最大数。
完全なテキストを受信するスキーマ項目の名前。
extract-html-meta 関数は、HTML ファイルから任意の <META> または <TITLE> 情報を抽出し、リソース記述に追加します。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。
抽出する最大バイト数。
省略可能なプロパティー。指定を省略した場合は、すべての URL が生成されます。
Generate fn=extract-html-meta truncate=255 type=text/html
extract-html-text 関数は、HTML タグを除いた、テキストの最初の数文字を HTML ファイルから抽出し、そのテキストをリソース記述に追加します。この関数により、ドキュメントのテキストの最初の部分を RD に含むことができます。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。
抽出する最大バイト数。
true に設定すると、ドキュメント内で発生する任意の HTML ヘッダーは無視されます。
省略可能なプロパティー。指定を省略した場合は、すべての URL が生成されます。
Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true
extract-html-toc 関数は、HTML ヘッダーから目次を抽出し、リソース記述に追加します。
抽出する最大バイト数。
抽出する HTML ヘッダーの最大レベル。このプロパティーは、目次の深さを制御します。
Generate fn=extract-html-toc truncate=255 level=3
extract-source 関数は、指定のソースから特定の値を抽出し、リソース記述に追加します。
ソース名のリスト。-> 演算子を使用し、RD 属性の新規名を定義できます。たとえば、type->content-type は type という名前のソースの値を取得し、content-type という名前の属性で RD に保存されます。
Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"
harvest-summarizer 関数は、リソース上で Harvest サマライザを実行し、結果をリソース記述に追加します。
Harvest サマライザを実行するには、ロボットを実行する前に、path に $HARVEST_HOME/lib/gatherer を設定する必要があります。
サマライザプログラムの名前。
Generate fn-harvest-summarizer summarizer=HTML.sum