Sun Java System Portal Server 7.2 管理ガイド

生成関数

生成関数は、フィルタリングの生成段階で使用されます。生成関数は、リソース記述に入る情報を作成することができます。通常、リソースの本体から情報を抽出するか、リソースのメタデータから情報をコピーします。

extract-full-text

extract-full-text 関数は、リソースの完全なテキストを抽出して、リソース記述に追加します。


注 –

extract-full-text 関数の使用には注意が必要です。リソース記述のサイズを非常に大きくすることができるため、データベースが膨大化したり、ネットワーク帯域幅全体に悪影響を及ぼしたりする可能性があります。


Generate fn=extract-full-text

プロパティー

truncate

リソースから抽出する文字の最大数。

dst

完全なテキストを受信するスキーマ項目の名前。

extract-html-meta

extract-html-meta 関数は、HTML ファイルから任意の <META> または <TITLE> 情報を抽出し、リソース記述に追加します。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。

プロパティー

truncate

抽出する最大バイト数。

type

省略可能なプロパティー。指定を省略した場合は、すべての URL が生成されます。

Generate fn=extract-html-meta truncate=255 type=text/html

extract-html-text

extract-html-text 関数は、HTML タグを除いた、テキストの最初の数文字を HTML ファイルから抽出し、そのテキストをリソース記述に追加します。この関数により、ドキュメントのテキストの最初の部分を RD に含むことができます。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。

プロパティー

truncate

抽出する最大バイト数。

skip-headings

true に設定すると、ドキュメント内で発生する任意の HTML ヘッダーは無視されます。

type

省略可能なプロパティー。指定を省略した場合は、すべての URL が生成されます。

Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true

extract-html-toc

extract-html-toc 関数は、HTML ヘッダーから目次を抽出し、リソース記述に追加します。

プロパティー

truncate

抽出する最大バイト数。

level

抽出する HTML ヘッダーの最大レベル。このプロパティーは、目次の深さを制御します。

Generate fn=extract-html-toc truncate=255 level=3

extract-source

extract-source 関数は、指定のソースから特定の値を抽出し、リソース記述に追加します。

プロパティー

src

ソース名のリスト。-> 演算子を使用し、RD 属性の新規名を定義できます。たとえば、type->content-type type という名前のソースの値を取得し、content-type という名前の属性で RD に保存されます。

Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"

harvest-summarizer

harvest-summarizer 関数は、リソース上で Harvest サマライザを実行し、結果をリソース記述に追加します。

Harvest サマライザを実行するには、ロボットを実行する前に、path$HARVEST_HOME/lib/gatherer を設定する必要があります。

プロパティー

summarizer

サマライザプログラムの名前。

Generate fn-harvest-summarizer summarizer=HTML.sum