Sun Java System Portal Server 7.2 管理ガイド

生成関数

生成関数は、フィルタリングの生成段階で使用されます。生成関数は、リソース記述に入る情報を作成することができます。通常、リソースの本体から情報を抽出するか、リソースのメタデータから情報をコピーします。

`extract-full-text`

extract-full-text 関数は、リソースの完全なテキストを抽出して、リソース記述に追加します。

注 –

extract-full-text 関数の使用には注意が必要です。リソース記述のサイズを非常に大きくすることができるため、データベースが膨大化したり、ネットワーク帯域幅全体に悪影響を及ぼしたりする可能性があります。

例

Generate fn=extract-full-text

プロパティー

truncate: リソースから抽出する文字の最大数。
dst: 完全なテキストを受信するスキーマ項目の名前。

`extract-html-meta`

extract-html-meta 関数は、HTML ファイルから任意の <META> または <TITLE> 情報を抽出し、リソース記述に追加します。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。

プロパティー

truncate: 抽出する最大バイト数。
type: 省略可能なプロパティー。指定を省略した場合は、すべての URL が生成されます。

例

Generate fn=extract-html-meta truncate=255 type=text/html

`extract-html-text`

extract-html-text 関数は、HTML タグを除いた、テキストの最初の数文字を HTML ファイルから抽出し、そのテキストをリソース記述に追加します。この関数により、ドキュメントのテキストの最初の部分を RD に含むことができます。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。

プロパティー

truncate: 抽出する最大バイト数。
skip-headings: true に設定すると、ドキュメント内で発生する任意の HTML ヘッダーは無視されます。
type: 省略可能なプロパティー。指定を省略した場合は、すべての URL が生成されます。

例

Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true

`extract-html-toc`

extract-html-toc 関数は、HTML ヘッダーから目次を抽出し、リソース記述に追加します。

プロパティー

truncate: 抽出する最大バイト数。
level: 抽出する HTML ヘッダーの最大レベル。このプロパティーは、目次の深さを制御します。

例

Generate fn=extract-html-toc truncate=255 level=3

`extract-source`

extract-source 関数は、指定のソースから特定の値を抽出し、リソース記述に追加します。

プロパティー

src: ソース名のリスト。-> 演算子を使用し、RD 属性の新規名を定義できます。たとえば、type->content-type は type という名前のソースの値を取得し、content-type という名前の属性で RD に保存されます。

例

Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"

`harvest-summarizer`

harvest-summarizer 関数は、リソース上で Harvest サマライザを実行し、結果をリソース記述に追加します。

Harvest サマライザを実行するには、ロボットを実行する前に、path に $HARVEST_HOME/lib/gatherer を設定する必要があります。

プロパティー

summarizer: サマライザプログラムの名前。

例

Generate fn-harvest-summarizer summarizer=HTML.sum