Sun Java ロゴ     前へ      目次      索引      次へ     

Sun ロゴ
Sun Java System Portal Server 6 2005Q4 管理ガイド 

第 15 章
定義済みのロボットアプリケーション関数

この章では、Sun JavaTM System Portal Server の検索エンジンで定義済みのロボットアプリケーション関数 (RAF) について説明し、パラメータ仕様および例を紹介します。これらの関数を filter.conf ファイルで使用し、フィルタ定義を作成および変更できます。ファイル filter.conf は、ディレクトリ /var/opt/SUNWps/http-hostname-domain/portal/config に配置されています。

ファイル filter.conf には、列挙フィルタおよび生成フィルタの定義が含まれます。これらの各フィルタは、filterrules.conf ファイルに格納されているルールセットを呼び出します。フィルタルールには両方のフィルタで使用するルールが含まれますが、フィルタ定義にはフィルタ固有の命令が含まれます。

フィルタルールの定義方法を理解するためには、ファイル filterrules.conf を調べます。通常は、管理コンソールを使用してフィルタルールを作成するため、このファイルを直接編集する必要はありません。

フィルタ定義の例を見るには、ファイル filter.conf を調べる必要があります。フィルタのためにリソースを生成しないでリソースを列挙するようロボットに指示するなど、管理コンソールに適応しない方法でフィルタを変更する場合、編集する必要があるのは filter.conf ファイルだけです。

この章で説明する内容は次のとおりです。


ソースとデスティネーション

ほとんどのロボットアプリケーション関数 (RAF) は情報のソースを必要とし、デスティネーションに送信するデータを生成します。ソースはロボット内で定義され、最終的に生成されるリソース記述のフィールドに関連している必要はありません。一方、デスティネーションは通常、リソース記述サーバーのスキーマによって定義されるリソース記述のフィールド名になります。

データベーススキーマを指定するために管理コンソールを使用する詳細については、第 13 章「検索エンジンサービスの管理」を参照してください。

次の節では、フィルタリングプロセスの各段階と、それらの段階で使用できるソースについて説明します。

セットアップ段階で使用可能なソース

セットアップ段階では、フィルタが設定されますが、リソースの URL またはコンテンツについての情報は取得できません。

メタデータフィルタリング段階で使用可能なソース

メタデータ段階ではロボットはリソースの URL を取得しますが、リソースのコンテンツはダウンロードされていないため filter.conf ファイルなどのほかのソースから導出されるデータと、URL についての情報が使用可能です。ただし、この段階では、リソースのコンテンツについての情報は使用できません。

表 15-1 は、メタデータ段階で RAF で使用できるソースを示しています。この表では 2 つの列があります。最初の列はソース、2 番目の列は説明、3 番目の列は例を示します。

表 15-1 メタデータ段階で RAF で使用できるソース 

ソース

説明

csid

カタログサーバー ID

x-catalog//budgie.siroe.com:8086/alexandria

depth

開始点からトラバースされたリンク数

10

enumeration filter

列挙フィルタの名前

enumeration1

generation filter

生成フィルタの名前

generation1

host

URL のホスト部分

home.siroe.com

IP

ホストの数値バージョン

198.95.249.6

protocol

URL のアクセス部分

http、https、ftp、file

path

URL のパス部分

/、/index.html、/documents/listing.html

URL

完全な URL

http://developer.siroe.com/docs/manuals/

データ段階で使用可能なソース

データ段階では、ロボットがその URL のリソースのコンテンツをダウンロードしているので、記述、作成者などのコンテンツに関するデータにアクセスできます。

リソースが HTML ファイルである場合、ロボットは HTML ヘッダーの <META> タグをパースします。したがって、<META> タグに含まれるデータは、データ段階で使用可能です。

データ段階では、メタデータ段階で使用可能なソースのほかに、次のソースを RAF で使用できます。この表では 2 つの列があります。最初の列はソース、2 番目の列は説明、3 番目の列は例を示します。

表 15-2 データ段階で RAF で使用できるソース 

ソース

説明

content-charset

リソースが使用する文字セット

 

content-encoding

エンコードの形式

 

content-length

リソースのバイト単位のサイズ

 

content-type

リソースの MIME タイプ

text/html、image/jpeg

expires

リソースが期限切れになる日付

 

last-modified

リソースの最終更新日

 

<META> タグ内のデータ

HTML リソースのヘッダーの <META> タグで提供されるデータ

作成者
記述
キーワード

これらのすべてのソース (<META> タグのデータを除く) は、リソースの取得時に返される HTTP 応答ヘッダーから導出されます。

列挙、生成、およびシャットダウン段階で使用可能なソース

列挙および生成の段階では、データ段階と同じデータソースが使用可能です。

シャットダウン段階では、フィルタはフィルタリングを完了し、シャットダウンします。この段階用に書き込まれた関数は、データ段階で使用可能なソースと同じデータソースを使用できますが、シャットダウン関数の動作は通常、状況の終了およびクリーンアップに制限されます。

有効化パラメータ

各関数には enable パラメータがあります。値には、truefalseon、または off を指定できます。管理コンソールは、これらのパラメータを使用して特定のディレクティブを有効または無効にします。

次の例は text/html の列挙を有効にし、text/plain の列挙を無効にします。

#  Perform the enumeration on HTML only

Enumerate enable=true fn=enumerate-urls max=1024 type=text/html

Enumerate enable=false fn=enumerate-urls-from-text max=1024 type=text/plain

enable=false パラメータまたは enable=off パラメータの追加は、行をコメントアウトするのと同じ効果があります。管理インタフェースは、コメントを書き込みませんが、代わりに enable パラメータを書き込みます。


セットアップ関数

ここでは、列挙および生成フィルタの両方によってセットアップ段階中に使用される関数について説明します。次の関数について説明します。

filterrules-setup

filterrules-setup 関数を使用する場合、logtype は使用するログファイルのタイプになります。値には verbosenormal、または terse を指定できます。

パラメータ

表 15-3 は、filterrules-setup 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-3 filterrules-setup パラメータ

パラメータ

説明

config

このフィルタが使用するフィルタルールを含むファイルのパス名。

Setup fn=filterrules-setup config=./config/filterrules.conf logtype=normal

setup-regex-cache

setup-regex-cache 関数は、filter-by-regex および generate-by-regex 関数のキャッシュサイズを初期化します。デフォルト値である 32 以外の数値を指定するときは、この関数を使用します。

パラメータ

表 15-4 は、setup-regex-cache 関数で使用されるパラメータを示しています。この表では 2 つの列があります。最初の列はパラメータ、2 番目の列は説明を示します。

表 15-4 setup-regex-cache パラメータ

パラメータ

説明

cache-size

regex キャッシュに保持されるコンパイル済み正規表現の最大数。

Setup fn=setup-regex-cache cache-size=28

setup-type-by-extension

setup-type-by-extension 関数はファイル名の拡張子を認識するようにフィルタを設定します。この関数を呼び出してから、assign-type-by-extension 関数を使用します。パラメータとして指定されたファイルは、標準の MIME コンテンツタイプとファイル拡張子の文字列の間のマッピングを含む必要があります。

パラメータ

表 15-5 は、setup-type-by-extension 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-5 setup-type-by-extension パラメータ

パラメータ

説明

ファイル

MIME タイプ設定ファイルの名前。

Setup fn=setup-type-by-extension file=./config/mime.types


フィルタリング関数

次の関数はメタデータおよびデータの段階で動作し、関数およびそのパラメータによって指定された特定の条件に基づいて、リソースを許可または拒否します。

これらの関数は、filter.conf ファイルの列挙フィルタおよび生成フィルタの両方で使用できます。

これらの各「filter-by」関数は比較を行い、リソースを許可または拒否します。リソースが許可されると、処理が次のフィルタリング段階へ進みます。リソースが拒否されると、リソースが列挙または生成を継続する条件を満たしていないという理由で処理が停止します。

ここでは、次の関数について説明します。

filter-by-exact

filter-by-exact 関数は、allow/deny 文字列が情報のソースに完全に一致する場合、リソースを許可または拒否します。キーワード all は任意の文字列と一致します。

パラメータ

表 15-6 は、filter-by-exact 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-6 filter-by-exact パラメータ

パラメータ

説明

src

情報のソース。

allow/deny

文字列を含みます。

次の例は、content-type が text/plain のリソースすべてをフィルタして取り除きます。これにより、ほかのすべてのリソースの処理が続行されます。

Data fn=filter-by-exact src=type deny=text/plain

filter-by-max

filter-by-max 関数では、指定された情報ソースが指定値以下の場合にリソースが許可されます。情報ソースが指定された値よりも大きい場合は、リソースは拒否されます。

この関数は、1 つのフィルタについて 1 回しか呼び出すことができません。

パラメータ

表 15-7 は、filter-by-max 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-7 filter-by-max パラメータ

パラメータ

説明

src

情報のソース。hosts、objects、または depth のどれかの値を指定する必要があります。

value

比較のための値を指定します。

この例は、content-length が 1024K バイトより小さいリソースを許可します。

MetaData fn-filter-by-max src=content-length value=1024

filter-by-md5

filter-by-md5 関数は、指定の MD5 チェックサム値を持つ最初のリソースだけを許可します。このロボットによって、現在のリソースの MD5 が以前のリソースで検出された場合、現在のリソースは拒否されます。これにより、複数の URL を持つ同一のリソースまたは単一のリソースの重複を防ぎます。

この関数は、データ段階またはそれ以降の段階でだけ呼び出すことができます。この関数は、1 つのフィルタについて 1 回しか呼び出すことができません。フィルタは generate-md5 関数を呼び出し、filter-by-md5 を呼び出す前に MD5 チェックサムを生成する必要があります。

パラメータ

なし

次の例は、MD5 チェックサムを処理する一般的な方法を示します。最初にチェックサムを生成し、そのチェックサムに基づいてフィルタリングします。

Data fn=generate-md5

Data fn=filter-by-md5

filter-by-prefix

filter-by-prefix 関数は、指定の情報ソースが指定されたプレフィックス文字列で開始する場合、リソースを許可または拒否します。リソースは、完全に一致する必要はありません。キーワード all は任意の文字列と一致します。

パラメータ

表 15-8 は、filter-by-prefix 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-8 filter-by-prefix パラメータ

パラメータ

説明

src

情報のソース。

allow/deny

プレフィックス比較の文字列を含みます。

次の例は、content-type が text/htmltext/plain など、任意の種類のテキストであるリソースを許可します。

MetaData fn=filter-by-prefix src=type allow=text

filter-by-regex

filter-by-regex 関数は、正規表現によるパターンマッチングをサポートします。この関数は、指定の正規表現に一致するリソースを許可します。使用可能な正規表現構文は、POSIX.1 仕様によって定義されます。¥¥* の正規表現は、任意の文字に一致します。

パラメータ

表 15-9 は、filter-by-regex 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-9 filter-by-regex パラメータ

パラメータ

説明

src

情報のソース。

allow/deny

正規表現の文字列を含みます。

次の例は、政府 (gov) ドメインのサイトからのすべてのリソースを拒否します。

MetaData fn=filter-by-regex src=host deny=¥¥*.gov

filterrules-process

filterrules-process 関数は、filterrules.conf ファイルのルールで処理します。

パラメータ

なし

MetaData fn=filterrules-process


サポート関数のフィルタリング

次の関数は、リソース上で情報を操作または生成するため、フィルタリング中に使用されます。ロボットは、フィルタリング関数を呼び出すことによって、リソースを処理することができます。これらの関数は、ファイル filter.conf の列挙および生成のフィルタで使用することができます。次の関数について説明します。

assign-source

assign-source 関数は、指定した情報ソースに新規の値を割り当てます。これにより、フィルタリング処理中の編集が可能になります。この関数は、明示的な新規値を割り当てるか、または、別の情報ソースから値をコピーすることができます。

パラメータ

表 15-10 は、assign-source 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-10 assign-source パラメータ

パラメータ

説明

dst

値を変更するソースの名前。

value

明示的な値を指定。

src

dst にコピーする情報ソース。

value パラメータまたは src パラメータのどちらかを指定する必要がありますが、両方は指定しません。

Data fn=assign-source dst=type src=content-type

assign-type-by-extension

assign-type-by-extension 関数は、リソースのファイル名を使用してタイプを決定し、処理を継続するリソースにこのタイプを割り当てます。

assign-type-by-extension を使用可能にするには、セットアップ中に setup-type-by-extension 関数を呼び出す必要があります。

パラメータ

表 15-11 は、assign-type-by-extension 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-11 assign-type-by-extension パラメータ

パラメータ

説明

src

比較するファイル名のソース。ソースを指定しない場合、デフォルトではリソースのパスになります。

MetaData fn=assign-type-by-extension

clear-source

clear-source 関数は、指定されたデータソースを削除します。通常は、この関数を実行する必要はありません。assign-source を使用することにより、ソースを作成および置換することができます。

パラメータ

表 15-12 は、clear-source 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-12 clear-source パラメータ

パラメータ

説明

src

削除するソースの名前。

次の例は、パスのソースを削除します。

MetaData fn=clear-source src=path

convert-to-html

convert-to-html 関数は、リソースのタイプが指定の MIME タイプと一致する場合、現在のリソースを HTML ファイルに変換して処理を継続します。変換フィルタは、変換中のファイルのタイプを自動的に検出します。

パラメータ

表 15-13 は、convert-to-html 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-13 convert-to-html パラメータ

パラメータ

説明

type

変換を行う MIME タイプ。

次の関数呼び出しのシーケンスにより、フィルタは、すべての Adobe Acrobat PDF ファイル、Microsoft RTF ファイル、および FrameMaker MIF ファイル、およびファイルを配信するサーバーによってタイプが指定されていないファイルを HTML に変換します。

Data fn=convert-to-html type=application/pdf

Data fn=convert-to-html type=application/rtf

Data fn=convert-to-html type=application/x-mif

Data fn=convert-to-html type=unknown

copy-attribute

copy-attribute 関数は、リソース記述の 1 つのフィールドからの値を別のフィールドにコピーします。

パラメータ

表 15-14 は、copy-attribute 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-14 copy-attribute パラメータ

パラメータ

説明

src

コピー元のリソース記述のフィールド。

dst

ソースのコピー先のリソース記述の項目。

truncate

コピーするソースの最大長。

clean

省略されたテキストを修正するかどうか (分割された単語を修正するかどうかなど) を示す論理値パラメータ。デフォルトでは、このパラメータは false に設定されています。

Generate fn=copy-attribute ¥

 src=partial-text dst=description truncate=200 clean=true

generate-by-exact

generate-by-exact 関数は、既存のソースが別の値と完全に一致する場合にかぎり、指定された値を持つソースを生成します。

パラメータ

表 15-15 は、generate-by-exact 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-15 generate-by-exact パラメータ

パラメータ

説明

dst

生成するソースの名前。

value

dst に割り当てる値。

src

比較対象のソース。

次の例は、ホストが www.siroe.com の場合に、分類を Siroe に設定します。

Generate fn="generate-by-exact" match="www.siroe.com:80" src="host" value="Siroe" dst="classification"

generate-by-prefix

この generate-by-prefix 関数は、既存のソースのプレフィックスが別の値と一致する場合にかぎり、指定された値を持つソースを生成します。

パラメータ

表 15-16 は、generate-by-prefix 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-16 generate-by-prefix パラメータ

パラメータ

説明

dst

生成するソースの名前。

value

dst に割り当てる値。

src

比較対象のソース。

match

src と比較する値。

次の例は、プロトコルプレフィックスが HTTP の場合、分類を World Wide Web に設定します。

Generate fn="generate-by-prefix" match="http" src="protocol" value="World Wide Web" dst="classification"

generate-by-regex

generate-by-regex 関数は、既存のソースが正規表現に一致する場合にかぎり、指定した値を持つソースを生成します。

パラメータ

表 15-17 は、generate-by-regex 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-17 generate-by-regex パラメータ

パラメータ

説明

dst

生成するソースの名前。

value

dst に割り当てる値。

src

比較対象のソース。

match

src と比較する正規表現の文字列。

次の例は、ホスト名が正規表現 *.siroe.com に一致する場合に、分類を Siroe に設定します。たとえば、developer.siroe.com および home.siroe.com の両方にあるリソースは、Siroe として分類されます。

Generate fn="generate-by-regex" match="¥¥*.siroe.com" src="host" value="Siroe" dst="classification"

generate-md5

generate-md5 関数は、MD5 チェックサムを生成し、リソースに追加します。これにより、filter-by-md5 関数を使用して、重複する MD5 チェックサムを持つリソースを拒否することができます。

パラメータ

なし

Data fn=generate-md5

generate-rd-expires

generate-rd-expires 関数は、有効期限を生成して、指定されたソースに追加します。この関数は、HTTP ヘッダーおよび HTML <META> タグなどのメタデータを使用し、リソースから任意の有効期限を取得します。有効期限が存在しない場合は、現在の日付から 3 ヶ月間の有効期限を生成します。

パラメータ

表 15-18 は、generate-rd-expires 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-18 generate-rd-expires パラメータ

パラメータ

説明

dst

ソースの名前。指定を省略した場合、デフォルトは rd-expires となります。

Generate fn=generate-rd-expires

generate-rd-last-modified

generate-rd-last-modified 関数は、現在の時間を指定されたソースに追加します。

パラメータ

表 15-19 は、generate-rd-last-modified 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-19 generate-rd-last-modified パラメータ

パラメータ

説明

dst

ソースの名前。指定を省略した場合、デフォルトは rd-last-modified となります。

Generate fn=generate-last-modified

rename-attribute

rename-attribute 関数は、リソース記述のフィールドの名前を変更します。たとえば、extract-html-meta<META> タグからフィールドに情報をコピーし、そのフィールドの名前を変更する場合にとても便利です。

パラメータ

表 15-20 は、generate-rd-last-modified 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-20 generate-rd-last-modified パラメータ

パラメータ

説明

src

1 つの名前から別の名前へのマッピングを含む文字列。

次の例は、属性の名前を author から author-name に変更します。

Generate fn=rename-attribute src="author->author-name"


列挙関数

次の関数は、列挙段階で動作します。これらの関数は、ロボットが指定のリソースからリンクを収集するかどうか、およびその方法を制御し、リソースの発見を継続する開始点として使用します。ここでは、次の関数について説明します。

enumerate-urls

enumerate-urls 関数はリソースをスキャンし、ハイパーテキストリンクで検出されるすべての URL を列挙します。結果を使用して、リソース発見を継続します。コンテンツタイプを指定し、列挙される URL の種類を制限することができます。

パラメータ

表 15-21 は、enumerate-urls 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-21 enumerate-urls パラメータ

パラメータ

説明

max

指定のリソースから生成する URL の最大数。指定を省略した場合、デフォルトは 1024 となります。

type

指定したコンテンツタイプの URL に列挙を制限するコンテンツタイプ。type は、オプションのパラメータです。指定を省略した場合、すべての URL が列挙されます。

次の例は、HTML URL だけを、最大値 1024 まで列挙します。

Enumerate fn=enumerate-urls type=text/html

enumerate-urls-from-text

enumerate-urls-from-text 関数はテキストリソースをスキャンし、正規表現 URL:.* に一致する文字列を検索します。これはロボットを生成し、これらの文字列から URL を列挙し、さらにリソース記述を生成します。

パラメータ

表 15-22 は、enumerate-urls-from-text 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-22 enumerate-urls-from-text パラメータ

パラメータ

説明

max

指定のリソースから生成する URL の最大数。指定を省略した場合、デフォルトは 1024 となります。

Enumerate fn=enumerate-urls-from-text


生成関数

次の関数は、フィルタリングの生成段階で使用されます。生成関数は、リソース記述に入る情報を生成することができます。通常、リソースの本体から情報を抽出するか、リソースのメタデータから情報をコピーします。ここでは、次の関数について説明します。

extract-full-text

extract-full-text 関数は、リソースの完全なテキストを抽出して、リソース記述に追加します。


extract-full-text 関数の使用には注意が必要です。リソース記述のサイズを非常に大きくすることができるため、データベースが膨大化したり、ネットワーク帯域幅に全体的な悪影響を及ぼしたりする可能性があります。


パラメータ

表 15-23 は、extract-full-text 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-23 extract-full-text パラメータ

パラメータ

説明

truncate

リソースから抽出する文字の最大数。

dst

完全なテキストを受信するスキーマ項目の名前。

Generate fn=extract-full-text

extract-html-meta

extract-html-meta 関数は、HTML ファイルから任意の <META> または <TITLE> 情報を抽出し、リソース記述に追加します。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。

パラメータ

表 15-24 は、extract-html-meta 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-24 extract-html-meta パラメータ

パラメータ

説明

truncate

抽出する最大バイト数。

type

省略可能なパラメータ。指定を省略した場合は、すべての URL が生成されます。

Generate fn=extract-html-meta truncate=255 type=text/html

extract-html-text

extract-html-text 関数は、HTML タグを除いた、テキストの最初の数文字を HTML ファイルから抽出し、そのテキストをリソース記述に追加します。これにより、ドキュメントのテキストの最初の部分を RD に含むことができます。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。

パラメータ

表 15-25 は、extract-html-text 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-25 extract-html-text パラメータ

パラメータ

説明

truncate

抽出する最大バイト数。

skip-headings

true に設定すると、ドキュメント内で発生する任意の HTML ヘッダーは無視されます。

type

省略可能なパラメータ。指定を省略した場合は、すべての URL が生成されます。

Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true

extract-html-toc

extract-html-toc 関数は、HTML ヘッダーから table-of-contents を抽出し、リソース記述に追加します。

パラメータ

表 15-26 は、extract-html-toc 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-26 extract-html-toc パラメータ

パラメータ

説明

truncate

抽出する最大バイト数。

level

抽出する HTML ヘッダーの最大レベル。このパラメータは、目次の深さを制御します。

Generate fn=extract-html-toc truncate=255 level=3

extract-source

extract-source 関数は、指定のソースから特定の値を抽出し、リソース記述に追加します。

パラメータ

表 15-27 は、extract-source 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-27 extract-source パラメータ

パラメータ

説明

src

ソース名のリスト。-> 演算子を使用し、RD 属性の新規名を定義できます。たとえば、type->content-typetype という名前のソースの値を取得し、content-type という名前の属性で RD に保存されます。

Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"

harvest-summarizer

harvest-summarizer 関数は、リソース上で Harvest サマライザを実行し、結果をリソース記述に追加します。

Harvest サマライザを実行するには、ロボットを実行する前に、path$HARVEST_HOME/lib/gatherer を設定する必要があります。

パラメータ

表 15-28 は、harvest-summarizer 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-28 harvest-summarizer パラメータ

パラメータ

説明

summarizer

サマライザプログラムの名前。

Generate fn-harvest-summarizer summarizer=HTML.sum


シャットダウン関数

次の関数は、列挙および生成の両関数によってシャットダウン段階中に使用できます。

filterrules-shutdown

ルールが実行されたあと、filterrules-shutdown 関数はクリーンアップおよびシャットダウンを実行します。

パラメータ

なし

Shutdown fn=filterrules-shutdown



前へ      目次      索引      次へ     


Copyright 2005 Sun Microsystems, Inc. All rights reserved.