第 15 章定義済みのロボットアプリケーション関数

この章では、Sun Java^TM System Portal Server の検索エンジンで定義済みのロボットアプリケーション関数 (RAF) について説明し、パラメータ仕様および例を紹介します。これらの関数を filter.conf ファイルで使用し、フィルタ定義を作成および変更できます。ファイル filter.conf は、ディレクトリ /var/opt/SUNWps/http-hostname-domain/portal/config に配置されています。

ファイル filter.conf には、列挙フィルタおよび生成フィルタの定義が含まれます。これらの各フィルタは、filterrules.conf ファイルに格納されているルールセットを呼び出します。フィルタルールには両方のフィルタで使用するルールが含まれますが、フィルタ定義にはフィルタ固有の命令が含まれます。

フィルタルールの定義方法を理解するためには、ファイル filterrules.conf を調べます。通常は、管理コンソールを使用してフィルタルールを作成するため、このファイルを直接編集する必要はありません。

フィルタ定義の例を見るには、ファイル filter.conf を調べる必要があります。フィルタのためにリソースを生成しないでリソースを列挙するようロボットに指示するなど、管理コンソールに適応しない方法でフィルタを変更する場合、編集する必要があるのは filter.conf ファイルだけです。

ソースとデスティネーション

ほとんどのロボットアプリケーション関数 (RAF) は情報のソースを必要とし、デスティネーションに送信するデータを生成します。ソースはロボット内で定義され、最終的に生成されるリソース記述のフィールドに関連している必要はありません。一方、デスティネーションは通常、リソース記述サーバーのスキーマによって定義されるリソース記述のフィールド名になります。

次の節では、フィルタリングプロセスの各段階と、それらの段階で使用できるソースについて説明します。

セットアップ段階で使用可能なソース

セットアップ段階では、フィルタが設定されますが、リソースの URL またはコンテンツについての情報は取得できません。

メタデータフィルタリング段階で使用可能なソース

メタデータ段階ではロボットはリソースの URL を取得しますが、リソースのコンテンツはダウンロードされていないため filter.conf ファイルなどのほかのソースから導出されるデータと、URL についての情報が使用可能です。ただし、この段階では、リソースのコンテンツについての情報は使用できません。

表 15-1 は、メタデータ段階で RAF で使用できるソースを示しています。この表では 2 つの列があります。最初の列はソース、2 番目の列は説明、3 番目の列は例を示します。

表 15-1 メタデータ段階で RAF で使用できるソース
ソース	説明	例
csid	カタログサーバー ID	x-catalog//budgie.siroe.com:8086/alexandria
depth	開始点からトラバースされたリンク数	10
enumeration filter	列挙フィルタの名前	enumeration1
generation filter	生成フィルタの名前	generation1
host	URL のホスト部分	home.siroe.com
IP	ホストの数値バージョン	198.95.249.6
protocol	URL のアクセス部分	http、https、ftp、file
path	URL のパス部分	/、/index.html、/documents/listing.html
URL	完全な URL	http://developer.siroe.com/docs/manuals/

データ段階で使用可能なソース

データ段階では、ロボットがその URL のリソースのコンテンツをダウンロードしているので、記述、作成者などのコンテンツに関するデータにアクセスできます。

リソースが HTML ファイルである場合、ロボットは HTML ヘッダーの <META> タグをパースします。したがって、<META> タグに含まれるデータは、データ段階で使用可能です。

データ段階では、メタデータ段階で使用可能なソースのほかに、次のソースを RAF で使用できます。この表では 2 つの列があります。最初の列はソース、2 番目の列は説明、3 番目の列は例を示します。

表 15-2 データ段階で RAF で使用できるソース
ソース	説明	例
content-charset	リソースが使用する文字セット
content-encoding	エンコードの形式
content-length	リソースのバイト単位のサイズ
content-type	リソースの MIME タイプ	text/html、image/jpeg
expires	リソースが期限切れになる日付
last-modified	リソースの最終更新日
<META> タグ内のデータ	HTML リソースのヘッダーの <META> タグで提供されるデータ	作成者記述キーワード

これらのすべてのソース (<META> タグのデータを除く) は、リソースの取得時に返される HTTP 応答ヘッダーから導出されます。

列挙、生成、およびシャットダウン段階で使用可能なソース

列挙および生成の段階では、データ段階と同じデータソースが使用可能です。

シャットダウン段階では、フィルタはフィルタリングを完了し、シャットダウンします。この段階用に書き込まれた関数は、データ段階で使用可能なソースと同じデータソースを使用できますが、シャットダウン関数の動作は通常、状況の終了およびクリーンアップに制限されます。

有効化パラメータ

各関数には enable パラメータがあります。値には、true、false、on、または off を指定できます。管理コンソールは、これらのパラメータを使用して特定のディレクティブを有効または無効にします。

次の例は text/html の列挙を有効にし、text/plain の列挙を無効にします。

enable=false パラメータまたは enable=off パラメータの追加は、行をコメントアウトするのと同じ効果があります。管理インタフェースは、コメントを書き込みませんが、代わりに enable パラメータを書き込みます。

セットアップ関数

ここでは、列挙および生成フィルタの両方によってセットアップ段階中に使用される関数について説明します。次の関数について説明します。

filterrules-setup

filterrules-setup 関数を使用する場合、logtype は使用するログファイルのタイプになります。値には verbose、normal、または terse を指定できます。

パラメータ

表 15-3 は、filterrules-setup 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

例

setup-regex-cache

表 15-3 filterrules-setup パラメータ
パラメータ	説明
config	このフィルタが使用するフィルタルールを含むファイルのパス名。

setup-regex-cache 関数は、filter-by-regex および generate-by-regex 関数のキャッシュサイズを初期化します。デフォルト値である 32 以外の数値を指定するときは、この関数を使用します。

パラメータ

表 15-4 は、setup-regex-cache 関数で使用されるパラメータを示しています。この表では 2 つの列があります。最初の列はパラメータ、2 番目の列は説明を示します。

例

setup-type-by-extension

表 15-4 setup-regex-cache パラメータ
パラメータ	説明
cache-size	regex キャッシュに保持されるコンパイル済み正規表現の最大数。

setup-type-by-extension 関数はファイル名の拡張子を認識するようにフィルタを設定します。この関数を呼び出してから、assign-type-by-extension 関数を使用します。パラメータとして指定されたファイルは、標準の MIME コンテンツタイプとファイル拡張子の文字列の間のマッピングを含む必要があります。

パラメータ

表 15-5 は、setup-type-by-extension 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

例

表 15-5 setup-type-by-extension パラメータ
パラメータ	説明
ファイル	MIME タイプ設定ファイルの名前。

フィルタリング関数

次の関数はメタデータおよびデータの段階で動作し、関数およびそのパラメータによって指定された特定の条件に基づいて、リソースを許可または拒否します。

これらの関数は、filter.conf ファイルの列挙フィルタおよび生成フィルタの両方で使用できます。

これらの各「filter-by」関数は比較を行い、リソースを許可または拒否します。リソースが許可されると、処理が次のフィルタリング段階へ進みます。リソースが拒否されると、リソースが列挙または生成を継続する条件を満たしていないという理由で処理が停止します。

filter-by-exact

filter-by-exact 関数は、allow/deny 文字列が情報のソースに完全に一致する場合、リソースを許可または拒否します。キーワード all は任意の文字列と一致します。

パラメータ

表 15-6 は、filter-by-exact 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-6 filter-by-exact パラメータ
パラメータ	説明
src	情報のソース。
allow/deny	文字列を含みます。

例

次の例は、content-type が text/plain のリソースすべてをフィルタして取り除きます。これにより、ほかのすべてのリソースの処理が続行されます。

filter-by-max

filter-by-max 関数では、指定された情報ソースが指定値以下の場合にリソースが許可されます。情報ソースが指定された値よりも大きい場合は、リソースは拒否されます。

この関数は、1 つのフィルタについて 1 回しか呼び出すことができません。

パラメータ

表 15-7 は、filter-by-max 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-7 filter-by-max パラメータ
パラメータ	説明
src	情報のソース。hosts、objects、または depth のどれかの値を指定する必要があります。
value	比較のための値を指定します。

例

この例は、content-length が 1024K バイトより小さいリソースを許可します。

filter-by-md5

filter-by-md5 関数は、指定の MD5 チェックサム値を持つ最初のリソースだけを許可します。このロボットによって、現在のリソースの MD5 が以前のリソースで検出された場合、現在のリソースは拒否されます。これにより、複数の URL を持つ同一のリソースまたは単一のリソースの重複を防ぎます。

この関数は、データ段階またはそれ以降の段階でだけ呼び出すことができます。この関数は、1 つのフィルタについて 1 回しか呼び出すことができません。フィルタは generate-md5 関数を呼び出し、filter-by-md5 を呼び出す前に MD5 チェックサムを生成する必要があります。

パラメータ

例

次の例は、MD5 チェックサムを処理する一般的な方法を示します。最初にチェックサムを生成し、そのチェックサムに基づいてフィルタリングします。

filter-by-prefix

filter-by-prefix 関数は、指定の情報ソースが指定されたプレフィックス文字列で開始する場合、リソースを許可または拒否します。リソースは、完全に一致する必要はありません。キーワード all は任意の文字列と一致します。

パラメータ

表 15-8 は、filter-by-prefix 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-8 filter-by-prefix パラメータ
パラメータ	説明
src	情報のソース。
allow/deny	プレフィックス比較の文字列を含みます。

例

次の例は、content-type が text/html や text/plain など、任意の種類のテキストであるリソースを許可します。

filter-by-regex

filter-by-regex 関数は、正規表現によるパターンマッチングをサポートします。この関数は、指定の正規表現に一致するリソースを許可します。使用可能な正規表現構文は、POSIX.1 仕様によって定義されます。¥¥* の正規表現は、任意の文字に一致します。

パラメータ

表 15-9 は、filter-by-regex 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-9 filter-by-regex パラメータ
パラメータ	説明
src	情報のソース。
allow/deny	正規表現の文字列を含みます。

例

次の例は、政府 (gov) ドメインのサイトからのすべてのリソースを拒否します。

filterrules-process

filterrules-process 関数は、filterrules.conf ファイルのルールで処理します。

パラメータ

例

サポート関数のフィルタリング

次の関数は、リソース上で情報を操作または生成するため、フィルタリング中に使用されます。ロボットは、フィルタリング関数を呼び出すことによって、リソースを処理することができます。これらの関数は、ファイル filter.conf の列挙および生成のフィルタで使用することができます。次の関数について説明します。

assign-source

assign-source 関数は、指定した情報ソースに新規の値を割り当てます。これにより、フィルタリング処理中の編集が可能になります。この関数は、明示的な新規値を割り当てるか、または、別の情報ソースから値をコピーすることができます。

パラメータ

表 15-10 は、assign-source 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-10 assign-source パラメータ
パラメータ	説明
dst	値を変更するソースの名前。
value	明示的な値を指定。
src	dst にコピーする情報ソース。

value パラメータまたは src パラメータのどちらかを指定する必要がありますが、両方は指定しません。

例

assign-type-by-extension

assign-type-by-extension 関数は、リソースのファイル名を使用してタイプを決定し、処理を継続するリソースにこのタイプを割り当てます。

assign-type-by-extension を使用可能にするには、セットアップ中に setup-type-by-extension 関数を呼び出す必要があります。

パラメータ

表 15-11 は、assign-type-by-extension 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-11 assign-type-by-extension パラメータ
パラメータ	説明
src	比較するファイル名のソース。ソースを指定しない場合、デフォルトではリソースのパスになります。

例

clear-source

clear-source 関数は、指定されたデータソースを削除します。通常は、この関数を実行する必要はありません。assign-source を使用することにより、ソースを作成および置換することができます。

パラメータ

表 15-12 は、clear-source 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

例

convert-to-html

convert-to-html 関数は、リソースのタイプが指定の MIME タイプと一致する場合、現在のリソースを HTML ファイルに変換して処理を継続します。変換フィルタは、変換中のファイルのタイプを自動的に検出します。

パラメータ

表 15-12 clear-source パラメータ
パラメータ	説明
src	削除するソースの名前。

表 15-13 は、convert-to-html 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

例

次の関数呼び出しのシーケンスにより、フィルタは、すべての Adobe Acrobat PDF ファイル、Microsoft RTF ファイル、および FrameMaker MIF ファイル、およびファイルを配信するサーバーによってタイプが指定されていないファイルを HTML に変換します。

copy-attribute

表 15-13 convert-to-html パラメータ
パラメータ	説明
type	変換を行う MIME タイプ。

copy-attribute 関数は、リソース記述の 1 つのフィールドからの値を別のフィールドにコピーします。

パラメータ

表 15-14 は、copy-attribute 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-14 copy-attribute パラメータ
パラメータ	説明
src	コピー元のリソース記述のフィールド。
dst	ソースのコピー先のリソース記述の項目。
truncate	コピーするソースの最大長。
clean	省略されたテキストを修正するかどうか (分割された単語を修正するかどうかなど) を示す論理値パラメータ。デフォルトでは、このパラメータは false に設定されています。

例

generate-by-exact

generate-by-exact 関数は、既存のソースが別の値と完全に一致する場合にかぎり、指定された値を持つソースを生成します。

パラメータ

表 15-15 は、generate-by-exact 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-15 generate-by-exact パラメータ
パラメータ	説明
dst	生成するソースの名前。
value	dst に割り当てる値。
src	比較対象のソース。

例

次の例は、ホストが www.siroe.com の場合に、分類を Siroe に設定します。

Generate fn="generate-by-exact" match="www.siroe.com:80" src="host" value="Siroe" dst="classification"

generate-by-prefix

この generate-by-prefix 関数は、既存のソースのプレフィックスが別の値と一致する場合にかぎり、指定された値を持つソースを生成します。

パラメータ

表 15-16 は、generate-by-prefix 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-16 generate-by-prefix パラメータ
パラメータ	説明
dst	生成するソースの名前。
value	dst に割り当てる値。
src	比較対象のソース。
match	src と比較する値。

例

次の例は、プロトコルプレフィックスが HTTP の場合、分類を World Wide Web に設定します。

Generate fn="generate-by-prefix" match="http" src="protocol" value="World Wide Web" dst="classification"

generate-by-regex

generate-by-regex 関数は、既存のソースが正規表現に一致する場合にかぎり、指定した値を持つソースを生成します。

パラメータ

表 15-17 は、generate-by-regex 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-17 generate-by-regex パラメータ
パラメータ	説明
dst	生成するソースの名前。
value	dst に割り当てる値。
src	比較対象のソース。
match	src と比較する正規表現の文字列。

例

次の例は、ホスト名が正規表現 *.siroe.com に一致する場合に、分類を Siroe に設定します。たとえば、developer.siroe.com および home.siroe.com の両方にあるリソースは、Siroe として分類されます。

Generate fn="generate-by-regex" match="¥¥*.siroe.com" src="host" value="Siroe" dst="classification"

generate-md5

generate-md5 関数は、MD5 チェックサムを生成し、リソースに追加します。これにより、filter-by-md5 関数を使用して、重複する MD5 チェックサムを持つリソースを拒否することができます。

パラメータ

例

generate-rd-expires

generate-rd-expires 関数は、有効期限を生成して、指定されたソースに追加します。この関数は、HTTP ヘッダーおよび HTML <META> タグなどのメタデータを使用し、リソースから任意の有効期限を取得します。有効期限が存在しない場合は、現在の日付から 3 ヶ月間の有効期限を生成します。

パラメータ

表 15-18 は、generate-rd-expires 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

例

generate-rd-last-modified

表 15-18 generate-rd-expires パラメータ
パラメータ	説明
dst	ソースの名前。指定を省略した場合、デフォルトは rd-expires となります。

generate-rd-last-modified 関数は、現在の時間を指定されたソースに追加します。

パラメータ

表 15-19 は、generate-rd-last-modified 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

例

rename-attribute

表 15-19 generate-rd-last-modified パラメータ
パラメータ	説明
dst	ソースの名前。指定を省略した場合、デフォルトは rd-last-modified となります。

rename-attribute 関数は、リソース記述のフィールドの名前を変更します。たとえば、extract-html-meta で <META> タグからフィールドに情報をコピーし、そのフィールドの名前を変更する場合にとても便利です。

パラメータ

表 15-20 は、generate-rd-last-modified 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

例

次の例は、属性の名前を author から author-name に変更します。

表 15-20 generate-rd-last-modified パラメータ
パラメータ	説明
src	1 つの名前から別の名前へのマッピングを含む文字列。

列挙関数

次の関数は、列挙段階で動作します。これらの関数は、ロボットが指定のリソースからリンクを収集するかどうか、およびその方法を制御し、リソースの発見を継続する開始点として使用します。ここでは、次の関数について説明します。

enumerate-urls

enumerate-urls 関数はリソースをスキャンし、ハイパーテキストリンクで検出されるすべての URL を列挙します。結果を使用して、リソース発見を継続します。コンテンツタイプを指定し、列挙される URL の種類を制限することができます。

パラメータ

表 15-21 は、enumerate-urls 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-21 enumerate-urls パラメータ
パラメータ	説明
max	指定のリソースから生成する URL の最大数。指定を省略した場合、デフォルトは 1024 となります。
type	指定したコンテンツタイプの URL に列挙を制限するコンテンツタイプ。type は、オプションのパラメータです。指定を省略した場合、すべての URL が列挙されます。

例

enumerate-urls-from-text

enumerate-urls-from-text 関数はテキストリソースをスキャンし、正規表現 URL:.* に一致する文字列を検索します。これはロボットを生成し、これらの文字列から URL を列挙し、さらにリソース記述を生成します。

パラメータ

表 15-22 は、enumerate-urls-from-text 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-22 enumerate-urls-from-text パラメータ
パラメータ	説明
max	指定のリソースから生成する URL の最大数。指定を省略した場合、デフォルトは 1024 となります。

例

生成関数

次の関数は、フィルタリングの生成段階で使用されます。生成関数は、リソース記述に入る情報を生成することができます。通常、リソースの本体から情報を抽出するか、リソースのメタデータから情報をコピーします。ここでは、次の関数について説明します。

extract-full-text

extract-full-text 関数は、リソースの完全なテキストを抽出して、リソース記述に追加します。

パラメータ


注	extract-full-text 関数の使用には注意が必要です。リソース記述のサイズを非常に大きくすることができるため、データベースが膨大化したり、ネットワーク帯域幅に全体的な悪影響を及ぼしたりする可能性があります。

表 15-23 は、extract-full-text 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-23 extract-full-text パラメータ
パラメータ	説明
truncate	リソースから抽出する文字の最大数。
dst	完全なテキストを受信するスキーマ項目の名前。

例

extract-html-meta

extract-html-meta 関数は、HTML ファイルから任意の <META> または <TITLE> 情報を抽出し、リソース記述に追加します。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。

パラメータ

表 15-24 は、extract-html-meta 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-24 extract-html-meta パラメータ
パラメータ	説明
truncate	抽出する最大バイト数。
type	省略可能なパラメータ。指定を省略した場合は、すべての URL が生成されます。

例

extract-html-text

extract-html-text 関数は、HTML タグを除いた、テキストの最初の数文字を HTML ファイルから抽出し、そのテキストをリソース記述に追加します。これにより、ドキュメントのテキストの最初の部分を RD に含むことができます。コンテンツタイプの指定により、生成する URL の種類が制限される場合があります。

パラメータ

表 15-25 は、extract-html-text 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-25 extract-html-text パラメータ
パラメータ	説明
truncate	抽出する最大バイト数。
skip-headings	true に設定すると、ドキュメント内で発生する任意の HTML ヘッダーは無視されます。
type	省略可能なパラメータ。指定を省略した場合は、すべての URL が生成されます。

例

extract-html-toc

extract-html-toc 関数は、HTML ヘッダーから table-of-contents を抽出し、リソース記述に追加します。

パラメータ

表 15-26 は、extract-html-toc 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-26 extract-html-toc パラメータ
パラメータ	説明
truncate	抽出する最大バイト数。
level	抽出する HTML ヘッダーの最大レベル。このパラメータは、目次の深さを制御します。

例

extract-source

extract-source 関数は、指定のソースから特定の値を抽出し、リソース記述に追加します。

パラメータ

表 15-27 は、extract-source 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

表 15-27 extract-source パラメータ
パラメータ	説明
src	ソース名のリスト。-> 演算子を使用し、RD 属性の新規名を定義できます。たとえば、type->content-type は type という名前のソースの値を取得し、content-type という名前の属性で RD に保存されます。

例

harvest-summarizer

harvest-summarizer 関数は、リソース上で Harvest サマライザを実行し、結果をリソース記述に追加します。

Harvest サマライザを実行するには、ロボットを実行する前に、path に $HARVEST_HOME/lib/gatherer を設定する必要があります。

パラメータ

表 15-28 は、harvest-summarizer 関数で使用されるパラメータを示しています。この表には 2 つの列があります。最初の列はパラメータ、2番目の列は説明を示します。

例

表 15-28 harvest-summarizer パラメータ
パラメータ	説明
summarizer	サマライザプログラムの名前。

シャットダウン関数

次の関数は、列挙および生成の両関数によってシャットダウン段階中に使用できます。

filterrules-shutdown

ルールが実行されたあと、filterrules-shutdown 関数はクリーンアップおよびシャットダウンを実行します。

前へ目次索引次へ
Sun Java System Portal Server 6 2005Q4 管理ガイド