カスタム・フィルタ(ParseFilter)では、コンテンツの拡張を実装します。これらのフィルタでは、ページのコンテンツ(未処理のページ・コンテンツまたは解析済DOM)を確認し、生成されるレコードにプロパティを追加できます。
これらのプロパティは、汎用HTMLドキュメント・プロパティ(コンテンツ・サイズ、エンコーディングおよびタイトルなど)以外の追加情報でレコードを拡張できます。
HTMLMetatagFilterプラグインでは、Web Crawlerへのカスタム・プラグインの追加方法について説明します。これは、IAS\<version>\sample\custom-web-crawler-pluginにあります。
デフォルトでは、Web Crawlerはレコード出力でHTTPメタ・タグを戻しません。サンプル・プラグインでは、Web Crawlerが生成するEndecaレコードにプロパティ値(HTMLメタ・タグ)を追加することにより、HTMLドキュメントのデフォルトの解析を拡張します。これらのHTMLメタ・タグには、キーワード、説明、作成者などのデータが含まれます。
<html> <head> <title>XYZ: The Worldwide Leader In Sports</title> <meta name="description" CONTENT="XYZ.com provides sports coverage." /> <meta name="keywords" CONTENT="XYZ.com, sports scores, sports news" /> <meta name="robots" content="index, follow" /> <meta name="googlebot" content="index, follow" /> </head> <body> ... </body> </html>
... <PROP NAME="Endeca.Document.HTML.MetaTag.description"> <PVAL>XYX.com provides sports coverage.</PVAL> </PROP> <PROP NAME="Endeca.Document.HTML.MetaTag.keywords"> <PVAL>XYX.com, sports scores, sports news.</PVAL> </PROP> ...