サンプル・カスタム・フィルタ・プラグインについて

カスタム・フィルタ(ParseFilter)では、コンテンツの拡張を実装します。これらのフィルタでは、ページのコンテンツ(未処理のページ・コンテンツまたは解析済DOM)を確認し、生成されるレコードにプロパティを追加できます。

これらのプロパティは、汎用HTMLドキュメント・プロパティ(コンテンツ・サイズ、エンコーディングおよびタイトルなど)以外の追加情報でレコードを拡張できます。

HTMLMetatagFilterプラグインでは、Web Crawlerへのカスタム・プラグインの追加方法について説明します。これは、IAS\<version>\sample\custom-web-crawler-pluginにあります。

デフォルトでは、Web Crawlerはレコード出力でHTTPメタ・タグを戻しません。サンプル・プラグインでは、Web Crawlerが生成するEndecaレコードにプロパティ値(HTMLメタ・タグ)を追加することにより、HTMLドキュメントのデフォルトの解析を拡張します。これらのHTMLメタ・タグには、キーワード、説明、作成者などのデータが含まれます。

たとえば、HTMLページには次のメタ・タグを含めることができます。
<html>
<head>
<title>XYZ: The Worldwide Leader In Sports</title>
<meta name="description" CONTENT="XYZ.com provides sports coverage." />
<meta name="keywords" CONTENT="XYZ.com, sports scores, sports news" />
<meta name="robots" content="index, follow" />
<meta name="googlebot" content="index, follow" />
</head>
<body>
...
</body>
</html>
HTMLMetatagFilterプラグインでは、このプロパティをParseクラスのメタデータ・オブジェクトに追加できます。これらのメタデータ・プロパティは、Endecaレコードに追加されます。次にその例を示します。
...
<PROP NAME="Endeca.Document.HTML.MetaTag.description">
<PVAL>XYX.com provides sports coverage.</PVAL>
</PROP>
<PROP NAME="Endeca.Document.HTML.MetaTag.keywords">
<PVAL>XYX.com, sports scores, sports news.</PVAL>
</PROP>
...