クロールによって生成されたレコード・プロパティ

Endeca Web Crawlerはクロール中に、標準化されたネーミング・スキームに従ってレコード・プロパティを生成します。

Web Crawlerではレコード・プロパティを生成し、修飾子を区切るためにピリオド(.)を使用した修飾名を割り当てます。修飾名は次のように作成されます。

これらのプロパティは、パイプラインのプロパティ・マッパーでEndecaプロパティまたはディメンションにマップできます。

ソースファイル・プロパティ

次のレコード・プロパティはWebクロールからフェッチされるファイル・ソースについて説明します。
Endecaプロパティ名 プロパティの値
Endeca.SourceType クロールのソース・タイプを示します。Web CrawlerはWebが含まれる値を生成します。
Endeca.Id レコードの一意の識別子となります。Endeca.IdEndeca.Web.URLと同じ値となります。
Endeca.Web.Accept-Ranges Accept-Rangesヘッダー・フィールドの値。これにより、サーバーでリソースの範囲リクエストの承認を示すことができます。
Endeca.Web.Connection サーバーから戻されるConnection一般ヘッダー・フィールドの値。
Endeca.Web.Content-Type Content-Typeヘッダー・フィールドの値。エンティティボディのメディア・タイプを示します。メディア・タイプの例は、text/htmlおよびimage/gifです。
Endeca.Web.ETag ETagヘッダー・フィールドの値。リクエストされたバリアントにエンティティ・タグの現在の値を提供します。
Endeca.Web.Host ドキュメントが存在するインターネット・ホストおよびポート番号。ポート情報が存在しないことは、リクエストされたサービスのデフォルト・ポートを意味します。
Endeca.Web.HTTP.Content-Length Content-Lengthヘッダー・フィールドの値。エンティティボディのサイズを示します。
Endeca.Web.HTTP.Status HTTPレスポンスのステータス・コード。リクエストの結果を判断します(例: 200はリクエストが成功したことを示します)。
Endeca.Web.Last-Modified Last-Modifiedエンティティ・ヘッダー・フィールドの値。ファイルが最終変更されたとオリジン・サーバーが判断した日時を示します。通常、この値はファイル・システムの最終変更時間です。
Endeca.Web.HTMLMetaTag.name HTMLメタ・タグの値。nameはメタ・タグの名前です。たとえば、Endeca.Web.HTMLMetaTag.keywordsには、タグで定義されたキーワードが含まれます。
Endeca.Web.SeedUrl このURLの元となるシードURL。
Endeca.Web.LinkedFromUrl このページへのアウトリンクを含んだページのURL。
Endeca.Web.LinkedFromUrl.LinkText このページにリンクするためにLinkedFromUrlで使用されたテキスト。
Endeca.Web.Server Serverレスポンス・ヘッダー・フィールドの値。これには、リクエストを処理するためにオリジン・サーバーで使用するソフトウェアに関する情報が含まれます(Apache-Coyote/1.1など)。
Endeca.Web.URL ドキュメントのURL。
Endeca.Web.URL.Protocol ソース・ドキュメントのプロトコル(httpまたはhttpsなど)。

コンテンツ・プロパティ

コンテンツ・プロパティには、ドキュメントの情報(テキストを含む)が含まれます。一部のプロパティは、IASドキュメント変換モジュールで生成されます。
Endecaプロパティ名 プロパティの値
Endeca.Document.CharEncodingForConversion ドキュメントのテキスト変換で使用されるエンコーディング。
Endeca.Document.Metadata.attribute ドキュメントのメタデータ情報。メタデータ属性は、ドキュメントの作成に使用されるオーサリング・ツールで追加されたメタデータ属性によって決まります。たとえば、Adobe Acrobat PDFドキュメントには、Endeca.Document.Metadata.titleおよびEndeca.Document.Metadata.primary_authorなどのメタデータ属性があります。
Endeca.Document.MimeType ドキュメントのMIMEタイプ(判断可能な場合)。このプロパティ値の一般的な例には、text/htmlapplication/pdfおよびimage/gifがあります。
Endeca.Document.OriginalCharEncoding ドキュメント本体の元のエンコーディング(判断可能な場合)。このプロパティ値は、ISOコードまたは他のエンコーディング表現となります(UTF-8、CP1252またはISO-8859-1など)。
Endeca.Document.Outlink 別のドキュメントまたは別のサイトを参照するハイパーテキスト・リンク(絶対URL)。
Endeca.Document.OutlinkCount このドキュメントのリンク(Endeca.Document.Outlinkプロパティ)の数。
Endeca.Document.Text ソース・ドキュメントのテキスト(コンテンツ)。ドキュメント変換モジュールでは、通常、改行情報は保持されません。
Endeca.Document.TextExtraction.Error 解析プロセスの際に発生したエラー(ドキュメント変換モジュールで戻されたエラーを含む)。
Endeca.Document.Title ドキュメントのタイトル。
Endeca.Document.XHTML XHTMLドキュメントのコンテンツ。output.dom.includeプロパティがtrueに設定されている場合にのみ、このプロパティは作成されます。その場合、Web Crawlerは、HTMLドキュメントのコンテンツをXHTMLに正規化し、このプロパティに格納します。
Endeca.File.Size バイト・ストリームのサイズで示したファイルのサイズ。

文字エンコーディングのマップ

2つのエンコーディング・プロパティに対して、OriginalCharEncodingはHTTPヘッダーで設定されたcontent-typeから取得されますが、失敗した場合、Web Crawlerはダウンロードされたコンテンツのバイトから取得を試行します。

Web Crawlerは、間違ってラベル付けされたドキュメントで使用されることが多い文字エンコーディングを、正しいエンコーディングにマップする別名マップも保持します。そのマップは次のとおりです。
  • windows-1252にマップするISO-8859-1
  • x-windows-949にマップするEUC-KR
  • GB18030にマップするx-EUC-CN
  • GB18030にマップするGBK
エンコーディングが値にマップされると、CharEncodingForConversionはマップされた値に設定されます。それ以外の場合は、OriginalCharEncoding値と同じ値に設定されます。