Endeca Web Crawlerはクロール中に、標準化されたネーミング・スキームに従ってレコード・プロパティを生成します。
これらのプロパティは、パイプラインのプロパティ・マッパーでEndecaプロパティまたはディメンションにマップできます。
Endecaプロパティ名 | プロパティの値 |
---|---|
Endeca.SourceType | クロールのソース・タイプを示します。Web CrawlerはWebが含まれる値を生成します。 |
Endeca.Id | レコードの一意の識別子となります。Endeca.IdはEndeca.Web.URLと同じ値となります。 |
Endeca.Web.Accept-Ranges | Accept-Rangesヘッダー・フィールドの値。これにより、サーバーでリソースの範囲リクエストの承認を示すことができます。 |
Endeca.Web.Connection | サーバーから戻されるConnection一般ヘッダー・フィールドの値。 |
Endeca.Web.Content-Type | Content-Typeヘッダー・フィールドの値。エンティティボディのメディア・タイプを示します。メディア・タイプの例は、text/htmlおよびimage/gifです。 |
Endeca.Web.ETag | ETagヘッダー・フィールドの値。リクエストされたバリアントにエンティティ・タグの現在の値を提供します。 |
Endeca.Web.Host | ドキュメントが存在するインターネット・ホストおよびポート番号。ポート情報が存在しないことは、リクエストされたサービスのデフォルト・ポートを意味します。 |
Endeca.Web.HTTP.Content-Length | Content-Lengthヘッダー・フィールドの値。エンティティボディのサイズを示します。 |
Endeca.Web.HTTP.Status | HTTPレスポンスのステータス・コード。リクエストの結果を判断します(例: 200はリクエストが成功したことを示します)。 |
Endeca.Web.Last-Modified | Last-Modifiedエンティティ・ヘッダー・フィールドの値。ファイルが最終変更されたとオリジン・サーバーが判断した日時を示します。通常、この値はファイル・システムの最終変更時間です。 |
Endeca.Web.HTMLMetaTag.name | HTMLメタ・タグの値。nameはメタ・タグの名前です。たとえば、Endeca.Web.HTMLMetaTag.keywordsには、タグで定義されたキーワードが含まれます。 |
Endeca.Web.SeedUrl | このURLの元となるシードURL。 |
Endeca.Web.LinkedFromUrl | このページへのアウトリンクを含んだページのURL。 |
Endeca.Web.LinkedFromUrl.LinkText | このページにリンクするためにLinkedFromUrlで使用されたテキスト。 |
Endeca.Web.Server | Serverレスポンス・ヘッダー・フィールドの値。これには、リクエストを処理するためにオリジン・サーバーで使用するソフトウェアに関する情報が含まれます(Apache-Coyote/1.1など)。 |
Endeca.Web.URL | ドキュメントのURL。 |
Endeca.Web.URL.Protocol | ソース・ドキュメントのプロトコル(httpまたはhttpsなど)。 |
Endecaプロパティ名 | プロパティの値 |
---|---|
Endeca.Document.CharEncodingForConversion | ドキュメントのテキスト変換で使用されるエンコーディング。 |
Endeca.Document.Metadata.attribute | ドキュメントのメタデータ情報。メタデータ属性は、ドキュメントの作成に使用されるオーサリング・ツールで追加されたメタデータ属性によって決まります。たとえば、Adobe Acrobat PDFドキュメントには、Endeca.Document.Metadata.titleおよびEndeca.Document.Metadata.primary_authorなどのメタデータ属性があります。 |
Endeca.Document.MimeType | ドキュメントのMIMEタイプ(判断可能な場合)。このプロパティ値の一般的な例には、text/html、application/pdfおよびimage/gifがあります。 |
Endeca.Document.OriginalCharEncoding | ドキュメント本体の元のエンコーディング(判断可能な場合)。このプロパティ値は、ISOコードまたは他のエンコーディング表現となります(UTF-8、CP1252またはISO-8859-1など)。 |
Endeca.Document.Outlink | 別のドキュメントまたは別のサイトを参照するハイパーテキスト・リンク(絶対URL)。 |
Endeca.Document.OutlinkCount | このドキュメントのリンク(Endeca.Document.Outlinkプロパティ)の数。 |
Endeca.Document.Text | ソース・ドキュメントのテキスト(コンテンツ)。ドキュメント変換モジュールでは、通常、改行情報は保持されません。 |
Endeca.Document.TextExtraction.Error | 解析プロセスの際に発生したエラー(ドキュメント変換モジュールで戻されたエラーを含む)。 |
Endeca.Document.Title | ドキュメントのタイトル。 |
Endeca.Document.XHTML | XHTMLドキュメントのコンテンツ。output.dom.includeプロパティがtrueに設定されている場合にのみ、このプロパティは作成されます。その場合、Web Crawlerは、HTMLドキュメントのコンテンツをXHTMLに正規化し、このプロパティに格納します。 |
Endeca.File.Size | バイト・ストリームのサイズで示したファイルのサイズ。 |
2つのエンコーディング・プロパティに対して、OriginalCharEncodingはHTTPヘッダーで設定されたcontent-typeから取得されますが、失敗した場合、Web Crawlerはダウンロードされたコンテンツのバイトから取得を試行します。