Sun Java System Portal Server 7.2 管理指南

資料階段的可用來源

在「資料」階段,網頁抓取程式已下載該 URL 處的資源內容,並可存取與該內容相關的資料,例如描述和作者。

若資源是 HTML 檔案,則網頁抓取程式會剖析 HTML 標頭中的 <META> 標記。因此,可以在「資料」階段中取得任何包含於 <META> 標記的資料。

在「資料」階段中,除了那些在「中介資料」階段可使用的來源外,以下來源可用於 RAF。

表 19–3 在資料階段中可用於 RAF 的來源

來源 

說明 

範例 

content-charset

用於資源的字元集 

 

content-encoding

編碼的任何形式 

 

content-length

以位元組為單位的資源大小 

 

content-type

資源的 MIME 類型 

text/html, image/jpeg

expires

資源到期的日期 

 

last-modified

資源上次修改的日期 

 

<META> 標記中的資料

於 HTML 資源標頭中的 <META> 標記中所提供的任何資料。

作者、描述、關鍵字 

擷取資源時,會傳回所有源自 HTTP 回應標頭的來源 (<META> 標記中的資料除外)。