在「資料」階段,網頁抓取程式已下載該 URL 處的資源內容,並可存取與該內容相關的資料,例如描述和作者。
若資源是 HTML 檔案,則網頁抓取程式會剖析 HTML 標頭中的 <META> 標記。因此,可以在「資料」階段中取得任何包含於 <META> 標記的資料。
在「資料」階段中,除了那些在「中介資料」階段可使用的來源外,以下來源可用於 RAF。
表 19–3 在資料階段中可用於 RAF 的來源
來源 |
說明 |
範例 |
---|---|---|
content-charset |
用於資源的字元集 | |
content-encoding |
編碼的任何形式 | |
content-length |
以位元組為單位的資源大小 | |
content-type |
資源的 MIME 類型 |
text/html, image/jpeg |
expires |
資源到期的日期 | |
last-modified |
資源上次修改的日期 | |
<META> 標記中的資料 |
於 HTML 資源標頭中的 <META> 標記中所提供的任何資料。 |
作者、描述、關鍵字 |
擷取資源時,會傳回所有源自 HTTP 回應標頭的來源 (<META> 標記中的資料除外)。