在「中介資料」階段,網頁抓取程式會遇到資源的 URL,但還未下載資源的內容。因此可提供關於 URL 以及源自其他來源 (如 filter.conf 檔案) 的資料之相關資訊。然而在此階段中,不提供關於資源內容的資訊。
表 19–2 在中介資料階段中可用於 RAF 的來源
來源 |
說明 |
範例 |
---|---|---|
csid |
目錄伺服器 ID |
x-catalog//budgie.siroe.com:8086/alexandria |
深度 |
從起點移動的連結數 |
10 |
列舉篩選器 |
列舉篩選器名稱 |
enumeration1 |
產生篩選器 |
產生篩選器名稱 |
generation1 |
主機 |
URL 的主機部分 |
home.siroe.com |
IP |
主機的數值版本 |
198.95.249.6 |
協定 |
URL 的存取部分 |
http, https, ftp, file |
路徑 |
URL 的路徑部分 |
/, /index.html, /documents/listing.html |
URL |
完整的 URL |
http://developer.siroe.com/docs/manuals/ |