在“数据”阶段,robot 已经下载 URL 处资源的内容,并且可以访问关于该内容的数据,例如描述和作者。
如果资源为 HTML 文件,Robot 会分析 HTML 标头中的 <META> 标记。因此,在“数据”阶段可获得 <META> 标记内包含的任意数据。
在“数据”阶段,除了“元数据”阶段的可用源之外,以下源对 RAF 可用。
表 12–3 数据阶段 RAF 的可用源
资源 |
描述 |
示例 |
---|---|---|
content-charset |
资源所使用的字符集 | |
content-encoding |
任意的编码形式 | |
content-length |
资源的长度(字节) | |
content-type |
资源的 MIME 类型 |
text/html, image/jpeg |
expires |
资源到期的日期 | |
last-modified |
上次修改资源的日期 | |
<META> 标记中的数据 |
HTML 资源标头中的 <META> 标记内提供的任何数据 |
作者、描述、关键字 |
检索资源时,会返回所有源自 HTTP 响应报头的源(<META> 标记中的数据除外)。