데이터 단계에서 로봇은 URL에서 자원의 컨텐트를 다운로드한 상태이며 설명 및 작성자 등의 컨텐트 관련 데이터에 액세스할 수 있습니다.
자원이 HTML 파일인 경우 로봇은 HTML 헤더에 있는 <META> 태그의 구문을 분석합니다. 결과적으로 <META> 태그에 있는 모든 데이터를 데이터 단계에서 사용할 수 있습니다.
데이터 단계에서 RAF는 메타데이터 단계에서 사용할 수 있는 소스 외에 다음과 같은 소스를 사용할 수 있습니다.
표 19–3 데이터 단계에서 RAF가 사용할 수 있는 소스
소스 |
설명 |
예 |
---|---|---|
content-charset |
자원에서 사용하는 문자 집합 | |
content-encoding |
인코딩 형식 | |
content-length |
자원 크기(바이트) | |
content-type |
자원의 MIME 유형 |
text/html, image/jpeg |
expires |
자원의 만료 날짜 | |
last-modified |
자원이 마지막으로 수정된 날짜 | |
data in <META> tags |
HTML 자원의 헤더에 있는 <META> 태그에서 제공하는 모든 데이터 |
제작자, 설명, 키워드 |
이러한 모든 소스(<META> 태그의 데이터 제외)는 자원을 검색할 때 반환되는 HTTP 응답 헤더에서 파생됩니다.