생성 함수는 필터링의 생성 단계에 사용되며,자원 설명에 포함될 정보를 만들 수 있습니다. 일반적으로 생성 함수는 자원 자체에서 정보를 추출하거나 자원의 메타데이터에서 정보를 복사합니다.
extract-full-text 함수는 자원의 전체 텍스트를 추출하고 이를 자원 설명에 추가합니다.
extract-full-text 함수를 사용할 때는 주의해야 합니다. 이 함수는 자원 설명의 크기를 지나치게 증가시키므로 데이터베이스를 팽창시켜 네트워크 대역폭에 전체적으로 부정적인 영향을 줄 수 있습니다.
Generate fn=extract-full-text
자원에서 추출할 최대 문자 수
전체 텍스트를 받을 스키마 항목의 이름
extract-html-meta 함수는 HTML 파일에서 모든 <META> 또는 <TITLE> 정보를 추출하여 자원 설명에 추가합니다. 생성될 URL 유형을 제한하도록 content-type을 지정할 수 있습니다.
추출할 최대 바이트 수
생략 가능한 등록 정보. 생략하는 경우 모든 URL이 생성됩니다.
Generate fn=extract-html-meta truncate=255 type=text/html
extract-html-text 함수는 HTML 파일에서 HTML 태그를 제외하고 텍스트의 처음 몇 문자를 추출하여 자원 설명에 추가합니다. 이 함수는 문서 텍스트의 처음 부분을 RD에 포함하도록 허용합니다. 생성될 URL 유형을 제한하도록 content-type을 지정할 수 있습니다.
추출할 최대 바이트 수
문서에 있는 HTML 헤더를 무시하려면 true로 설정합니다.
생략 가능한 등록 정보. 생략하는 경우 모든 URL이 생성됩니다.
Generate fn=extract-html-text truncate=255 type=text/html skip-headings=true
extract-html-toc 함수는 HTML 헤더에서 목차를 추출하여 자원 설명에 추가합니다.
추출할 최대 바이트 수
추출할 최대 HTML 헤더 수준. 이 등록 정보는 목차의 깊이를 제어합니다.
Generate fn=extract-html-toc truncate=255 level=3
extract-source 함수는 주어진 소스에서 지정된 값을 추출하여 자원 설명에 추가합니다.
소스 이름을 나열합니다. -> 연산자를 사용하여 RD 속성에 새 이름을 정의할 수 있습니다. 예를 들어 type->content-type은 이름이 type이라는 소스의 값을 가져다 content-type이라는 속성 아래의 RD에 저장합니다.
Generate fn=extract-source src="md5,depth,rd-expires,rd-last-modified"
harvest-summarizer 함수는 자원에 대해 결과 요약 프로그램을 실행하여 그 결과를 자원 설명에 추가합니다.
결과 요약 프로그램을 실행하려면 로봇을 실행하기 전에 해당 path에 $HARVEST_HOME/lib/gatherer가 있어야 합니다.
요약 프로그램 이름
Generate fn-harvest-summarizer summarizer=HTML.sum