Sun Java System Portal Server 7.1 관리 설명서

수정 가능한 등록 정보

robot.conf 파일은 로봇에게 filter.conf의 적합한 필터를 가리켜주는 등 로봇에 대한 많은 옵션을 정의합니다. 이전 버전과의 역 호환성을 위해 robot.conf에 시작 위치 URL을 포함할 수도 있습니다.

관리 콘솔을 사용하여 대부분의 등록 정보를 설정할 수 있기 때문에 대개는 robot.conf 파일을 편집할 필요가 없습니다. 그러나 고급 사용자는 관리 콘솔을 통해 설정할 수 없는 등록 정보를 설정하기 위해 이 파일을 직접 편집할 수 있습니다. 이 파일의 예를 보려면 예제 robot.conf 파일을 참조하십시오.

표 12–4에는 robot.conf 파일에서 변경할 수 있는 등록 정보가 정리되어 있습니다.

표 12–4 사용자가 수정 가능한 등록 정보

등록 정보 

설명 

예 

auto-proxy

로봇의 프록시 설정을 지정합니다. 프록시 서버이거나 프록시를 자동으로 구성하기 위한 JavaScript 파일일 수 있습니다. 

auto-proxy="http://proxy_server/proxy.pac"

bindir

로봇이 PATH 환경에 bin 디렉토리를 추가할지 여부를 지정합니다. 이는 cmd-hook 등록 정보로 지정되는 것과 같이 사용자가 로봇에서 외부 프로그램을 실행하기 위한 추가 PATH입니다.

bindir=path

cmd-hook

로봇이 한 번의 실행을 완료한 후 실행할 외부 완료 스크립트를 지정합니다. 이 값은 명령 이름에 대한 전체 경로여야 합니다. 로봇은 /var/opt/SUNWportal/ 디렉토리에서 이 스크립트를 실행합니다.

기본값은 설정되지 않습니다. 

명령을 실행하려면 하나 이상의 RD를 등록해야 합니다. 

 

cmd-hook=”command-string”

command-port

관리 인터페이스 또는 로봇 제어 패널 등과 같은 다른 프로그램에서 명령을 받기 위해 로봇이 수신하는 포트 번호를 지정합니다. 

보안상의 이유로 remote-accessyes로 설정된 경우가 아니면 로봇은 로컬 호스트에서만 명령을 받습니다.

command-port=port_number

connect-timeout

네트워크가 연결 요청에 응답할 수 있는 최대 허용 시간을 지정합니다. 

기본값은 120초입니다.

command-timeout=seconds

convert-timeout

문서 변환에 허용되는 최대 시간을 지정합니다. 

기본값은 600초입니다.

convert-timeout=seconds

depth

로봇이 검사하는 시작 위치 URL부터의 링크 수를 지정합니다. 이 등록 정보는 깊이를 지정하지 않는 모든 시작 위치 URL에 대해 기본값을 설정합니다. 

기본값은 10입니다.

-1 값(depth=-1)은 링크 깊이가 무한대임을 나타냅니다.

depth=integer

email

로봇을 실행하는 사람의 전자 메일 주소를 지정합니다. 

전자 메일 주소는 HTTP 요청 헤더에서 user-agent와 함께 전송되므로 웹 관리자가 해당 사이트에서 로봇을 실행하는 사람에게 연락할 수 있습니다. 

기본값은 user@domain입니다.

email=user@hostname

enable-ip

만든 각 RD에 대한 URL의 IP 주소를 생성합니다. 

기본값은 true입니다.

enable-ip=[true | yes | false | no]

enable-rdm-probe

서버가 RDM을 지원할 것인지 여부를 지정합니다. 로봇은 이 등록 정보를 사용하여 발견되는 각 서버에 쿼리를 보낼지 여부를 지정합니다. 서버가 RDM을 지원하면 이 서버가 고유 자원 설명 서버의 역할을 할 수 있기 때문에 로봇이 이 서버의 자원을 열거하지 않습니다. 

기본값은 false입니다.

enable-rdm-probe=[true | false | yes | no]

enable-robots-txt

로봇이 방문하는 각 사이트에서 robots.txt 파일을 검사해야 하는지 여부를 지정합니다.

기본값은 yes입니다.

enable-robots-txt=[true | false | yes | no]

engine-concurrent

로봇이 사용할 사전 생성된 스레드 수를 지정합니다. 

기본값은 10입니다.

이 등록 정보는 관리 콘솔을 사용하여 대화식으로 설정할 수 없습니다. 

engine-concurrent=[1..100]

enumeration-filter

로봇이 열거해야 하는 자원을 결정하는 데 사용하는 열거 필터를 지정합니다. 이 값은 filter.conf 파일에서 정의된 필터의 이름이어야 합니다.

기본값은 enumeration-default입니다.

이 등록 정보는 관리 콘솔을 사용하여 대화식으로 설정할 수 없습니다. 

enumeration-filter=enumfiltername

generation-filter

로봇이 자원에 대해 자원 설명을 생성해야 하는지 여부를 결정하는 데 사용하는 생성 필터를 지정합니다. 이 값은 filter.conf 파일에서 정의된 필터의 이름이어야 합니다.

기본값은 generation-default입니다.

이 등록 정보는 관리 콘솔을 사용하여 대화식으로 설정할 수 없습니다. 

generation-filter=genfiltername

index-after-ngenerated

검색 서버를 위해 RD를 일괄 처리하기 전에 로봇이 이를 수집해야 하는 시간(분)을 지정합니다. 

기본값은 30분입니다.  


index-after-ngenerated=30

loglevel

로깅 수준을 지정합니다. loglevel 값은 다음과 같습니다.

  • Level 0: 심각한 오류만 로깅

  • Level 1: RD 생성도 로깅(기본값)

  • Level 2: 검색 작업도 로깅

  • Level 3: 필터링 작업도 로깅

  • Level 4: 파생 작업도 로깅

  • Level 5: 검색 진행 상황도 로깅

    기본값은 1입니다.


loglevel=[0...100]

max-connections

로봇이 수행할 수 있는 최대 동시 검색 수를 지정합니다. 

기본값은 8입니다.


max-connections=[1..100]

max-filesize-kb

로봇이 검색하는 파일의 최대 파일 크기(KB)를 지정합니다.  


max-filesize-kb=1024

max-memory-per-url / max-memory

각 URL에서 사용하는 최대 메모리 크기(바이트)를 지정합니다. URL에 더 많은 메모리가 필요한 경우 RD가 디스크에 저장됩니다. 

기본값은 64k입니다.

이 등록 정보는 관리 콘솔을 사용하여 대화식으로 설정할 수 없습니다.  


max-memory-per-url=n_bytes

max-working

로봇이 한 번에 작업할 수 있는 최대 URL 수인 로봇의 작업 집합 크기를 지정합니다. 

이 등록 정보는 관리 콘솔을 사용하여 대화식으로 설정할 수 없습니다.  


max-working=1024

onCompletion

실행을 완료한 후 로봇이 수행할 작업을 지정합니다. 로봇은 유휴 모드로 들어가거나 루프 백하거나 다시 시작하거나 종료될 수 있습니다. 

기본값은 idle입니다.

이 등록 정보는 cmd-hook 등록 정보와 함께 작동합니다. 로봇이 완료되면 onCompletion 작업을 수행한 다음 cmd-hook 프로그램을 수행합니다.


OnCompletion=[idle | loop | quit]

password

httpd 인증과 ftp 연결에 사용되는 password를 지정합니다.


password=string

referer

웹 페이지에 액세스할 때 로봇을 참조자로 식별하도록 설정된 경우 HTTP 요청에서 전송되는 등록 정보를 지정합니다.  


referer=string

register-user

RD를 검색 서버 데이터베이스에 등록하는 데 사용되는 사용자 이름을 지정합니다.  

이 등록 정보는 검색 서버 관리 인터페이스를 통해 대화식으로 설정할 수 없습니다.  


register-user=string

register-password

RD를 검색 서버 데이터베이스에 등록하는 데 사용되는 비밀 번호를 지정합니다.  

이 등록 정보는 관리 콘솔을 통해 대화식으로 설정할 수 없습니다.  


register-password=string

remote-access

이 등록 정보는 로봇이 원격 호스트로부터 명령을 수신할 수 있는지를 지정합니다. 

기본값은 false입니다.


remote-access=[true | false | yes | no]

robot-state-dir

로봇이 상태를 저장할 디렉토리를 지정합니다. 이 작업 디렉토리에서 로봇은 수집된 RD 수 등을 기록할 수 있습니다.  


robot-state-dir="/var/opt/SUNWportal/
searchservers/<searchserverid>/config/robot"

server-delay

로봇이 같은 사이트에 너무 자주 액세스하지 않도록 같은 웹 사이트에 대한 두 방문 사이의 시간 간격을 지정합니다. 기본값은 0초입니다.  


server-delay=delay_in_seconds

site-max-connections

로봇이 한 사이트에 설정할 수 있는 최대 동시 연결 수를 나타냅니다. 

기본값은 2입니다.


site-max-connections=[1..100]

smart-host-heuristics

로봇이 해당 DNS 정식 호스트 이름을 순환 중인 사이트를 변경하도록 설정합니다. 예를 들어, www123.siroe.comwww.siroe.com으로 변경됩니다.

기본값은 false입니다.


smart-host-heuristics=[true | false]

tmpdir

로봇이 임시 파일을 만들 위치를 지정합니다. 

이 값을 사용하여 TMPDIR 환경 변수를 설정합니다.


tmpdir=path

user-agent

서버에 대한 http-request에서 전자 메일 주소와 함께 전송되는 등록 정보를 지정합니다.


user-agent=SunONERobot/6.2

username

로봇을 실행하고 httpd 인증 및 ftp 연결에 사용되는 사용자의 사용자 이름을 지정합니다.

기본값은 anonymous입니다.


username=string