Sun Java System Portal Server 7.1 관리 설명서

검색 서버 로봇에 대한 이해

검색 서버 로봇은 해당 도메인에서 자원을 확인하고 이에 대해 보고하는 에이전트입니다. 이 작업은열거자 필터와 생성기 필터를 사용하여 수행합니다.

열거자 필터는 네트워크 프로토콜을 사용하여 자원의 위치를 찾습니다. 이 필터는 각 자원을 테스트하고 해당 자원이 적절한 기준을 만족하는 경우 표시합니다. 예를 들어, 열거자 필터는 HTML 파일에서 하이퍼텍스트 링크를 추출하고 이 링크를 사용하여 추가 자원을 찾을 수 있습니다.

생성기 필터는 자원 설명(RD)을 만들어야 하는지 여부를 결정하기 위해 각 자원을 테스트합니다. 자원이 테스트에 통과하면 생성기가 검색 서버 데이터베이스에 저장되는 RD를 만듭니다.

로봇을 관리하는 데 필요한 구성 및 유지 관리 작업은 다음 절에서 설명합니다.

로봇의 작동 방식

그림 12–1에서는 로봇이 URL 및 그와 연관된 네트워크 자원을 검사하는 방법을 보여줍니다. 열거자 및 생성기가 각 자원을 테스트합니다. 자원이 열거 테스트를 통과하면 로봇이 여기에 추가 URL이 있는지 검사합니다. 자원이 생성기 테스트에 통과하면 로봇이 검색 서버 데이터베이스에 저장되는 자원 설명을 생성합니다.

그림 12–1 로봇의 작동 방식

이 그림은 로봇이 작동하는 방식을 보여줍니다.

로봇 구성 파일

로봇 구성 파일이 로봇의 작동을 정의합니다. 이러한 파일은 /var/opt/SUNWportal/searchservers/searchserverid/config 디렉토리에 있습니다. 다음 목록에는 각 로봇 구성 파일에 대한 설명이 정리되어 있습니다.

classification.conf

로봇이 생성하는 RD를 분류하는 데 사용하는 규칙이 포함되어 있습니다.

filter.conf

로봇이 사용하는 열거 및 생성 필터를 정의합니다.

filterrules.conf

로봇의 사이트 정의, 시작 위치 URL, mime 유형을 바탕으로 한 필터링 규칙 및 URL 패턴이 포함되어 있습니다.

robot.conf

로봇에 대한 대부분의 작업 등록 정보를 정의합니다.

검색 서버 관리 인터페이스를 사용하여 대부분의 등록 정보를 설정할 수 있기 때문에 대개는 robot.conf 파일을 편집할 필요가 없습니다. 그러나 고급 사용자는 인터페이스를 통해 설정할 수 없는 등록 정보를 설정하기 위해 이 파일을 직접 편집할 수 있습니다.

사이트 정의

로봇은 자원을 찾고 이러한 자원의 설명을 데이터베이스에 추가할지 여부를 결정합니다. 방문할 서버와 이러한 서버에서 인덱싱할 부분을 결정하는 작업을 사이트 정의라고 합니다.

로봇에 대한 사이트 정의는 서버 관리자가 수행해야 하는 가장 중요한 작업 중 하나입니다. 인덱싱이 필요한 모든 서버로 로봇을 전송해야 하지만 데이터베이스를 잠식하여 올바른 정보를 찾기 어렵게 만드는 외부 사이트는 제외시켜야 합니다.

로봇 탐색 제어

로봇은 인덱싱하도록 선택된 여러 사이트에 대한 링크를 추출하고 해당 링크를 따라 탐색합니다. 시스템 관리자는 다음을 포함한 다양한 설정을 통해 이러한 프로세스를 제어할 수 있습니다.

로봇 탐색 속성에 대한 자세한 내용은 Sun Java System Portal Server 7.1 Technical Reference를 참조하십시오.

로봇 데이터 필터링

필터를 사용하면 자원을 식별하고 필터 정의에 따라 자원 속성을 비교하여 자원을 포함 또는 제외시킬 수 있습니다. 로봇에는 다양한 필터가 사전 정의되며 그 일부는 기본적으로 사용됩니다. 다음 필터가 사전 정의됩니다. 별표가 있는 필터는 기본적으로 사용되는 필터입니다.

새 필터 정의를 만들거나 기존 필터 정의를 수정하거나 필터를 사용 또는 사용 해제할 수 있습니다. 자세한 내용은 자원 필터링 프로세스를 참조하십시오.

로봇 유틸리티 사용

로봇에는 두 개의 디버깅 도구 또는 유틸리티가 포함됩니다.

로봇 일정 계획

검색 데이터를 최신으로 유지하려면 로봇이 사이트를 정기적으로 검색하여 인덱싱해야 합니다. 로봇 탐색 및 인덱싱 작업에는 프로세싱 자원과 네트워크 대역폭이 많이 소모되므로 사용량이 많지 않은 요일과 시간에 로봇이 실행되도록 계획해야 합니다. 관리자는 관리 콘솔을 사용하여 로봇을 실행할 일정을 설정할 수 있습니다.