검색 서버는 자원 설명을 데이터베이스에 저장합니다. 검색 데이터베이스는 문서 컬렉션 인덱스이며인덱서(rdmgr 명령 또는 검색 서버 자체)에서 생성됩니다. 예를 들어, 기본적으로 웹 사이트를 탐색하도록 로봇을 설정할 수 있으며 로봇은 찾은 모든 웹 사이트를 사용자가 데이터를 검색할 수 있는 기본 검색 데이터베이스로 인덱싱합니다. 다른 데이터베이스에 대한 데이터나 인덱스 역시 마찬가지입니다.
다음은 데이터베이스를 관리하기 위해 수행해야 하는 몇 가지 구성 및 유지 관리 작업입니다.
일반적으로 검색 데이터베이스의 항목은 로봇에서 제공됩니다. 다른 Portal Server 검색 서버에서, iPlanet Web Server나 NetscapeTM Enterprise Server에서, 또는 다른 소스로부터 생성된 데이터베이스에서 기존 항목의 데이터베이스를 가져올 수도 있습니다. 로봇을 보내 새로 만드는 대신 기존 RD 데이터베이스를 가져오는 것이 네트워크 트래픽의 양을 줄이는 데 도움이 됩니다. 이렇게 하면 대규모 인덱싱 작업을 작게 나누어 더욱 신속하게 완료할 수 있습니다. 중앙 데이터베이스가 인덱싱할 서버에서 물리적으로 멀리 떨어져 있는 경우에는 RD를 로컬로 생성하고 정기적으로 원격 데이터베이스를 중앙 데이터베이스로 가져오는 것이 도움이 될 수 있습니다.
검색 서버는 가져오기 에이전트를 사용하여 다른 서버나 데이터베이스에서 RD를 가져옵니다. 가져오기 에이전트는 외부 소스로부터 다수의 RD를 검색하여 이 정보를 로컬 데이터베이스로 병합하는 프로세스입니다.
데이터베이스를 가져오려면 먼저 가져오기 에이전트를 만들어야 합니다. 에이전트를 만든 후에는 즉시 가져오기 프로세스를 시작하거나 정기적으로 가져오기 프로세스를 실행하도록 일정을 수립할 수 있습니다.
스키마는 검색 서버가 각 자원에서 관리할 정보와 그 형태를 결정합니다. 스키마의 설계는 인덱스 사용에 영향을 주는 두 가지 요소를 결정합니다.
사용자가 자원을 검색하는 방식
사용자가 자원 정보를 보는 방식
스키마는 데이터베이스에 있는 자원 설명의 마스터 데이터 구조입니다. 이 데이터 구조에서 필드를 정의하고 인덱싱하는 방식에 따라 사용자가 자원에 액세스하는 수준이 달라집니다.
스키마는 검색 서버와 로봇이 사용하는 파일 구조와 밀접하게 연관되어 있습니다. 관리 콘솔의 스키마 도구를 사용하여 데이터 구조만 변경해야 하며절대 스키마 파일을 직접 편집해서는 안 됩니다.
검색 서버의 데이터베이스 스키마를 편집하여 새 스키마 속성을 추가하거나 기존 스키마 속성을 수정하거나 속성을 삭제할 수 있습니다.
스키마에는 다음과 같은 속성이 있습니다.
편집 가능 – 이 속성을 선택하면 값을 변경할 수 있도록 속성이 자원 설명 편집기에 표시됩니다.
인덱싱 가능 – 이 속성을 선택하면 사용자가 이 특정 필드에서 값을 검색할 수 있습니다. 인덱싱 가능 필드는 [고급 검색] 화면의 팝업 메뉴에도 표시될 수 있습니다.
설명 – 이 속성은 스키마를 설명하는 데 사용하는 텍스트 문자열입니다. 주석 또는 부연 설명에 사용할 수 있습니다.
별칭 – 이 속성을 사용하면 가져온 데이터베이스 스키마 이름을 사용자 고유의 스키마로 변환하기 위한 별칭을 정의할 수 있습니다.
점수 승수 – 특정 요소의 점수를 매기기 위한 가중치 필드입니다. 양수값이면 모두 사용할 수 있습니다.
데이터 유형 – 데이터 유형을 정의합니다.
데이터베이스 스키마의 필드에 사용되는 이름 사이에 불일치가 생길 수 있습니다. 한 서버에서 다른 서버로 자원 설명을 가져오는 경우 두 서버가 스키마 항목에 동일한 이름을 사용한다고 항상 보장할 수는 없습니다. 마찬가지로 로봇이 문서의 HTML <meta> 태그를 스키마 필드로 변환할 때 문서가 이름을 제어합니다.
검색 서버를 사용하면 스키마 속성에 대해 스키마 별칭을 정의하여 이러한 외부 스키마 이름을 데이터베이스의 필드에 대해 유효한 이름으로 매핑할 수 있습니다.
검색 서버는 각 데이터베이스에서 인덱싱한 사이트 수와 자원의 수에 대한 정보가 있는 보고서를 제공합니다.
인덱싱된 필드를 추가하거나 제거하기 위해 스키마를 편집했거나 디스크 오류로 인덱스 파일이 손상된 경우 검색 서버에 대한 자원 설명 데이터베이스를 다시 인덱싱해야 할 수 있습니다. 또한 어떤 다른 이유로 데이터베이스 컨텐트와 인덱스 사이에 불일치가 있는 경우 다시 인덱싱해야 합니다. 예를 들면, 인덱싱하는 동안 시스템 장애가 발생한 경우가 있을 수 있습니다.
대규모 데이터베이스를 다시 인덱싱하면 여러 시간이 걸릴 수 있습니다. 데이터베이스를 다시 인덱싱하는 데 필요한 시간은 데이터베이스의 레코드 수에 따라 달라집니다. 대규모 데이터베이스인 경우에는 서버 사용량이 적을 때 다시 인덱싱을 수행합니다.
날짜가 지난 자원 설명을 제거하는 것이 데이터베이스 만료 작업입니다. 자원 설명은 만료 작업을 실행할 때만 제거됩니다. 만료된 자원 설명이 삭제되지만 데이터베이스 크기는 줄어들지 않습니다.
자원 설명의 한 속성은 만료 날짜입니다. 로봇은 HTML <meta> 태그로부터 또는 자원 서버에서 제공한 정보로부터 만료 날짜를 설정할 수 있습니다. 기본적으로 자원 설명은 자원에서 다른 만료 날짜를 지정하지 않은 경우 만들어지고 나서 3개월 후에 만료됩니다. 검색 서버는 데이터베이스에서 만료된 자원 설명을 정기적으로 제거해야 합니다.
제거 작업을 통해 데이터베이스의 컨텐트를 제거할 수 있습니다. 인덱스에 사용된 디스크 공간이 복구되지만 주 데이터베이스에 사용하는 디스크 공간은 복구되지 않고데이터베이스에 추가되는 새 데이터에 다시 사용됩니다.
검색 서버를 사용하면 각 검색 데이터베이스를 구성하는 물리적 파일을 여러 디스크, 파일 시스템, 디렉토리 또는 파티션에 배치할 수 있습니다. 데이터베이스를 여러 물리적 또는 논리적 장치에 걸쳐 분산시키면 단일 장치의 수용 능력보다 큰 데이터베이스를 만들 수 있습니다.
기본적으로 검색 서버는 한 디렉토리만 사용하도록 데이터베이스를 설정합니다. 명령줄 인터페이스를 사용하면 데이터베이스 파티션에서 두 가지 작업을 수행할 수 있습니다.
새 파티션 추가
파티션 이동
검색 서버는 개별 파티션에 남은 공간이 있는지 확인하는 어떠한 검사도 수행하지 않습니다. 따라서 데이터베이스를 위한 적절한 여유 공간을 유지 관리하는 것은 사용자의 책임입니다.
최대 15개 파티션까지 새 데이터베이스 파티션을 추가할 수 있습니다.
한 번 파티션 수를 증가시키면 나중에 이 수를 줄이기 위해 전체 데이터베이스를 삭제해야 합니다.
그러나 충분한 디스크 공간이 있다면 파티션을 사용하지 않는 것이 좋습니다.
데이터베이스 파티션의 물리적 위치를 변경하려면 새 위치의 이름을 지정합니다. 마찬가지로 기존 파티션의 이름을 변경할 수 있습니다. rdmgr 명령을 사용하여 파티션을 조작합니다. psadmin 명령에 대한 자세한 내용은 Sun Java System Portal Server 7.2 Command Line Reference를 참조하십시오.