Sun Cluster 3.0 5/02 릴리스 정보

알려진 문제점

다음에 나오는 알려진 문제점은 Sun Cluster 3.0 5/02 릴리스의 작동에 영향을 줍니다. 최신 정보는 http://docs.sun.com에서 온라인으로 Sun Cluster 3.0 5/02 Release Notes Supplement를 참조하십시오.

버그 ID 4490386

문제점 요약: 클러스터에서 Sun Enterprise 10000 서버를 사용할 때 일정한 I/O 카드 구성을 사용하면 서버가 중지됩니다.

조치: 클러스터에서는 Sun Enterprise 10000 서버의 SBus I/O 슬롯 0에 UDWIS I/O 카드를 설치하지 마십시오.

버그 ID 4501655

문제점 요약: 잠글 장치가 /dev/global/rdsk/d4s0과 같은 글로벌 장치일 때 다른 노드에 대한 레코드 잠금이 작동하지 않습니다.

특정 노드에 대하여 백그라운드로 프로그램을 여러 번 실행하면 레코드 잠금이 제대로 작동하는 것 같습니다. 첫 번째 프로그램 사본이 장치의 일부를 잠그면 다른 프로그램 사본은 장치 잠금이 해제될 때까지 block waiting 상태가 됩니다. 그러나 프로그램이 다른 노드에서 실행되면 실제로는 장치 잠금이 해제될 때까지 block waiting 상태가 되어야 하지만 프로그램이 다시 장치를 잠글 수 있습니다.

조치: 해결 방법은 없습니다.

버그 ID 4504311

문제점 요약: Sun Cluster 구성이 Solaris 8 10/01 소프트웨어로 업그레이드되면(Sun Cluster 3.0 12/01 업그레이드를 위해 필요) Apache의 시작 및 중단 스크립트가 복원됩니다. Apache 데이터 서비스(Apache용 Sun Cluster HA)가 이미 클러스터에 있고 기본 구성(/etc/apache/httpd.conf 파일은 있고 /etc/rc3.d/S50apache 파일은 없는)으로 구성되어 있으면 Apache 응용프로그램이 Apache용 Sun Cluster HA 데이터 서비스를 사용하지 않고 자체적으로 시작됩니다. 그러면 Apache가 이미 실행되고 있기 때문에 데이터 서비스가 시작되지 않습니다.

조치: 각 노드에 대하여 다음을 수행하십시오.

업그레이드할 노드를 종료하기 전에 다음 링크가 이미 있는지 확인하십시오. 있으면 파일 이름에 대문자 K나 S가 포함되어 있는지 확인하십시오.
/etc/rc0.d/K16apache /etc/rc1.d/K16apache /etc/rc2.d/K16apache /etc/rc3.d/S50apache /etc/rcS.d/K16apache
이러한 링크가 이미 있고 파일 이름에 대문자 K나 S가 포함되어 있으면 다른 조치가 필요없습니다. 그렇지 않은 경우에는 노드를 Solaris 8 10/01 소프트웨어로 업그레이드한 후에 다음 단계의 작업을 수행하십시오.

노드를 Solaris 8 10/01 소프트웨어로 업그레이드하고 나서 노드를 다시 부트하기 전에 소문자 k나 s로 파일 이름을 변경하여 복원된 Apache 링크를 따로 보관하십시오.

# mv /a/etc/rc0.d/K16apache /a/etc/rc0.d/k16apache
# mv /a/etc/rc1.d/K16apache /a/etc/rc1.d/k16apache
# mv /a/etc/rc2.d/K16apache /a/etc/rc2.d/k16apache
# mv /a/etc/rc3.d/S50apache /a/etc/rc3.d/s50apache
# mv /a/etc/rcS.d/K16apache /a/etc/rcS.d/k16apache

버그 ID 4511699

문제점 요약: NFS용 Sun Cluster HA를 사용하려면 /etc/nsswitch.conf 파일의 hosts 참조 항목에 files [SUCCESS=return]이 필요하고 모든 클러스터 노드의 /etc/inet/hosts 파일에 모든 클러스터 개인 IP 주소가 있어야 합니다.

그렇지 않으면 공용 네트워크 장애가 발생할 경우에 NFS용 Sun Cluster HA가 제대로 페일오버할 수 없습니다.

조치: 클러스터의 각 노드에서 다음 단계를 수행하십시오.

로컬로 이름을 인식하는 데 성공할 경우에 즉시 성공을 반환하고 NIS나 DNS에 확인하지 않도록 /etc/nsswitch.conf 파일에서 hosts 항목을 수정하십시오.
hosts: cluster files [SUCCESS=return] nis dns

모든 클러스터 개인 IP 주소에 대한 항목을 /etc/inet/hosts 파일에 추가하십시오.

/etc/nsswitch.conf 및 /etc/inet/hosts 파일에서 물리적인 개인 인터페이스에 대하여 확인된 IP 주소만 추가하면 됩니다. 논리 IP 주소는 이미 클러스터 nsswitch 라이브러리를 통해 확인할 수 있습니다.

물리적인 개인 IP 주소를 표시하려면 클러스터 노드에서 다음 명령을 실행하십시오.

% grep ip_address /etc/cluster/ccr/infrastructure

이 목록의 각 IP 주소에 도메인의 다른 호스트 이름과 충돌하지 않는 고유한 호스트 이름이 할당되어야 합니다.

주 -

Sun Cluster 소프트웨어를 사용하려면 모든 클러스터 노드의 /etc/inet/hosts에 HA IP 주소(LogicalHostname/SharedAddresses)가 있어야 하고 files가 nis 또는 dns 전에 표시되어야 합니다. 이 버그 때문에 필요한 추가 요구 사항은 [SUCCESS=return]을 files 다음에 표시하고 /etc/inet/hosts 파일에 모든 클러스터 개인 IP 주소를 표시하는 것입니다.

버그 ID 4526883

문제점 요약: 가끔 qfe 어댑터에서 끝나는 개인 상호 연결 전송 경로가 나타나지 않습니다.

조치: 다음 단계를 수행하십시오.

결함이 발생한 어댑터를 확인하십시오.

Scstat -W 명령을 실행하면 해당 어댑터를 경로 종단점 중 하나로 사용하는 모든 전송 경로가 "faulted" 또는 "waiting" 상태로 표시됩니다.

scsetup(1M) 명령을 사용하여 해당 어댑터에 연결된 모든 케이블을 클러스터 구성에서 제거하십시오.

다시 scsetup 명령을 사용하여 해당 어댑터를 클러스터 구성에서 제거하십시오.

어댑터와 케이블을 다시 클러스터 구성에 추가하십시오.

이 단계로 문제가 해결되고 경로가 다시 표시되는지 확인하십시오.

케이블과 어댑터를 제거했다가 다시 추가해도 작동하지 않으면 절차를 몇 번 반복하십시오. 그래도 해결되지 않으면 문제의 어댑터가 있는 노드를 다시 부트하십시오. 노드를 다시 부트하면 문제가 해결되는 경우가 있습니다. 노드를 다시 부트하기 전에 남은 클러스터에 노드를 다시 부트하는 데 필요한 정족수 개수가 충분한지 확인하십시오.

버그 ID 4620185

문제점 요약: rpc.pmfd 데몬이 signal을 처리한 후에 결과로 새 프로세스를 분기시키는 프로세스를 모니터할 경우에 pmfadm -k tag signal 명령을 실행하면 무한 루프가 실행될 수 있습니다. 새로 분기된 프로세스(이전 프로세스를 중지시킬 때마다 하나씩 추가)가 추가되고 pmfadm(1M)이 태그의 프로세스에 포함된 모든 프로세스를 중지시킬 경우에 이러한 문제가 발생할 수 있습니다.

주 -

pmfadm -s tag signal 명령을 사용하면 이 버그가 발생하지 않습니다.

조치: pmfadm -k 명령 대신 pmfadm -s tag signal 명령을 사용하십시오. pmfadm 명령에 -s 옵션을 사용하면 -k 옵션을 사용할 때와 같은 분기 문제가 발생하지 않습니다.

버그 ID 4629536

문제점 요약: forcedirectio 마운트 옵션과 mmap(2) 함수를 동시에 사용하면 데이터가 손상되고 시스템이 멈출 수 있습니다.

조치: 다음 제한 사항을 참조하십시오.

다시 마운트할 때 추가되는 파일 시스템을 directio 마운트 옵션을 사용하여 다시 마운트하지 마십시오.
directio ioctl을 사용하여 단일 파일에 대하여 directio 마운트 옵션을 설정하지 마십시오.

directio를 사용해야 할 경우에는 directio 옵션을 사용하여 전체 파일 시스템을 마운트하십시오.

버그 ID 4634409

문제점 요약: 서로 다른 마운트 포인트에 동일한 장치를 마운트하면 대부분의 경우에 시스템이 이 오류를 발견하여 두 번째 마운트에 실패합니다. 그러나 드믄 경우지만 일부 조건에서는 시스템이 이 오류를 발견하지 못하여 두 가지 마운트에 모두 성공할 수도 있습니다. 다음 네 가지 조건이 모두 충족되는 경우에 이러한 상황이 발생합니다.

두 가지 마운트가 동시에 수행되는 경우
동일한 장치가 마운트되는 경우
장치가 서로 다른 두 개의 마운트 포인트에 마운트되는 경우
하나의 마운트는 글로벌이고 다른 마운트는 로컬인 경우

조치: 시스템 관리자가 클러스터에 파일 시스템을 마운트할 때 주의해야 합니다.

버그 ID 4638586

문제점 요약: scconf(1M) 명령을 실행해도 VxVM 디스크 그룹을 다시 하위 그룹으로 만들지 못하고 device is already in use in another device group이라는 오류 메시지가 표시됩니다.

조치: 다음 단계를 수행하여 디스크 그룹에 새 하위 번호를 할당하십시오.

이미 사용하는 하위 번호를 확인하십시오.

다음 출력에서 기본 번호와 함께 사용하고 있는 하위 번호를 확인하십시오.

% ls -l /dev/vx/rdsk/*/*
 
crw-------   1 root     root     210,107000 Mar 11 18:18 /dev/vx/rdsk/fix/vol-01
crw-------   1 root     root     210,88000 Mar 15 16:31 /dev/vx/rdsk/iidg/vol-01
crw-------   1 root     root     210,88001 Mar 15 16:32 /dev/vx/rdsk/iidg/vol-02
crw-------   1 root     root     210,88002 Mar 15 16:33 /dev/vx/rdsk/iidg/vol-03
crw-------   1 root     root     210,88003 Mar 15 16:49 /dev/vx/rdsk/iidg/vol-04
crw-------   1 root     root     210,13000 Mar 18 16:09 /dev/vx/rdsk/sndrdg/vol-01
crw-------   1 root     root     210,13001 Mar 18 16:08 /dev/vx/rdsk/sndrdg/vol-02

사용하지 않는 다른 1000의 배수를 새 디스크 그룹의 기본 하위 번호로 선택하십시오.

사용하지 않는 하위 번호를 오류가 발생한 디스크 그룹에 할당하십시오.

vxdg 명령의 하위 지정 옵션을 사용하십시오.

실패한 scconf 명령을 다시 실행하십시오.

버그 ID 4644289

문제점 요약: Solaris 9에서 공용 네트워크 장애가 발생할 경우에 외부 이름 서비스를 사용할 수 없으면 Oracle용 Sun Cluster HA 데이터 서비스의 중지 메소드가 시간 초과될 수 있습니다. Oracle용 Sun Cluster HA 데이터 서비스는 su(1M) 사용자 명령을 사용하여 데이터베이스를 시작하고 중지시킵니다.

조치: oracle_server 또는 oracle_listener 자원의 1차가 될 수 있는 각 노드에서 /etc/nsswitch.conf 파일을 수정하여 passwd, group, publickey 및 project 데이터베이스에 대한 다음 항목을 포함시키십시오.

passwd:       files
group:        files
publickey:    files
project:      files

이렇게 수정하면 su(1M) 명령이 NIS/NIS+ 이름 서비스를 참조하지 않고 네트워크 장애가 발생할 경우에 정확하게 데이터 서비스가 시작되고 중지됩니다.

버그 ID 4648767

문제점 요약: sendfile(3EXT)을 사용하면 노드가 정지됩니다.

조치: sendfile을 사용하지 않는 방법 외에는 이 문제를 해결할 방법이 없습니다.

버그 ID 4651392

문제점 요약: Solaris 9에서 종료되는 클러스터 노드가 중지되고 다음과 같은 메시지가 표시될 수 있습니다.

CMM: Shutdown timer expired. Halting

조치: 이 문제를 해결할 방법은 없습니다. 노드가 중지되어도 다른 추가 영향은 없기 때문에 비교적 나쁜 영향이 없는 것으로 처리할 수 있습니다.

버그 ID 4653151

문제점 요약: FilesystemMountPoints 확장 등록 정보에 지정된 파일 시스템 마운트 포인트의 순서가 /etc/vfstab 파일에 지정된 순서와 동일하지 않을 경우에 HAStoragePlus 자원을 만들 수 없습니다.

조치: FilesystemMountPoints 확장 등록 정보에 지정된 마운트 포인트 목록이 /etc/vfstab 파일에 지정된 순서와 일치하게 만드십시오. 예를 들어, /etc/vfstab 파일에 파일 시스템 항목이 /a, /b, /c 순서로 지정되어 있으면, FilesystemMountPoints 순서가 "/a,/b,/c", "/a,/b" 또는 "/a,/c" 순서는 가능하지만 "/a,/c,/b" 순서는 안됩니다.

버그 ID 4653788

문제점 요약: Failover_enabled 확장 등록 정보가 FALSE로 설정되면 이 설정 때문에 자원 모니터가 자원 그룹 페일오버를 시작하지 못하는 것 같습니다.

그러나 모니터가 자원을 다시 시작하고 START 또는 STOP 메소드가 실패하거나 시간 초과되면 Failover_enabled의 설정에 관계없이 모니터가 취소를 시도합니다.

조치: 이 버그를 해결할 방법은 없습니다.

버그 ID 4655194

문제점 요약: 장치 그룹 스위치오버 명령(scswitch?-D device-group)이 실행되면 로컬로 마운트된 VxFS에 있는 Solstice DiskSuite 소프트 파티션 기반의 장치 그룹이 오류를 트리거할 수 있습니다.

Solstice DiskSuite는 내부적으로 미러 재동기화 작업을 수행하는데 이 작업에는 많은 시간이 걸릴 수 있습니다. 미러를 재동기화하면 중복 수준이 떨어집니다. VxFS는 이 연결에서 오류를 보고하여 결함 모니터/응용프로그램 IO 장애를 발생시키므로 응용프로그램이 다시 시작됩니다.

조치: HAStoragePlus를 사용하여 구성된 Solstice DiskSuite 장치 그룹의 경우에는 직접 장치 그룹을 스위치오버하지 마십시오. 대신 자원 그룹을 스위치오버하십시오. 그러면 오류 없이 장치가 스위치오버됩니다.

아니면 VxVM 디스크 그룹에 로컬로 마운트된 VxFS 파일 시스템을 구성하십시오.

버그 ID 4656367

문제점 요약: 일부 오류 메시지가 Sun Cluster 3.0 5/02 CD-ROM에 포함되지 않았습니다.

조치: 이 오류 메시지에 대한 설명은 "새 오류 메시지"에 있습니다.

버그 ID 4656391

문제점 요약: 1차가 아닌(2차) 노드에서 Sun Cluster에 있는 파일 시스템에 대하여 fsck(1M) 명령을 실행하면 글로벌 Solstice DiskSuite/VxVM 장치 그룹에 장애가 발생합니다. 이전 Solaris 릴리스에서도 이런 오류가 있었을 가능성이 있지만 이 버그는 Solaris 9에서 발견되었습니다.

조치: 1차 노드에서만 fsck 명령을 실행하십시오.

버그 ID 4656531

문제점 요약: 여러 개의 리스너 자원이 동일한 리스너 이름을 사용하여 리스너를 시작하도록 구성되어 있으면 Oracle용 Sun Cluster HA 리스너 자원이 정확하게 작동하지 않습니다.

조치: 클러스터에서 실행하는 여러 리스너에 동일한 리스너 이름을 사용하지 마십시오.

버그 ID 4657088

문제점 요약: Sun Cluster 3.0에서 VxVM 디스크 그룹으로부터 플렉스 연결을 끊으면 클러스터 노드가 중지되고 다음과 같은 중지 문자열이 표시될 수 있습니다.

  panic[cpu2]/thread=30002901460: BAD TRAP: type=31 rp=2a101b1d200 addr=40  
  mmu_fsr=0 occurred in module "vxfs" due to a NULL pointer dereference

조치: 플렉스 연결을 끊기 전에 해당 파일 시스템의 마운트를 해제하십시오.

버그 ID 4657833

문제점 요약: 자원 그룹 등록 정보 auto_start_on_new_cluster가 false로 설정된 경우에는 페일오버가 실행되지 않습니다.

조치: 전체 클러스터가 다시 부트될 때마다 auto_start_on_new_cluster 등록 정보가 false로 설정된 자원 그룹에 대하여 auto_start_on_new_cluster 등록 정보를 true로 설정하고 auto_start_on_new_cluster 등록 정보를 다시 false로 설정하십시오.

# scrgadm -c -g rgname -y auto_start_on_new_cluster=true
# scrgadm -c -g rgname -y auto_start_on_new_cluster=false

버그 ID 4659042

문제점 요약: 글로벌로 마운트된 VxFS 파일 시스템의 경우에 /etc/mnttab 파일 시스템이 글로벌 옵션을 표시하지 않을 수 있습니다.

조치: 클러스터의 모든 노드에서 지정된 파일 시스템에 대한 /etc/mnttab 항목이 발견되면 파일 시스템이 글로벌로 마운트된 것입니다.

버그 ID 4659091

문제점 요약: 글로벌로 마운트된 파일 시스템을 다시 마운트하면 /etc/mnttab가 업데이트되지 않습니다.

조치: 해결 방법은 없습니다.

버그 ID 4660479

문제점 요약: HAStoragePlus에서 NFS용 Sun Cluster HA를 사용할 경우에는 페일오버 및 스위치오버 중에 블로킹 잠금이 복구되지 않습니다. 따라서 lockd가 NFS용 Sun Cluster HA에 의해 다시 시작되지 않고 nfs_postnet_stop 메소드에 실패하여 클러스터 노드가 중지됩니다.

조치: NFS용 Sun Cluster HA를 HAStoragePlus에서 사용하지 마십시오. 클러스터 파일 시스템에는 이러한 문제가 발생하지 않습니다. 따라서 클러스터 파일 시스템에 NFS용 Sun Cluster HA를 구성하면 문제를 해결할 수 있습니다.

버그 ID 4660521

문제점 요약: 노드에서 HTTP 서버가 중단되면 해당 노드에 PID 파일이 남습니다. 다음에 HTTP 서버를 다시 시작하면 PID 파일이 있는지 그리고 이 PID에 해당하는 프로세스가 이미 실행되고 있는지 확인합니다(kill -0). PID는 재사용되기 때문에 최근 HTTP 서버 PID와 동일한 PID를 사용하는 다른 프로세스가 있을 수 있습니다. 그러면 HTTP 서버를 시작할 수 없습니다.

조치: 다음과 같은 오류로 인해 HTTP 서버가 시작되지 않으면 해당 HTTP 서버에 대한 PID 파일을 직접 제거하여 정상적으로 다시 시작하십시오.

Mar 27 17:47:58 ppups4 uxwdog[939]: could not log PID to PidLog 
/app/iws/https-schost-5.example.com/logs/pid, server already 
running (No such file or directory)

버그 ID 4662264

문제점 요약: Sun Cluster 소프트웨어에서 VxFS와 같은 VERITAS 제품을 사용할 때 중지되지 않게 하려면 기본 스레드 스택 크기를 증가시켜야 합니다.

조치: /etc/system 파일에 다음 행을 추가하여 스택 크기를 증가시키십시오.

set lwp_default_stksize=0x6000
set svc_default_stksize 0x8000

NFS 작동을 위해 svc_default_stksize 항목이 필요합니다.

VERITAS 패키지를 설치한 후에 VERITAS 제품이 비슷한 내용을 /etc/system 파일에 추가하지 않았는지 확인하십시오. 그러면 더 큰 값을 사용하는 내용이어야 합니다.

버그 ID 4663876

문제점 요약: 정렬된 노드 목록에 있는 3 노드 이상 장치 그룹에서 제거되는 노드가 정렬된 목록에 있는 마지막 노드가 아니면 scconf 명령의 결과에 노드 목록에 대한 일부 정보가 표시됩니다.

조치:

이 버그가 발생하지 않게 하려면 노드 목록에 표시된 마지막 노드부터 시작하여 선택한 노드가 제거될 때까지 노드를 하나씩 제거하십시오. 그런 다음 다른 노드를 장치 그룹에 다시 추가하십시오.
이 버그가 발생한 후에 클러스터 상태를 복구하려면 다음 작업을 수행하십시오.
1. 장치 그룹을 사용하는 서비스(파일 시스템, 데이터 서비스)를 중지시키십시오.
2. scsetup(1m) 명령을 사용하여 클러스터의 메모리에서 장치 그룹 등록을 해제하거나 제거하십시오. 참고: 장치 그룹 오브젝트는 그대로 두십시오.
3. scsetup(1m) 명령을 사용하여 장치 그룹을 다시 등록하여(새 장치 그룹처럼) 정확한 노드 목록을 추가하십시오.
제거된 노드를 다시 장치 그룹에 추가할 때는 사용할 수 있는 모든 노드가 포함된 정렬된 목록을 제공하십시오.

버그 ID 4664510

문제점 요약: Sun StorEdge T3 Array 중 하나의 전원을 끄고 scshutdown 명령을 실행한 다음에 두 노드를 다시 부트하면 클러스터가 작동하지 않는 상태가 됩니다.

조치: 복제의 반이 손실되었으면 다음 단계를 수행하십시오.

클러스터가 클러스터 모드인지 확인하십시오.

강제로 디스크 세트를 가져오십시오.
# metaset -s set-name -f -C take

손실된 복제를 삭제하십시오.

# metadb -s set-name -fd /dev/did/dsk/dNsX

디스크 세트 사용을 해제하십시오.
# metaset -s set-name -C release
이제 파일 시스템을 마운트하여 사용할 수 있습니다. 그러나 복제의 중복은 복원되지 않았습니다. 복제의 나머지 절반이 손실되면 미러를 정상 상태로 복원할 수 없습니다.

위의 복구 절차를 실행한 후에 데이터베이스를 다시 만드십시오.