Oracle® Solaris 11.2에서 결함 관리

인쇄 보기 종료

업데이트 날짜: 2014년 7월
 
 

고장 또는 결함에 대한 정보 표시

고장 또는 결함 정보를 표시하고 관련된 FRU를 확인하려면 fmadm faulty 명령을 사용합니다. fmadm faulty 명령은 현재 발생한 문제들을 보여줍니다. fmdump 명령은 결함 관리자 데몬과 연관된 로그 파일의 내용을 표시하며 시스템에서 이전에 발생한 문제들에 대한 기록으로 유용하게 활용할 수 있습니다.


팁  -  fmadm faulty 명령의 출력을 기준으로 관리 작업을 수행할 수 있습니다. fmdump 명령의 로그 파일 출력에는 고장 또는 결함이 아닌 오류 설명이 포함될 수 있습니다.

fmadm faulty 명령은 결함 관리자가 faulty로 식별한 리소스에 대한 상태 정보를 표시합니다. fmadm faulty 명령은 여러 다른 정보를 표시하거나 정보를 여러 다른 형식으로 표시하기 위한 많은 옵션을 포함합니다. 모든 fmadm faulty 옵션에 대한 자세한 내용은 fmadm(1M) 매뉴얼 페이지를 참조하십시오.

예 2-1  결함이 있는 하나의 CPU를 보여주는 fmadm faulty 출력
1    # fmadm faulty
2    --------------- ------------------------------------  -------------- ---------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- ---------
5    Aug 24 17:56:03 7b83c87c-78f6-6a8e-fa2b-d0cf16834049  SUN4V-8001-8H  Minor
6    
7    Host        : bur419-61
8    Platform    : SUNW,T5440        Chassis_id  : BEL07524BN
9    Product_sn  : BEL07524BN
10
11   Fault class : fault.cpu.ultraSPARC-T2plus.ireg
12   Affects     : cpu:///cpuid=0/serial=1F95806CD1421929
13                     faulted and taken out of service
14   FRU         : "MB/CPU0" (hc://:product-id=SUNW,T5440:server-id=bur419-61:\
15                 serial=3529:part=541255304/motherboard=0/cpuboard=0)
16                     faulty
17   Serial ID.  : 3529
18                 1F95806CD1421929
19   
20   Description : The number of integer register errors associated with this thread
21                 has exceeded acceptable levels.
22   
23   Response    : The fault manager will attempt to remove the affected thread from
24                 service.
25   
26   Impact      : System performance may be affected.
27   
28   Action      : Use 'fmadm faulty' to provide a more detailed view of this event.
29                 Please refer to the associated reference document at
30                 http://support.oracle.com/msg/SUN4V-8001-8H for the latest service
31                 procedures and policies regarding this diagnosis.

14행은 영향을 받은 FRU를 식별합니다. 큰따옴표로 표시된 문자열 “MB/CPU0”은 물리적 하드웨어의 레이블과 일치해야 합니다. 괄호로 표시된 문자열은 FRU에 대한 FMRI(Fault Management Resource Identifier)입니다. FMRI에는 호스트 이름 및 섀시 일련 번호와 같이 결함이 포함된 시스템에 대한 설명 등록 정보가 포함됩니다. 일부 플랫폼에서는 FRU의 FMRI에 FRU의 부품 번호 및 일련 번호도 포함됩니다.

Affects 행(12행 및 13행)은 결함 및 결함의 상대적인 상태로 인해 영향을 받은 구성 요소를 나타냅니다. 이 예에서는 단일 CPU 스트랜드가 영향을 받습니다. 해당 CPU 스트랜드에 결함이 있어 결함 관리자에 의해 서비스가 중지되었습니다.

fmadm faulty 명령 출력에서 FRU 설명 뒤에 오는 16행에는 상태가 faulty로 표시됩니다. Action 섹션에는 지원 사이트의 설명서에 대한 참조 외에도 특정 작업이 포함될 수 있습니다.

예 2-2  여러 결함을 보여주는 fmadm faulty 출력
1    # fmadm faulty
2    --------------- ------------------------------------  -------------- -------
3    TIME            EVENT-ID                              MSG-ID         SEVERITY
4    --------------- ------------------------------------  -------------- -------
5    Sep 21 10:01:36 d482f935-5c8f-e9ab-9f25-d0aaafec1e6c  PCIEX-8000-5Y  Major
6    
7    Fault class  : fault.io.pci.device-invreq
8    Affects      : dev:///pci@0,0/pci1022,7458@11/pci1000,3060@0
9                   dev:///pci@0,0/pci1022,7458@11/pci1000,3060@1
10                   ok and in service
11                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@2
12                  dev:///pci@0,0/pci1022,7458@11/pci1000,3060@3
13                    faulty and taken out of service
14   FRU          : "SLOT 2" (hc://.../pciexrc=3/pciexbus=4/pciexdev=0)
15                    repair attempted
16                  "SLOT 3" (hc://.../pciexrc=3/pciexbus=4/pciexdev=1)
17                    acquitted
18                  "SLOT 4" (hc://.../pciexrc=3/pciexbus=4/pciexdev=2)
19                    not present
20                  "SLOT 5" (hc://.../pciexrc=3/pciexbus=4/pciexdev=3)
21                    faulty
22   
23    Description  : The transmitting device sent an invalid request.
24   
25    Response     : One or more device instances may be disabled
26   
27    Impact       : Possible loss of services provided by the device instances
28                   associated with this fault
29   
30    Action       : Use 'fmadm faulty' to provide a more detailed view of this event.
31                   Please refer to the associated reference document at
32                   http://support.oracle.com/msg/PCIEX-8000-5Y for the latest service
33                   procedures and policies regarding this diagnosis.

이 출력에서 슬롯 3의 장치 1은 10행에서 “ok and in service”로 기술되고 17행에는 해당 상태가 “acquitted”로 표시됩니다. 슬롯 5의 장치 3은 “faulty and taken out of service”로 기술되고 해당 상태는 “faulty”입니다. 다른 두 개의 장치에 대해 표시된 상태는 “repair attempted” 및 “not present”입니다.

예 2-3  fmdump 명령을 사용하여 결함 표시

일부 콘솔 메시지 및 지식 문서에는 다음 예제에 표시된 것처럼 fmdump -v -u UUID 명령을 사용해서 결함 정보를 표시하라는 지침이 표시될 수 있습니다.

1    # fmdump -v -u 7b83c87c-78f6-6a8e-fa2b-d0cf16834049
2    TIME                 UUID                                 SUNW-MSG-ID EVENT
3    Aug 24 17:56:03.4596 7b83c87c-78f6-6a8e-fa2b-d0cf16834049 SUN4V-8001-8H Diagnosed
4      100%  fault.cpu.ultraSPARC-T2plus.ireg
5
6            Problem in: -
7               Affects: cpu:///cpuid=0/serial=1F95806CD1421929
8                   FRU: hc://:product-id=SUNW,T5440:server-id=bur419-61:\
9                   serial=9999:part=541255304/motherboard=0/cpuboard=0
10              Location: MB/CPU0

영향을 받은 FRU에 대한 정보는 8행부터 10행까지입니다. 10행의 Location 문자열은 사람이 읽을 수 있는 FRU 문자열을 제공합니다. 8행은 FRU의 FMRI를 보여줍니다. fmdump 출력에서 심각도, 설명 텍스트 및 작업을 보려면 -m 옵션을 사용합니다. 자세한 내용은 fmdump(1M) 매뉴얼 페이지를 참조하십시오.

예 2-4  오프라인 상태의 CPU 식별

psrinfo 명령을 사용하여 CPU에 대한 정보를 표시합니다.

$ psrinfo 
0       faulted   since 05/13/2013 12:55:26 
1       on-line   since 05/12/2013 11:47:26 

이 예제에서 faulted 상태는 결함 관리자 응답 에이전트에 의해 CPU가 오프라인 상태로 전환되었음을 나타냅니다.