Este problema afecta ambos servidores.
Si ocurre un error de paridad de matriz de cola del procesador SPARC, Oracle Solaris genera un aviso grave, ya que no puede continuar con un funcionamiento seguro. En raras ocasiones, es posible que Oracle Solaris no pueda reiniciarse correctamente después de un aviso grave.
Para verificar que haya ocurrido este problema, ejecute el comando fmdump -eV en el shell de gestión de fallos para verificar si existen informes electrónicos mreg-uc con el campo error-condition establecido en QRAP. Por ejemplo:
faultmgmtsp> fmdump -eV 2015-10-14/09:11:42 ereport.cpu.generic-sparc.mreg-uc@/SYS/CMIOU15/CM/CMP/SCC7/CORE3 __tod-0 = 0x561e7ead __tod-1 = 0x1cee5cc0 tstate = 0x4400000402 htstate = 0x4 ehdl = 0x1fdc100000000007 tpc = 0x60000f022fac tl = 0x1 tt = 0x29 diagnose = 0x1 error-condition = QRAP reported-by = Hypervisor ps-pesr = 0x600 ps-res-err-qhead = 0x0 ps-res-err-qtail = 0x0 ps-nres-err-qhead = 0x0 ps-nres-err-qtail = 0x0 ps-cpu-mondo-qhead = 0x0 ps-cpu-mondo-qtail = 0x800000000011b340 ps-dev-mondo-qhead = 0x0 ps-dev-mondo-qtail = 0x0
La ejecución del comando fmadm faulty debe indicar que el software de gestión de fallos ha desactivado un núcleo.
faultmgmtsp> fmadm faulty
------------------- ------------------------------------ --------------- --------
Time UUID msgid Severity
------------------- ------------------------------------ --------------- --------
2015-11-13/05:59:06 ad7bc3bf-c0d7-657b-89e2-cc68f888c312 SPSUN4V-8000-AC Critical
Problem Status : open
Diag Engine : fdd 1.0
System
Manufacturer : Oracle Corporation
Name : SPARC M7-16
Part_Number : 32863269+3+1
Serial_Number : AK00247538
----------------------------------------
Suspect 1 of 1
Fault class : fault.cpu.generic-sparc.core-uc
Certainty : 100%
Affects : /SYS/CMIOU15/CM/CMP/SCC7/CORE3
Status : faulted
FRU
Status : faulty
Location : /SYS/CMIOU15
Manufacturer : Oracle Corporation
Name : CMIOU Module
Part_Number : 7090830
Revision : 04
Serial_Number : 465769T+14426C01MU
Chassis
Manufacturer : Oracle Corporation
Name : SPARC M7-16
Part_Number : 32863269+3+1
Serial_Number : AK00247538
Description : This core has encountered an uncorrectable error.
Response : The fault manager will attempt to remove all strands
associated with this resource from service.
Impact : System performance may be affected.
Action : Use 'fmadm faulty' to provide a more detailed view of this
event. Please refer to the associated reference document at
http://support.oracle.com/msg/SPSUN4V-8000-AC for the latest
service procedures and policies regarding this diagnosis.
Solución alternativa: compruebe si hay una corrección para este problema en My Oracle Support (https://myoraclesupport.com).
Recuperación: desde la petición de datos de Oracle ILOM, detenga y luego inicie el host afectado.
-> stop /Servers/PDomains/PDomain_n/HOST Are you sure you want to stop /Servers/PDomains/PDomain_n/HOST (y/n)? y -> start /Servers/PDomains/PDomain_n/HOST Are you sure you want to start /Servers/PDomains/PDomain_n/HOST (y/n)? y