Este problema afecta ambos servidores.
Si ocurre un error de paridad de matriz de cola del procesador SPARC, Oracle Solaris genera un aviso grave, ya que no puede continuar con un funcionamiento seguro. En raras ocasiones, es posible que Oracle Solaris no pueda reiniciarse correctamente después de un aviso grave.
Para verificar que haya ocurrido este problema, ejecute el comando fmdump -eV en el shell de gestión de fallos para verificar si existen informes electrónicos mreg-uc con el campo error-condition establecido en QRAP. Por ejemplo:
faultmgmtsp> fmdump -eV 2015-10-14/09:11:42 ereport.cpu.generic-sparc.mreg-uc@/SYS/CMIOU15/CM/CMP/SCC7/CORE3 __tod-0 = 0x561e7ead __tod-1 = 0x1cee5cc0 tstate = 0x4400000402 htstate = 0x4 ehdl = 0x1fdc100000000007 tpc = 0x60000f022fac tl = 0x1 tt = 0x29 diagnose = 0x1 error-condition = QRAP reported-by = Hypervisor ps-pesr = 0x600 ps-res-err-qhead = 0x0 ps-res-err-qtail = 0x0 ps-nres-err-qhead = 0x0 ps-nres-err-qtail = 0x0 ps-cpu-mondo-qhead = 0x0 ps-cpu-mondo-qtail = 0x800000000011b340 ps-dev-mondo-qhead = 0x0 ps-dev-mondo-qtail = 0x0
La ejecución del comando fmadm faulty debe indicar que el software de gestión de fallos ha desactivado un núcleo.
faultmgmtsp> fmadm faulty ------------------- ------------------------------------ --------------- -------- Time UUID msgid Severity ------------------- ------------------------------------ --------------- -------- 2015-11-13/05:59:06 ad7bc3bf-c0d7-657b-89e2-cc68f888c312 SPSUN4V-8000-AC Critical Problem Status : open Diag Engine : fdd 1.0 System Manufacturer : Oracle Corporation Name : SPARC M7-16 Part_Number : 32863269+3+1 Serial_Number : AK00247538 ---------------------------------------- Suspect 1 of 1 Fault class : fault.cpu.generic-sparc.core-uc Certainty : 100% Affects : /SYS/CMIOU15/CM/CMP/SCC7/CORE3 Status : faulted FRU Status : faulty Location : /SYS/CMIOU15 Manufacturer : Oracle Corporation Name : CMIOU Module Part_Number : 7090830 Revision : 04 Serial_Number : 465769T+14426C01MU Chassis Manufacturer : Oracle Corporation Name : SPARC M7-16 Part_Number : 32863269+3+1 Serial_Number : AK00247538 Description : This core has encountered an uncorrectable error. Response : The fault manager will attempt to remove all strands associated with this resource from service. Impact : System performance may be affected. Action : Use 'fmadm faulty' to provide a more detailed view of this event. Please refer to the associated reference document at http://support.oracle.com/msg/SPSUN4V-8000-AC for the latest service procedures and policies regarding this diagnosis.
Solución alternativa: compruebe si hay una corrección para este problema en My Oracle Support (https://myoraclesupport.com).
Recuperación: desde la petición de datos de Oracle ILOM, detenga y luego inicie el host afectado.
-> stop /Servers/PDomains/PDomain_n/HOST Are you sure you want to stop /Servers/PDomains/PDomain_n/HOST (y/n)? y -> start /Servers/PDomains/PDomain_n/HOST Are you sure you want to start /Servers/PDomains/PDomain_n/HOST (y/n)? y