Note su Solaris 10 8/07

Capitolo 3 Problemi specifici dei sistemi

Questo capitolo descrive i problemi che riguardano in modo specifico i server Sun di fascia media e alta. Gli attuali server Sun fanno parte della famiglia di sistemi Sun Fire. I server precedenti fanno parte della famiglia di sistemi Sun Enterprise.


Nota –

Le note sui test di verifica Sun (Sun Validation Test Suite) sono ora disponibili come documento separato e possono essere consultate sul sito http://sun.com.



Nota –

Alcuni dei problemi e dei bug descritti in questo capitolo sono stati corretti in versioni successive di Solaris 10. Se la versione di Solaris in uso sul sistema è stata aggiornata, alcuni dei problemi e dei bug descritti in questo capitolo non sono più applicabili al sistema in uso. Per controllare quali bug e problemi non si applicano più ad una specifica versione di Solaris 10, vedere l'Appendice A, Tabella delle correzioni dei bug integrate nel sistema operativo Solaris 10.


Riconfigurazione dinamica sui sistemi Sun Fire di fascia alta

Questa sezione descrive i principali problemi di riconfigurazione dinamica che si possono verificare a livello di dominio sui seguenti sistemi Sun Fire di fascia alta che eseguono Solaris 10:

Per informazioni sui problemi di DR relativi a Sun Management Services, vedere il documento SMS Release Notes per la versione di SMS in uso sul sistema.


Nota –

Questa informazione si applica esclusivamente alla riconfigurazione dinamica (DR) eseguita sui server elencati in questa sezione. Per informazioni sulla riconfigurazione dinamica in altri server, vedere le Note sulla versione o le Note sul prodotto o le sezioni che descrivono tali server.


Problemi software e hardware noti

I seguenti problemi software e hardware si riferiscono ai sistemi Sun Fire di fascia alta.

Non è possibile rimuovere un dispositivo di rete quando un programma tiene aperto quel dispositivo (5054195)

Se un processo tiene aperto un dispositivo di rete, non è possibile eseguire operazioni di DR che coinvolgano quel dispositivo. I daemon e i processi che mantengono un conteggio dei riferimenti impediscono il completamento delle operazioni di DR.

Soluzione. come superutente, eseguire le seguenti operazioni:

  1. Rimuovere o rinominare la directory /rplboot.

  2. Arrestare i servizi NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Arrestare i servizi del server di avvio.


    # sh /etc/init.d/boot.server stop
    
  4. Eseguire l'operazione di scollegamento DR.

  5. Riavviare i servizi NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Riavviare i servizi del server di avvio.


    # sh /etc/init.d/boot.server start
    

Deleteboard segnala una perdita di memoria (4730142)

Quando si esegue un comando di DR su un sistema configurato con la scheda PCI SunSwift, opzione 1032, vengono visualizzati alcuni messaggi di avvertimento. Questi avvertimenti vengono generati nei domini che eseguono Solaris 8, Solaris 9 o Solaris 10. Qui di seguito è riportato un esempio:


Aug 12 12:27:41 machine genunix: WARNING:
 vmem_destroy('pcisch2_dvma'): leaked

Questi messaggi possono essere ignorati. Lo spazio di accesso diretto alla memoria virtuale (DVMA) viene aggiornato correttamente durante l'operazione di DR. Non si verifica alcuna reale perdita di memoria del kernel.

Soluzione. per impedire la comparsa dei messaggi di avvertimento, aggiungere la riga seguente a /etc/system:


set pcisch:pci_preserve_iommu_tsb=0

Il collegamento tra MMF GigaSwift Ethernet e switch CISCO 4003 non riesce dopo un collegamento DR

Il collegamento tra un sistema con MMF Sun GigaSwift Ethernet opzione X1151A e alcuni switch CISCO non funziona correttamente. Il problema si verifica quando si cerca di eseguire un'operazione di DR su un sistema di questo tipo collegato a uno dei seguenti switch:

Il problema non si verifica con lo switch CISCO 6509.

Soluzione. usare un altro switch. In alternativa, richiedere a Cisco una patch per gli switch sopra elencati.

Riconfigurazione dinamica sui sistemi Sun Fire midrange

Questa sezione descrive i problemi principali che si possono verificare nelle operazioni di DR sui seguenti sistemi Sun Fire di fascia media:


Nota –

Questa informazione si applica esclusivamente alla riconfigurazione dinamica (DR) eseguita sui server elencati in questa sezione. Per informazioni sulla riconfigurazione dinamica in altri server, vedere le Note sulla versione o le Note sul prodotto o le sezioni che descrivono tali server.


Firmware minimo per il controller di sistema

La Tabella 3–1 mostra le possibili combinazioni tra il software Solaris e il firmware del controller di sistema (SC) per i diversi sistemi Sun Fire di fascia media in relazione alle operazioni di DR.


Nota –

Per utilizzare al meglio le funzioni e le correzioni più aggiornate del firmware, eseguire sul proprio sistema Sun Fire la versione più recente del firmware SC. Per informazioni aggiornate sulle patch, vedere http://sunsolve.sun.com.


Tabella 3–1 Firmware SC minimo per le diverse piattaforme e versioni di Solaris

Piattaforma 

Versione di Solaris 

Firmware SC minimo 

Sun Fire E6900/E4900 con UltraSPARC IV+ 

Solaris 10 3/05 HW1 (versione limitata) o Solaris 10 1/06 

5.19.0 

E6900/E4900 senza UltraSPARC IV+ 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 4/04 

5.16.0 

Sun Fire 6800/4810/4800/3800 

Solaris 9 

5.13.0 

Per aggiornare il firmware di un sistema midrange Sun Fire è possibile connettersi a un server FTP o HTTP in cui siano memorizzate le immagini del firmware. Per maggiori informazioni, vedere i file README e Install.info. Questi file sono inclusi nelle versioni del firmware eseguite all'interno del dominio. Le patch Sun possono essere scaricate da http://sunsolve.sun.com.

Problemi del software DR

Questa sezione descrive i bug principali che si possono verificare nelle operazioni di riconfigurazione dinamica.

Non è possibile rimuovere un dispositivo di rete quando un programma tiene aperto quel dispositivo (5054195)

Se un processo tiene aperto un dispositivo di rete, non è possibile eseguire operazioni di DR che coinvolgano quel dispositivo. I daemon e i processi che mantengono un conteggio dei riferimenti impediscono il completamento delle operazioni di DR.

Soluzione. come superutente, eseguire le seguenti operazioni:

  1. Rimuovere o rinominare la directory /rplboot.

  2. Arrestare i servizi NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Arrestare i servizi del server di avvio.


    # sh /etc/init.d/boot.server stop
    
  4. Eseguire l'operazione di scollegamento DR.

  5. Riavviare i servizi NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Riavviare i servizi del server di avvio.


    # sh /etc/init.d/boot.server start
    

Non è possibile deconfigurare una scheda cPCI con una porta 0 disabilitata (4798990)

Sui sistemi midrange Sun Fire, non è possibile deconfigurare una scheda di I/O CompactPCI (cPCI) quando la porta 0 (P0) di quella scheda è disabilitata. Questo problema si verifica in Solaris 10 e in Solaris 9. Si presenta anche con Solaris 8 se sono installate una o più delle seguenti patch:

L'errore si verifica solo durante le operazioni di DR che coinvolgono schede cPCI. Viene visualizzato un messaggio di errore simile al seguente:


# cfgadm -c unconfigure NO.IB7
cfgadm: Errore specifico dell'hardware: unconfigure N0.IB7: Dispositivo
occupato:/ssm@0,0/pci@1b,700000/pci@1

NO.IB7 è una scheda di I/O CompactPCI con la porta P0 disabilitata.

Soluzione. disabilitare gli slot anziché la porta 0.

Note su Sun Enterprise 10000

Questa sezione descrive i problemi che riguardano le seguenti funzioni del server Sun Enterprise 10000:


Nota –

Solaris 10 può essere eseguito in singoli domini all'interno di un sistema Sun Enterprise 10000. Tuttavia, il processore di servizio (SSP) del server Sun Enterprise 10000 non è supportato da questa versione.


Requisiti per il processore di servizio

Per il supporto di Solaris 10 è richiesto il software SSP 3.5 sul processore di servizio (SSP). Installare il software SSP 3.5 sul processore di servizio. A questo punto è possibile installare o aggiornare Solaris 10 in un dominio Sun Enterprise 10000.

Il software SSP 3.5 è richiesto anche per poter configurare correttamente il dominio per DR 3.0.

Problemi di riconfigurazione dinamica

Questa sezione descrive diversi problemi relativi alle operazioni di riconfigurazione dinamica nei domini Sun Enterprise 10000.

DR 3.0

A partire da Solaris 9 12/03, è necessario utilizzare DR 3.0 nei domini Sun Enterprise 10000 che utilizzano il sistema operativo Solaris. DR 3.0 si riferisce alla funzionalità che utilizza i comandi seguenti sull'SSP per eseguire le operazioni di riconfigurazione dinamica:

Il comando cfgadm può essere utilizzato sui domini per ottenere informazioni sullo stato delle schede. DR 3.0 può inoltre interfacciarsi con RCM (Reconfiguration Coordination Manager) per coordinare le operazioni di DR con altre applicazioni eseguite nel dominio.

Per maggiori informazioni su DR 3.0, vedere il manuale Sun Enterprise 10000 Dynamic Reconfiguration User Guide.

DR e processi utente associati

In questa versione di Solaris, la funzionalità di DR non disconnette automaticamente i processi utente dalle CPU che vengono scollegate. È perciò necessario eseguire questa operazione prima di iniziare una sequenza di scollegamento. L'operazione di svuotamento non riesce se il processo rileva la presenza di CPU con processi associati.

Non è possibile rimuovere un dispositivo di rete quando un programma tiene aperto quel dispositivo (5054195)

Se un processo tiene aperto un dispositivo di rete, non è possibile eseguire operazioni di DR che coinvolgano quel dispositivo. I daemon e i processi che mantengono un conteggio dei riferimenti impediscono il completamento delle operazioni di DR.

Soluzione. come superutente, eseguire le seguenti operazioni:

  1. Rimuovere o rinominare la directory /rplboot.

  2. Arrestare i servizi NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Arrestare i servizi del server di avvio.


    # sh /etc/init.d/boot.server stop
    
  4. Eseguire l'operazione di scollegamento DR.

  5. Riavviare i servizi NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Riavviare i servizi del server di avvio.


    # sh /etc/init.d/boot.server start
    

L'abilitazione di DR 3.0 richiede un passaggio aggiuntivo in determinate situazioni (4507010)

Il software SSP 3.5 è richiesto per poter configurare correttamente il dominio per DR 3.0. Dopo aver aggiornato l'SSP a SSP 3.5, con DR 3.0 abilitato nel dominio, eseguire il comando seguente:


# devfsadm -i ngdr

Reti interdominio

Perché un dominio possa entrare a far parte di una rete interdominio (IDN), occorre che tutte le schede con una memoria attiva in quel dominio possiedano almeno una CPU attiva.

Variabili della PROM di OpenBoot

Prima di eseguire il comando boot net dal prompt della PROM OpenBoot (OK), verificare che la variabile local-mac-address? sia impostata su false. Questa è l'impostazione predefinita. Se la variabile è impostata su true, occorre verificare che questo valore sia appropriato per la configurazione locale.


Avvertenza – Avvertenza –

Una variabile local-mac-address? impostata su true può impedire l'avvio corretto del sistema attraverso la rete.


In una finestra netcon, usare il comando seguente al prompt della PROM OpenBoot per visualizzare i valori delle relative variabili:


OK printenv

Per ripristinare la variabile local-mac-address? all'impostazione predefinita, usare il comando setenv:


OK setenv local-mac-address? false

Riconfigurazione dinamica sui sistemi Sun Enterprise di fascia media

Questa sezione contiene informazioni aggiornate sulla funzionalità di riconfigurazione dinamica (DR) per i seguenti server midrange che utilizzano Solaris 10:

Per maggiori informazioni sulla riconfigurazione dinamica dei server Sun Enterprise, vedere il manuale Dynamic Reconfiguration User's Guide for Sun Enterprise 3x00/4x00/5x00/6x00 Systems. Solaris 10 include il supporto per tutte le schede CPU/memoria e per la maggior parte delle schede di I/O dei sistemi citati nell'elenco precedente.

Hardware supportato

Prima di procedere, verificare che il sistema supporti la riconfigurazione dinamica. Se il sistema è di produzione meno recente, viene generato il messaggio seguente sulla console o nei log della console. Questi sistemi non sono adatti per la riconfigurazione dinamica.


Hot Plug not supported in this system

Le seguenti schede di I/O non sono attualmente supportate:

Note sul software

Questa sezione contiene informazioni generali sul software di DR.

Abilitazione della riconfigurazione dinamica

Per abilitare la riconfigurazione dinamica, è necessario impostare due variabili nel file /etc/system. È inoltre necessario impostare un'ulteriore variabile per abilitare la rimozione delle schede CPU/memoria. Procedere come segue:

  1. Accedere al sistema come superutente.

  2. Aprire con un editor il file /etc/system e aggiungervi le righe seguenti:


    set pln:pln_enable_detach_suspend=1
    set soc:soc_enable_detach_suspend=1
    
  3. Per abilitare la rimozione di una scheda CPU/memoria, aggiungere al file questa riga:


    set kernel_cage_enable=1
    

    L'impostazione di questa variabile consente l'operazione di deconfigurazione della memoria.

  4. Riavviare il sistema per applicare le modifiche.

Prova di quiescenza

Per iniziare la prova di quiescenza eseguire il comando seguente:


 # cfgadm -x quiesce-test sysctr10:slot numero

Sui sistemi di grandi dimensioni, la prova di quiescenza può durare fino a un minuto. Per tutto questo periodo, qualora cfgadm non individui driver incompatibili, non viene visualizzato nessun messaggio.

Elenco delle schede disabilitate

Il tentativo di connettere una scheda inclusa nell'elenco delle schede disabilitate può generare un messaggio di errore:


# cfgadm -c connect sysctrl0:slotnumero







cfgadm: Errore specifico dell'hardware: connessione non riuscita:
la scheda è disabilitata: usare [-f][-o enable-at-boot]

Per modificare lo stato di disabilitazione della scheda, sono disponibili due opzioni:

Per rimuovere tutte le schede dall'elenco delle schede disabilitate, scegliere una di queste due opzioni in base al prompt da cui si esegue il comando:

Per maggiori informazioni sull'impostazione disabled-board-list, vedere la sezione “Specific NVRAM Variables” nel manuale Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems. Questo manuale fa parte della documentazione di questa versione di Solaris.

Elenco dei dispositivi di memoria disabilitati

Nella documentazione di questa versione sono incluse informazioni sull'impostazione disabled-memory-list della PROM OpenBoot. Vedere la sezione “Specific NVRAM Variables” nel manuale Platform Notes: Sun Enterprise 3x00, 4x00, 5x00, and 6x00 Systems, incluso nella documentazione di Solaris per l'hardware Sun.

Scaricamento dei driver “detach-unsafe”

Se occorre scaricare uno o più driver “detach-unsafe”, usare il comando modinfo per identificare gli ID dei moduli dei driver. Questi ID potranno quindi essere utilizzati nel comando modunload per scaricare i driver “detach-unsafe”.

Errore nel test automatico durante una sequenza di collegamento

Rimuovere la scheda dal sistema al più presto se durante una sequenza di connessione DR compare il seguente messaggio di errore:


cfgadm: Errore specifico dell'hardware: connessione non riuscita: 
errore dell'operazione firmware

La scheda non ha superato il test automatico e la sua rimozione può evitare possibili errori di riconfigurazione durante il riavvio successivo.

L'insuccesso del test automatico non consente ulteriori operazioni. Di conseguenza, per riprovare subito a eseguire l'operazione non riuscita, è necessario rimuovere e quindi reinserire la scheda.

Problemi noti

L'elenco seguente è costantemente soggetto a modifiche.

Non è possibile rimuovere un dispositivo di rete quando un programma tiene aperto quel dispositivo (5054195)

Se un processo tiene aperto un dispositivo di rete, non è possibile eseguire operazioni di DR che coinvolgano quel dispositivo. I daemon e i processi che mantengono un conteggio dei riferimenti impediscono il completamento delle operazioni di DR.

Soluzione. come superutente, eseguire le seguenti operazioni:

  1. Rimuovere o rinominare la directory /rplboot.

  2. Arrestare i servizi NFS.


    # sh /etc/init.d/nfs.server stop
    
  3. Arrestare i servizi del server di avvio.


    # sh /etc/init.d/boot.server stop
    
  4. Eseguire l'operazione di scollegamento DR.

  5. Riavviare i servizi NFS.


    # sh /etc/init.d/nfs.server start
    
  6. Riavviare i servizi del server di avvio.


    # sh /etc/init.d/boot.server start
    

L'interleaving della memoria viene impostato erroneamente dopo un ripristino da errore irreversibile (4156075)

L'interleaving della memoria rimane in uno stato errato quando si riavvia un server Sun Enterprise 5x500 dopo un ripristino da errore irreversibile. Le successive operazioni di riconfigurazione dinamica non vengono eseguite correttamente. Il problema si verifica solo sui sistemi in cui l'interleaving della memoria è impostato su min.

Soluzione. Scegliere una delle seguenti opzioni:

Non è possibile deconfigurare una scheda CPU/memoria che utilizza l'interleaving della memoria (4210234)

Per deconfigurare e successivamente disconnettere una scheda CPU dotata di memoria o una scheda di sola memoria, occorre in primo luogo deconfigurare la memoria. Se tuttavia la memoria della scheda è in interleaving con quella di altre schede, questa memoria non può essere deconfigurata dinamicamente.

L'interleaving della memoria può essere visualizzato con i comandi prtdiag o cfgadm.

Soluzione. Arrestare il sistema prima di eseguire l'intervento sulla scheda, quindi riavviarlo. Per consentire le future operazioni DR sulla scheda CPU/memoria, impostare la proprietà NVRAM memory-interleave su min. Per una descrizione correlata sull'interleaving della memoria, vedere anche L'interleaving della memoria viene impostato erroneamente dopo un ripristino da errore irreversibile (4156075).

Non è possibile deconfigurare una scheda CPU/memoria che utilizza una memoria permanente (4210280)

Per deconfigurare e successivamente disconnettere una scheda CPU dotata di memoria o una scheda di sola memoria, occorre in primo luogo deconfigurare la memoria. È possibile, tuttavia, che alcuni moduli di memoria non possano essere spostati. In questi casi, la memoria viene considerata permanente.

La memoria permanente di una scheda viene contrassegnata come “permanente” nella visualizzazione degli stati con cfgadm:


# cfgadm -s cols=ap_id:type:info
Ap_Id Type Information
ac0:bank0 memory slot3 64Mb base 0x0 permanent
ac0:bank1 memory slot3 empty
ac1:bank0 memory slot5 empty
ac1:bank1 memory slot5 64Mb base 0x40000000

In questo esempio, la scheda nello slot3 contiene una memoria permanente e non può essere rimossa.

Soluzione. Arrestare il sistema prima di eseguire l'intervento sulla scheda, quindi riavviarlo.

La disconnessione con cfgadm non riesce quando si eseguono simultaneamente più comandi cfgadm (4220105)

Se un processo cfgadm è in esecuzione su una scheda, un tentativo di disconnettere simultaneamente una seconda scheda non riesce. Viene visualizzato il seguente messaggio di errore:


cfgadm: Errore specifico dell'hardware: 
disconnessione non riuscita: errore nexus nello scollegamento: indirizzo

Soluzione. eseguire una sola operazione cfgadm alla volta. Attendere che l'operazione cfgadm in esecuzione su una scheda termini prima di avviare un'operazione cfgadm su una seconda scheda.