この章では、Sun のミッドレンジサーバーおよびハイエンドサーバーに固有の注意事項について説明します。現在の Sun のサーバーは Sun Fire システムファミリに含まれます。古いサーバーは Sun Enterprise システムファミリに含まれます。
Sun Validation Test Suite リリースノートは分離したマニュアルとなりました。これは http://sun.com で参照できます。
この章に記載されている問題とバグの一部は、後続の Solaris 10 リリースですでに解決済みです。アップグレード済みの Solaris ソフトウェアでは、この章の一部の問題とバグに関する説明が適用されなくなっている可能性があります。使用している Solaris 10 ソフトウェアに適用されないバグと問題については、付録 A 「Solaris 10 オペレーティングシステムで統合された解決済みバグの表」を参照してください。
ここでは、Solaris 10 ソフトウェアを実行している Sun Fire ハイエンドシステムでのドメイン側の動的再構成 (DR) の主なバグについて説明します。
Sun Fire 25K
Sun Fire 20K
Sun Fire 15K
Sun Fire 12K
Sun Management Services での DR のバグについては、使用しているシステムで実行されている SMS のバージョンに対応した『SMS ご使用にあたって』を参照してください。
この情報は、ここに記載されているサーバーで実行される DR だけに当てはまります。ほかのサーバーでの DR については、サーバーのリリースノート、プロダクトノート、または説明が記載された節を参照してください。
Sun Fire ハイエンドシステムに関するソフトウェアおよびハードウェアのバグ情報について説明します。
プロセスによってネットワークデバイスが開いた状態に保持されていると、そのデバイスが関連する DR 操作はすべて失敗します。参照カウントを保持しているデーモンやプロセスによって、DR 操作が中止されます。
回避方法: スーパーユーザーとして次の手順を実行します。
/rplboot ディレクトリを削除するか、またはディレクトリ名を変更します。
NFS サービスを停止します。
# sh /etc/init.d/nfs.server stop |
ブートサーバーサービスを停止します。
# sh /etc/init.d/boot.server stop |
DR による切り離し操作を実行します。
NFS サービスを再起動します。
# sh /etc/init.d/nfs.server start |
ブートサーバーサービスを再起動します。
# sh /etc/init.d/boot.server start |
SunSwift PCI カード、Option 1032 を使用するよう構成されているシステムで DR コマンドを実行すると、次のような警告が表示されることがあります。このような警告は、Solaris 8、Solaris 9、または Solaris 10 ソフトウェアが稼働しているドメインで発生します。警告の例を次に示します。
Aug 12 12:27:41 machine genunix: WARNING: vmem_destroy('pcisch2_dvma'): leaked |
このような警告が表示されても問題はなく、DR 操作中に DVMA (Direct Virtual Memory Access) 空間は正常にリフレッシュされます。実際には、カーネルのメモリーリークは発生していません。
回避方法: この警告が表示されないようにするには、/etc/system ファイルに次の行を追加します。
set pcisch:pci_preserve_iommu_tsb=0 |
Sun GigaSwift Ethernet MMF Option X1151A を備えたシステムと一部の CISCO スイッチの間でリンクが失敗します。次のいずれかのスイッチに接続されているシステムで DR 操作を実行しようとすると、この失敗が発生します。
CISCO WS-c4003 スイッチ (ファームウェア: WS-C4003 Software, Version NmpSW: 4.4(1))
CISCO WS-c4003 スイッチ (ファームウェア: WS-C4003 Software, Version NmpSW: 7.1(2))
CISCO WS-c5500 スイッチ (ファームウェア: WS-C5500 Software, Version McpSW: 4.2(1) および NmpSW: 4.2(1))
この問題は CISCO 6509 スイッチでは見られません。
回避方法: 別のスイッチを使用するか、一覧に示したスイッチのパッチについて Cisco 社にお問い合わせください。
ここでは、次の Sun Fire ミッドレンジシステムでの動的再構成 (DR) に関連する重要な問題について説明します。
Sun Fire E6900
Sun Fire E4900
Sun Fire E6800
Sun Fire E4810
Sun Fire E4800
Sun Fire E3800
この情報は、ここに記載されているサーバーで実行される DR だけに当てはまります。ほかのサーバーでの DR については、サーバーのリリースノート、プロダクトノート、または説明が記載された節を参照してください。
表 3–1 で、Solaris ソフトウェアと、DR を実行する各 Sun Fire ミッドレンジシステムのシステムコントローラ (SC) ファームウェアの許容可能な組み合わせを示します。
最新のファームウェア機能とバグ修正を利用するには、Sun Fire ミッドレンジシステム上で最新の SC ファームウェアを実行してください。最新のパッチについては、http://sunsolve.sun.com を参照してください。
プラットフォーム |
Solaris リリース |
最小構成の SC ファームウェア |
---|---|---|
UltraSPARC IV+ が搭載された Sun Fire E6900/E4900 |
Solaris 10 3/05 HW1 (限定リリース) または Solaris 10 1/06 |
5.19.0 |
UltraSPARC IV+ が搭載されていない E6900/E4900 |
Solaris 9 4/04 |
5.16.0 |
Sun Fire 6800/4810/4800/3800 |
Solaris 9 4/04 |
5.16.0 |
Sun Fire 6800/4810/4800/3800 |
Solaris 9 |
5.13.0 |
Sun Fire ミッドレンジシステムのシステムファームウェアは、ファームウェアイメージが格納されている FTP または HTTP サーバーに接続することによってアップグレードすることができます。詳細は、README ファイルと Install.info ファイルを参照してください。これらのファイルは、使用しているドメインで動作中のファームウェアリリースに含まれています。パッチは、Web サイト (http://sunsolve.sun.com) で入手できます。
ここでは、DR に関する重要なバグについて説明します。
プロセスによってネットワークデバイスが開いた状態に保持されていると、そのデバイスが関連する DR 操作はすべて失敗します。参照カウントを保持しているデーモンやプロセスによって、DR 操作が中止されます。
回避方法: スーパーユーザーとして次の手順を実行します。
/rplboot ディレクトリを削除するか、またはディレクトリ名を変更します。
NFS サービスを停止します。
# sh /etc/init.d/nfs.server stop |
ブートサーバーサービスを停止します。
# sh /etc/init.d/boot.server stop |
DR による切り離し操作を実行します。
NFS サービスを再起動します。
# sh /etc/init.d/nfs.server start |
ブートサーバーサービスを再起動します。
# sh /etc/init.d/boot.server start |
Sun Fire ミッドレンジシステムでは、CompactPCI (cPCI) 入出力ボード上のポート 0 (P0) が使用不可になっているときは、このボードを構成解除することはできません。この問題は、Solaris 10 および Solaris 9 ソフトウェアで発生します。また、次のパッチが 1 つ以上インストールされている Solaris 8 ソフトウェアでも発生します。
パッチ ID 108528-11 〜 108528-29
パッチ ID 111372-02 〜 111372-04
また、このエラーは cPCI ボードを使用する DR 操作中にのみ発生します。次のようなエラーメッセージが表示されます。
# cfgadm -c unconfigure NO.IB7 cfgadm: Hardware specific failure: unconfigure N0.IB7: Device busy:/ssm@0,0/pci@1b,700000/pci@1 |
NO.IB7 は、P0 が使用不可となっている CompactPCI 入出力ボードです。
回避方法: ポート 0 ではなく、スロットを使用不可にします。
ここでは、Sun Enterprise 10000 サーバーでの次の機能に関連する注意事項について説明します。
システムサービスプロセッサの要件
動的再構成 (DR)
InterDomain Networks (IDNs)
Sun Enterprise 10000 ドメイン上の Solaris オペレーティングシステム
Solaris 10 ソフトウェアは、Sun Enterprise 10000 システム内の個々のドメイン上で実行できます。ただし、このリリースでは、Sun Enterprise 10000 システムサービスプロセッサはサポートされていません。
システムサービスプロセッサ (SSP) で Solaris 10 ソフトウェアをサポートするには、SSP 3.5 ソフトウェアが必要です。まず、SSP 3.5 を SSP にインストールしてください。その後、Sun Enterprise 10000 ドメインで Solaris 10 OS のインストールやアップグレードを行うことができます。
SSP 3.5 ソフトウェアは、ドメインを DR モデル 3.0 用に正しく構成するためにも必要です。
ここでは、Sun Enterprise 10000 ドメインでの動的再構成 (DR) に関連する注意事項について説明します。
Solaris 9 12/03 リリース以降の Solaris OS が動作している Sun Enterprise 10000 ドメインでは、DR モデル 3.0 を使用する必要があります。DR モデル 3.0 とは、SSP 上で次のコマンドを使用してドメイン DR 操作を実行する機能のことです。
addboard
moveboard
deleteboard
showdevices
rcfgadm
ドメインで cfgadm コマンドを実行して、ボードの状態情報を取得することもできます。DR モデル 3.0 は、Reconfiguration Coordination Manager (RCM) とのインタフェースを通じて、ドメインで動作しているほかのアプリケーションとの DR 操作の調整も行います。
DR モデル 3.0 の詳細は、『Sun Enterprise 10000 Dynamic Reconfiguration ユーザーマニュアル』を参照してください。
この Solaris リリースでは、DR は切り離された CPU とユーザープロセスとの結合解除を自動的に実行しません。切り離し操作を開始する前に、手動でこの操作を実行する必要があります。プロセスが結合されている CPU が検出されると、ドレイン操作が失敗します。
プロセスによってネットワークデバイスが開いた状態に保持されていると、そのデバイスが関連する DR 操作はすべて失敗します。参照カウントを保持しているデーモンやプロセスによって、DR 操作が中止されます。
回避方法: スーパーユーザーとして次の手順を実行します。
/rplboot ディレクトリを削除するか、またはディレクトリ名を変更します。
NFS サービスを停止します。
# sh /etc/init.d/nfs.server stop |
ブートサーバーサービスを停止します。
# sh /etc/init.d/boot.server stop |
DR による切り離し操作を実行します。
NFS サービスを再起動します。
# sh /etc/init.d/nfs.server start |
ブートサーバーサービスを再起動します。
# sh /etc/init.d/boot.server start |
ドメインを DR 3.0 用に正しく構成するには、SSP 3.5 ソフトウェアが必要です。SSP を SSP 3.5 にアップグレードしたあと、ドメインで DR 3.0 が使用可能になっている場合は、次のコマンドを実行してください。
# devfsadm -i ngdr |
ドメインを InterDomain Network に接続する場合、そのドメインにあるボードのうち、メモリーが動作しているボードについては、動作中の CPU が少なくとも 1 つ必要です。
OpenBoot PROM プロンプト (OK) で boot net コマンドを実行する前には、必ず local-mac-address? 変数の値が false に設定されていることを確認してください。これは出荷時のデフォルト値です。この変数の値が true になっている場合は、この値がローカルな構成として適切かどうかを確認してください。
local-mac-address? が true に設定されていると、ネットワーク上でのそのドメインのブートが正しく行われない場合があります。
netcon ウィンドウでは、OpenBoot PROM プロンプトで次のコマンドを使用して、OpenBoot PROM 変数の値を表示できます。
OK printenv |
local-mac-address? 変数をデフォルト値にリセットするには、setenv コマンドを使用します。
OK setenv local-mac-address? false |
ここでは、Solaris 10 ソフトウェアを実行する次のようなミッドレンジサーバーでの動的再構成 (DR) 機能について、最新情報を提供します。
Sun Enterprise 6x00
Sun Enterprise 5x00
Sun Enterprise 4x00
Sun Enterprise 3x00
Sun Enterprise サーバーの DR の詳細については、『Sun Enterprise 6x00、5x00、4x00、3x00 システム Dynamic Reconfiguration ユーザーマニュアル』を参照してください。Solaris 10 リリースは、上記のリストに示したシステムのすべての CPU/メモリーボードとほとんどの入出力ボードをサポートしています。
DR を実行する前に、システムが動的再構成をサポートしていることを確認してください。システムの設計が古い場合は、コンソールまたはコンソールログに次のようなメッセージが表示されます。このようなシステムは動的再構成をサポートしていません。
Hot Plug not supported in this system |
次の入出力ボードは現在サポートされていません。
タイプ 2 (グラフィックス)
タイプ 3 (PCI)
タイプ 5 (グラフィックスと SOC+)
ここでは、DR に関する一般的なソフトウェア情報について説明します。
動的再構成を有効にするには、/etc/system ファイルで 2 つの変数を設定します。また、CPU/メモリーボードの取り外しを有効にするために、もう 1 つの変数を設定する必要があります。次の手順を実行します。
スーパーユーザーとしてログインします。
/etc/system ファイルを編集して、次の行を追加します。
set pln:pln_enable_detach_suspend=1 set soc:soc_enable_detach_suspend=1 |
CPU/メモリーボードの取り外しを有効にするには、次の行をファイルに追加します。
set kernel_cage_enable=1 |
この変数の設定により、メモリーの構成解除が可能になります。
変更を適用するために、システムをリブートします。
次のコマンドを使用して、休止テストを開始できます。
# cfgadm -x quiesce-test sysctr10:slot number |
システムの規模が大きい場合は、休止テストの実行に 1 分近くかかる場合もあります。この間、cfgadm が互換性のないドライバを検出しなかった場合はメッセージはまったく表示されませんが、これは正常な動作です。
使用不可ボードリストに登録されているボードに接続処理を実行しようとすると、次のエラーメッセージが出力されることがあります。
# cfgadm -c connect sysctrl0:slotnumber cfgadm: Hardware specific failure: connect failed: board is disabled: must override with [-f][-o enable-at-boot] |
リストへの登録を無効にして使用可能な状態にするには、2 つの方法があります。
強制フラグ (-f) を使用する
# cfgadm -f -c connect sysctrl0:slot number |
使用可能設定オプション (-o enable-at-boot) を使用する
# cfgadm -o enable-at-boot -c connect sysctrl0:slot number |
使用不可ボードリストからすべてのボードを削除するには、コマンドを入力するプロンプトに応じて、次のいずれかの手順を実行します。
スーパーユーザーのプロンプトからは、次のように入力します。
# eeprom disabled-board-list= |
OpenBoot PROM プロンプトからは、次のように入力します。
OK set-default disabled-board-list |
disabled-board-list 変数の設定については、『特記事項: Sun Enterprise 6x00、5x00、4x00、3x00 システム』の「固有の NVRAM 変数」の節を参照してください。このマニュアルは、このリリースのマニュアルセットに含まれています。
OpenBoot PROM コマンドの disabled-memory-list 変数の設定については、このリリースで公開されています。Solaris Sun ハードウェアマニュアルの『特記事項: Sun Enterprise 6x00、5x00、4x00、3x00 システム』の「固有の NVRAM 変数」を参照してください。
切り離し危険ドライバの読み込みを解除するには、modinfo コマンドを使用してドライバのモジュール ID を確認し、modunload コマンドでそのモジュール ID を指定します。
DR 機能を利用してボードに接続処理を実行しているときに次のようなメッセージが表示された場合は、ボードのセルフテストでエラーが発生しています。すぐにシステムからボードを取り外してください。
cfgadm: Hardware specific failure: connect failed: firmware operation error |
ボードを取り外すことで、システムのリブート時に再構成エラーが起こるのを回避できます。
セルフテストに失敗した状態では、それ以上操作を実行できません。したがって、失敗した操作をすぐに実行し直す場合は、ボードをいったん取り外して操作可能な状態に戻してから、取り付け直してください。
次の情報は随時変更されることがあります。
プロセスによってネットワークデバイスが開いた状態に保持されていると、そのデバイスが関連する DR 操作はすべて失敗します。参照カウントを保持しているデーモンやプロセスによって、DR 操作が中止されます。
回避方法: スーパーユーザーとして次の手順を実行します。
/rplboot ディレクトリを削除するか、またはディレクトリ名を変更します。
NFS サービスを停止します。
# sh /etc/init.d/nfs.server stop |
ブートサーバーサービスを停止します。
# sh /etc/init.d/boot.server stop |
DR による切り離し操作を実行します。
NFS サービスを再起動します。
# sh /etc/init.d/nfs.server start |
ブートサーバーサービスを再起動します。
# sh /etc/init.d/boot.server start |
Sun Enterprise 5x500 サーバーに対して不正なリセット操作が実行されると、メモリーが不適切にインタリーブされた状態になり、以降の DR 操作は失敗します。この問題は、メモリーインタリーブの設定が min になっているシステムでのみ発生します。
回避方法: 次のいずれかを選択してください。
すでに問題が発生している場合は、OK プロンプトから手動でシステムをリセットします。
問題が発生する前にそれを回避するには、NVRAM の memory-interleave 変数を max に設定します。
2 番目の方法を使用すると、システムがブートされるたびにメモリーがインタリーブされるようになります。ただし、インタリーブ方式のメモリーを搭載したメモリーボードを動的に構成解除することはできないので、必ずしも推奨される方法ではありません。「インタリーブ方式のメモリーを搭載した CPU/メモリーボードを構成解除できない (4210234)」を参照してください。
メモリーモジュール付き CPU ボードまたはメモリーボードに対して構成解除および切り離し操作を実行するには、まずメモリーを構成解除する必要があります。ただし現在のところ、ボード上のメモリーがほかのボード上のメモリーとインタリーブされている場合は、メモリーを動的に構成解除することはできません。
システムでインタリーブ方式のメモリーを使用しているかどうかは、prtdiag コマンドまたは cfgadm コマンドで確認できます。
回避方法: システムを停止してからボードの追加、交換を行い、その後リブートします。CPU/メモリーボードで DR 機能を利用できるようにするには、NVRAM の memory-interleave 変数を min に設定します。インタリーブ方式のメモリーについては、「重大なリセット操作を実行後、メモリーが不適切にインタリーブされる (4156075)」も参照してください。
メモリーモジュール付き CPU ボードまたはメモリーボードに対して構成解除および切り離し操作を実行するには、まずメモリーを構成解除する必要があります。ただし現在のところ、再配置不可能なメモリー (固定メモリー) もあります。
ボードに固定メモリーが搭載されている場合は、cfgadm コマンドによる状態表示では「permanent」と表示されます。
# cfgadm -s cols=ap_id:type:info Ap_Id Type Information ac0:bank0 memory slot3 64Mb base 0x0 permanent ac0:bank1 memory slot3 empty ac1:bank0 memory slot5 empty ac1:bank1 memory slot5 64Mb base 0x40000000 |
上の例では、スロット 3 のボードに固定メモリーが搭載されているので、このボードを取り外すことはできません。
回避方法: システムを停止してからボードの追加、交換を行い、その後リブートします。
あるボードに対して cfgadm コマンドを実行しているときに、同時に別のボードに対して cfgadm コマンドによる切り離し操作を実行しようとすると失敗します。次のエラーメッセージが表示されます。
cfgadm: Hardware specific failure: disconnect failed: nexus error during detach:address |
回避方法: 一度に実行する cfgadm 操作は 1 つだけにします。1 枚目のボードに対して cfgadm 操作を実行しているときは、その操作が終了してから 2 枚目のボードに対する切り離し操作を実行してください。