Sun N1 Grid Engine 6.1 インストールガイド

IPMP と Grid Engine の問題

主要インタフェースが IPMP グループに属しているマシン上で Grid Engine デーモン実行時にエラーメッセージが発生するという、唯一の問題があります。この状態は、IPMP 負荷均衡によってグループ内のインタフェースすべてに接続が分散されるときに発生します。そのため、主要インタフェースに関連するホスト以外のホストから IP パケットが届いたときに、受信側に IP パケットが届くことになります。たとえば、マシン上に qfe0qfe1、および qfe3 という 3 つのインタフェースがあり、これらのインタフェースの IP アドレスがそれぞれ 10.1.1.1、10.1.1.2、および 10.1.13 である場合、IPMP はテスト用にインタフェースごとの追加のアドレスを必要とします。ただし、この例では要件は無視されています。各アドレスには、関連するホスト名があります。次に、ホストテーブルの例を示します。


10.1.1.1 sge
    10.1.1.2 sge-qfe1
    10.1.1.3 sge-qfe2

マシンのホスト名は sge です。sge から別のマシンへの接続を確立するとき、sgesge-qfe1、または sge-qfe2 を経由します。インストール時には、Grid Engine は sge のみを認識します。Grid Engine は、sge-qfe2 から接続要求を受け取った場合、認証されていない (不明の) ノードからの要求として、接続を閉じます。

この問題は、host_aliases ファイルを使用して解決します (詳細は、sge_h_aliases のマニュアルページを参照)。このファイルを使用して、Grid Engine に sgesge1、および sge-qfe2 がすべて同じマシンのノードであることを認識させることができます。次に、この場合の host_aliases ファイルの例を示します。


sge sge-qfe1 sge-qfe2

$SGE_ROOT/$SGE_CELL/common/host_aliases ファイルを変更した場合は、動作中のすべての Grid Engine デーモン (sge_qmastersge_scheduler、および sge_execd) を停止して再起動する必要があります。デーモンを停止および再起動するには、すべての Grid Engine ホストに root でログインして、次のコマンドを実行します。


/etc/init.d/sgemaster stop
/etc/init.d/sgeexecd stop
    /etc/init.d/sgemaster start
/etc/init.d/sgeexecd start