この文書には、次の情報が記載されています。
Sun 文書サイト http://docs.sun.com/app/docs/coll/1017.4 から最新の Sun N1 Grid Engine 6.1 マニュアルを入手できます。次のマニュアルがあります。
N1 Grid Engine 6.1 の無償ダウンロード版は、www.sun.com の Web サイトから入手できます。このダウンロード版に対する 30 日間無料電子メールサポートを受けるには、無償の評価版質問表 に必要事項を記入して、お送りください。
Sun N1 Grid Engine 6.1 ソフトウェア配布の構成要素は、次のとおりです。
Grid Engine ソフトウェアバイナリパッケージ - すべてのデーモン、クライアントプログラム、およびライブラリが入っています。使用する予定のオペレーティングシステムのアーキテクチャーごとに、対応するバイナリパッケージを読み込んでインストールします。
Grid Engine ソフトウェア共通パッケージ - インストールスクリプトなど、アーキテクチャーに依存しないユーティリティーが入っています。
アカウンティングおよびレポートコンソール (ARCo) ソフトウェア (オプション) - 次の 3 つのパッケージから構成されます。
Sun Java Web Console パッケージ - Web コンソールサーバーを実行する予定のオペレーティングシステムのアーキテクチャーごとに、対応するパッケージを選択します。
Sun Java Web Console 2.2.6 ソフトウェアは、Sun Web サイト http://www.sun.com/download/products.xml?id=461d58be からダウンロードすることもできます。
dbwriter パッケージ - Java で作成されているため、1 つのバージョンでのみ使用できます。
ARCo モジュールパッケージ - サポートされる各種アーキテクチャー間で利用できます。
ARCo を操作するには、PostgreSQL 、MySQL、または Oracle データベースサーバーも設定しなければなりません。PostgreSQL 、MySQL、および Oracle は、Sun N1 Grid Engine 6.1 ソフトウェア配布に含まれません。詳細は、『Sun N1 Grid Engine 6.1 インストールガイド』の第 8 章「アカウンティングおよびレポートコンソールのインストール」を参照してください。
Sun N1 Grid Engine 6.1 ソフトウェア配布キットのディレクトリ階層は、次のとおりです (トップレベルのみ)。
3rd_party – フリーウェア、パブリックドメイン、およびパブリックライセンスソフトウェアに関する情報
bin – Grid Engine ソフトウェアの実行可能ファイル
catman – admin コマンドと user コマンドに分類されたオンラインマニュアルページ
ckpt – サンプルのチェックポイント設定の構成
dbwriter – アカウンティングおよびレポートコンソールで使用される DbWriter ソフトウェア
dtrace – Solaris 10 用の DTrace ベースの監視ユーティリティー
examples – サンプルのスクリプトファイル、構成ファイル、およびアプリケーションプログラム
include – DRMAA ヘッダーファイル
lib – 必須の共有ライブラリおよび DRMAA JavaTM バインディング jar ファイル
man – nroff 形式のオンラインマニュアルページ
mpi – MPI メッセージ受け渡しシステム用の並列環境インタフェースのサンプル
pvm – PVM メッセージ受け渡しシステム用の並列環境インタフェースのサンプル
qmon – QMON グラフィカルユーザーインタフェース用のピックスマップ、リソース、およびヘルプファイル
reporting – アカウンティングおよびレポートコンソールソフトウェア
util – インストール作業用のユーティリティーシェル手続きと Grid Engine システムの停止スクリプトと起動スクリプトのテンプレート
utilbin – 主にインストール中に必要とされるユーティリティープログラム
Sun N1 Grid Engine 6.1 ソフトウェアをインストールするには、『Sun N1 Grid Engine 6.1 インストールガイド』 の手順に従ってください。
Sun N1 Grid Engine 6.1 ソフトウェアは、次のオペレーティングシステムとプラットフォームをサポートしています。
Solaris 10、9、および 8 オペレーティングシステム (SPARC プラットフォーム版)
Solaris 10 および 9 オペレーティングシステム (x86 プラットフォーム版)
Solaris 10 オペレーティングシステム (x64 プラットフォーム版)
Apple Mac OS X 10.4 (Tiger)、PPC プラットフォーム版
Apple Mac OS X 10.4 (Tiger)、x86 プラットフォーム版
Hewlett Packard HP-UX 11.00 以上、32 ビット版
Hewlett Packard HP-UX 11.00 以上、64 ビット版 (IA64 版 HP-UX を含む)
IBM AIX 5.1/5.3
Linux x86、カーネル 2.4/ 2.6、glibc 2.3.2 以上
Linux x64、カーネル 2.4/2.6、glibc 2.3.2 以上
Linux IA64、カーネル 2.4/2.6、glibc 2.3.2 以上
Silicon Graphics IRIX 6.5
Microsoft Windows Server 2003、Windows XP Professional (Service Pack 1 以降)、Windows 2000 Server (Service Pack 3 以降)、Windows 2000 Professional (Service Pack 3 以降)
N1 Grid Engine 6.1 ソフトウェアは、N1 Grid Engine 6.0 クラスタがすでに存在する環境にインストールできます。既存の N1 Grid Engine 環境と並行して 6.1 ソフトウェアを実行するには、次の規則に従ってください。
qmaster と実行デーモン用として、既存と異なる$SGE_ROOT ディレクトリおよび TCP ポートを使用する。
手動または自動インストール中に、システム全体の起動スクリプトのインストールを選択しない。システム全体の起動スクリプトをインストールすると、qmaster と実行デーモン用の N1 Grid Engine 6.0 起動スクリプトが上書きされます。
1 つのホストに 2 つの実行デーモンをインストールする場合は、必ずグローバル/ローカルクラスタ構成で既存と異なる「gid_range」を使用する。
Microsoft Windows システムの場合、オプションの「N1 Grid Engine Helper Service」は 1 つ の Grid Engine インスタンスに対してのみインストールできます。N1 Grid Engine 6.0 用にこのサービスがすでにインストールされていると、N1 Grid Engine 6.1 用のサービスがインストールできないことがあります。その場合、N1 Grid Engine 6.1 用として Windows デスクトップ上に GUI を必要とするジョブは実行できません。
変数が適切な N1 Grid Engine インスタンスを指し示していることを確認する。具体的には、ポート設定、PATH 変数、および LD_LIBRARY_PATH 変数をチェックします。Solaris および Linux で、LD_LIBRARY_PATH を設定する必要がなくなりました。
Sun N1 Grid Engine 6.1 ソフトウェアでは、新機能がいくつか追加され、機能が強化されています。
リソース割り当て機能では、 キュー、ホスト、メモリー、ソフトウェアライセンスなどの任意のリソースで実行するジョブの最大数をユーザー、ユーザーグループ、およびプロジェクト単位で制限できます。ファイアウォールに似た規則構文を使用して、前例のない柔軟な構成を実現できます。
リソース割り当てについては、『Sun N1 Grid Engine 6.1 管理ガイド』の第 6 章「リソース割り当ての管理」を参照してください。さらに詳しい内容については、qquota(1)、sge_resource_quota(5)、および qconf(1) のマニュアルページを参照してください。
マスターコンポーネントが Solaris 10 マシンで動作している場合は、DTrace ベースのマスター監視診断ユーティリティーを利用して、マスターを監視し、問題点を見つけることができます。詳細は、『Sun N1 Grid Engine 6.1 管理ガイド』の「DTrace によるパフォーマンスチューニング」および $SGE_ROOT/dtrace/README_dtrace.txt ファイルを参照してください。
次のすべてのコマンドで、-wd オプションを使用してジョブの作業ディレクトリを指定できます。qsub、qalter、qsh、qrsh、および qmon。詳細は、それぞれのマニュアルページを参照してください。
Sun N1 Grid Engine 6.1 リリースでは、次のオペレーティングシステムのサポートが追加されています。
Itanium の Linux (IA64)
x86 プラットフォーム版の Apple Mac OS X
ARCo は、次のデータベースサーバーをサポートしています。PostgreSQL 7.4 〜 8.2、MySQL 5.0、および Oracle 9i/10.0/10.1/10.2。
文字列およびホストコンプレックス属性に対するリソース検索が拡張され、柔軟なブール式構文 (論理 AND、OR、および NOT 演算子) を使用できるようになりました。
Grid Engine のアカウンティングおよびレポートコンソール (ARCo) が、MySQL デーベースにレポート用データを書き込めるようになりました。
Solaris および Linux で N1 Grid Engine コマンドを使用するときに、環境変数の LD_LIBRARY_PATH を設定する必要がなくなりました。この変更はコマンドの実行環境を改善し、システムにインストールされた SSL や Berkeley DB ライブラリなどの共有ライブラリとの衝突を回避するのに役立ちます。
複合変数 display_win_gui を使用して、「N1 Grid Engine Helper Service」を実行している Windows ホストにのみジョブをスケジューリングできるようになりました。このヘルパーサービスにより、バックグラウンドアプリケーションも Windows ホストの表示デスクトップ上にそのグラフィカルユーザーインタフェースを表示できます。
細かな変更により QMON の使い勝手を改善しました。
パフォーマンス上の理由から、qstat -u オプションのデフォルト動作が変更されました。N1 Grid Engine 6.1 より前のバージョンでは、-u オプションなしの qstat コマンドはすべてのユーザーのジョブを出力していました。N1 Grid Engine 6.1 からは、-u オプションなしの qstat コマンドは、 qstat を実行したユーザーのジョブのみ出力します。
クラスタ全体で前の qstat の動作を有効にするには、クラスタ全体に対する $SGE_ROOT/$SGE_CELL/common/sge_qstat ファイルに管理者が -u * を追加します。ユーザー単位で前の qstat の動作を有効にするには、ユーザー専用のファイル $HOME/.sge_qstat にユーザーが -u * を追加します。
Sun N1 Grid Engine 6.1 リリースでは、次のオペレーティングシステムのサポートは廃止されました。
Solaris 7 (SPARC プラットフォーム版)
Solaris 8 (x86 プラットフォーム版)
IBM AIX 4.3
PowerPC (PPC) プラットフォームの Apple MacOS X 10.2 (Jaguar) および 10.3 (Panther)
また、Sun N1 Grid Engine 6.1 ソフトウェアは、Sun Control Station 用 Grid Engine Management Module (GEMM) をサポートしていません。
この節では、製品のテスト中に発見され、修正またはマニュアルへの記載に間に合わなかった問題点について説明します。
このリリースの Sun N1 Grid Engine 6.1 ソフトウェアには、次のような制限があります。
sge_qmaster のスタックサイズは 16M バイトに設定する必要があります。次のアーキテクチャーにおいてスタックサイズをデフォルト値のままにしておくと、sge_qmaster が実行できないことがあります。IBM AIX および HP/UX 11。
sge_qmaster デーモンを実行するように指定されたホスト上のカーネル構成で、ファイル記述子の制限を高めに設定してください。同様に、シャドウマスターホストに対してファイル記述子の制限を高めに設定することもできます。数多くのファイル記述子を利用できるようにしておくと、通信システムは接続を開いたままにしておくことができ、ファイル記述子を何度も閉じたり開いたりする必要がなくなります。実行ホストが多い場合、ファイル記述子の制限を高く設定しておくと、パフォーマンスは大幅に向上します。ファイル記述子の制限は、実行ホストの予定数よりも多く設定します。また、並行クライアント要求 (特に、qsub -sync で発行されるジョブ) のために、あるいは、DRMAA セッションを実行してマスターデーモンとの通信接続を安定させるために、この制限にはさらに余裕を持たせておく必要があります。ファイル記述子の制限を設定する方法については、オペレーティングシステムのマニュアルを参照してください。
並行動的イベントクライアントの数は、ファイル記述子の数によって制限されます。デフォルトは 99 です。動的イベントクライアントとは、qsub -sync コマンドと DRMAA セッションで発行されるジョブのことです。動的イベントクライアントの数は、グローバルクラスタ構成の qmaster_params パラメータで制限できます。このパラメータは MAX_DYN_EC= n に設定します。詳細は、sge_conf(5) のマニュアルページを参照してください。
ARCo モジュールは、Solaris SPARC、Solaris SPARC 64 ビット、Solaris x86、Solaris x64、Linux x86、および Linux 64 ビットカーネルでのみ使用できます。
現在のリリースでは、ARCo に付属する定義済みクエリーの数は限定的です。将来のリリースでは、より多くの定義済みクエリーが付属する予定です。
リソースの予約において、リソースの量に INFINITY を要求するジョブは正しく処理されません。特定のリソースに対して明示的な要求が行われていない場合、デフォルトで INFINITY が要求されることがあります。したがって、リソースの予約において、すべてのリソースの量を明示的に指定することが重要です。
リソースの予約で考慮されるジョブは、現在のところ、保留中のジョブだけです。結果として、発行オプション -a time と -hold_jid joblist のためにホールド状態 であるが保留中ではないジョブは予約されません。このようなジョブは、発行オプション -R n が指定されているように処理されます。
Berkeley DB では、Solaris 10 で qmaster を実行しない場合および NFSv4 マウントを使用する場合は、データベースファイルがローカルディスクに存在する必要があります。ほかのベンダー製の NFSv4 完全準拠のクライアントおよびサーバーもサポートされていますが、テストはされていません。スプーリングデータを格納するファイルサーバー上で sge_qmaster を実行できない場合 (たとえば、シャドウマスター機能を使用する場合) には、Berkeley DB の RPC サーバーを使用できます。この RPC サーバーはファイルサーバー上で動作し、Berkeley DB の sge_qmaster インスタンスと接続します。ただし、Berkeley DB の RPC サーバーがこの通信に使用するプロトコルは安全でないため、セキュリティー上の問題が発生します。セキュリティーが重要なサイトでは、この RPC サーバーを使用してはなりません。その代わりに、スプーリング用には sge_qmaster ローカルディスクを使用して、フェイルオーバー用には Sun Cluster のような 高可用性ソリューションを使用します。そしてフェイルオーバーが発生しても、ホストのローカルのファイルにアクセスできるようにします。
大きなアレイタスク番号を使用すると QMON がビジーになります。大きなアレイタスク番号を使用した場合、QMON の Job Control ダイアログボックスのカスタマイズにおいて「compact job array display」を使用する必要があります。そうでないと、QMON の GUI によって CPU の負荷が高くなり、パフォーマンスが低下します。
自動インストールオプションは、インストールに失敗した場合に完全な診断情報を提供しません。インストールプロセスが中断した場合、qmaster-spool-dir/install_ hostname_timestamp.log または /tmp/install.pid にあるインストールログファイルの存在とその内容をチェックしてください。
IBM AIX、HP/UX 11、および SGI IRIX 6.5 システムでは、sge_qmaster、 spooldefaults、および spoolinit 用に 2 つの異なるバイナリが提供されています。これらのバイナリの 1 つは Berkeley DB のスプーリング方式用であり、ほかのバイナリは従来のスプーリング方式用です。これらのバイナリの名前は binary.spool_db と binary.spool_classic です。
希望のスプーリング方式に変更するには、マスターホストをインストールする前に、これらのシンボリックリンクを変更します。次のコマンドを実行します。
# cd sge-root/bin/arch # rm sge_qmaster # ln -s sge_qmaster.spool_classic sge_qmaster # cd sge-root/utilbin/arch # rm spooldefaults spoolinit # ln -s spooldefaults.spool_classic spooldefaults # ln -s spoolinit.spool_classic spoolinit |
デフォルトの Mac OS X インストールには、QMON が必要とする OpenMotif ライブラリが含まれません。PowerPC および x86 アーキテクチャー用 OpenMotif ライブラリは、http://dryden.biol.yorku.ca/macosx/ などのさまざまな Web サイトから入手できます。
ARCo の PDF エクスポートには多くのメモリーが必要です。非常に大きなレポートを PDF にエクスポートすると、OutOfMemoryException が発生することがあります。
回避策 – Sun Java Web コンソールの JVM ヒープサイズを増やします。次のコマンドは最大ヒープサイズを 512M バイトに設定します。
# smreg add -p java.options="... -Xmx512M ..."
このコマンドで変更した値を有効にするには、Sun Java Web コンソールを再起動する必要があります。
# smcwebserver restart
Solaris SPARC 64 ビット、Solaris x64、および Linux 64 ビットカーネルでは、ARCo の一部である DBWriter を動作させるためには、64 ビットの Java 仮想マシンのサポートをインストールする必要があります。
DRMAA を使用して Java バインドを使用する場合は、LD_LIBRARY_PATH が正しく設定されていることを確認してください。
32 ビット Java 仮想マシン (JVM) を使用する場合は、実際にはアプリケーションが 64 ビットオペレーティングシステムプラットフォームで実行される場合でも、$SGE_ROOT/lib/sol-sparc などの LD_LIBRARY_PATH に 32 ビット共有 DRMAA ライブラリを設定します。
N1 Grid Engine 6.1 version の drmaa.jar ファイルは、以前の drmaa.jar ファイルと互換性がありません。古い drmaa.jar ファイルは、 drmaa-0.5.jar という名前に変更されています。
CSP を使用せずに十分な機能を持つ自動インストールを行うには、rsh または ssh によるリモートログインに対し、パスワードを要求せずに root ユーザー権限を付与する必要があります。これにより、インストールスクリプトはリモートホストでインストールを開始できます。この設定が正しく行われていない場合、実行ホストごとにログインし、次のコマンドを使用して自動インストールを手動で実行する必要があります。
inst_sge -x -auto <conf-file> -noremote |
ローカルの execd スプールディレクトリを使用すると、自動インストールで問題が起きます。ローカルの execd スプールディレクトリは、ローカルハードディスク上に定義されています。それらローカル execd スプールディレクトリを使用すると、自動インストールがハングアップすることがあります。
Services For UNIX (SFU) 3.5 のインストールには、Windows プラットフォームの管理と UNIX 環境への統合についての十分な知識が必要です。SFU の概要については、『Sun N1 Grid Engine 6.1 インストールガイド』の付録 A「Microsoft Windows Services For UNIX」を参照してください。Microsoft の Web サイト http://www.microsoft.com/windows/sfu/default.asp では、SFU に関するそのほかの技術情報およびマニュアルを入手できます。
SFU でのユーザー名マッピング、NFS マウント、およびホスト名解釈では、Grid Engine 実行デーモンのインストールの成功、発行ホスト機能、および Windows ホストの N1 Grid Engine クラスタへの統合に関して特別な注意が必要です。
自動インストール手順を使用して、Windows 実行ホストをリモートインストールすることはできません。inst_sge -noremote コマンドで自動インストール手順を使用して、ローカルインストールできます。
Windows の「ローカル Administrator」で、Windows 発行ホストから Unix および Linux 実行ホストにジョブを発行することはできません。ただし、Windows から Windows へは、ローカル Administrator でジョブを発行できます。また、UNIX または Linux から Windows、Unix、および Linux 実行ホストへは、root ユーザーでジョブを発行できます。