Sun Studio 12: OpenMP API ユーザーズガイド

第 2 章 OpenMP プログラムのコンパイルと実行

この章では、OpenMP API を使用するプログラムに影響するコンパイラおよび実行時オプションを説明します。

並列処理プログラムをマルチスレッド環境で実行するには、OMP_NUM_THREADS 環境変数をプログラム実行前に設定しなければなりません。これにより、プログラムで作成できる最大スレッド数を実行時システムに設定します。デフォルトは 1 です。通常は、OMP_NUM_THREADS を対象プラットフォームで使用可能な仮想プロセッサ数以下に設定します。OMP_NUM_THREADS で指定したスレッド数を使う場合には、OMP_DYNAMICFALSE に設定します。

Sun Studio のコンパイラおよび OpenMP についての最新情報は、Sun の開発者向けポータルサイト (http://developers.sun.com/sunstudio) を参照してください。

2.1 使用するコンパイラオプション

OpenMP の指令を使用して明示的に並列化を有効にするには、ccCC、または f95 のオプションフラグ -xopenmp を指定してプログラムをコンパイルします。このフラグには、キーワードの引数を 1 つ指定することができます。f95 コンパイラでは、-xopenmp-openmp を同義語として使用することができます。

-xopenmp フラグには、次のキーワードサブオプションを指定することができます。


-xopenmp=parallel

OpenMP プラグマの認識を有効にします。-xopenmp=parallel の最小限の最適化レベルは -xO3 です。コンパイラは、必要に応じて最適化のレベルを低いレベルから -xO3 に上げ、警告を出力します。


-xopenmp=noopt

OpenMP プラグマの認識を有効にします。最適化のレベルが -xO3 より低い場合でも、コンパイラは最適化のレベルを上げません。-xO2 -openmp=noopt のように、最適化レベルを明示的に -xO3 よりも下げると、コンパイラはエラーを出力します。-openmp=noopt を使用して最適化レベルを指定しない場合、OpenMP プラグマが認識され、プログラムが並列化されますが、最適化は行われません。


-xopenmp=stubs

このオプションはサポートされていません。OpenMP スタブライブラリは、ユーザーの便宜上の理由で提供されています。OpenMP ライブラリルーチンを呼び出しても OpenMP プラグマを無視するような OpenMP プログラムをコンパイルするには、-xopenmp オプションを指定しないでコンパイルします。その後、libompstubs.a ライブラリを使ってオブジェクトファイルをリンクします。次に例を示します。% cc omp_ignore.c -lompstubs

libompstubs.a と OpenMP 実行時ライブラリの libmtsk.so 両方とのリンクはサポートされていません。両方とリンクすると、予期しない動作になることがあります。


-xopenmp=none

OpenMP プラグマの認識を無効にし、最適化レベルを変更しません 

その他の注

2.2 Fortran 95 OpenMP の妥当性検査

f95 コンパイラのプログラム全体のチェック機能を使用して、Fortran 95 プログラムの OpenMP 指令の手続き間の妥当性検査を静的に実行することができます。OpenMP のチェックは、-XlistMP フラグを指定してコンパイルを行うことによって有効になります。-XlistMP を指定した場合の診断メッセージは、ソースファイル名に .lst という拡張子の付いた名前の別ファイルの形で出力されます。コンパイラは、次の違反と並列化の阻害要因を診断します。

たとえば、ord.f というソースファイルを -XlistMP を指定してコンパイルすると、ord.lst という診断ファイルが生成されます。


FILE  "ord.f"
     1  !$OMP PARALLEL
     2  !$OMP DO ORDERED
     3                  do i=1,100
     4                          call work(i)
     5                  end do
     6  !$OMP END DO
     7  !$OMP END PARALLEL
     8
     9  !$OMP PARALLEL
    10  !$OMP DO
    11                  do i=1,100
    12                          call work(i)
    13                  end do
    14  !$OMP END DO
    15  !$OMP END PARALLEL
    16                  end
    17                  subroutine work(k)
    18  !$OMP ORDERED
         ^
**** ERR-OMP:  ORDERED 節が指定されていない DO 指令 (ord.f、10 行目、
2 列目) に ORDERED 指令を結合することは不当です。
    19                  write(*,*) k
    20  !$OMP END ORDERED
    21                  return
    22                  end

この例では、サブルーチン WORK 内の ORDERED 指令で、2 番目の DO 指令に ORDERED 句がないことを指摘する診断が出力されています。

2.3 OpenMP 環境変数

OpenMP 仕様では、OpenMP プログラムの実行を制御する環境変数が 4 つ定義されています。これらの環境変数を次の表に示します。

表 2–1 OpenMP 環境変数

環境変数 

関数 

OMP_SCHEDULE

スケジュール型が RUNTIME として指定された DOPARALLEL DOforparallel for の指令またはプラグマのスケジュール型を設定します。定義しない場合は、デフォルト値の STATIC が使用されます。value"type[,chunk]" と いう書式で指定します。

例: setenv OMP_SCHEDULE 'GUIDED,4'

OMP_NUM_THREADS または PARALLEL

並列領域の実行中に使うスレッドの数を設定します。この数は NUM_THREADS 句または OMP_SET_NUM_THREADS() への呼び出しによって上書きできます。設定しない場合は、デフォルト値の 1 が使用されます。value には必ず正の整数を指定します。従来のプログラムとの互換性のため、PARALLEL 環境変数を設定すると OMP_NUM_THREADS を設定するのと同じ効果が得られます。ただし、それらが共に異なる値に設定されると、実行時ライブラリはエラーメッセージを発行します。

例: setenv OMP_NUM_THREADS 16

OMP_DYNAMIC

並列領域の実行で使用可能なスレッド数の動的調整を有効ま たは無効にします。設定しない場合は、デフォルト値の TRUE が使用されます。value には、TRUE または FALSE を指定します。

例: setenv OMP_DYNAMIC FALSE

OMP_NESTED

入れ子並列処理を有効または無効にします。

value には、TRUE または FALSE を指定します。デフォルトは FALSE です。

例: setenv OMP_NESTED FALSE

これ以外にも、OpenMP プログラムの実行に影響を与える多重処理に関する環境変数がありますが、OpenMP 仕様には含まれていません。これらの環境変数を次の表に示します。

表 2–2 並列処理関係の環境変数

環境変数 

関数 

SUNW_MP_WARN

OpenMP の実行時ライブラリで出力される警告メッセージを制御します。TRUE に設定した場合は、実行時ライブラリの警告メッセージが stderr に出力されます。 FALSE に設定した場合は、警告メッセージが無効になります。デフォルトは FALSE です。

OpenMP 実行時ライブラリは、不正な入れ子やデッドロックなど、共通の OpenMP 違反を調べることができます。ただし、実行時チェックを使用するとプログラムの実行時にオーバーヘッドが加わります。第 3 章「実装によって定義される動作」を参照してください。

SUNW_MP_WARNTRUE に設定している場合、実行時ライブラリは stderr に警告メッセージを出力します。また、警告メッセージを認証するためにプログラムでコールバック関数が登録されている場合も、実行時ライブラリは警告メッセージを出力します。次の関数を呼び出すことにより、プログラムでユーザーコールバック関数を登録できます。


   int sunw_mp_register_warn (void (*func)(void *));

コールバック関数のアドレスは、sunw_mp_register_warn() に引数として渡されます。この関数は、コールバック関数の登録に成功した場合 0 を、失敗した場合 1 を返します。

プログラムでコールバック関数が登録されている場合、libmtsk はエラーメッセージを含むローカライズされた文字列にポインタを渡し、登録済みの関数を呼び出します。 メモリーの割り当て先は、コールバック関数から戻ると無効になります。

例:  

setenv SUNW_MP_WARN TRUE

SUNW_MP_THR_IDLE

OpenMP プログラムのバリアで待ち状態または新しい並列領域の実行待ち状態のアイドルスレッドの状態を制御します。次のいずれかの値を設定できます。SPINSLEEPSLEEP( times)SLEEP(timems)、または SLEEP( timemc)time には時間を整数で指定し、sms、および mc には時間の単位 (それぞれ、秒、ミリ秒、マクロ秒) を指定します。

SPIN を指定すると、アイドルスレッドは、バリアで待機中または新しい並列領域の実行待ちの間スピンをします。時間引数なしで SLEEP を指定すると、アイドルスレッドはすぐにスリープ状態になります。時間引数付きで SLEEP を指定すると、スレッドは指定した時間スピンを継続し、そのあとスリープ状態になります。

デフォルトのアイドルスレッド状態は、スリープ状態ですが、ある程度の時間スピンして待機したあとスリープ状態になることがあります。SLEEPSLEEP(0)SLEEP(0s)SLEEP(0ms)、および SLEEP(0mc) はすべて同義です。

例:  


setenv SUNW_MP_THR_IDLE SPIN 
setenv SUNW_MP_THR_IDLE SLEEP 
setenv SUNW_MP_THR_IDLE SLEEP(2s) 
setenv SUNW_MP_THR_IDLE SLEEP(20ms) 
setenv SUNW_MP_THR_IDLE SLEEP(150mc)

SUNW_MP_PROCBIND

この環境変数は Solaris システム上でのみ有効です。SUNW_MP_PROCBIND 環境変数を使用して OpenMP プログラムのスレッドを実行中のシステムの仮想プロセッサに結合できます。プロセッサに結合することでパフォーマンスを向上することができますが、同じ仮想プロセッサに複数のスレッドが結合されると、パフォーマンスが低下します。詳細は、「2.4 Solaris でのプロセッサ結合」を参照してください。

SUNW_MP_MAX_POOL_THREADS

スレッドプールの最大数を指定します。プールにあるのは、OpenMP ライブラリが作成した非ユーザースレッドだけです。マスタースレッドやユーザーのプログラムが明示的に作成したスレッドは含まれません。この環境変数をゼロに設定すると、スレッドのプールは空になり、すべての並列領域は 1 つのスレッドによって実行されます。指定がない場合、デフォルト値は 1023 です。詳細は、「4.2 入れ子並列処理の制御」を参照してください。

SUNW_MP_MAX_NESTED_LEVELS

有効な入れ子になった並列領域の深さの最大数を指定します。この環境変数で指定した数を超える有効な入れ子を持つ並列領域は、1 つのスレッドによって実行されます。IF 句が False になっている OpenMP 並列領域の場合は、その並列領域は無効であると見なされます。指定がない場合、デフォルト値は 4 です。詳細は、「4.2 入れ子並列処理の制御」を参照してください。

STACKSIZE

各スレッドのスタックサイズを設定します。値はキロバイト単位で指定します。デフォルトのスレッドスタックサイズは、32 ビット SPARC V8 および x86 プラットフォームで 4M バイト、64 ビット SPARC V9 および x86 プラットフォームで 8M バイトです。

例:  

setenv STACKSIZE 8192 スレッドのスタックサイズを 8M バイトに設定します。

STACKSIZE 環境変数には、接尾辞がそれぞれバイト、キロバイト、メガバイト、ギガバイトを表す B、K、M、または G の数値も指定できます。デフォルトはキロバイトです。

SUNW_MP_GUIDED_WEIGHT

チャンクのサイズを決定する重み係数を設定します。このチャンクサイズは、GUIDED スケジューリングによってループ中のスレッドに割り当てられます。値には、正の浮動小数点数を指定します。この値は、同一プログラム中で GUIDED スケジューリングが設定されたループすべてに適用されます。指定がない場合のデフォルト値は 2.0 です。

2.4 Solaris でのプロセッサ結合

プロセッサ結合では、プログラマはプログラムの実行を通じてプログラム内のスレッドを同じプロセッサで実行すべきであることを、Solaris オペレーティングシステムに指示します。この機能は Linux 上では使用できません。

static スケジュール指定ととともにプロセッサ結合を使用すると、並列領域またはワークシェアリング領域の前回呼び出し以降、その領域内のスレッドがアクセスするデータがローカルキャッシュに存在する、特定のデータ再利用パターンを持つアプリケーションにメリットがあります。

ハードウェアから見ると、コンピュータシステムは 1 つまたは複数の「物理」プロセッサから構成されています。オペレーティングシステム (Solaris) から見ると、これらの「物理」プロセッサはそれぞれ、プログラム内のスレッドを実行可能な 1 つまたは複数の「仮想」プロセッサにマッピングされます。n 個の仮想プロセッサを使用する場合、n 個のスレッドを同時に実行するようスケジューリングできます。システムによって、仮想プロセッサはプロセッサ、コアなどになる可能性があります。たとえば、UltraSPARC IV 物理プロセッサには、それぞれ 2 つのコアがあります。Solaris OS から見ると、この各コアはスレッドの実行をスケジューリング可能な「仮想」プロセッサです。一方、UltraSPARC T1 物理プロセッサには 8 つのコアがあり、各コアはスレッドを 4 つ同時に処理できます。Solaris OS から見ると、スレッドの実行をスケジューリング可能な仮想プロセッサは 32 個あります。Solaris オペレーティングシステムでは、psrinfo(1M) コマンドを使用して仮想プロセッサの数を特定できます。

オペレーティングシステムがスレッドをプロセッサに結合すると、スレッドは実質的に「物理」プロセッサではなく、特定の「仮想」プロセッサに結合されます。

Solaris OS で実行する場合、OpenMP プログラム内のスレッドを特定の仮想プロセッサに結合するには、SUNW_MP_PROCBIND 環境変数を設定します。SUNW_MP_PROCBIND には、次のいずれかの値を指定できます。

前述の非負整数は論理識別子 (ID) を表しています。論理 ID は「仮想」プロセッサ ID とは異なります。その違いを次に示します。

仮想プロセッサ ID

システム内の各仮想プロセッサは一意のプロセッサ ID を持ちます。Solaris OS の psrinfo(1M) コマンドを使用すると、システム内のプロセッサに関するプロセッサ ID などの情報を表示できます。さらに、prtdiag(1M) コマンドを使用すると、システム構成および診断情報を表示できます。

Solaris の最近のリリースでは psrinfo -pv を使用すると、システム内のすべての物理プロセッサ、および各物理プロセッサに関連付けられた仮想プロセッサを一覧表示できます。

仮想プロセッサ ID は、連番になることも、ID 番号が飛ぶこともあります。たとえば、8 個の UltraSPARC IV プロセッサ (16 コア) を持つ Sun Fire 4810 では、仮想プロセッサ ID が 0、1、2、3、8、9、10、11、512、513、514、515、520、521、522、523 のようになります。

論理 ID

前述のとおり、SUNW_MP_PROCBIND に指定された非負整数は論理 ID です。論理 ID は 0 から始まる連続した整数です。システムで使用可能な仮想プロセッサの数が n 個の場合、その論理 ID は、psrinfo(1M) で表示される順に 0、1、...、n-1 のようになります。次の Korn シェルスクリプトを使用すると、仮想プロセッサ ID から論理 ID へのマッピングを表示できます。


#!/bin/ksh

NUMV= `psrinfo | fgrep "on-line" | wc -l `
set -A VID  `psrinfo | cut -f1 `

echo "Total number of on-line virtual processors = $NUMV"
echo

let "I=0"
let "J=0"
while [[ $I -lt $NUMV ]]
do
  echo "Virtual processor ID ${VID[I]} maps to logical ID ${J}"
  let "I=I+1"
  let "J=J+1"
done

1 つの物理プロセッサが複数の仮想プロセッサにマッピングされているシステムでは、同じ物理プロセッサに属す仮想プロセッサにどの論理 ID が対応しているかを知っておくと便利です。次の Korn シェルスクリプトを最近のリリースの Solaris で使用すると、この情報が表示されます。


#!/bin/ksh

NUMV= `psrinfo | grep "on-line" | wc -l `
set -A VLIST  `psrinfo | cut -f1 `
set -A CHECKLIST  `psrinfo | cut -f1 `

let "I=0"

while [ $I -lt $NUMV ]
do
  let "COUNT=0"
  SAMELIST="$I"

  let "J=I+1"

  while [ $J -lt $NUMV ]
  do
    if [ ${CHECKLIST[J]} -ne -1 ]
    then
      if [  `psrinfo -p ${VLIST[I]} ${VLIST[J]} ` = 1 ]
      then
        SAMELIST="$SAMELIST $J"
        let "CHECKLIST[J]=-1"
        let "COUNT=COUNT+1"
      fi
    fi
    let "J=J+1"
  done

  if [ $COUNT -gt 0 ]
  then
    echo "The following logical IDs belong to the same physical processor:"
    echo "$SAMELIST"
    echo " "
  fi

  let "I=I+1"
done

SUNW_MP_PROCBIND に指定された値の解釈

SUNW_MP_PROCBIND に指定された値が非負整数の場合、その整数はスレッドの結合先の仮想プロセッサの開始論理 ID を表します。スレッドは、指定された論理 ID のプロセッサから始めてラウンドロビン式に仮想プロセッサに結合され、論理 ID n-1 のプロセッサのあとは ID 0 のプロセッサに戻ります。SUNW_MP_PROCBIND に指定された値が 2 つ以上の非負整数のリストになっている場合、スレッドはラウンドロビン式に指定された ID の仮想プロセッサに結合されます。指定された以外の論理 ID を持つプロセッサは使用されません。

SUNW_MP_PROCBIND に指定された値が、マイナス記号 (-) で区切られた 2 つの非負整数の場合、スレッドは最初の論理 ID から 2 番目の論理 ID の範囲の仮想プロセッサに、ラウンドロビン式で結合されます。この範囲に含まれない論理 ID を持つプロセッサは使用されません。

SUNW_MP_PROCBIND に指定された値が前述のどの形式にも当てはまらないか、不正な論理 ID が指定された場合は、エラーメッセージが出力され、プログラムの実行が終了します。

microtasking ライブラリ libmtsk で作成されるスレッドの数は、環境変数、ユーザーのプログラム内の API 呼び出し、および num_threads 句によって異なります。SUNW_MP_PROCBIND は、スレッドの結合先となる仮想プロセッサの論理 ID を指定します。スレッドは、その一連のプロセッサにラウンドロビン式で結合されます。プログラム内で使用しているスレッドの数が、SUNW_MP_PROCBIND で指定された論理 ID の数よりも少ない場合、一部の仮想プロセッサはそのプログラム内で使用されません。SUNW_MP_PROCBIND で指定された論理 ID の数よりもスレッドの数が多い場合、一部の仮想プロセッサには複数のスレッドが結合されます。

2.5 スタックとスタックサイズ

実行プログラムは、各スレーブスレッド用の個別スタックのほか、プログラムを実行する初期スレッド用のメインメモリースタックを保持します。スタックは、サブプログラムまたは関数参照の呼び出し中、引数および自動変数を保持するために使用される一時的なメモリーアドレス空間です。

デフォルトのメインスタックのサイズは 8M バイトです。f95 にオプション -stackvar を指定して Fortran プログラムをコンパイルすると、自動変数であるかのようにスタック上にローカル変数と配列が割り当てられます。OpenMP プログラムでの -stackvar 指定は、明示的に並列化されたプログラムで必要になります。これは、オプティマイザのループでの呼び出しの並列化機能を向上させるためです (-stackvar フラグについては、『Fortran ユーザーズガイド』を参照)。ただし、スタックに十分なメモリーが割り当てられていない場合は、スタックのオーバーフローが発生する可能性があります。

メインスタックのサイズを表示または設定するには、C シェルの limit コマンド、または ksh、sh の ulimit コマンドを使用します。

OpenMP プログラムの各スレーブスレッドは、それぞれスレッドスタックを持ちます。このスタックは最初の (メイン) スレッドスタックに似ていますが、そのスレッドに固有のものです。スレッドの PRIVATE 配列および変数 (スレッドにローカル) は、スレッドスタックに割り当てられます。デフォルトのサイズは、32 ビット SPARC V8 および x86 プラットフォームで 4M バイト、64 ビット SPARC V9 および x86 プラットフォームで 8M バイトです。ヘルパースレッドスタックのサイズは、STACKSIZE 環境変数で設定されます。


demo% setenv STACKSIZE 16384   <-スレッドのスタックサイズを 16 Mb に設定 (C シェル)

demo$ STACKSIZE=16384          <-同上 (Bourne/Korn シェル)
demo$ export STACKSIZE

最適なスタックサイズを判定するには、試行とエラーを経る必要があるかもしれません。スタックサイズがスレッドに対して小さすぎて実行できない場合、エラーメッセージが出力されないまま、隣接するスレッドでデータ破壊やセグメントエラーが発生する可能性があります。スタックオーバーフローが発生するかどうか不確かな場合、-xcheck=stkovf コンパイラオプションを指定して Fortran や C、C++ プログラムをコンパイルすると、スタックオーバーフローのセグメント例外を発生させることができます。この場合、データ破壊が発生する前にプログラムの実行が停止します (注: -xcheck=stkovf コンパイラオプションは、SPARC システム上でのみ使用できます)。

2.6 スレッドアナライザを使用した OpenMP プログラムのチェック

Sun Studio スレッドアナライザツールを使用して、OpenMP プログラムのデータ競合やデッドロックをチェックできます。詳細は、スレッドアナライザのマニュアルおよび tha(1) のマニュアルページを参照してください。