7 モニター機能と回復手順

SMC には、SMC サブシステムおよびすべてのクライアント/サーバー通信が正しく動作していることを確認するように設計された、いくつかの内部モニター機能が用意されています。

SMC モニターサブタスクは、SMC MONitor コマンドで設定されたパラメータに応じて、次のアクションを定期的に実行します。

  • 現在アクティブな通信パスが存在しない場合、または現在の通信パスが優先パスでない場合に、TapePlex 通信をチェックする。

  • TapePlex との通信が一定期間存在しなかった場合に、TapePlex 通信をチェックする。

  • SMC が z/OS の割り振りに影響を与える SMC IEFJFRQ 出口がアクティブであることを確保する。

  • アクティブでない通信トークンをクリーンアップする

  • マウント遅延を再処理する

  • オプションで、下限のスクラッチ限界値に達したスクラッチサブプールについて報告する

MONitor コマンドを入力しない場合は、スクラッチ限界値を除き、上のすべてのアクションがモニターされます。さらに、デフォルトでは、SMC は停止のあと、常にプライマリ通信パス (最初の定義済みサーバー) に戻そうとします。

SMC MONitor コマンドの詳細については、『ELS Command, Control Statement, and Utility Reference』を参照してください。

通信モニタリング

SMC のモニタリングがアクティブな場合は、各 TapePlex のステータスが定期的にチェックされます。

TapePlex がアクティブであるとして表示され、ローカルまたはプライマリサーバーのパス上の (つまり、PREFprimaryOFF に設定されている) 通信が完全なサービスレベルにあり、さらに最後のアクティブチェック間隔以降に通信を確立している場合は、それ以上の処理は実行されません。

ただし、次のいずれかの状況では、PREFprimary ON が設定されている場合、SMC は定義されている最初の通信パスから再開して TapePlex と通信しようとします。

  • TapePlex に現在アクティブな通信パスがない。

  • TapePlex がセカンダリ通信パス上でアクティブであり、デフォルト値の PREFprimary ON が設定されている。

  • TapePlex が完全サービスレベルでない。

  • TapePlex が、最後のアクティブなチェック間隔以降に通信を確立していない。

通信がある通信パスから別の通信パスに切り替えられた場合、または TapePlex と通信していない一定期間のあとに通信が正常に確立された場合は常に、通信が切り替えられたこと、またはアクティブであることを示す SMC メッセージが生成されます。

通信を妨げているエラーが SMC によって検出されると、次のいずれかの SMC メッセージが生成され、削除不可能なメッセージとしてコンソール上に残ります。

  • メッセージ SMC0260 は、ローカルパスまたはサーバーに関する特定のエラーを示します。

  • メッセージ SMC0261 は、TapePlex のための、無効になっていない定義済み通信パスが存在しないことを示します。

これらのメッセージのいずれかが存在する場合は、SMC が現在 TapePlex と通信できず、サーバーのボリューム情報に基づいてテープ割り振りに影響を与えることができないことを示します。この状況が発生すると、割り振りが、そのボリュームと互換性のないデバイスタイプを持つドライブに向けられる可能性があります。特定のテープ割り振りが正しくないデバイスタイプに向けられないようにするために、ALLOCDef コマンドの FAILnoinfo SPECIFIC パラメータを設定して、割り振り中にジョブが失敗するようにすることを推奨します。

マウントモニター

SMC モニターサブタスクの重要な機能として、すべてのマウントが正常に自動化されたことを確認することがあります。

モニターサブタスクは、すべての UCB のマウント遅延ステータスを定期的にチェックし、このステータスと、SMC からそのデバイスのサーバーに送信された最後のマウント要求を比較します。TapePlex または通信の停止のためにサーバーに送信されなかったマウントは、できるだけ早く再処理されます。その他のタイプのマウントの場合、SMC はメッセージ SMC0231 を発行して Mount Monitor が未処理のマウントを検出したことを示したあと、仮想テープマウントと実際のテープマウントで異なる処理を実行します。

  • 仮想テープマウントの場合、SMC は要求をサーバーに送信し、マウント要求がサーバーによって受け入れられたをことを示す応答を受信します。事前に定義された間隔が経過してもマウントが遅延状態のままである場合、SMC はマウントが完了するか、または失敗するまで応答を生成すべきではないことを示して、そのマウント要求を再発行しようとします。失敗が発生した場合、SMC は失敗の理由 (たとえば、MVC ボリュームから VTV をリコールできなかった) で SMC0231 メッセージを更新し、そのメッセージはマウントが成功するか、またはそのジョブが取り消されるまで削除不可能な状態で残ります。

  • 実際のマウントが失敗した場合 (この原因としては、ハードウェアの停止や、オペレータが HSC マウントの WTOR メッセージに対して「I」(無視) で応答したその他の問題が考えられます)、SMC は事前に定義された間隔だけ待機したあと、マウントを再処理しようとします。

  • 実際のマウントと仮想マウントのどちらの場合も、マウントを再処理する試みが 1 回だけ行われます。保留中のマウントが満足されなかった理由を示すために、SMC0231 メッセージは未処理のままになります。

注:

次のすべての条件が存在する場合、SMC は保留中のマウントの検出をサポートできません。
  • ALLOCDEF DEFER(OFF) が指定されている。

  • ジョブ入力サブシステムが JES3 である。

  • JES3 ローカルプロセッサ上でマウントが未処理である。

  • ALLOCDEF DEFER(OFF) が指定されている。または、

  • SMC が初期化される前にマウントが要求され、そのマウント要求で DEFER オプションが要求されなかった。

SMC Display DRives コマンドを使用すると、SMC サブシステム内のマウント遅延の現在のステータスを確認できます。このコマンドによって表示されるステータスの詳細については、『ELS コマンド、制御文、およびユーティリティーリファレンス』を参照してください。

回復手順

SMC Mount Monitor がマウント遅延をチェックして再処理するため、システムによって未処理のマウントが再処理されるようにするための手動の手順を実行する必要はありません。ただし、マウントの再処理が失敗した場合や、問題の原因が解決された場合は、SMC RESYNChronize コマンドを使用して、未処理のマウントをふたたび SMC で強制的に再処理できます。それでもマウントを満足できない場合は、手動の回復の実行が必要になることがあります。

注:

次のすべての条件が存在する場合、SMC は保留中のマウントの検出をサポートできません。
  • ALLOCDEF DEFER(OFF) が指定されている。

  • ジョブ入力サブシステムが JES3 である。

  • JES3 ローカルプロセッサ上でマウントが未処理である。

  • ALLOCDEF DEFER(OFF) が指定されている。または、

  • SMC が初期化される前にマウントが要求され、そのマウント要求で DEFER オプションが要求されなかった。

停止中の TapePlex または停止中の SMC: 割り振りエラーの回避

TapePlex が停止した場合や、通信エラーのために SMC が TapePlex と通信できなくなった場合は、割り振りで特定のボリュームと互換性のないデバイスが選択される可能性があります。この状況が発生しないようにするために、ALLOCDef コマンドの FAILnoinfo パラメータを SPECIFIC に設定することをお勧めします。これにより、ジョブは互換性のないデバイスに割り当てられるのではなく、割り当てで失敗するようになります。

特定のソフトウェア製品を用いて、動的割り振りが必要な処理を一時的に中断できます。たとえば、ローカルプロセッサに Data Facility Hierarchical Storage Manager (DFSMS/hsm) がインストールされている場合は、DFSMS/hsm を停止せずに、この種類の処理を回避するためのコマンドを発行できます。

JES2 では、ジョブキューを保持するか、またはすべてのイニシエータをパージすることによって、共通割り振りを遅延できます。JES2 オペレータコマンドの詳細については、該当する IBM の文献を参照してください。

JES3 では、次の変更コマンドを使用すると、SMC が停止中にバッチジョブの C/I 処理を遅延できます。

*F X,D=POSTSCAN,MC=00

TapePlex との通信が再確立されるか、または SMC が再起動されたあと、次の変更コマンドを使用して最大数をその元の値 xx に戻します。

*F X,D=POSTSCAN,MC=xx

停止中の TapePlex または停止中の SMC: マウントの再処理

オペレーティングシステムの機能を使用すると、SMC Mount Monitor または SMC RESYNChronize コマンドによって正常に再処理されていない可能性のあるマウントを特定できます。

JES3 では、JES3 のマウント処理中にマウントが失われている場合、次のコマンドを発行します。

*I,S,V

ジョブが待機している時間を確認するには、次のコマンドを発行します。

*I,J=jjjj,W

ここで、jjjj はジョブ番号です。

次のコマンドを発行して、ジョブが待機しているボリュームおよびドライブを判断します。

*CALL,DISPLAY,J=jjjj

MVS 処理中にマウントが失われている場合、マウント要求が遅延状態にあるドライブが存在するかどうかを判断するには、マウントを要求しているシステムで次の MVS コマンドを発行します。

D R,L

どの VOLSER をマウントするかを確認するには、次のコマンドを発行します。

D U,,,uuuu,1

ここで、uuuu はマウントが遅延状態にあるデバイスのアドレスです。

SMC は停止しているが、TapePlex がアクティブな場合は、HSC Mount コマンドを使用して HSC にマウントの実行を要求できます。

M vvvvv,dddd

HSC Mount コマンドの詳細については、『ELS コマンド、制御文、およびユーティリティーリファレンス』を参照してください。

JES3 のグローバル/ローカルに関する考慮事項

JES3 環境では、ローカルプロセッサまたはグローバルプロセッサ上で JES3 が停止した場合、次の回復ガイドラインを考慮してください。

ローカルプロセッサ上の JES3 が停止

ローカルプロセッサ上で JES3 が停止した場合、アクティブなジョブは、JES3 サービスを必要としないかぎり引き続き実行されます。動的割り振り要求に対するドライブ除外は実行されます。

回復するには、JES3 をリスタート (LOCAL スタート) します。SMC の処理は続行されるため、回復は必要ありません。

グローバルプロセッサ上の JES3 が停止

グローバルプロセッサ上で JES3 が停止した場合、実行されているジョブは引き続き実行されます。動的割り振り要求に対するドライブ除外は実行されます。

回復するには、JES3 をリスタートするか、Dynamic System Interchange (DSI: 動的システム交換) 処理を開始します。

グローバルプロセッサが停止した場合や、保守が必要な場合は、DSI を用いて、JES3 ローカルプロセッサに JES3 グローバル機能を再割り当てできます。JES3 ローカルプロセッサの 1 台が、新たな JES3 グローバルプロセッサになります。ローカルプロセッサにグローバル機能を再割り当てすることにより、JES3 環境での処理が続行されます。SMC の処理は続行されるため、回復は必要ありません。

ホスト間を横断する回復処理の詳細については、『ELS Programming Reference』を参照してください。

SMC 回復手順 (JES2)

このセクションでは、次の問題が発生した場合の回復手順について説明します。

SMC が停止 - TapePlex は稼働中

1 つまたは複数の TapePlex の稼働中に SMC が停止した場合、次の機能は実行されません。

  • 割り振り処理

  • メッセージの自動マウント/マウント解除/スワップ処理

このような場合は、SMC をリスタートします。

特定のソフトウェア製品を用いて、動的割り振りが必要な処理を一時的に中断できます。たとえば、ローカルプロセッサに Data Facility Hierarchical Storage Manager (DFSMS/hsm) がインストールされている場合は、DFSMS/hsm を停止せずに、この種類の処理を回避するためのコマンドを発行できます。

ジョブキューを保持するか、すべてのイニシエータをパージすることにより、共通割り振りを遅延できます。JES2 オペレータコマンドの詳細については、該当する IBM の文献を参照してください。

SMC MOUNTDef AUTOPendmount (ON) オプションが指定されている場合は、未処理のマウントメッセージを再処理できます。

SMC が稼働中 - TapePlex が停止

TapePlex が失敗または終了すると、SMC は、該当する TapePlex に属しているボリュームおよびドライブを認識できなくなります。次の機能は実行されません。

  • 割り振りに関与するためのボリューム検索

  • 自動マウント処理

このような場合は、TapePlex をリスタートし、SMC RESYNC コマンドを実行します。SMC MOUNTDef AUTOPendmount の設定にかかわらず、TapePlex との通信が再確立され、未処理のマウントが自動処理されます。詳細は、次の停止中の TapePlex に対するマウント要求の自動化を参照してください。

特定のソフトウェア製品を用いて、動的割り振りが必要な処理を一時的に中断できます。たとえば、ローカルプロセッサに Data Facility Hierarchical Storage Manager (DFSMS/hsm) がインストールされている場合は、DFSMS/hsm を停止せずに、この種類の処理を回避するためのコマンドを発行できます。

ジョブキューを保持するか、すべてのイニシエータをパージすることにより、共通割り振りを遅延できます。JES2 オペレータコマンドの詳細については、該当する IBM の文献を参照してください。

注:

ローカル HSC の停止が判明した場合に自動的に稼働する、リモート TapePlex へのバックアップパスを使用できます。詳細は、第3章 SMC および StorageTek TapePlex の管理を参照してください。

停止中の TapePlex に対するマウント要求の自動化

停止中の TapePlex が所有しているドライブに対して MVS マウント要求があった場合、対応する TapePlex が稼働したときに、自動的に再処理されます。

稼働中の TapePlex に対する MVS マウント要求の損失

LMU エラーが発生すると、MVS マウント要求が失われる場合があります。マウントが失われた可能性がある場合、この手順を使用します。

  1. マウントを要求しているシステムで次の MVS コマンドを発行し、ドライブにマウント要求遅延が存在するかどうかを判断します。

    D R,L

  2. 同じシステムで次の MVS コマンドを発行し、マウントする VOLSER を決定します。

    D U,,,uuuu,1

  3. ドライブが HSC TapePlex に対して定義されている場合、その HSC が稼働している MVS システム上のボリュームに対して、HSC Mount コマンドを発行します。

SMC 回復手順 (JES3)

このセクションでは、次の問題が発生した場合の回復手順について説明します。

SMC が停止 - TapePlex のサブシステムは稼働中

1 つまたは複数の TapePlex の稼働中に SMC が停止した場合、次の機能は実行されません。

  • 割り振り処理

  • メッセージの自動マウント/マウント解除/スワップ処理

このような場合は、SMC をリスタートします。

特定のソフトウェア製品を用いて、動的割り振りが必要な処理を一時的に中断できます。たとえば、ローカルプロセッサに Data Facility Hierarchical Storage Manager (DFSMS/hsm) がインストールされている場合は、DFSMS/hsm を停止せずに、この種類の処理を回避するためのコマンドを発行できます。

SMC の停止中、バッチジョブの C/I 処理を遅延するには、次の Modify コマンドを使用します。

*F X,D=POSTSCAN,MC=00

SMC のリスタート後、元の値 xx に最大カウントを再設定します。

*F X,D=POSTSCAN,MC=xx

AMPND 開始パラメータを指定して HSC と MVS/CSC が開始されている場合は、SMC が再起動して MVS 割り振りまたはマウントイベントが発生したときに、未処理のマウントメッセージを再処理できます。または、SMC RESYNChronize コマンドを発行して、このような状態にあるマウント遅延を再処理することもできます。

SMC が稼働中 - TapePlex が停止

TapePlex が失敗または終了すると、SMC は、該当する TapePlex に属しているボリュームおよびドライブを認識できなくなります。次の機能は実行されません。

  • 割り振りに関与するためのボリューム検索

  • 自動マウント処理

このような場合は、TapePlex をリスタートし、SMC RESYNC コマンドを実行します。SMC MOUNTDef AUTOPendmount の設定にかかわらず、TapePlex との通信が再確立され、未処理のマウントが自動処理されます。詳細は、停止中の TapePlex に対するマウント要求の自動化を参照してください。

特定のソフトウェア製品を用いて、動的割り振りが必要な処理を一時的に中断できます。たとえば、ローカルプロセッサに Data Facility Hierarchical Storage Manager (DFSMS/hsm) がインストールされている場合は、DFSMS/hsm を停止せずに、この種類の処理を回避するためのコマンドを発行できます。

注:

ローカル HSC の停止が判明した場合に自動的に稼働する、リモート TapePlex へのバックアップパスを使用できます。詳細は、第1章 概要を参照してください。

ローカルプロセッサ上の JES3 が停止

ローカルプロセッサ上で JES3 が停止した場合、JES3 のサービスを必要としないアクティブなジョブは続行されます。動的割り振り要求に対するドライブ除外は実行されます。

回復するには、JES3 をリスタート (LOCAL スタート) します。SMC の処理は続行されるため、回復は必要ありません。

グローバルプロセッサ上の JES3 が停止

グローバルプロセッサ上で JES3 が停止した場合、JES3 のサービスを必要としないアクティブなジョブは続行されます。動的割り振り要求に対するドライブ除外は実行されます。

回復するには、JES3 をリスタートするか、Dynamic System Interchange (DSI: 動的システム交換) 処理を開始します。

グローバルプロセッサが停止した場合や、保守が必要な場合は、DSI を用いて、JES3 ローカルプロセッサに JES3 グローバル機能を再割り当てできます。JES3 ローカルプロセッサの 1 台が、新たな JES3 グローバルプロセッサになります。ローカルプロセッサにグローバル機能を再割り当てすることにより、JES3 環境での処理が続行されます。SMC の処理は続行されるため、回復は必要ありません。

ホスト間を横断する回復処理の詳細については、『ELS Programming Reference』または『MVS/CSC System Programmer’s Guide』を参照してください。

停止中の TapePlex に対するマウント要求の自動化

停止中の TapePlex が所有しているドライブに対して MVS マウント要求があった場合、対応する TapePlex が稼働したときに、自動的に再処理されます。

稼働中の TapePlex に対する JES3 マウント要求の損失

LMU エラーが発生すると、JES3 マウント要求が失われる場合があります。マウントが失われた可能性がある場合、この手順を使用します。

  1. 次の JES3 コマンドを発行して、ボリュームマウントを待機しているジョブを判断します。

    *I,S,V

  2. 次の JES3 コマンドを発行して、ジョブが待機している時間を判断します。

    *I,J=nnnn,W

  3. 次の JES3 コマンドを発行して、ジョブが待機しているボリュームおよびドライブを判断します。

    *CALL,DISPLAY,J=nnnn

  4. マウント遅延が存在するドライブが HSC TapePlex に対して定義されている場合、その HSC が稼働している MVS システム上のボリュームに対して、HSC Mount コマンドを発行します。

稼働中の TapePlex に対する MVS マウント要求の損失

LMU エラーが発生すると、MVS マウント要求が失われる場合があります。マウントが失われた可能性がある場合、この手順を使用します。

  1. マウントを要求しているシステムで次の MVS コマンドを発行し、ドライブにマウント要求遅延が存在するかどうかを判断します。

    D R,L

  2. 同じシステムで次の MVS コマンドを発行し、マウントする VOLSER を決定します。

    D U,,,uuuu,1

  3. ドライブが HSC TapePlex に対して定義されている場合、その HSC が稼働している MVS システム上のボリュームに対して、HSC Mount コマンドを発行します。