Oracle® VM Server for SPARC 3.2 管理ガイド

印刷ビューの終了

更新: 2015 年 5 月
 
 

FMA を使用した障害のあるリソースのブラックリスト登録または構成解除

FMA は、障害のあるリソースを検出すると、Logical Domains Manager に通知します。それを受けて、Logical Domains Manager は実行中のドメインのすべてでそのリソースの使用を停止しようと試みます。障害のあるリソースが今後ドメインに割り当てられないようにするために、FMA はブラックリストにリソースを追加します。

Logical Domains Manager は、CPU およびメモリーリソースについてのみブラックリスト登録をサポートしており、I/O リソースについてはサポートしません。

障害のあるリソースが使用中ではない場合、Logical Domains Manager は使用可能なリソースのリストからそのリソースを削除します (ldm list-devices の出力で確認できます)。この時点で、以後ドメインに再割り当てできないように、このリソースは内部的に「ブラックリスト登録済み」としてマークされます。

障害のあるリソースが使用中の場合、Logical Domains Manager はリソースを退避しようと試みます。実行中のドメインでサービスの中断を避けるため、Logical Domains Manager は先に CPU またはメモリーの動的再構成を使用して障害のあるリソースの退避を試みます。コアをターゲットとして自由に使える場合、Logical Domains Manager は障害の発生したコアを再マップします。この「ライブ退避」が成功した場合、以後ドメインに割り当てできないように、障害のあるリソースは内部的に「ブラックリスト登録済み」とマークされ、ldm list-devices の出力に表示されなくなります。

ライブ退避が失敗した場合、Logical Domains Manager は、障害のあるリソースを内部的に「退避保留」とマークします。このリソースは、影響を受けるゲストドメインがリブートまたは停止されるまで、実行中のドメインで引き続き使用されているため、通常どおりに ldm list-devices の出力に表示されます。

影響を受けるゲストドメインが停止またはリブートすると、Logical Domains Manager は障害のあるリソースを退避すること、および以後ドメインに再割り当てできないように、内部的に「ブラックリスト登録済み」とマークすることを試みます。そのようなデバイスは、ldm の出力に表示されません。保留中の退避が完了すると、Logical Domains Manager はゲストドメインの起動を試みます。ただし、十分なリソースが使用可能ではないためにゲストドメインが起動できない場合、ゲストドメインは「縮退」とマークされ、手動復旧を実行するためにユーザーの介入を求める次の警告メッセージがログに記録されます。

primary# ldm ls
NAME             STATE      FLAGS   CONS    VCPU  MEMORY   UTIL  NORM  UPTIME
primary          active     -n-cv-  UART    368   2079488M 0.1%  0.0%  16h 57m
gd0              bound      -d----  5000    8

warning: Could not restart domain gd0 after completing pending evacuation.
The domain has been marked degraded and should be examined to see
if manual recovery is possible.

システムの電源が再投入されたときに、FMA は障害の残るリソースの退避リクエストを繰り返し、Logical Domains Manager は障害のあるリソースを退避して内部的に「ブラックリスト登録済み」とマークすることによってそれらのリクエストを処理します。

FMA によるブラックリスト登録をサポートするよりも前に、障害のあるリソースが原因でパニック状態になったゲストドメインは、パニックとリブートの無限ループが発生することがあります。ゲストドメインがリブートするときにリソースの退避とブラックリスト登録を使用すると、パニックとリブートのループが回避され、障害のあるリソースの使用が試みられることはなくなります。