Sun N1 System Manager 1.0 管理ガイド

第 8 章 障害追跡

この章では、次の項目に関する障害追跡情報を提供します。

セキュリティ

この節では、セキュリティに関する障害追跡情報を提供します。

Sun N1 System Manager サーバーは、強力な暗号化手法を用いて、管理サーバーと管理対象の各サーバーとの間の通信の安全を確保します。

Sun N1 System Manager が使用するキーは、各サーバーの /etc/opt/sun/cacao/security ディレクトリに格納されています。それらのキーはすべてのサーバーで同じです。

通常の運用では、これらのキーはデフォルトの設定のままにしておくことができますが、セキュリティキーの再生成が必要になることもあります。たとえば管理サーバーの root パスワードが外部に漏れた恐れがある場合などです。

Procedure共通エージェントコンテナのセキュリティキーを再生成する

手順
  1. 管理サーバー 上でスーパーユーザー権限を使い、共通エージェントコンテナ管理デーモンを停止します。


    # /opt/sun/cacao/bin/cacaoadm stop
    
  2. 次のコマンドを入力してセキュリティキーを再生成します。


    # /opt/sun/cacao/bin/cacaoadm create-keys --force
    
  3. 管理サーバー上でスーパーユーザー権限を使い、共通エージェントコンテナ管理デーモンを再起動します。


    # /opt/sun/cacao/bin/cacaoadm start
    

しきい値違反の処理

監視対象属性のしきい値が破られると、イベントが生成されます。通知規則を作成して、この種のイベントに関して警告を発行させることができます。しきい値違反または警告の通知は、イベントログを使って行われます。このログは、ブラウザインタフェースで簡単に見ることができます。

create notification コマンドを使って通知を作成し、電子メールで送信するか、ポケットベルに送信することができます。構文の詳細は、「create notification」を参照してください。

ハードウェアおよび OS しきい値違反の確認

監視対象のハードウェア健全性属性または OS リソース使用属性の値がしきい値を破った場合は、そのことがイベントログに示されます。このとき、ブラウザインタフェースからイベントログにアクセスできるようになります。ブラウザインタフェースからイベントログにアクセスできるようになるために要する時間は、属性のポーリング間隔に依存します。

t + polling interval

t は、違反が発生した時刻を示します。ポーリング間隔は秒単位で、監視対象属性の次のポーリングまでの時間の長さです。詳細は、「ポーリング間隔」を参照してください。イベントログが生成されたことを確認するには、show log コマンドを使用します。


N1-ok> show log
Id            Date                       Severity    Subject     Message
.
. 
10            2004-11-22T01:45:02-0800   WARNING     Sun_V20z_XG041105786
A critical high threshold was violated for server Sun_V20z_XG041105786: Attribute cpu0.vtt-s3 Value 1.32

13            2004-11-22T01:50:08-0800   WARNING     Sun_V20z_XG041105786
A normal low  threshold was violated for server Sun_V20z_XG041105786: Attribute cpu0.vtt-s3 Value 1.2

ネットワーク接続障害の確認

管理サーバー監視エージェントの IP アドレスまたはデータネットワークにアクセスできない場合は、ネットワーク接続に問題があることを示すイベントが生成されます。これは、ネットワークの到達可能性監視の機能です。詳細は、「ネットワークの到達可能性監視」を参照してください。このとき、ブラウザインタフェースからイベントログにアクセスできるようになります。ブラウザインタフェース からイベントログにアクセスできるようになるために要する時間は、属性のポーリング間隔に依存します。

t + polling interval

t は、違反が発生した時刻を示します。ポーリング間隔は秒単位で、監視対象属性の次のポーリングまでの時間の長さです。詳細は、「ポーリング間隔」を参照してください。イベントログが生成されたことを確認するには、show log コマンドを使用します。


N1-ok> show log
.
.
13            2004-11-19T10:24:33-0800   INFORMATION  Sun_V20z_XGserial_number
Ip Address /<ip_address> on server Sun_V20z_XGserial_number is unreachable.

14            2004-11-19T10:24:38-0800   INFORMATION  Sun_V20z_XGserial_number
Ip Address /<ip_address> on server Sun_V20z_XGserial_number is unreachable.

監視障害の確認

「監視の有効化」で説明しているように監視が有効で、show servershow group コマンドの出力にステータスとして「不明」か「到達不能」が示された場合、監視対象のそのサーバーまたはサーバーグループは正常に到達されていません。ステータスが「不明」または「到達不能」のままである時間が 5 つのポーリング間隔に相当する時間に達しない場合は、一時的なネットワーク上の問題が発生していた可能性があります。これに対し、ポーリング間隔 5 つに相当する時間を超えてステータスが「不明」または「到達不能」の場合は、監視に問題が発生している可能性があります。監視エージェントの障害が原因である可能性があります。

監視データ出力には、タイムスタンプが示されます。このタイムスタンプとポーリング間隔値の関係に基に、監視エージェントに問題があるかどうかを判定することもできます。プロビジョニング可能なサーバーのポーリングに失敗していて、もはや監視対象でなくなっていると、いくつかのポーリング間隔を経過した後も、プロビジョニング可能なサーバーの監視出力に示されるタイムスタンプが同じままになります。監視エージェントの障害が原因である可能性があります。