Sun N1 System Manager ソフトウェアでの監視では、特定の管理対象オブジェクト内の特定の「属性」に対する変化を追跡することができます。管理対象のオブジェクトは、サーバーのハードウェア要素やオペレーティングシステム、ファイルシステム、ネットワークなどです。属性は、N1 System Manager ソフトウェアによってそのデータが取得され、配信される監視対象要素です。属性には、たとえば、待ち状態のプロセスの平均個数および使用メモリーの割合などがあります。属性の一覧は、「ハードウェアセンサー属性」 および 表 5–2にあります。
属性は、3 つの主要な領域の 1 つに関連付けられています。
ハードウェアの健全性属性ハードウェア健全性の監視については、「ハードウェア健全性の監視」を参照してください。
OS リソースの使用属性OS リソースの使用の監視については、「OS リソースの使用の監視」を参照してください。
ネットワーク接続 (到達可能性)ネットワークの到達可能性の監視については、「ネットワークの到達可能性監視」を参照してください。
サーバーまたはサーバーグループは、管理サーバーによってハードウェアの健全性、オペレーティングシステムの使用状況、ネットワーク接続状況がすべて監視されます。監視のための比較および検査はすべて N1 System Manager によって行われます。プロビジョニング可能なサーバーは、データへのアクセスにのみ使用されます。
データの取得に使用される SNMPエージェントは、N1 System Manager ソフトウェアで提供されます。管理サーバーの N1 System Manager が Solaris OS で実行されている場合は、このエージェントは Sun Management Center 3.5 ソフトウェアの SNMP エージェントをもとにします。管理サーバーの N1 System Manager が Linux で実行されている場合は、このエージェントは Sun Management Center 3.6 Linux SNMP エージェントをもとにします。エージェントは、N1 System Manager による管理対象のサーバーにオペレーティングシステムを配備すると配備されます。
Linux プラットフォームでは、N1 System Manager ソフトウェアは、ext3 ファイルシステムのみを監視します。そのほかのタイプのファイルシステムは、Linux プラットフォームでは監視されません。
監視は、監視対象の各サーバーまたは各サーバーグループの「イベント」伝送機能と接続されています。イベントは、属性に関係する特定の状態が発生すると生成されます。イベントおよびイベントが発生するタイミングに関する情報は、「イベントログエントリの管理」を参照してください。 監視に関係するログファイルはありません。監視データは、ログファイルではなく、イベントとして N1 System Manager のデータベース内に保存されます。
サーバーに対する監視が有効な場合は、イベントのたびに、そのイベントに関する通知が N1 System Manager から送信されます。サーバーに対する監視が無効の場合、そのサーバーに対する監視イベントは生成されません。ライフサイクルイベントは、監視が無効でも引き続き生成されます。ライフサイクルイベントには、サーバー検出、サーバーの変更または削除、サーバーグループ作成などがあります。この種のイベントの通知を要求していた場合は、監視が無効でも引き続き通知を受けることができます。
検出されたサーバーのハードウェア健全性が監視されます。ハードウェアにあるセンサーを使用して、温度や電圧、ファン速度が監視されます。関連付けられたハードウェアの詳細は、『Sun N1 System Manager 1.1 サイト計画の手引き』の「Sun N1 System Manager の接続情報」を参照してください。
SPARC デバイスのセンサーデータは、ALOM (Advanced Lights Out Manager) インタフェースを通じてサービスプロセッサから取得されます。x64 サーバーのセンサーデータは IPMI から取得されます。
Sun Fire V20z および Sun Fire V40z マシンの一般の管理インタフェースデータは、コマンド行を通じて取得されます。Sun Fire x4100 および Sun Fire x4200 サーバーの一般管理インタフェースデータは、IPMI を通じて取得されます。コマンド行から動的にデータを取得することができます。
監視できるサーバーのハードウェア特性は次のとおりです。
CPU の温度
周囲温度
ファン速度 (1 分あたり回転数)
電圧
LED
これらのセンサーの詳細な一覧は、「ハードウェアセンサー属性」にあります。
show server コマンドでフィルタを使用し、すべてのサーバーに関するハードウェア健全性情報だけを表示することができます。
N1-ok> show server health health |
health フィルタに使用する値の詳細については、『Sun N1 System Manager 1.1 コマンド行レファレンスマニュアル』の「show server」を参照してください。
OS リソースの使用は、N1 System Manager によって監視されます。agentip キーワードを付けた add server feature コマンドで agentssh キーワードを付けた ssh 経由で監視対象サーバーのオペレーティングシステムへのアクセス資格を指定します。さらに詳細な情報については、「OS 監視機能を追加する」を参照してください。この指定は、OS リソースの使用の監視に重要ですが、ハードウェアの健全性やネットワークの到達可能性の監視には重要ではありません。
この仕組みでのオペレーティングシステムへのアクセスは、主としてリモートコマンド実行機能に必要です。この機構でのオペレーティングシステムへのアクセスは、管理機能を使って OS リソース使用状況の監視データを読み出す手段になります。プラットフォーム OS インタフェースデータは、 ssh および SNMP 経由で取得されます。つまり、すべての属性データは ssh および SNMP によってサーバーのオペレーティングシステムから取得されます。メモリーやスワップ使用、ファイルシステム関係のデータ同様、中央演算処理装置 (CPU) に関係する統計も提供されます。監視の目的上、システム負荷、メモリー使用、スワップ使用データは、次のように分類できます。
システム使用 (システムアイドル時間など)
システム負荷 (待ち状態が 1 分、5 分、15 分を超えるプロセスの平均個数で表現)
メモリー使用とメモリー未使用統計 (メガバイトおよび割合で表現)
物理負荷統計
使用スワップ空間および使用可能なスワップ空間 (M バイトおよび割合で表現)
使用ファイルシステムおよび使用可能な空間 (割合で表現)
これらの属性の一覧は、「ハードウェアセンサー属性」にあります。
show server コマンドでフィルタを使用し、すべてのサーバーに関する OS リソースの使用情報だけを表示することができます。
N1-ok> show server utilization utilization |
N1-ok> show server utilization unreachable |
サーバーにはアクセス可能だが、監視エージェントに SNMP ポート 161 で通信できない場合、OS リソースの健全性が unknown になります。
サーバーにアクセスできない (たとえば待機モードになっているため) 場合は、OS リソースの健全性が unreachable になります。
詳細は、『Sun N1 System Manager 1.1 コマンド行レファレンスマニュアル』の「show server」を参照してください。
OS リソースの使用属性の監視では、構成ファイルを作成、編集することによって、N1 System Manager が管理するすべてのサーバーに対するデフォルトしきい値を変更することができます。詳細は、「監視構成ファイルでのしきい値の変更」を参照してください。
また、コマンド行で set コマンドを使用し、監視対象の個別サーバーまたは個別サーバーグループに対して特定のしきい値を設定することもできます。詳細は、「しきい値の設定」を参照してください。
特定の属性の値を監視する必要がない場合は、その属性を監視するためのしきい値を無効にすることができます。これで、不要なアラームを防ぐことができます。例 5–4に、この無効化を行う方法が示されています。
デフォルトでは、N1 System Manager は、プロビジョニング可能なサーバーのすべての管理インタフェースおよびすべてのプラットフォームインタフェースを監視します。プラットフォームインタフェースには、eth0 などのサービスプロセッサの管理インタフェースや、eth1 あるいは eth2 などのデータネットワークインタフェースがあります。
Linux サーバーおよび Solaris OS で稼働しているサーバーの到達可能性は、インタフェースの IP アドレスに対する ICMP ping で確認します。詳細は、『Sun N1 System Manager 1.1 インストールおよび構成ガイド』の「工場出荷時状態のサーバーの検出」を参照してください。
すべてのネットワークインタフェースの到達可能性が定期的に検査されます。このポーリング間隔の設定は変更できます。ポーリング間隔の設定については、「ポーリング間隔の設定」を参照してください。ネットワークの到達可能性の監視は、IP アドレスに基づいています。監視対象の IP アドレスにアクセスできない場合は、イベントが生成されます。
show server コマンドに監視情報を表示する適切なパラメータを付けることによって、すべてのサーバーに関する情報を絞り込むことができます。詳細は、『Sun N1 System Manager 1.1 コマンド行レファレンスマニュアル』の「show server」を参照してください。
プロビジョニング可能なサーバーの「unreachable (アクセス不能)」ステータスと「unknown (不明)」ステータスは区別することが重要です。
N1-ok> show server health unreachable |
このコマンドは、すべてのアクセス不能のプロビジョニング可能なサーバーを一覧表示します。ネットワークの問題 (ハードウェアの健全性状態についてサーバーと通信できない) が原因でアクセスできないすべてのプロビジョニング可能なサーバー が出力されます。サーバーに対する ping コマンドが成功しないことは、必ずしもサーバーがハードウェアの健全性状態情報を送っていないことを意味するわけではありません。サーバーが待機モードである場合もあります。
N1-ok> show server health unknown |
このコマンドは、ハードウェアの健全性状態に関する情報を返さないすべてのプロビジョニング可能なサーバーを一覧表示します。ping コマンドは成功するが、ハードウェアの健全性に関する情報を返さないサーバーが出力されます。ポート 161 で、監視エージェントと通信できないことを示します。
N1-ok> show server power unreachable |
このコマンドは、すべてのアクセス不能のプロビジョニング可能なサーバーを一覧表示します。ネットワークの問題 (電源状態についてサーバーと通信できない) が原因でアクセスできないすべてのサーバーが出力されます。サーバーに対する ping コマンドが成功しないことは、必ずしもサーバーが電源状態の情報を送っていないことを意味しません。サーバーが待機モードである場合もあります。
N1-ok> show server power unknown |
このコマンドは、電源状態に関する情報を返さないすべてのプロビジョニング可能なサーバーを一覧表示します。ping コマンドは成功するが、電源状態に関する情報を返さないサーバーが出力されます。ポート 161 で、監視エージェントに通信できないことを示します。
N1-ok> show server utilization unreachable |
このコマンドは、すべてのアクセス不能のプロビジョニング可能なサーバーを一覧表示します。ネットワークの問題 (OS リソースの使用状況についてサーバーと通信できない)が原因でアクセスできないすべてのサーバーが出力されます。サーバーに対する ping コマンドが成功しないことは、必ずしもサーバーが OS リソースの使用状況に関する情報を送っていないことを意味しません。サーバーが待機モードである場合もあります。
N1-ok> show server utilization unknown |
このコマンドは、OS リソースの使用状況に関する情報を返さないすべてのプロビジョニング可能なサーバーを一覧表示します。ping コマンドは成功するが、OS リソースの使用状況に関する情報を返さないサーバーが出力されます。ポート 161 で、監視エージェントに通信できないことを示します。