1 エラーおよびアラート・メッセージ

Oracle Exadata System Softwareの様々なソフトウェア・コンポーネントによってエラー・メッセージおよびアラート・メッセージが生成されます。

1.1 アラート、インシデントおよびトレース・ファイルの理解

アラート、インシデントおよびトレース・ファイルでは、役に立つ情報の診断記録が提供されます。

アラート・ファイルには、内部エラーおよび管理タスクに関する情報が格納されます。インシデント・ファイルには、1回のエラー発生に関する情報が格納されます。トレース・ファイルには、サーバーおよびバックグラウンド・プロセスに関する情報を格納できます。

1.1.1 アラート・ファイルについて

アラート・ファイルは、内部エラーおよび管理アクティビティ(バックアップなど)に関する情報を記録するログ・ファイルです。

内部エラーが発生すると、メッセージが端末画面に送信され、アラート・ファイルに書き込まれます。アラート・ファイルには、エラーによって生成されたトレース・ファイルの場所や名前など、内部エラーに関する追加情報も書き込まれます。

アラート・ファイルは、次のディレクトリにあります。

/opt/oracle/cell/log/diag/asm/cell/hostname/trace/alert.log

システムでオペレータ・コンソールを使用している場合は、Oracleからのメッセージがコンソールに表示される場合があります。重要なメッセージはすべてアラート・ファイルとオペレータ・コンソールに書き込まれます。このコンソールには、Oracleメッセージだけなく、すべてのメッセージが表示されるため、アラート・ファイルは、コンソール・ログよりもすべてのOracle管理アクティビティとエラーの追跡に適した記録です。

1.1.2 トレース・ファイルについて

トレース・ファイルは、Oracleインスタンスが起動するか、ユーザー・プロセスまたはバックグラウンド・プロセスで予期しないイベントが発生するたびに作成されます。

ファイル拡張子またはファイル・タイプは、通常は.trcです。拡張子またはファイル・タイプが異なる場合は、オペレーティング・システム別のOracleドキュメントに記載されています。トレース・ファイルの内容には、システム・グローバル領域、プロセス・グローバル領域、オペレーティング・コール・スタック、レジスタなどのダンプが含まれます。

ノート:

traceLevel属性の設定を変更する場合は、管理サーバー(MS)を再起動して変更内容を有効にする必要があります。MSを再起動しても、データベースやデータ・フローに影響はありません。

1.1.3 自動診断リポジトリ(ADR)

ADRは、データベース診断データ(トレース、ダンプ、アラート・ログ、状態モニターのレポートなど)のファイルベース・リポジトリです。複数のインスタンスや製品にまたがる一元化されたディレクトリ構造を持っています。

データベース、Oracle Automatic Storage Management (Oracle ASM)、リスナー、Oracle ClusterwareなどのOracle製品またはコンポーネントでは、すべての診断データをADRに格納します。各製品の各インスタンスで、ADR内の固有のホーム・ディレクトリの下に診断データが格納されます。たとえば、共有記憶域とOracle ASMを使用するOracle Real Application Clusters環境では、各データベース・インスタンスと各Oracle ASMインスタンスにADRホーム・ディレクトリがあります。ADRの統一されたディレクトリ構造、製品およびインスタンス間で一貫性のある診断データ形式、および統一されたツール・セットにより、ユーザーおよびOracleサポートは、複数のインスタンス間の診断データの相関関係を確認して分析できます。Oracle Clusterwareの場合、クラスタ内の各ホスト・ノードにADRホーム・ディレクトリが1つあります。

ノート:

アラート・ログなどのすべての診断データがADRに格納されるため、初期化パラメータBACKGROUND_DUMP_DESTおよびUSER_DUMP_DESTは非推奨になりました。これらは、ADRの場所を指定する初期化パラメータDIAGNOSTIC_DESTに置き換えられています。

1.1.3.1 インシデントとインシデント・パッケージについて

インシデント・パッケージは、1つ以上の問題のインシデントに関するデータの集合です。

インシデントとは、1回の問題発生情報です。問題が複数回発生した場合は、発生ごとにインシデントが作成されます。インシデントは自動診断リポジトリ(ADR)内で追跡されます。各インシデントは、ADR内で一意の、数値のインシデントIDで識別されます。インシデントが発生すると、データベースによってアラート・ログにエントリが記録され、インシデント・アラートがOracle Enterprise Managerに送信されます。次に、インシデントに関する診断データがダンプ・ファイル(インシデント・ダンプ)に収集され、インシデント・ダンプにインシデントIDがタグ付けされます。最後に、そのインシデント用に作成されたADRサブディレクトリにインシデント・ダンプが格納されます。

通常、クリティカル・エラーの診断と解決は、インシデント・アラートから開始されます。ADR内のすべてのインシデントのリストは、ADRコマンド・インタプリタ(ADRCI)コマンドを使用して取得できます。

各インシデントは1つの問題にのみマップされます。各インシデントは比較されるため、1つの問題で多数のインシデントおよびインシデント・ダンプが生成されることはありません。

診断データをOracleサポート・サービスにアップロードするには、まず、インシデント・パッケージ(パッケージ)と呼ばれる中間論理構造にデータを収集します。パッケージとは、ADRに格納されているメタデータの集合であり、ADR内外の診断データ・ファイルおよびその他のファイルを指します。パッケージを作成するときは、そのパッケージに追加する問題を1つ以上選択します。次に、サポート・ワークベンチによって、選択した問題に関連する問題情報、インシデント情報および診断データ(トレース・ファイル、ダンプなど)がパッケージに自動的に追加されます。1つの問題に対して多数のインシデント(同じ問題の多数の発生)が存在する場合があるため、デフォルトでは、各問題の最初の3つと最後の3つのインシデントのみがパッケージに追加され、発生から90日を超えるインシデントは除外されます。このデフォルトの数は、サポート・ワークベンチの「インシデント・パッケージング構成」ページで変更できます。

パッケージが作成されたら、あらゆるタイプの外部ファイルをパッケージに追加し、パッケージから選択したファイルを削除し、重要なデータを削除するパッケージ内の選択したファイルを編集できます。パッケージの内容を追加および削除する場合は、パッケージのメタデータのみが変更されます。診断データをOracleサポート・サービスにアップロードする準備ができたら、まず、パッケージのメタデータで参照されるすべてのファイルを含めてZIPファイルを作成します。

1.1.3.2 診断ファイルの場所

アラート・ファイル、インシデント・ファイルおよびトレース・ファイルは、ストレージ・サーバー上のADRホーム・ディレクトリ($ADR_BASE/diag/asm/cell/cell_name)内のalertサブディレクトリ、incidentサブディレクトリおよびtraceサブディレクトリに書き込まれます。

ADRホームはADRベース・ディレクトリ($ADR_BASE)にあります。ADRファイルの保存期間は、diagHistoryDaysセル属性で指定されます。この設定は、CellCLIのALTER CELLコマンドで変更できます。

セキュア・シェル(SSH)を使用してストレージ・サーバーにアクセスする場合は、インストール中にDESCRIBE CELLコマンドを使用して設定された、$ADR_BASEの値を表示できます。

1.1.4 診断ファイルの管理

ADRコマンド・インタプリタ(ADRCI)は、ADRコマンド・インタプリタ(ADRCI)によって収集された診断データの管理に使用するコマンドライン・ツールです。

ADRCIを使用すると、次の操作が実行可能です。

  • ADR内の診断データの表示

  • インシデントおよび問題に関する情報をZIPファイルにパッケージ化し、Oracleサポート・サービスに転送

Oracle Exadata System SoftwareADRCIを使用するには、次のコマンドを使用してADRベースを設定します。

ADRCI> SET BASE /opt/oracle/cell/log

ADRCIを使用すると、次の例のようにセルのアラート、インシデントおよびトレース・ファイルを表示できます。

例1-1 アラート・ファイル、インシデント・ファイルおよびトレース・ファイルの表示

$ ADRCI
ADRCI: Release 11.2.0.1.0 - Production on Wed May 20 02:17:38 2009
Copyright (c) 1982, 2009, Oracle.  All rights reserved.

ADRCI> SET BASE /opt/oracle/cell/log

ADRCI> SHOW HOMES
ADR Homes:
diag/asm/cell/st-cell03-2
...

ADRCI> SET HOMEPATH diag/asm/cell/st-cell03-2

ADRCI> SHOW ALERT
...
ADRCI> SHOW INCIDENT
...
ADRCI> SHOW TRACEFILE
...

1.2 アラート・メッセージ

アラート・メッセージはOracle Exadata System Softwareによって生成されます。

1.2.1 電子メール通知用のアラート・メッセージの書式

アラート・メッセージは電子メールで送信できます。

アラート・メッセージ用の電子メール通知の書式は次のとおりです。

Subject: 
cell_name: alert level: { critical | warning | clear } alert

E-mail Content:
Alert Type: { ADR | Hardware | Threshold } Alert alert_name is triggered at
alert_time with message:
alert_message

The suggested action is: 
alert_action

1.2.2 SNMP通知用のアラート・メッセージの書式

Oracle Exadata Storage Serverによって送信されるSimple Network Management Protocol (SNMP)のアラートは、各Oracle Exadata System Softwareのインストールに含まれる管理情報ベース(MIB)に準拠しています。

Oracle Exadata Storage ServerのMIBファイルは、/opt/oracle/cell/cellsrv/deploy/config/cell_alert.mibにあります。SNMPアラートとMIBはSNMPバージョン 1(SNMPv1)に準拠しています。次のリストに示すように、アラートには変数が含まれます。

  • oraCellAlertAction: このアラートで実行する推奨操作。

  • oraCellAlertBeginTime: アラートによる状態変更が開始された時点のタイム・スタンプ。

  • oraCellAlertEndTime: アラートによる状態変更が終了した時点のタイプ・スタンプ。

  • oraCellAlertExaminedBy: アラートを確認した管理者。

  • oraCellAlertMsg: アラートの簡単な説明。

  • oraCellAlertNotif: サブスクライバにアラート・メッセージを通知する場合の進行状況を示す番号。

    • 0: 試行されなかった
    • 1: 送信に成功
    • 2: 再試行中(最大5回)
    • 3: 5回の再試行に失敗
  • oraCellAlertObjectName: メトリックのしきい値によりアラートを生成するオブジェクト(セル・ディスクやグリッド・ディスクなど)。

  • oraCellAlertSeqBeginTime: アラートの順序IDが最初に作成された時点のタイム・スタンプ。

  • oraCellAlertSeqID: アラートの一意の順序ID。warningからcritical、またはcriticalからclearなど、アラートにより状態が変更されると、同じ順序番号と遷移時点のタイム・スタンプで別のアラート発生が作成されます。

  • oraCellAlertSeverity: 重大度のレベル。値はclearinfowarningまたはcriticalです。

  • oraCellAlertShortName: アラートの省略名。アラートの基準がメトリックの場合、省略名は対応するメトリックのname属性と同じになります。

  • oraCellAlertType: アラートのタイプ。値はstatefulまたはstatelessです。

    • ステートフル・アラートは、normalに遷移すると自動的にクリアされます。
    • ステートレス・アラートはクリアされません。

1.2.3 しきい値アラート・メッセージ

しきい値アラートを使用すると、データベースを監視できます。ほとんどのアラートは、特定のメトリックしきい値を超えた場合に通知されます。

アラートごとにクリティカルおよび警告のしきい値を設定できます。これらのしきい値は、値を超えた場合にシステムが正常でない状態になる境界値です。たとえば、表領域が97%に達すると、正常でない状態と見なされ、Oracle Databaseでクリティカル・アラートが生成されます。しきい値アラートの例を次に示します。

しきい値nameにより、アラート状態severityがトリガーされました

しきい値アラートがトリガーされました。指定したしきい値に違反しているメトリック値を調べてください。しきい値nameで示されている問題を修正してください。

しきい値の違反は解消されました。しきい値nameにこれ以上のアクションは必要ありません。

しきい値の違反はクリアされました。

1.2.4 ADRアラート・メッセージ

問題は、自動診断リポジトリ(ADR)内で追跡されます。ADRは、診断データを格納するためのファイルベース・リポジトリです。

このリポジトリはデータベースの外部に格納されるため、データベースが停止している場合でも診断データを利用できます。Oracle Databaseリリース11g以降では、アラート・ログ、すべてのトレース・ファイルおよびダンプ・ファイル、およびその他の診断データもADRに格納されます。

各問題には問題キーが含まれます。問題キーは問題を説明するテキスト文字列です。問題キーにはエラー・コード(ORA 00600など)が含まれ、1つ以上のエラー・パラメータ値やその他の情報が含まれる場合があります。ADRメッセージの例を次に示します。

Errors in file /opt/oracle/log/diag/asm/cell/stado54/trace/svtrc_2763_0.trc 
 (incident=1): ORA-00600: internal error code, arguments: [main_5], [3], 
[Invalid IP Param], [], [], [], [], []

ADRメッセージに関して実施する処置は次のとおりです。

Create an incident package for incident <incident number> using ADRCI 
and upload the incident packages to Oracle Support Services.

1.3 診断パッケージの使用

DiagPack診断パッケージには、Oracle Exadata Database Machineのすべてのタイプの問題をトラブルシューティングする際に役立つログとトレースが含まれています。

DiagPack機能は、Oracle Exadata System Software 12.1.2.2.0で導入されました。Oracle Exadataストレージ・サーバーおよびデータベース・サーバー(リリース12.2.1.1.0以降)は、セルのアラート生成時に、関連するログおよびトレースを含むカスタマイズされた診断パッケージを自動的に収集します。これは、ハードウェア・アラートとソフトウェア・アラートの両方を含むすべてのセル・アラートに適用されます。診断情報を適切なタイミングで収集することにより、重要なログのロールオーバーが抑制されます。

この診断パッケージは、デフォルトでは$LOG_HOME (/var/log/oracle/deploy/log)に格納されます。診断パッケージは、使用可能な領域があるかぎり保持されます。

管理サーバー(MS)は、電子メール・アラートごとに電子メール添付として診断パッケージを送信します。サーバーから診断パッケージをダウンロードしたり、ExaCLIを使用してパッケージをダウンロードすることもできます。

CREATE DIAGPACK CellCLIまたはDBMCLIコマンドを使用して開始時間と期間を指定することにより、カスタム診断パッケージを毎時作成できます。次に例を示します。

CREATE DIAGPACK packStartTime=2019_07_07T09_00_00, durationInHrs=2

alertNameパラメータを使用して、指定したアラートの診断パッケージを作成することもできます。LIST ALERTHISTORYコマンドを実行して、アラート名を表示できます。

CREATE DIAGPACK alertName=alertName

電子メール・アラートを受信しなかった場合は、アラート履歴を確認して診断パッケージを特定できます。

alerthistory-detail.out
name: 1_1
alertDescription: "Flash disk of size 2981GB in PCI slot 2 FDOM
slot 1 failed"
alertMessage: "Flash disk failed. Status : FAILED
...
severity: critical
alertAction: "The flash disk has failed. A white cell
locator LED has been lit to help locate the affected cell. Please replace the 
flash disk. If the flash disk is used for flash cache, then flash cache will
be disabled on this disk thus reducing the effective flash cache size. If the 
flash disk is used for flash log, then flash log will be disabled on this
disk thus reducing the effective flash log size. If the flash disk is used for 
grid disks, then Oracle ASM rebalance will automatically restore the data
redundancy. Detailed information on this problem can be found at 
ttps://support.oracle.com/CSP/main/article?cmd=show&type=NOT&id=1113023.1
Automatic Service Request has been notified with Unique Identifier: af386c6b-
c9b9-4763-a1d9-ce7351af81aa. Diagnostic package is attached. It is also 
accessible at https://hostname_xxx/diagpack/download?name=hostname_xxx_2019
_07_24T08_26_26_1_1.tar.bz2 It will be retained on the storage server for 7 days.
If the diagnostic package has expired, then it can be re-created at 
https://hostname_xxx/diagpack".

生成されたパッケージをOracleサポート・サービスに送信して、問題の解決に役立てることができます。

1.4 Oracleサポート・サービスへの連絡

一部のエラー・メッセージまたはアラートでは、Oracleサポート・サービスに連絡して問題を報告することをお薦めしています。

Oracle Auto Service Request (ASR)によって発行されたサービス・リクエストがある場合も、Oracleサポート・サービスに連絡する必要があります。Oracleサポート・サービスに連絡する場合は、次の情報を用意してください。

  • ハードウェア、オペレーティング・システム、およびOracle Databaseを実行しているオペレーティング・システムのリリース番号。

  • Oracle Databaseの完全なリリース番号(例: リリース19.2.0.0.0)。

  • エラーの発生時に使用していたすべてのOracleプログラムとリリース番号(例: SQL*Plusリリース19.2.0.0.0)。

  • 複数のエラー・コードまたはメッセージが検出された場合の表示順の正確なコード番号およびメッセージ・テキスト。

  • 次の規約に従った問題の重大度。

    • 1: プログラムを使用できない。操作に重大な影響を与えます。

    • 2: プログラムを使用できる。操作が大幅に制限されます。

    • 3: 機能が制限されて使用できるプログラム。全体の操作に重大な影響はありません。

    • 4: お客様によって回避された問題。発生しても操作への影響は最小限です。

次の項目も必要です。

  • 連絡者の名前

  • 連絡者の組織の名前

  • 連絡者のOracle Support ID番号

  • 連絡者の電話番号

  • ラック・マスター・シリアル番号