7.1 データ・モニターの作成
データ・モニタリングを使用すると、時間の経過に伴うデータ・ドリフト、および機械学習モデルのパフォーマンスに対する悪影響の可能性を検出できます。データ・モニター・ページでは、データ・モニターを作成、実行および結果を追跡することができます。
データ・モニターを作成するには:
- Oracle Machine Learning UIの左側のナビゲーション・メニューで、「モニタリング」を展開し、「データ」をクリックしてデータ・モニタリング・ページを開きます。
- データ・モニタリング・ページで、「作成」をクリックして新規データ・モニター・ページを開きます。
- 新規データ・モニター・ページで次の詳細を入力します。
図7-7 新規データ・モニター
- モニター名: データ・モニターの名前を入力します。
- コメント: コメントを入力します。これはオプションのフィールドです。
- ベースライン・データ: モニターするベースライン・データを含む表またはビューです。検索アイコンをクリックして、「表の選択」ダイアログを開きます。ここでスキーマを選択し、次に表を選択します。
ノート:
データ・モニタリングでサポートされるデータ型は、長さが<=4000
のNUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR
およびNVARCHAR2
です。 - 新規データ: ベースライン・データと比較する新規データがある表またはビューです。検索アイコンをクリックして、「表の選択」ダイアログを開きます。スキーマを選択し、次に表を選択します。
ノート:
データ・モニタリングでサポートされるデータ型は、長さが<=4000
のNUMBER, BINARY_DOUBLE, FLOAT, BINARY_FLOAT, VARCHAR2, CHAR, NCHAR
およびNVARCHAR2
です。 - クロス集計: ドロップダウン・リストから属性を選択します。ベースラインおよび新規データのこの属性は、データの二変量解析のアンカーまたはターゲットとして機能します。
ノート:
モニター対象の問題のターゲット列を、このフィールドのアンカー列として渡すことができます。監視なしの問題の場合は、関連する列のどれでも該当します。ただし、アプリケーション固有のものになります。 - ケースID: これはオプションのフィールドです。ベースラインおよび新規データのケース識別子を入力し、結果の繰返しを向上させます。
- 時間列: 新規データの表またはビューに時間情報を格納する列の名前です。ドロップダウン・リストから時間列を選択します。
ノート:
時間列が空白の場合、新規データ全体が1つの期間として処理されます。 - 分析期間: 新規データに対してデータ・モニタリングが実行される時間の長さです。データ・モニタリングの分析期間を選択します。オプションは、
「日」
、「週」
、「月」
、「年」
です。 - 開始日: データ・モニター・スケジュールの開始日です。開始日を指定しない場合、現在日が開始日として使用されます。
- 繰返し: この値は、定義された頻度でデータ・モニターの実行が繰り返される回数を定義します。1から99までの数値を入力します。たとえば、ここで「繰返し」フィールドに
2
と入力し、「頻度」フィールドに「分」
と入力すると、データ・モニターは2分ごとに実行されます。 - 頻度: この値は、新規データに対してデータ・モニターを実行する頻度を決定します。データ・モニタリングの頻度を選択します。オプションは、「分」、「時間」、「日」、「週」および「月」です。たとえば、「頻度」フィールドで
「分」
、「繰返し」フィールドで2
、「開始日」フィールドで5/30/23
を選択した場合、スケジュールに従って、データ・モニターは5/30/23から2分ごとに実行されます。
- 「再計算」をクリックします: すでに計算された期間の分析を再計算するには、このオプションを選択します。デフォルトでは、再計算は無効になっています。
- 有効にすると、「開始日」フィールドに指定された期間と終了時間に対してデータ・ドリフト分析が実行されます。この分析によって、指定した期間の既存の結果が上書きされます。つまり、現在のデータ以外の新規データを使用して、その期間の分析が計算されます。選択した頻度によっては、新しい分析結果が既存の結果と重複する可能性があります。
- 無効にすると、結果表に存在する期間のデータはそのまま保持されます。最新の期間の新しいデータのみが分析の対象となり、その結果が結果表に追加されます。
- 「追加設定」をクリックして、このセクションを展開し、データ・モニターの詳細設定を指定します:
図7-8 データ・モニタリングの「追加設定」
- ドリフトしきい値: ドリフトは、ベースライン・データと新しいデータ期間の間のパフォーマンスの相対的な変化を取得します。特定の機械学習の問題に基づいて、データ・ドリフト検出のしきい値を設定します。デフォルトは
0.7
です。ノート:
しきい値はユース・ケースに応じて調整できます。値を大きくすると生成されるアラートが減少し、小さくするとアラートが増加します。- このしきい値を超えるドリフトは、データの大幅な変化を示します。しきい値を超えると、モデルの再構築および再デプロイが必要になる場合があることを示します。
- このしきい値を下回るドリフトは、さらなる調査またはアクションを正当化するほどのデータの変化が十分ではないことを示します。
- データベース・サービス・レベル: これは、Autonomous Databaseのサービス・レベル(
低
、中
、高
およびGPU
)です。デフォルトは「低」
です。- サービス・レベル
「中」
では、「低」
より多くのリソースがデータ・モニター実行に提供されます。 - サービス・レベル
「高」
では、「中」
より多くのリソースがデータ・モニター実行に提供されます。
- サービス・レベル
- 分析フィルタ: 特定の期間のデータ・モニタリング分析が必要な場合は、このオプションを有効にします。スライダを右に移動して有効にし、「開始日」フィールドと「終了日」フィールドでそれぞれ日付を選択します。デフォルトでは、このフィールドは無効になっています。
- 開始日: 新規データでのモニタリングの開始日またはタイムスタンプです。これは、表に時間列が存在することを想定しています。「分析フィルター」オプションを使用する場合、これは必須フィールドです。
- 終了日: 新規データでのモニタリングの終了日またはタイムスタンプです。これは、表に時間列が存在することを想定しています。「分析フィルター」オプションを使用する場合、これは必須フィールドです。
- 最大実行数: このスケジュールに従ってデータ・モニターを実行できる最大回数です。デフォルトは
3
です。
- ドリフトしきい値: ドリフトは、ベースライン・データと新しいデータ期間の間のパフォーマンスの相対的な変化を取得します。特定の機械学習の問題に基づいて、データ・ドリフト検出のしきい値を設定します。デフォルトは
- 「機能」グリッドには、モニターする機能のリストが表示されます。ここでは、モニタリングに含める、またはモニタリングから除外する機能を選択/選択解除できます。デフォルトでは、すべての機能が選択されています。選択したデータが表であり、Autonomous Databaseによって自動収集されたRDBMS統計がある場合、機能統計が提供されます。Oracle Machine Learning Servicesでは、表とビューの両方で最初の実行の統計が計算され、最初の実行後に計算結果がここに表示されます。統計は、その後の実行で更新されます。
図7-9 データ・モニターの「機能」グリッド
ノート:
「ケースID」および「クロス集計」列は選択できません。 - 「保存」をクリックします。これで、データ・モニターの作成タスクは完了です。
ノート:
データ・モニタリングを開始するには、データ・モニタリング・ページに移動し、データ・モニターを選択して「開始」をクリックする必要があります。データ・モニターが正常に実行されたら、データ・モニタリング・ページでモニターを選択して、データ・ドリフトおよびその他のデータ・モニターの詳細を表示します。詳細は、データ・モニタリングの概要を参照してください。
親トピック: データ・モニタリングの概要