9 モデル操作

Oracle Data Miningを使用すると、分類モデルと回帰モデルをテストできます。

テスト・ノードは、モデルをテストするための複数の方法のうちの1つです。モデルを構築した後に、適用ノードを使用してモデルを新しいデータに適用します。評価と適用データは、構築データを準備する方法と同じ方法で準備する必要があります。

関連項目:

「評価と適用データ」

モデル操作に関連するノードは次のとおりです。

適用ノード
適用ノードは、パーティション化モデルおよび非パーティション化モデル両方のコレクションを取得し、単一のスコアを戻します。結果として、適用ノードによって問合せが生成されます。
特徴比較ノード
特徴比較ノードでは、あるデータ・ソース・ノードに含まれているテキスト・データを別のデータ・ソース・ノードのテキスト・データと比較して、テキスト・データのセマンティクスに関する計算を実行できます。
テスト・ノード
Oracle Data Miningを使用すると、分類モデルと回帰モデルをテストできます。他の種類のモデルはテストできません。

適用ノード

適用ノードにモデルの集合(パーティション化されたモデルとパーティション化されていないモデルの両方)を渡すと、単一スコアが戻されます。結果として、適用ノードによって問合せが生成されます。

結果は、さらに表またはビュー作成ノードに変換または接続し、表としてデータを保存できます。モデルを使用して予測するには、モデルを新しいデータに適用する必要があります。このプロセスは、新しいデータのスコアリングとも呼ばれます。

適用ノードは、1つ以上のモデルを使用してスコアリング用のSQLを生成します。SQLには、スコアリング関数を使用して作成されたパススルー(サプリメンタル)属性および列が含まれます。

注意:

相関モデルまたは属性重要度モデルは適用できません。

プリファレンスの適用
「プリファレンス」ダイアログ・ボックスで、適用操作のプリファレンスを表示および変更できます。
適用ノードの入力
適用ノードの入力には、モデル・ノード、モデル構築ノードまたはデータ・ノードなどのデータを生成する任意のノードを使用できます。
適用ノードの出力
適用ノードは、適用および出力の仕様に基づいてデータ・フローを生成します。
適用ノードの作成
適用ノードを作成して、モデルに基づいてデータをスコアリングします。
適用および出力の仕様
適用ノードの適用および出力の仕様を作成するには、いくつかの方法があります。
評価と適用データ
モデルのテストと適用データは、モデルの構築データを準備する方法と同じ方法で準備する必要があります。
適用ノードの編集
「適用ノードの編集」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。
適用ノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
適用ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
適用データ・ビューア
適用データ・ビューアには、適用出力の生成に使用されるデータ、列およびSQL問合せが表示されます。

関連項目

プリファレンスの適用

「プリファレンス」ダイアログ・ボックスで、適用操作のプリファレンスを表示および変更できます。

プリファレンスを適用ノードに適用するには、次の手順を実行します。

「ツール」メニュー・オプションで、「プリファレンス」をクリックします。
「プリファレンス」ダイアログ・ボックスで、「Data Miner」をクリックします。適用操作のプリファレンスを表示して、変更できます。Data Minerのデフォルト・プリファレンスは、次のとおりです。
- 自動適用設定
- データ列が先
「OK」をクリックします。

適用ノードの入力

適用ノードの入力には、モデル・ノード、モデル構築ノードまたはデータ・ノードなどのデータを生成する任意のノードを使用できます。

適用ノードには、次の入力が必要です。

次の1つ以上を指定します。
- モデル・ノード
- モデル構築ノード
適用するモデルを少なくとも1つ指定する必要があります。同時に複数のモデルを適用できます。
データ・ノード、変換ノードまたは適切なテキスト・ノードなどの出力としてデータを生成するすべてのノード。

1つの入力ノードのみが許可されます。

新しいデータにモデルを適用する場合、新しいデータはモデルの構築に使用されたデータと同じ方法で変換される必要があります。

注意:

相関モデルまたは属性重要度モデルは適用できません。

適用ノードの出力

適用ノードは、適用および出力の仕様に基づいてデータ・フローを生成します。

「自動設定」オプションや「適用列の定義ウィザード」などを使用する、複数の異なる方法で適用および出力の仕様を指定できます。

関連項目

「適用および出力の仕様」

適用ノードの作成

適用ノードを作成して、モデルに基づいてデータをスコアリングします。

適用ノードを作成する前に、データ・ノードとモデル・ノードまたは構築ノードを適用ノードに接続する必要があります。

適用ノードを作成するには、次の手順を実行します。

「コンポーネント」ペインで、ワークフロー・エディタに移動します。「コンポーネント」ペインが表示されていない場合は、SQL Developerメニュー・バーで「表示」に移動して「コンポーネント」をクリックします。または、[Ctrl]を押しながら[Shift]と[P]を押して、「コンポーネント」ペインをドッキングします。
適用データを特定するか、適用データを含むデータ・ソース・ノードを作成します。
注意:
適用データは、構築データと同じ方法で準備する必要があります。
モデル・ノード、モデル構築ノード(分類ノードなど)、またはこれらのノードの組合せを作成します。適用する前に、少なくとも1つのモデルを正常に作成する必要があります。相関モデルは適用できません。
ワークフロー・エディタで「評価と適用」を展開して、「適用」をクリックします。
ノードを「コンポーネント」ペインから「ワークフロー」ペインにドラッグ・アンド・ドロップします。
ノードがワークフローに追加されます。ノードに関連付けられたデータがないことがGUIに表示されます。このため、それは実行できません。
データ・ノード、モデル・ノードおよび構築ノードを適用ノードにリンクします。

関連項目:

適用および出力の仕様

適用ノードの適用および出力の仕様を作成するには、いくつかの方法があります。

次のいずれかの方法を使用できます。

適用ノードの編集
「適用ノードの編集」ダイアログ・ボックスで、予測、追加出力および自動設定の設定を編集できます。
「適用列の定義」ウィザード
「適用列の定義」ウィザードは、適用および出力の仕様を定義できる、2ステップのウィザードです。
追加出力
追加出力は、適用操作によって変更なしで渡される列で構成されます。

適用ノードの編集

「適用ノードの編集」ダイアログ・ボックスで、予測、追加出力および自動設定の設定を編集できます。

適用の仕様を編集または表示するには、適用ノードをダブルクリックするか、適用ノードを右クリックして「編集」を選択します。「適用ノードの編集」ダイアログ・ボックスには、次の2つのタブがあります。

予測: 適用スコアリングの仕様を定義します。

適用の仕様は、複数の出力適用列で構成されます。列名は、自動的に生成されます。
- 名前を指定できます。名前は、30字以上にすることはできません。
- 次に、すべての入力ノード内のモデルのリストからモデルを選択し、適用ファンクションを選択できます。選択できる適用ファンクションは、選択したモデルによって異なります。
追加出力: 入力ノードからパススルー列を指定します。必要な数の列を選択できます。これらの選択した列が適用列の前(デフォルト)または適用列の後に表示されることを指定できます。

これらの列は、適用出力の識別によく使用されます。たとえば、「ケースID」列を使用して適用出力を識別できます。

デフォルトでは、追加出力を指定しません。
関連項目:

「適用ノードの編集」ダイアログ・ボックス下部の「デフォルト列順序」は、出力では「データ列が先」です。これを「適用列が先」に変更できます。

パーティション化モデルの予測が必要な場合は、「パーティションの順序付け」オプションを選択します。デフォルトでは、適用ノードの入力として非パーティション化モデルがある場合でも、このオプションが選択されています。

予測
「予測」タブで、適用スコアリングの仕様を定義できます。
適用出力列の追加または編集
適用出力の追加ダイアログ・ボックスまたは適用出力の編集ダイアログ・ボックスでは、単一列の適用定義を手動で追加または編集できます。一度に1つの適用の定義を編集または追加できます。
出力適用列の追加ダイアログ
出力適用列の追加ダイアログ・ボックスでは、適用ノードに接続されているノードの列を手動で追加および編集できます。

予測

「予測」タブで、適用スコアリングの仕様を定義できます。

特定の適用設定を定義したり、デフォルト設定を編集するには、「自動設定」の選択を解除します。その後、新しい適用ファンクションを追加するか、既存のものを編集します。

「ケースID」ドロップダウン・リストから、ケースIDを選択します(該当する場合)。

様々な方法で設定を編集できます。

パーティション列の表示: 列を選択し、をクリックしてパーティション・キーを表示します。
設定の追加: をクリックして、「出力適用列ダイアログの追加」ボックスを開きます。
既存の設定の編集: 設定を選択して、をクリックします。「「出力データ列の編集」ダイアログ」ボックスが開きます。
仕様の削除: 選択して、をクリックします。
適用列の定義: をクリックします。適用列の定義ウィザードで、「適用列の定義」アイコンをクリックします。

適用ファンクション
選択できる適用ファンクションは、適用するモデルに依存します。
適用ファンクション・パラメータ
デフォルトの適用列名

関連項目

適用ファンクション

選択できる適用ファンクションは、適用するモデルに依存します。

注意:

特定の適用ファンクションは、Oracle Database 12c以降に接続されている場合にのみ使用できます。

モデル・ノードに従って配置される適用ファンクションは、次のとおりです。

異常検出モデル
- 予測: モデルに最適な予測を戻す自動設定です。戻されるデータ型は、モデルの作成中に使用するターゲット値の型によって異なります。回帰モデルの場合、このファンクションは期待値を戻します。コスト・マトリックスが存在する場合、ファンクションは、格納されたコスト・マトリックスを使用して最もコストが低い予測を戻します。格納されたコスト・マトリックスが存在しない場合は、最も高い確率の予測が戻されます。
- 予測の詳細: 予測の詳細を戻します。戻り値は、予測の属性について記述します。異常検出の場合、戻される詳細は最も高確率のクラスまたは指定されたクラス値を参照します。
  
  注意:
  「予測の詳細」には、Oracle Database 12c以降への接続が必要です。
  
  「予測の詳細」のデフォルトは、次のとおりです。
  - ターゲット値: 可能性が最も高い
  - 重みでソート: 絶対値
  - ランク付けされた属性リストの最大長: 5
  「予測の詳細」の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
- 予測確率: 最適な予測に関連付けられた確率を戻す自動設定です。
- 予測セット: 多クラス分類シナリオで、すべてのクラスを含むオブジェクトのVARRAYを戻します。オブジェクト・フィールドはPREDICTION、PROBABILITYおよびCOSTと名付けられます。PREDICTIONフィールドのデータ型は、モデルの構築時に使用したターゲット値の型によって異なります。他の2つのフィールドは、両方ともOracleのNUMBERになります。要素は最適な予測から最低の予測の順序で戻されます。
クラスタリング・モデル
- クラスタ詳細: 戻り値は、最も高い確率のクラスタまたは指定されたクラスタIDの属性について記述します。「TopN」に値を指定すると、このファンクションはクラスタ割当てに最も影響力のあるN個の属性(スコア)を戻します。TopNを指定しないと、このファンクションは最も影響力のある5つの属性を返します。
  
  注意:
  「クラスタ詳細」には、Oracle Database 12c以降への接続が必要です。
  
  「クラスタ詳細」のデフォルトは、次のとおりです。
  - クラスタID: 可能性が最も高い
  - 重みでソート: 絶対値
  - ランク付けされた属性リストの最大長: 5
  返される属性が重みで順序付けされます。属性の重みは、その属性がクラスタ割当てに与える正の影響または負の影響を表します。正の重みは、割当ての可能性が増加することを示します。負の重みは、割当ての可能性が減少することを示します。
  
  「クラスタ詳細」の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
- クラスタ距離: 選択内に含まれる各行のクラスタ距離を戻します。クラスタ距離は、最も高い確率のクラスタまたは指定されたクラスタIDの行と重心との間の距離です。
  
  注意:
  「クラスタ距離」には、Oracle Database 12c以降への接続が必要です。
  
  「クラスタ詳細」のデフォルトは、次のとおりです。
  - クラスタID: 可能性が最も高い
- クラスタID: 最も高い確率のクラスタIDのNUMBERを戻す自動設定です。クラスタIDの名前が変更されている場合、かわりにVARCHAR2が戻されます。
- クラスタ確率: 指定したモデルに関連付けられたクラスタにある入力行のメンバーシップ(NUMBER)の信頼度のメジャーを戻す自動設定です。
- クラスタ・セット: 指定の行が指定のパラメータ仕様に属している、可能性があるすべてのクラスタを含むオブジェクトの配列を戻します。配列の各オブジェクトは、クラスタIDとクラスタ確率を含むスカラー値の組です。オブジェクト・フィールドには、CLUSTER_IDおよびPROBABILITYという名前が付けられ、両方ともOracleのNUMBERのクラスタリング・モデルのみになります。
特徴抽出モデル
- 機能ID: 行内で最も高い数値を持つ特徴の識別子であるOracleのNUMBERを戻します。
- 特徴セット: 「クラスタ・セット」に似た自動設定です。
- 特徴値: 特定の特徴値を戻します。特徴IDの引数を省略すると、このファンクションは最も高い特徴値を戻します。
- 機能の詳細: 戻り値は、最も値が大きい特徴の属性または指定された特徴IDの属性について記述します。「TopN」に値を指定すると、このファンクションは特徴値に最も影響力のあるN個の属性を戻します。「TopN」を指定しないと、このファンクションは最も影響力のある5つの属性を戻します。
  
  注意:
  特徴抽出モデルには、Oracle Database 12c以降への接続が必要です。
  
  返される属性が重みで順序付けされます。属性の重みは、その属性が特徴値に与える正の影響または負の影響を表します。正の重みは、特徴の値が大きくなることを示します。負の重みは、特徴の値が小さくなることを示します。
  
  「クラスタ詳細」のデフォルトは、次のとおりです。
  - 特徴ID: 可能性が最も高い
  - 重みでソート: 絶対値
  - ランク付けされた属性リストの最大長: 5
  特徴の詳細の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
分類モデルと回帰モデル
- 予測: モデルに最適な予測を戻す自動設定です。戻されるデータ型は、モデルの作成中に使用するターゲット値の型によって異なります。
  - 回帰モデルの場合、このファンクションは期待値を戻します。
  - 分類モデルの場合、戻される詳細は最も高い確率のクラスまたは指定されたクラス値を参照します。
    
    コスト・マトリックスが存在する場合、ファンクションは、格納されたコスト・マトリックスを使用して最もコストが低い予測を戻します。格納されたコスト・マトリックスが存在しない場合は、最も高い確率の予測が戻されます。
- 予測範囲: 一般化線形モデルでは、2つのNUMBERフィールド(LOWERおよびUPPER)でオブジェクトを戻します。リッジ回帰を使用してGLMが構築された場合、または構築中に共分散マトリックスに異常が検出された場合、このファンクションは両方のフィールドにNULLを戻します。
  - 回帰マイニング機能の場合は、予測値に限度が適用されます。
  - 分類マイニング機能の場合は、確率値に限度が適用されます。
- 予測範囲下限: 「予測範囲」と同じですが、スカラー列として下限のみを戻します。GLMモデルの自動設定です。
- 予測範囲上限: 「予測範囲」と同じですが、スカラー列として上限のみを戻します。GLMモデルの自動設定です。
- 予測の詳細: ディシジョン・ツリーを除き、Oracle Database 12c以降への接続が必要です。
  
  分類の「予測の詳細」のデフォルトは、次のとおりです。
  - ターゲット値: 可能性が最も高い
  - 重みでソート: 絶対値
  - ランク付けされた属性リストの最大長: 5
  回帰の「予測の詳細」のデフォルトは、次のとおりです。
  - 重みでソート: 絶対値
  - ランク付けされた属性リストの最大長: 5
  DT予測の詳細: 入力行のスコアリングに関連するモデル固有の情報を含む文字列を戻します。Oracle Data Minerリリース4.0以前では、戻り値は<Node id = "integer"/>の形式になります。
  
  注意:
  DT予測の詳細には、Oracle Database 11gリリース2 (11.2)以降への接続が必要です。
分類
- 予測コスト: 指定した予測のコストのメジャーをNUMBERとして戻します。分類モデルのみ。DTモデルの自動設定です。
- 予測確率: 最適な予測に関連付けられた確率を戻します。自動設定は「可能性が最も高い」です。
- 予測セット: 多クラス分類シナリオで、すべてのクラスを含むオブジェクトの配列を戻します。オブジェクト・フィールドはPREDICTION、PROBABILITYおよびCOSTと名付けられます。PREDICTIONフィールドのデータ型は、モデルの構築時に使用したターゲット値の型によって異なります。他の2つのフィールドは、両方ともOracleのNUMBERになります。要素は最適な予測から最低の予測の順序で戻されます。

関連項目:

「適用ファンクション・パラメータ」

適用ファンクション・パラメータ

指定できる適用ファンクション・パラメータは、次のとおりです。

クラスタID: デフォルトは確率が最も高いです。他のパラメータはサポートされていません。
クラスタ確率: デフォルトは確率が最も高いです。特定のクラスタIDを選択したり、「NULL」または「可能性が最も高い」を指定して、可能性が最も高いクラスタの限度を戻すこともできます。
クラスタ・セット: デフォルトは、すべてのクラスタです。次のいずれかまたは両方を指定することもできます。
- TopN: Nは1およびクラスタの数の間になります。オプションのTopN引数は、特徴セットを上位Nの値のいずれかを持つ特徴セットに制限する正の整数です。N番目の値に同順位がある場合でも、N個の値のみが戻されます。この引数を指定しない場合、このファンクションはすべての特徴を戻します。
- 確率カットオフ: 厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻される特徴を、指定したカットオフ以上の特徴値を持つ特徴のみに制限します。カットオフのみでフィルタ処理するには、NULLをTopNに指定し、必要なカットオフ値をcutoffに指定します。
機能ID: デフォルトは、確率が最も高いです。その他の値はサポートされません。
機能セット: デフォルトは、すべての特徴IDです。次のいずれかまたは両方を指定することもできます。
- TopN: Nは1およびクラスタの数の間になります。オプションのTopN引数は、特徴セットを上位Nの値のいずれかを持つ特徴セットに制限する正の整数です。N番目の値に同順位がある場合でも、N個の値のみが戻されます。この引数を指定しない場合、このファンクションはすべての特徴を戻します。
- 確率カットオフ: 厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻される特徴を、指定したカットオフ以上の特徴値を持つ特徴のみに制限します。カットオフのみでフィルタ処理するには、NULLをTopNに指定し、必要なカットオフ値を指定します。
特徴値: デフォルトは最大値です。特定の特徴ID値を選択したり、次の値のいずれかを指定して、可能性が最も高い特徴の限度を戻すこともできます。
- NULL
- 可能性が最も高い
予測: デフォルトは、コスト・マトリックスを考慮するための最適な予測です。
「予測範囲上限」または「予測範囲下限」: デフォルトは、信頼水準95%の最適な予測です。信頼水準は、厳密に0より大きく、1以下の値に変更できます。分類モデルについてのみ、「ターゲット値の選択」ダイアログ・ボックスのオプションを使用して、特定のターゲット値を選択できます。「Null」または「可能性が最も高い」を指定して、可能性が最も高いターゲット値の限度を戻すこともできます。
予測コスト: デフォルトは、最適な予測です。分類モデルにのみ適用できます。ターゲット値の選択オプションを使用して、特定のターゲット値を選択できます。
予測の詳細: 値は最適な予測の詳細のみになります。
予測確率: デフォルトは、最適な予測です。分類モデルにのみ適用できます。「ターゲット値の選択」オプションを使用して、特定のターゲット値を選択できます。
予測セット: デフォルトは、すべてのターゲット値です。次のいずれかまたは両方を指定することもできます。
- bestN: Nは1およびターゲットの数の間になります。オプションのbestN引数は、戻されるターゲット・クラスを最も高い確率(コスト・マトリックス句が指定されている場合は、最も低いコスト)のNに制限する正の整数です。複数のクラスがN番目の値にあっても、N個の値のみが戻されます。カットオフのみでフィルタ処理するには、このパラメータにNullを指定します。
- 確率カットオフ: 厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻されるターゲット・クラスを、指定したカットオフ値以上(コスト・マトリックス句が指定されている場合は、指定したコスト以下)の確率を持つターゲット・クラスに制限します。この値にNULLを指定することによって、カットオフのみでフィルタ処理できます。

デフォルトの適用列名

デフォルトの適用列名の構文は、次のとおりです。

	"<FUNCTION ABBREVIATION>_<MODEL NAME><SEQUENCE>

SEQUENCEは、競合を避ける必要がある場合にのみ使用されます。順序番号によって、モデル名は強制的に部分的に切り捨てられることがあります。

FUNCTION ABBREVIATIONは次のいずれかです。

クラスタ詳細: CDET
クラスタ距離: CDST
クラスタID: CLID
クラスタ確率: PROB
クラスタ・セット: CSET
機能の詳細: FDET
機能ID: FEID
機能セット: FSET
機能値: FVAL
予測: PRED
予測範囲: PBND
予測範囲上限: PBUP
予測範囲下限: PBLW
予測コスト: PCST
予測の詳細: PDET
予測確率: PROB
予測セット: PSET

特定のターゲット、特徴またはクラスタのデフォルト名は、2つの方法のいずれかで省略されます。

1つ目の方法は、ターゲット、特徴またはクラスタの値を列名に統合します。この方法は、ターゲット、クラスタまたは特徴の最大値が名前で使用できる残りの文字スペースを超えない場合に使用されます。名前は、30字以下にする必要があります。
2つ目の方法は、ターゲット、クラスタまたは特徴を順序IDと置き換えます。この方法は、1つ目の方法が不可能な場合に使用されます。

適用出力列の追加または編集

適用出力の追加ダイアログ・ボックスまたは適用出力の編集ダイアログ・ボックスでは、単一列の適用定義を手動で追加または編集できます。一度に1つの適用の定義を編集または追加できます。

列を追加または編集する前に、「自動設定」の選択を解除する必要があります。

次のタスクを実行できます。

適用出力列の追加: をクリックします。
適用出力列の編集: をクリックします。列を編集する場合は、「ファンクション」選択ボックスとそのパラメータのみを編集できます。

次のコントロールを使用できます。

列: 生成される列名。
自動:
- 選択すると、列名を編集できません。
- 選択を解除すると、自動ネーミングが無効になり、列名を変更できます。列名は、一意であることを確認するために検証されます。
ノード: ノードに接続されるモデル入力ノードのリスト。入力ノードが1つしかない場合、デフォルトでそれが選択されます。
モデル: 選択したノードのモデルのリスト。モデルが1つしかない場合、デフォルトでそれが選択されます。
ファンクション: 選択したモデルのモデル・スコアリング関数のリスト。
パラメータ: 選択したファンクションのパラメータ要件をサポートするために必要な0以上のコントロールを表示します。

出力列の定義が終了したら、「OK」をクリックします。

関連項目:

出力適用列ダイアログの追加

出力適用列の追加ダイアログ・ボックスでは、適用ノードに接続されているノードの列を手動で追加および編集できます。

デフォルトでは、名前が自動的に出力列に割り当てられます。

列を追加するには、次のステップを実行します。

「列」フィールドで、名前を指定します。
「自動」の選択を解除します。
「ノード」フィールドで、適用ノードに接続されたノードの1つを選択します。選択するノードのタイプによって、「モデル」および「ファンクション」フィールドでの選択肢が決まります。
「モデル」フィールドで、モデルを選択します。
「ファンクション」フィールドで、ファンクションを選択します。
完了後、「OK」をクリックします。

関連項目:

「適用および出力の仕様」

適用列の定義ウィザード

「適用列の定義」ウィザードは、適用および出力の仕様を定義できる、2ステップのウィザードです。

「適用列の定義」ウィザードは、次のステップで構成されます。

モデル
「適用列」ウィザードの「モデル」セクションでは、モデルを選択し、そのモデルの出力仕様を定義できます。
出力仕様
「出力仕様」セクションには、選択されたモデルに指定できる出力仕様が、選択されたデフォルト設定とともにリストされます。
上位Nの定義
「上位N」オプションを選択した場合は、それに関連する設定を定義する必要があります。

モデル

「適用列」ウィザードの「モデル」セクションでは、モデルを選択し、そのモデルの出力仕様を定義できます。

モデルを選択するには、次の手順を実行します。

出力仕様を定義するモデルを選択します。
「次へ」をクリックします。

出力仕様

「出力仕様」セクションには、選択されたモデルに指定できる出力仕様が、選択されたデフォルト設定とともにリストされます。

選択したモデルの出力仕様を定義するには、次の手順を実行します。

「可能性が最も高い」を選択します。「可能性が最も高い」でパラメータを定義するには、次の手順を実行します。
- 「予測の詳細」を選択し、「編集」をクリックして、モデルの予測の詳細を定義します。
- 「予測範囲」を選択し、「信頼度」のパーセンテージを入力します。この設定は、一般化線形モデル・アルゴリズムに基づくモデルに対してのみ適用できます。
「上位N」を選択し、上位Nの定義ダイアログ・ボックスでNの値を定義します。
パーティション化モデルの名前を出力に含める場合は、「パーティション名」を選択します。
「終了」をクリックして、定義を終了します。

関連項目:

上位Nの定義

「上位N」オプションを選択した場合は、それに関連する設定を定義する必要があります。

「上位N」オプションに関連する設定を定義するには、次の手順を実行します。

「最適なNを使用」をクリックし、ドロップダウン・リストからNの値を選択します。
切捨てをクリックし、「確度値」ドロップダウン・リストから値を選択します。
「OK」をクリックします。

追加出力

追加出力は、適用操作によって変更なしで渡される列で構成されます。

入力ノードからパススルー列を指定できます。必要な数の列を選択できます。これらの選択した列が適用列の前(デフォルト)または適用列の後に表示されることを指定できます。これらの列は、適用出力の識別によく使用されます。たとえば、「ケースID」列を使用して適用出力を識別できます。

関連項目

「出力データ列の編集ダイアログ」

評価と適用データ

モデルのテストと適用データは、モデルの構築データを準備する方法と同じ方法で準備する必要があります。

テストと適用データを適切に準備するには、構築の変換ノードをコピーして貼り付けることによって、テストと適用データの構築データの変換チェーンを複製します。

適用ノードの編集

「適用ノードの編集」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。

「デフォルト列順序」のデフォルト値は、「データ列が先」で、追加するデータ列が出力の最初になることを意味します。これを「適用列が先」に変更できます。

「適用ノードの編集」ダイアログ・ボックスには、次のタブがあります。

予測
「予測」タブで、適用スコアリングの仕様を定義できます。
追加出力
「追加出力」タブで、データ・ソース・ノードからパススルー属性を指定できます。
適用列
適用の仕様を作成するには、「自動設定」の選択を解除します。デフォルトでは、「自動設定」が選択されています。

予測

「予測」タブで、適用スコアリングの仕様を定義できます。

「ケースID」ドロップダウン・リストから、ケースIDを選択します(該当する場合)。

様々な方法で設定を編集できます。

パーティション列の表示: 列を選択し、をクリックしてパーティション・キーを表示します。
設定の追加: をクリックして、「出力適用列ダイアログの追加」ボックスを開きます。
既存の設定の編集: 設定を選択して、をクリックします。「「出力データ列の編集」ダイアログ」ボックスが開きます。
仕様の削除: 選択して、をクリックします。
適用列の定義: をクリックします。適用列の定義ウィザードで、「適用列の定義」アイコンをクリックします。

関連項目

追加出力

「追加出力」タブで、データ・ソース・ノードからパススルー属性を指定できます。

列を追加するには、次の手順を実行します。

をクリックします。「「出力データ列の編集」ダイアログ」ボックスが開きます。
「適用ノードの編集」ダイアログ・ボックスで、「デフォルト列順序」は「データ列が先」になっています。これを「適用列が先」に変更できます。
完了後、「OK」をクリックします。

関連項目

「出力データ列の編集ダイアログ」

適用列

適用の仕様を作成するには、「自動設定」の選択を解除します。デフォルトでは、「自動設定」が選択されています。

次のタスクを実行できます。

適用列を定義するには、をクリックします。適用列の定義ウィザードが開きます。
出力適用列を追加するには、をクリックします。

「出力適用列ダイアログの追加」ボックスが開きます。
出力適用列を削除するには、をクリックします。
出力適用列の仕様を編集するには、仕様を選択します。をクリックします。適用出力列の追加または編集ダイアログ・ボックスが開きます。

関連項目:

適用ノードのプロパティ

「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。

ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。

適用ノードのプロパティには、次のセクションがあります。

予測: 適用列で定義された出力適用列が表示されます。これらの詳細を編集できます。選択が変更されなかった場合、自動選択オプションが選択されます。

各出力適用列に、名前、ファンクション、パラメータおよびノードがリストされます。
追加出力: パススルーされる出力データ列がリストされます。各列に、名前、列名(ある場合)およびデータ型がリストされます。
キャッシュ
詳細: ノードの名前およびコメントが表示されます。

関連項目:

適用ノードのコンテキスト・メニュー

コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。

適用ノードのコンテキスト・メニューを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。

接続
編集。「適用ノードの編集」ダイアログ・ボックスが開きます。
親の検証
実行
データの表示。適用データ・ビューアが開きます。
実行の強制
デプロイ
グラフの表示
適用チェーンの生成
切取り
「コピー」
貼付け
すべて選択
パフォーマンス設定。これにより、ノードのパラレル設定およびインメモリー設定を指定できる「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
イベント・ログの表示。ノードの実行に失敗した場合にのみ表示されます。
ランタイム・エラーの表示。エラーがある場合にのみ表示されます。
検証エラーの表示。エラーがある場合にのみ表示されます。
ナビゲート

関連項目:

適用データ・ビューア

適用データ・ビューアには、適用出力の生成に使用されるデータ、列およびSQL問合せが表示されます。

適用データ・ビューアは、新しいタブで開きます。ビューアには、次のタブがあります。

データ: データの行が表示されます。デフォルトでは、キャッシュ・データが表示されます。次のタスクを実行できます。
- 実際のデータの表示。
- データのソート。
- SQL式を使用したデータのフィルタ。
- 表示のリフレッシュ。リフレッシュするには、をクリックします。
列: 適用内の列がリストされます。
SQL: 適用出力の生成に使用されるSQL問合せがリストされます。

特徴比較ノード

特徴比較ノードでは、あるデータ・ソース・ノードに含まれているテキスト・データを別のデータ・ソース・ノードのテキスト・データと比較して、テキスト・データのセマンティクスに関する計算を実行できます。

特徴比較ノードの要件は、次のとおりです。

2つの入力データ・ソース。データ・ソースには、データ・ソース・ノードで接続されているレコードなどの複数のレコードのデータ・フローまたはノード内でユーザーが入力する単一レコード・データを指定できます。ユーザーが入力するデータの場合、入力データ・プロバイダは不要です。
セマンティクスに関する計算を行うためにモデルを選択できる、1つの入力特徴抽出モデル・プロバイダ・ノード。

ノードを右クリックし、「編集」を選択して、2つのデータ入力ソースの特徴を比較できます。

特徴比較ノードの作成
特徴比較ノードを作成して、テキスト・データに関する計算を実行します。
特徴比較
「機能比較」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。
特徴比較ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。

特徴比較ノードの作成

特徴比較ノードを作成して、テキスト・データに関する計算を実行します。

特徴比較ノードを作成する前に、まず、ワークフローを作成します。次に、データ・ソース・ノードを特定または作成します。

特徴比較ノードを作成するには、次の手順を実行します。

「コンポーネント」ペインで、ワークフロー・エディタに移動します。「コンポーネント」ペインが表示されていない場合は、SQL Developerメニュー・バーで「表示」に移動して「コンポーネント」をクリックします。または、[Ctrl]を押しながら[Shift]と[P]を押して、「コンポーネント」ペインをドッキングします。
ワークフロー・エディタで「モデル」を展開し、「機能比較」をクリックします。
ノードを「コンポーネント」ペインから「ワークフロー」ペインにドラッグ・アンド・ドロップします。
ノードがワークフローに追加されます。ノードに関連付けられたデータがないことがGUIに表示されます。このため、それは実行できません。
構築用にデータを提供するノードに移動します。右クリックして「接続」をクリックします。特徴比較ノードまで線をドラッグし、再度クリックします。
ノードを編集できます。ノードを編集するには、ノードを右クリックして「編集」を選択します。「機能比較」ダイアログ・ボックスが開きます。
ノードの構築準備ができました。ノードを右クリックして、「実行」をクリックします。

関連項目:

「特徴比較」

特徴比較

「機能比較」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。

「機能比較」ダイアログ・ボックスでは、次のタスクを実行できます。

「機能比較」タブでは、特徴抽出モデルを選択し、特徴比較に使用するデータ・ソースを指定できます。データ・ソースを指定するには、次の手順を実行します。
1. 「モデル」フィールドで、ドロップダウン・リストからモデルを選択します。ドロップダウン・リストには、モデル・プロバイダに接続されているすべての特徴抽出モデルが表示されます。
2. カスタム列名を入力する場合は、「自動」の選択を解除します。「自動」が選択されている場合は、選択したモデルに基づいて列名が自動的に「列」フィールドに表示されます。「自動」オプションは、自動で列名を生成するためのものです。
3. 「データ入力 1」および「データ入力 2」フィールドで、ドロップダウン・リストからデータ・プロバイダ・ノードをそれぞれ選択します。カスタム入力を行う場合は、ドロップダウン・リストから「ユーザー定義」を選択し、その下のモデル・グリッドで該当するデータ入力セルをクリックして、カスタム・エントリを入力します。
4. 「ケースID」フィールドで、各データ・プロバイダ・ノードにサポートされている列を選択します。データ入力フィールドが「ユーザー定義」と設定されている場合は、「ケースID」フィールドが無効になります。
5. 「OK」をクリックします。
モデル・グリッドには、次の情報が表示されます。
- モデル属性: 選択したモデルのモデル・シグネチャの入力属性が表示されます。
- データ型: データ型の属性が表示されます。
- データ入力 1: データ入力1の一致する属性またはユーザー定義データが表示されます。
- データ入力 2: データ入力1の一致する属性またはユーザー定義データが表示されます。
「自動設定」が「オン」に設定されている場合、「機能比較」タブに追加されている選択済のケースIDが「追加出力」タブにも追加されます。任意のモデル属性を出力の追加列として追加することもできます。

特徴比較ノードのコンテキスト・メニュー

特徴抽出ノードのコンテキスト・メニューを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。

接続
実行
実行の強制
スケジュールの作成
編集。「機能比較」ダイアログ・ボックスが開きます。
データの表示
適用チェーンの生成
イベント・ログの表示
デプロイ
切取り
「コピー」
貼付け
拡張貼付け
すべて選択
パフォーマンス設定。「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
画像をクリップボードにコピー
画像を別名で保存。「ダイアグラムの公開」ダイアログ・ボックスが開きます。
プロパティに移動
ナビゲート

関連項目:

テスト・ノード

Oracle Data Miningを使用すると、分類モデルと回帰モデルをテストできます。他の種類のモデルはテストできません。

テスト・ノードは、同じテスト・セットを使用して複数のモデルをテストできます。「自動設定」オプションが「オン」に設定されている場合、入力ノードに接続すると、テスト・ノードの仕様が生成されます。

テスト・ノードは、パラレルに実行できます。

注意:

ノードでテストされるすべてのモデルは、分類モデルまたは回帰モデルである必要があります。同じテスト・ノードで両方の種類のモデルをテストすることはできません。

分類モデルおよび回帰モデルのテストのサポート
Oracle Data Minerは、分類モデルまたは回帰モデルのテストをサポートします。
テスト・ノードの入力
テスト・ノードの入力には、モデル・ノード、分類ノードまたは回帰ノードを使用できます。
自動設定
デフォルトでは、「自動設定」オプションがテスト・ノードに選択されています。
テスト・ノードの作成
テスト・ノードを作成して、分類モデルおよび回帰モデルをテストします。
テスト・ノードの編集
「テスト・ノードの編集」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。
テスト結果の比較ビューア
テスト結果の比較ビューアには、同じノードにある1つ以上のモデルのテスト結果が表示されます。
テスト・ノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
テスト・ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。

関連項目:

分類モデルおよび回帰モデルのテストのサポート

Oracle Data Minerは、分類モデルまたは回帰モデルのテストをサポートします。

Oracle Data Minerは、次の方法で分類モデルまたは回帰モデルのテストをサポートします。

次の方法のいずれかを使用して、構築ノードの一部としてモデルをテストします。
- 構築データを構築サブセットとテスト・サブセットに分割します。
- すべての構築データをテスト・データとして使用します。
- 2つ目のデータ・ソース・ノードのテスト・データ・ソース・ノードを構築ノードに接続します。
テスト・ノードでモデルをテストします。この場合、テスト・データは、構築データと互換性がある表になります。
分類モデルをテストした後に、チューニングを行うことができます。

注意:
回帰モデルはチューニングできません。

関連項目:

テスト・ノードの入力

テスト・ノードの入力には、モデル・ノード、分類ノードまたは回帰ノードを使用できます。

テスト・ノードには次の入力があります。

1つ以上のモデルを識別する少なくとも1つのノード。ノードは、モデル・ノード、分類ノードまたは回帰ノードにできます。モデル・ノードには、分類モデルまたは回帰モデルの両方ではなくいずれかが含まれている必要があります。
データ・ノード、変換ノードまたは適切なテキスト・ノードなどの出力としてデータを生成するすべてのノード。このノードには、テスト・データが含まれます。
ケースIDを指定することをお薦めします。ケースIDを指定しない場合、処理にかかる時間が長くなります。

複数の分類モデルまたは複数の回帰モデルを同時にテストできます。テストされるモデルは、別のノードに存在できます。テストされるモデルは、次の条件を満たす必要があります。

モデルを含むノードは、同じファンクション・タイプを持つ必要があります。つまり、すべて分類構築ノードであるか、すべて回帰構築ノードである必要があります。

分類モデルも、同じターゲット属性値のリストを持つ必要があります。
モデルは、同じデータ型の同じターゲット属性を持つ必要があります。
テスト用のデータ・ソース・ノードには、モデルのターゲットが含まれている必要があります。
テスト・データは、モデルと互換性がある必要があります。つまり、モデルの構築に使用されるデータと同じ方法で変換されている必要があります。

自動設定

デフォルトでは、「自動設定」オプションがテスト・ノードに選択されています。

自動選択によって、動作は次のようになります。

モデル入力ノードが接続されると、すべてのモデルが仕様に追加されます。
モデル入力ノードが切断されると、すべてのモデルが仕様から削除されます。テスト・ノードが無効になる場合があります。
モデル入力ノードが次の方法で編集されると、動作は次のようになります。
- モデルが追加されると、モデルの仕様が自動的にテスト・ノードに追加されます。
- モデルが削除されると、テスト・ノードから仕様が削除されます。
- モデルが変更されると、次が実行されます。
  - アルゴリズムが一貫していることを確実にするために、テスト・ノードが更新されます。
  - ターゲットが変更され、テスト・ノードへの入力としてノードが1つしか存在しない場合、新しいターゲットを反映してすべてのモデルを維持するためにそのノードが更新されます。また、新しい列ターゲットがまだあることを確認するために、テスト入力データも検証されます。
  - テスト・ノードへの入力として複数のモデル・ノードが存在する場合、変更されたターゲットを持つモデルは自動的に削除されます。

「自動設定」の選択を解除した場合、ノードを編集してすべての変更を入力に反映する必要があります。モデルが追加されている場合、そのモデルは検証されます。

テスト・ノードの作成

テスト・ノードを作成して、分類モデルおよび回帰モデルをテストします。

テスト・ノードを作成する前に、データ・ソース・ノードをモデル・ノードに接続するか、構築ノードをテスト・ノードに接続する必要があります。

テスト・ノードを作成する手順:

「コンポーネント」ペインで、ワークフロー・エディタに移動します。「コンポーネント」ペインが表示されていない場合は、SQL Developerメニュー・バーで「表示」に移動して「コンポーネント」をクリックします。または、[Ctrl]を押しながら[Shift]と[P]を押して、「コンポーネント」ペインをドッキングします。
テスト・データを含むデータ・ソース・ノードを指定するか、作成します。テスト・データが構築データと同じ方法で準備されていることを確認します。
少なくとも1つのモデル・ノード、分類ノードまたは回帰ノードを選択します。モデルは、テスト前に正常に構築されている必要があります。
注意:
1つのテスト・ノードで、分類モデルまたは回帰モデルの両方ではなく、いずれかの種類のモデルをテストできます。
ワークフロー・エディタで、「評価と適用」を展開して「テスト」をクリックします。
ノードを「コンポーネント」ペインから「ワークフロー」ペインにドラッグ・アンド・ドロップします。
ノードがワークフローに追加されます。ノードに関連付けられたデータがないことがGUIに表示されます。このため、それは実行できません。
データ・ノード、モデル・ノードまたは構築ノードをテスト・ノードにリンクします。
テスト・ノードの特性は、デフォルトで設定されています。ノードを編集することもできます。

関連項目:

テスト・ノードの編集

「テスト・ノードの編集」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。

テスト・ノードを編集するには、ノードを右クリックして、「編集」を選択するか、ノードをダブルクリックします。「テスト・ノードの編集」ダイアログ・ボックスが開きます。

「テスト・ノードの編集」ダイアログ・ボックスには、次の情報が表示されます。

ファンクション(CLASSIFICATIONまたはREGRESSION)
ターゲットおよびデータ型(ターゲットのデータ型)
ケースID (存在する場合)

ケースIDを指定することをお薦めします。ケースIDを指定しない場合、処理は低速になります。テキスト・ノードに指定するケースIDは、構築ノードに指定したケースIDと同じである必要があります。
自動設定: デフォルトでは、「自動設定」が選択されています。

次のタスクを実行できます。

「自動設定」を選択している場合でも、テスト結果を比較して、個々のモデルを表示できます。テストされたモデルは、「選択したモデル」グリッドにリストされます。
モデルのリストを変更します。「自動設定」の選択を解除して、「選択したモデル」グリッドで変更を行います。

モデルの選択

関連項目:

モデルの選択

「モデルの選択」ダイアログ・ボックスには、テストに使用できるモデルがリストされます。モデルを選択するには、次の手順を実行します。

「使用可能なモデル」から「選択したモデル」にモデルを移動します。
「OK」をクリックします。

テスト結果の比較ビューア

テスト結果の比較ビューアには、同じノードにある1つ以上のモデルのテスト結果が表示されます。

次のテスト結果が表示されます。

関連項目:

テスト・ノードのプロパティ

「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。

テスト・ノードの「プロパティ」ペインには、次のセクションがあります。

モデル
「モデル」タブには、「選択したモデル」グリッドでテストするモデルがリストされます。
テスト
「テスト」セクションでは、テストの実行方法を説明します。
詳細
「詳細」セクションには、ノードの名前およびノードについてのコメントが表示されます。

モデル

「モデル」タブには、「選択したモデル」グリッドでテストするモデルがリストされます。

選択したモデル
「選択したモデル」ダイアログ・ボックスには、選択したモデルの詳細が表示されます。ここでは、モデルを追加および削除することもできます。

選択したモデル

「選択したモデル」ダイアログ・ボックスには、選択したモデルの詳細が表示されます。ここでは、モデルを追加および削除することもできます。

各モデルについて、グリッドに次の内容がリストされます。

モデル名: モデル名がリストされます。パーティション化モデルの隣には、それがパーティション化されていることを示すアイコンが示されます。

注意:
パーティション列に選択したモデルでの互換性がない場合は、グローバル・テスト結果のみが生成されます。
パーティション列: 各パーティション化モデルのパーティション列がリストされます。
ノード: モデルを含むノードがリストされます。
テスト: モデルのテスト・ステータスが示されます。
アルゴリズム: モデルの構築に使用されるアルゴリズムがリストされます。

次のタスクを実行できます。

パーティション列の表示: をクリックして、選択したモデルのパーティション化列の詳細を表示します。パーティション化列の名前、データ型およびソースが、「パーティション列の定義」ダイアログ・ボックスに表示されます。
モデルの追加: をクリックします。同じファンクションを持つモデルのみ追加できます。モデルを追加する前に、「自動設定」の選択を解除します。
モデルの削除: 選択して、をクリックします。モデルを削除する前に、「自動設定」の選択を解除します。

関連項目:

「テスト結果の比較ビューア」

テスト

「テスト」セクションでは、テストの実行方法を説明します。

「テスト」には、次の情報が表示されます。

ファンクション: CLASSIFICATIONまたはREGRESSION。
ターゲット: ターゲットの名前。
データ型: ターゲットのデータ型
CLASSIFICATIONの場合、次のテスト結果がデフォルトで計算されます。
- パフォーマンス・メトリック
- ROC曲線(2項ターゲットのみ)
- リフトおよび利益
「メトリック」の選択を解除できます。

デフォルトでは、頻度別の上位100のターゲット値が指定されています。この値を変更するには、「編集」をクリックします。「ターゲット値の選択」ダイアログ・ボックスで値を編集します。
REGRESSIONの場合、「精度メトリック」および「残差」を選択します。「メトリック」の選択を解除できます。
- パフォーマンス・メトリックは、テスト・ビューアの「パフォーマンス」タブに表示されるメトリックです。
- 残差は、テスト・ビューアの「残差」タブに表示されます。

関連項目

詳細

「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。

このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。

関連項目:

要件の詳細は、「ノード名およびノードのコメント」。

テスト・ノードのコンテキスト・メニュー

テスト・ノードのコンテキスト・メニューを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。

接続
編集。「テスト・ノードの編集」ダイアログ・ボックスが開きます。
親の検証
実行
実行の強制
モデルの表示
テスト結果の表示
テスト結果の比較。「テスト結果の比較」ダイアログ・ボックスが開きます。
適用チェーンの生成
切取り
「コピー」
貼付け
すべて選択
パフォーマンス設定。これにより、ノードのパラレル設定およびインメモリー設定を指定できる「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
ナビゲート
ランタイム・エラーの表示。エラーがある場合にのみ表示されます。
検証エラーの表示。検証エラーがある場合にのみ表示されます。
イベント・ログの表示。エラーがある場合にのみ表示されます。

関連項目: