Oracle Data Miningを使用すると、分類モデルと回帰モデルをテストできます。テスト・ノードは、モデルをテストするための複数の方法のうちの1つです。モデルを構築した後に、適用ノードを使用してモデルを新しいデータに適用します。評価と適用データは、構築データを準備する方法と同じ方法で準備する必要があります。
評価と適用ノードには、次のものがあります。
適用ノードは、モデルのコレクションを取得し、単一のスコアを戻します。その結果、適用ノードは問合せを生成します。結果は、さらに表またはビュー作成ノードに変換または接続し、表としてデータを保存できます。
モデルを使用して予測するには、モデルを新しいデータに適用する必要があります。このプロセスは、新しいデータのスコアリングとも呼ばれます。
適用ノードは、1つ以上のモデルを使用してスコアリング用のSQLを生成します。SQLには、スコアリング関数を使用して作成されたパススルー(サプリメンタル)属性および列が含まれます。
注意: 相関モデルまたは属性重要度モデルは適用できません。 |
適用ノードに関するこの項では、次の項目について説明します。
プリファレンスを適用ノードに適用するには、次の手順を実行します。
「ツール」メニュー・オプションで、「プリファレンス」をクリックします。
「プリファレンス」ダイアログ・ボックスで、「Data Miner」をクリックします。適用操作のプリファレンスを表示して、変更できます。Data Minerのデフォルト・プリファレンスは、次のとおりです。
自動適用設定
データ列が先
「OK」をクリックします。
適用ノードには、次の入力が必要です。
次の1つ以上を指定します。
モデル・ノード
モデル構築ノード
適用するモデルを少なくとも1つ指定する必要があります。同時に複数のモデルを適用できます。
データ・ノード、変換ノードまたは適切なテキスト・ノードなどの出力としてデータを生成するすべてのノード。
1つの入力ノードのみが許可されます。
新しいデータにモデルを適用する場合、新しいデータはモデルの構築に使用されたデータと同じ方法で変換される必要があります。
注意: 相関モデルまたは属性重要度モデルは適用できません。 |
適用ノードは、適用および出力の仕様に基づいてデータ・フローを生成します。
適用ノードを作成する前に、データ・ノードとモデル・ノードまたは構築ノードを適用ノードに接続する必要があります。適用ノードを作成するには、次の手順を実行します。
「コンポーネント」ペインを開いて、「ワークフロー・エディタ」を選択します。
「コンポーネント」ペインが表示されていない場合は、「表示」に移動して「コンポーネント」をクリックします。
適用データを特定するか、適用データを含むデータ・ソース・ノードを作成します。適用データが構築データと同じ方法で準備されていることを確認します。
モデル・ノード、モデル構築ノード(分類ノードなど)、またはこれらのノードの組合せを作成します。適用する前に、少なくとも1つのモデルを正常に作成する必要があります。
相関モデルは適用できません。
ワークフロー・エディタで、「評価と適用」を展開して「適用」をクリックします。
「ワークフロー」ペインで、適用ノードをドラッグ・アンド・ドロップします。
データ・ノード、モデル・ノードおよび構築ノードを適用ノードにリンクします。
適用および出力の仕様を作成する方法は2つあります。
「自動設定」を使用します。
「適用ノードの編集」を使用して仕様を作成します。
「追加出力」を追加して出力を識別できるようにします。
デフォルトでは、「自動設定」が使用されます。
適用の仕様を編集または表示するには、適用ノードをダブルクリックするか、適用ノードを右クリックして「編集」を選択します。「適用ノードの編集」ダイアログ・ボックスが開きます。
「適用ノードの編集」ダイアログ・ボックスには、次の2つのタブがあります。
予測: 適用スコアリングの仕様を定義します。
適用の仕様は、複数の出力適用列で構成されます。列名は、自動的に生成されます。
名前を指定できます。名前は、30字以上にすることはできません。
次に、すべての入力ノード内のモデルのリストからモデルを選択し、適用ファンクションを選択できます。
選択できる適用ファンクションは、選択したモデルによって異なります。
追加出力: 入力ノードからパススルー列を指定します。必要な数の列を選択できます。これらの選択した列が適用列の前(デフォルト)または適用列の後に表示されることを指定できます。
これらの列は、適用出力の識別によく使用されます。たとえば、「ケースID」列を使用して適用出力を識別できます。
デフォルトでは、追加出力を指定しません。
「適用ノードの編集」ダイアログ・ボックス下部の「デフォルト列順序」は、出力では「データ列が先」
です。これを「適用列が先」
に変更できます。
特定の適用設定を定義したり、デフォルト設定を編集するには、「自動設定」の選択を解除します。その後、新しい適用ファンクションを追加するか、既存のものを編集します。
様々な方法で設定を編集できます。
設定の追加: をクリックして、「出力適用列ダイアログの追加」ボックスを開きます。
既存の設定の編集: 設定を選択して、をクリックします。「「出力データ列の編集」ダイアログ」ボックスが開きます。
仕様の削除: 選択して、をクリックします。
適用列の定義: をクリックします。適用列の定義ウィザードで、「適用列の定義」アイコンをクリックします。
選択できる適用ファンクションは、適用するモデルに依存します。
注意: 特定の適用ファンクションは、Oracle Database 12c に接続されている場合にのみ使用できます。 |
モデル・ノードに従って配置される適用ファンクションは、次のとおりです。
異常検出モデル
予測: モデルに最適な予測を戻す自動設定です。戻されるデータ型は、モデルの作成中に使用するターゲット値の型によって異なります。回帰モデルの場合、このファンクションは期待値を戻します。コスト・マトリックスが存在する場合、ファンクションは、格納されたコスト・マトリックスを使用して最もコストが低い予測を戻します。格納されたコスト・マトリックスが存在しない場合は、最も高い確率の予測が戻されます。
予測の詳細: 予測の詳細を戻します。戻り値は、予測の属性について記述します。異常検出の場合、戻される詳細は最も高確率のクラスまたは指定されたクラス値を参照します。
注意: 「予測の詳細」には、Oracle Database 12cへの接続が必要です。 |
「予測の詳細」のデフォルトは、次のとおりです。
ターゲット値: 可能性が最も高い
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
「予測の詳細」の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
予測確率: 最適な予測に関連付けられた確率を戻す自動設定です。
予測セット: 多クラス分類シナリオで、すべてのクラスを含むオブジェクトのVARRAYを戻します。オブジェクト・フィールドはPREDICTION、PROBABILITY
およびCOST
と名付けられます。PREDICTION
フィールドのデータ型は、モデルの構築時に使用したターゲット値の型によって異なります。他の2つのフィールドは、両方ともOracleのNUMBER
になります。要素は最適な予測から最低の予測の順序で戻されます。
クラスタリング・モデル
クラスタ詳細: 戻り値は、最も高い確率のクラスタまたは指定されたクラスタIDの属性について記述します。「TopN」に値を指定すると、このファンクションはクラスタ割当てに最も影響力のあるN個の属性(スコア)を戻します。TopNを指定しないと、このファンクションは最も影響力のある5つの属性を返します。
注意: 「クラスタ詳細」には、Oracle Database 12cへの接続が必要です。 |
「クラスタ詳細」のデフォルトは、次のとおりです。
クラスタID: 可能性が最も高い
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
返される属性が重みで順序付けされます。属性の重みは、その属性がクラスタ割当てに与える正の影響または負の影響を表します。正の重みは、割当ての可能性が増加することを示します。負の重みは、割当ての可能性が減少することを示します。
「クラスタ詳細」の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
クラスタ距離: 選択内に含まれる各行のクラスタ距離を戻します。クラスタ距離は、最も高い確率のクラスタまたは指定されたクラスタIDの行と重心との間の距離です。
注意: 「クラスタ距離」には、Oracle Database 12cへの接続が必要です。 |
「クラスタ詳細」のデフォルトは、次のとおりです。
クラスタID: 可能性が最も高い
クラスタID: 最も高い確率のクラスタIDのNUMBER
を戻す自動設定です。クラスタIDの名前が変更されている場合、かわりにVARCHAR2
が戻されます。
クラスタ確率: 指定したモデルに関連付けられたクラスタにある入力行のメンバーシップ(NUMBER)の信頼度のメジャーを戻す自動設定です。
クラスタ・セット: 指定の行が指定のパラメータ仕様に属している、可能性があるすべてのクラスタを含むオブジェクトのVARRAYを戻します。VARRAYの各オブジェクトは、クラスタIDとクラスタ確率を含むスカラー値の組です。オブジェクト・フィールドには、CLUSTER_ID
およびPROBABILITY
という名前が付けられ、両方ともOracleのNUMBERのクラスタリング・モデルのみになります。
特徴抽出モデル
特徴ID: 行内で最も高い数値を持つ特徴の識別子であるOracleのNUMBERを戻します。
特徴IDの名前を変更できますか。その場合は、VARCHAR2も戻します。特徴セット: 「クラスタ・セット」に似た自動設定です。
特徴値: 特定の特徴値を戻します。特徴IDの引数を省略すると、このファンクションは最も高い特徴値を戻します。
特徴の詳細: 戻り値は、最も値が大きい特徴の属性または指定された特徴IDの属性について記述します。「TopN」に値を指定すると、このファンクションは特徴値に最も影響力のあるN個の属性を戻します。「TopN」を指定しないと、このファンクションは最も影響力のある5つの属性を戻します。
注意: 特徴抽出モデルには、Oracle Database 12cへの接続が必要です。 |
返される属性が重みで順序付けされます。属性の重みは、その属性が特徴値に与える正の影響または負の影響を表します。正の重みは、特徴の値が大きくなることを示します。負の重みは、特徴の値が小さくなることを示します。
「クラスタ詳細」のデフォルトは、次のとおりです。
特徴ID: 可能性が最も高い
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
特徴の詳細の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
分類モデルと回帰モデル
予測: モデルに最適な予測を戻す自動設定です。戻されるデータ型は、モデルの作成中に使用するターゲット値の型によって異なります。
回帰モデルの場合、このファンクションは期待値を戻します。
分類モデルの場合、戻される詳細は最も高い確率のクラスまたは指定されたクラス値を参照します。
コスト・マトリックスが存在する場合、ファンクションは、格納されたコスト・マトリックスを使用して最もコストが低い予測を戻します。格納されたコスト・マトリックスが存在しない場合は、最も高い確率の予測が戻されます。
予測範囲: 一般化線形モデルでは、2つのNUMBERフィールド(LOWER
およびUPPER
)でオブジェクトを戻します。リッジ回帰を使用してGLMが構築された場合、または構築中に共分散マトリックスに異常が検出された場合、このファンクションは両方のフィールドにNULL
を戻します。
回帰マイニング機能の場合は、予測値に限度が適用されます。
分類マイニング機能の場合は、確率値に限度が適用されます。
予測範囲下限: 「予測範囲」と同じですが、スカラー列として下限のみを戻します。GLMモデルの自動設定です。
予測範囲上限: 「予測範囲」と同じですが、スカラー列として上限のみを戻します。GLMモデルの自動設定です。
予測の詳細: ディシジョン・ツリーを除いて、Oracle Database 12c
への接続が必要です。
分類の「予測の詳細」のデフォルトは、次のとおりです。
ターゲット値: 可能性が最も高い
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
回帰の「予測の詳細」のデフォルトは、次のとおりです。
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
DT予測の詳細: 入力行のスコアリングに関連するモデル固有の情報を含む文字列を戻します。Oracle Data Minerリリース4.0以前では、戻り値は<Node id = "integer"/>
の形式になります。
注意: DT予測の詳細には、Oracle Database 11gリリース2 (11.2)への接続が必要です |
分類
予測コスト: 指定した予測のコストのメジャーをNUMBER
として戻します。分類モデルのみ。DTモデルの自動設定です。
予測確率: 最適な予測に関連付けられた確率を戻します。
自動設定は「可能性が最も高い」です。
予測セット: 多クラス分類シナリオで、すべてのクラスを含むオブジェクトのVARRAYを戻します。オブジェクト・フィールドはPREDICTION、PROBABILITY
およびCOST
と名付けられます。PREDICTION
フィールドのデータ型は、モデルの構築時に使用したターゲット値の型によって異なります。他の2つのフィールドは、両方ともOracleのNUMBERになります。要素は最適な予測から最低の予測の順序で戻されます。
指定できる適用ファンクション・パラメータは、次のとおりです。
クラスタID: デフォルトは確率が最も高いです。他のパラメータはサポートされていません。
クラスタ確率: デフォルトは確率が最も高いです。
特定のクラスタIDを選択したり、「NULL」
または「可能性が最も高い」
を指定して、可能性が最も高いクラスタのバウンドを返すこともできます。
クラスタ・セット: デフォルトは「すべてのクラスタ」です。
次のいずれかまたは両方を指定することもできます。
TopN:
Nは1およびクラスタの数の間になります。オプションのTopN引数は、特徴セットを上位Nの値のいずれかを持つ特徴セットに制限する正の整数です。N番目の値に同順位がある場合でも、N個の値のみが戻されます。この引数を指定しない場合、このファンクションはすべての特徴を戻します。
確率カットオフ:
厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻される特徴を、指定したカットオフ以上の特徴値を持つ特徴のみに制限します。カットオフのみでフィルタ処理するには、NULLをTopNに指定し、必要なカットオフ値をcutoffに指定します。
特徴ID: デフォルトは確率が最も高いです。他の値はサポートされません。
特徴セット: デフォルトは、すべての特徴IDです。次のいずれかまたは両方を指定することもできます。
TopN:
Nは1およびクラスタの数の間になります。オプションのTopN引数は、特徴セットを上位Nの値のいずれかを持つ特徴セットに制限する正の整数です。N番目の値に同順位がある場合でも、N個の値のみが戻されます。この引数を指定しない場合、このファンクションはすべての特徴を戻します。
確率カットオフ:
厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻される特徴を、指定したカットオフ以上の特徴値を持つ特徴のみに制限します。カットオフのみでフィルタ処理するには、NULLをTopNに指定し、必要なカットオフ値を指定します。
特徴値: デフォルトは最大値
です。
特定の特徴ID値を選択したり、次の値のいずれかを指定して、可能性が最も高い特徴の限度を戻すこともできます。
NULL
可能性が最も高い
予測: デフォルトは、コスト・マトリックスを考慮するための最適な予測
です。
「予測範囲上限」または「予測範囲下限」: デフォルトは、信頼水準95%の最適な予測です。
信頼水準は、厳密に0より大きく、1以下の値に変更できます。分類モデルについてのみ、ターゲット値の選択ダイアログ・ボックスのオプションを使用して、特定のターゲット値を選択できます。「NULL」または「可能性が最も高い」を指定して、可能性が最も高いターゲット値の限度を戻すこともできます。
予測コスト: デフォルトは、最適な予測
です。
分類モデルにのみ適用できます。ターゲット値の選択オプションを使用して、特定のターゲット値を選択できます。
予測の詳細: 値は最適な予測の詳細のみになります。
予測確率: デフォルトは最適な予測です。
分類モデルのみに適用できます。ターゲット値の選択オプションを使用して、特定のターゲット値を選択できます。
予測セット: デフォルトは、すべてのターゲット値
です。
次のいずれかまたは両方を指定することもできます。
bestN:
Nは1およびターゲットの数の間になります。オプションのbestN
引数は、戻されるターゲット・クラスを最も高い確率(コスト・マトリックス句が指定されている場合は、最も低いコスト)のNに制限する正の整数です。複数のクラスがN番目の値にあっても、N個の値のみが戻されます。
カットオフのみでフィルタ処理するには、このパラメータにNull
を指定します。
確率カットオフ:
厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻されるターゲット・クラスを、指定したカットオフ値以上(コスト・マトリックス句が指定されている場合は、指定したコスト以下)の確率を持つターゲット・クラスに制限します。
この値にNULL
を指定することによって、カットオフのみでフィルタ処理できます。
デフォルトの適用列名の構文は、次のとおりです。
"<FUNCTION ABBREVIATION>_<MODEL NAME><SEQUENCE>
SEQUENCE
は、競合を避ける必要がある場合にのみ使用されます。順序番号によって、モデル名は強制的に部分的に切り捨てられることがあります。
FUNCTION ABBREVIATION
は次のいずれかです。
クラスタ詳細: CDET
クラスタ距離: CDST
クラスタID: CLID
クラスタ確率: PROB
クラスタ・セット: CSET
特徴の詳細: FDET
特徴ID: FEID
特徴セット: FSET
特徴値: FVAL
予測: PRED
予測範囲: PBND
予測範囲上限: PBUP
予測範囲下限: PBLW
予測コスト: PCST
予測の詳細: PDET
予測確率: PROB
予測セット: PSET
特定のターゲット、特徴またはクラスタのデフォルト名は、2つの方法のいずれかで省略されます。
1つ目の方法は、ターゲット、特徴またはクラスタの値を列名に統合します。この方法は、ターゲット、クラスタまたは特徴の最大値が名前で使用できる残りの文字スペースを超えない場合に使用されます。名前は、30字以下にする必要があります。
2つ目の方法は、ターゲット、クラスタまたは特徴を順序IDと置き換えます。この方法は、1つ目の方法が不可能な場合に使用されます。
適用出力の追加ダイアログ・ボックスまたは適用出力の編集ダイアログ・ボックスによって、単一列の適用定義を手動で追加したり、編集できます。一度に1つの適用の定義を編集または追加できます。
列を追加または編集する前に、「自動設定」の選択を解除する必要があります。
次のタスクを実行できます。
適用出力列の追加: をクリックします。
適用出力列の編集: をクリックします。列を編集する場合は、「ファンクション」選択ボックスとそのパラメータのみを編集できます。
次のコントロールを使用できます。
列: 生成される列名。
自動:
選択すると、列名を編集できません。
選択を解除すると、自動ネーミングが無効になり、列名を変更できます。列名は、一意であることを確認するために検証されます。
ノード: ノードに接続されるモデル入力ノードのリスト。入力ノードが1つしかない場合、デフォルトでそれが選択されます。
モデル: 選択したノードのモデルのリスト。モデルが1つしかない場合、デフォルトでそれが選択されます。
ファンクション: 選択したモデルのモデル・スコアリング関数のリスト。
パラメータ: 選択したファンクションのパラメータ要件をサポートするために必要な0
以上のコントロールを表示します。
出力列の定義が終了したら、「OK」をクリックします。
デフォルトでは、出力列に自動的に名前を付けます。
列を追加するには、次のステップを実行します。
「列」フィールドで、名前を指定します。
「自動」の選択を解除します。
「ノード」フィールドで、適用ノードに接続されたノードの1つを選択します。選択するノードのタイプによって、「モデル」および「ファンクション」フィールドでの選択肢が決まります。
「モデル」フィールドで、モデルを選択します。
「ファンクション」フィールドで、ファンクションを選択します。
完了後、「OK」をクリックします。
適用列の定義ウィザードには、2つのステップがあります。
「出力仕様」に、使用可能な出力仕様が、デフォルトが選択された状態でリストされます。
必要に応じて、変更します。
「終了」をクリックして、定義を終了します。
モデルのテストと適用データは、モデルの構築データを準備する方法と同じ方法で準備する必要があります。テストと適用データを適切に準備するには、構築の変換ノードをコピーして貼り付けることによって、テストと適用データの構築データの変換チェーンを複製します。
「適用ノードの編集」ダイアログ・ボックスには、次のタブがあります。
「デフォルト列順序」のデフォルト値は、「データ列が先」
で、追加するデータ列が出力の最初になることを意味します。これを「適用列が先」
に変更できます。
適用の仕様を作成するには、「自動設定」の選択を解除します。デフォルトでは、「自動設定」が選択されています。
次のタスクを実行できます。
適用列を定義するには、をクリックします。
適用列の定義ウィザードが開きます。
出力適用列を追加するには、をクリックします。
「出力適用列ダイアログの追加」ボックスが開きます。
出力適用列を削除するには、をクリックします。
出力適用列の仕様を編集するには、仕様を選択します。をクリックします。適用出力列の追加または編集ダイアログ・ボックスが開きます。
「追加出力」タブで、データ・ソース・ノードからパススルー属性を指定できます。
列を追加するには、次の手順を実行します。
をクリックします。「「出力データ列の編集」ダイアログ」ボックスが開きます。
「適用ノードの編集」ダイアログ・ボックスで、「デフォルト列順序」は「データ列が先」
になっています。これを「適用列が先」
に変更できます。
完了後、「OK」をクリックします。
デフォルトでは、データ列は指定されていません。データ列を指定または含めるには、次の手順を実行します。
「使用可能な属性」リストから「選択された属性」リストに属性を移動します。
「OK」をクリックします。データ列は、変更されていない適用操作を通して渡されます。ケースIDなどの特定の属性は、適用出力の解釈に役立ちます。
適用ノードのプロパティを表示するには、ノードを右クリックし、「プロパティに移動」をクリックします。
または、「表示」に移動して、「プロパティ」をクリックします。
適用ノードのプロパティには、次のセクションがあります。
適用ノードのコンテキスト・メニューを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
編集。「適用ノードの編集」が開きます。
データの表示。適用データ・ビューアが開きます。
パラレル問合せ。詳細は、「パラレル処理について」を参照してください。
イベント・ログの表示。ノードの実行に失敗した場合にのみ表示されます。
ランタイム・エラーの表示。エラーがある場合にのみ表示されます。
検証エラーの表示。エラーがある場合にのみ表示されます。
適用データビューアは、新しいタブで開きます。ビューアには、次のタブがあります。
データ: データの行が表示されます。デフォルトでは、キャッシュ・データが表示されます。次のタスクを実行できます。
実際のデータの表示。
データのソート。
SQL式を使用したデータのフィルタ。
表示のリフレッシュ。リフレッシュするには、をクリックします。
列: 適用内の列がリストされます。
SQL: 適用出力の生成に使用されるSQLがリストされます。
Oracle Data Miningを使用すると、分類モデルと回帰モデルをテストできます。他の種類のモデルはテストできません。
注意: ノードでテストされるすべてのモデルは、分類モデルまたは回帰モデルである必要があります。同じテスト・ノードで両方の種類のモデルをテストすることはできません。 |
テスト・ノードは、同じテスト・セットを使用して複数のモデルをテストできます。
自動設定がオンになっている場合、入力ノードを接続するとテスト・ノードの仕様が生成されます。
テスト・ノードは、パラレルに実行できます。
テスト・ノードに関するこの項では、次の項目について説明します。
Oracle Data Minerは、次の方法で分類モデルまたは回帰モデルのテストをサポートします。
次の方法のいずれかを使用して、構築ノードの一部としてモデルをテストします。
構築データを構築サブセットとテスト・サブセットに分割します。
すべての構築データをテスト・データとして使用します。
2つ目のデータ・ソース・ノードのテスト・データ・ソース・ノードを構築ノードに接続します。
テスト・ノードでモデルをテストします。この場合、テスト・データは、構築データと互換性がある表になります。
分類モデルをテストした後に、チューニングを行うことができます。
注意: 回帰モデルはチューニングできません。 |
テスト・ノードには次の入力があります。
1つ以上のモデルを識別する少なくとも1つのノード。ノードは、モデル・ノード、分類ノードまたは回帰ノードにできます。モデル・ノードには、分類モデルまたは回帰モデルの両方ではなくいずれかが含まれている必要があります。
データ・ノード、変換ノードまたは適切なテキスト・ノードなどの出力としてデータを生成するすべてのノード。このノードには、テスト・データが含まれます。
ケースIDを指定することをお薦めします。ケースIDを指定しない場合、処理にかかる時間が長くなります。
複数の分類モデルまたは複数の回帰モデルを同時にテストできます。テストされるモデルは、別のノードに存在できます。テストされるモデルは、次の条件を満たす必要があります。
モデルを含むノードは、同じファンクション・タイプを持つ必要があります。つまり、すべて分類構築ノードであるか、すべて回帰構築ノードである必要があります。
分類モデルも、同じターゲット属性値のリストを持つ必要があります。
モデルは、同じデータ型の同じターゲット属性を持つ必要があります。
テスト用のデータ・ソース・ノードには、モデルのターゲットが含まれている必要があります。
テスト・データは、モデルと互換性がある必要があります。つまり、モデルの構築に使用されるデータと同じ方法で変換されている必要があります。
デフォルトでは、「自動設定」オプションがテスト・ノードに選択されています。自動選択によって、動作は次のようになります。
モデル入力ノードが接続されると、すべてのモデルが仕様に追加されます。
モデル入力ノードが切断されると、すべてのモデルが仕様から削除されます。テスト・ノードが無効になる場合があります。
モデル入力ノードが次の方法で編集されると、動作は次のようになります。
モデルが追加されると、モデルの仕様が自動的にテスト・ノードに追加されます。
モデルが削除されると、テスト・ノードから仕様が削除されます。
モデルが変更されると、次が実行されます。
アルゴリズムが一貫していることを確実にするために、テスト・ノードが更新されます。
ターゲットが変更され、テスト・ノードへの入力としてノードが1つしか存在しない場合、新しいターゲットを反映してすべてのモデルを維持するためにそのノードが更新されます。また、新しい列ターゲットがまだあることを確認するために、テスト入力データも検証されます。
テスト・ノードへの入力として複数のモデル・ノードが存在する場合、変更されたターゲットを持つモデルは自動的に削除されます。
「自動設定」の選択を解除した場合、ノードを編集してすべての変更を入力に反映する必要があります。モデルが追加されている場合、そのモデルは検証されます。
テスト・ノードを作成する前に、データ・ソース・ノードとモデル・ノードまたは構築ノードをテスト・ノードに接続する必要があります。テスト・ノードを作成する手順:
「コンポーネント」ペインで、「ワークフロー・エディタ」をクリックします。
「コンポーネント」ペインが表示されていない場合は、「表示」に移動して「コンポーネント」をクリックします。
テスト・データを含むデータ・ソース・ノードを識別するか、作成します。
テスト・データが構築データと同じ方法で準備されていることを確認します。
少なくとも1つのモデル・ノード、分類ノードまたは回帰ノードを選択します。
モデルは、テスト前に正常に構築されている必要があります。
注意: 1つのテスト・ノードで、分類モデルまたは回帰モデルの両方ではなく、いずれかの種類のモデルをテストできます。 |
ワークフロー・エディタで、「評価と適用」を展開して「テスト」をクリックします。
テスト・ノードをワークフロー・エディタから「ワークフロー」ペインにドラッグ・アンド・ドロップします。
データ・ノード、モデル・ノードまたは構築ノードをテスト・ノードにリンクします。
テスト・ノードの特性は、デフォルトで設定されています。ノードを編集することもできます。
テスト・ノードを編集するには、ノードを右クリックして、「編集」を選択するか、ノードをダブルクリックします。「テスト・ノードの編集」ダイアログ・ボックスが開きます。
「テスト・ノードの編集」ダイアログ・ボックスには、次が表示されます。
ファンクション(CLASSIFICATIONまたはREGRESSION)
ターゲットおよびターゲット・タイプ(ターゲットのデータ型)
ケースID (存在する場合)
ケースIDを指定することをお薦めします。ケースIDを指定しない場合、処理は低速になります。テキスト・ノードに指定するケースIDは、構築ノードに指定したケースIDと同じである必要があります。
デフォルトでは、「自動設定」オプションが選択されています。
次のタスクを実行できます。
「自動設定」を選択している場合でも、テスト結果を比較して、個々のモデルを表示できます。テストされたモデルは、「選択したモデル」グリッドにリストされます。
モデルのリストを変更します。「自動設定」の選択を解除して、「選択したモデル」グリッドで変更を行います。
各モデルについて、グリッドに次の内容がリストされます。
モデル名
モデルを含むノード
モデルのテスト・ステータス
モデルの構築に使用されるアルゴリズム
次のタスクを実行できます。
モデルの表示: 正常に構築されたモデルを表示できます。グリッドでモデルを選択して、をクリックします。
テスト結果の比較: をクリックします。テスト結果がテスト結果の比較ビューアに表示されます。
モデルの追加: をクリックします。同じファンクションを持つモデルのみ追加できます。
モデルを追加する前に、「自動設定」の選択を解除します。
モデルの削除: 選択して、をクリックします。
モデルを削除する前に、「自動設定」の選択を解除します。
「モデルの選択」ダイアログ・ボックスには、テストに使用できるモデルがリストされます。モデルを選択するには、次の手順を実行します。
「使用可能なモデル」から「選択したモデル」にモデルを移動します。
「OK」をクリックします。
テスト結果の比較ビューアには、同じノードにある1つ以上のモデルのテスト結果が表示されます。次のテスト結果が表示されます。
プロパティを表示するには、ノードを右クリックし、「プロパティに移動」を選択します。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。
テスト・ノードの「プロパティ」ペインには、次のセクションがあります。
「モデル」タブには、「選択したモデル」グリッドでテストするモデルがリストされます。
「テスト」セクションでは、テストの実行方法を説明します。「テスト」には、次の情報が表示されます。
ファンクション: CLASSIFICATIONまたはREGRESSION。
ターゲット: ターゲットの名前。
データ型: ターゲットのデータ型
CLASSIFICATIONの場合、次のテスト結果がデフォルトで計算されます。
パフォーマンス・メトリック
ROC曲線(2項ターゲットのみ)
リフトおよびベネフィット
「メトリック」の選択を解除できます。
デフォルトでは、頻度別の上位100のターゲット値が指定されています。この値を変更するには、「編集」をクリックします。「ターゲット値の選択」ダイアログ・ボックスで値を編集します。
REGRESSIONの場合、「精度メトリック」および「残差」を選択します。「メトリック」の選択を解除できます。
パフォーマンス・メトリックは、テスト・ビューアの「パフォーマンス」タブに表示されるメトリックです。
残差は、テスト・ビューアの「残差」タブに表示されます。
「ターゲット値の選択」ダイアログ・ボックスには、選択したターゲット値の数が表示されます。デフォルト設定は、「自動」
です。
頻度別の上位10のターゲット・クラス値を使用します。「頻度カウント」
を変更することによって、ターゲット値の数を変更できます。または、「最低発生回数を使用」
を選択することもできます。
カスタム値を選択するには、次の手順を実行します。
「カスタム」を選択します。
値を「使用可能な値」から「選択した値」に移動します。
完了後、「OK」をクリックします。
テスト・ノードのコンテキスト・メニューを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
編集。「テスト・ノードの編集」が開きます。
テスト結果の比較。テスト結果の比較ビューアが開きます。
パラレル問合せ。詳細は、「パラレル処理について」を参照してください。
ランタイム・エラーの表示。エラーがある場合にのみ表示されます。
検証エラーの表示。検証エラーがある場合にのみ表示されます。
イベント・ログの表示。エラーがある場合にのみ表示されます。