Oracle Data Miningを使用すると、分類モデルと回帰モデルをテストできます。
テスト・ノードは、モデルをテストするための複数の方法のうちの1つです。モデルを構築した後に、適用ノードを使用してモデルを新しいデータに適用します。評価と適用データは、構築データを準備する方法と同じ方法で準備する必要があります。
モデル操作に関連するノードは次のとおりです。
関連項目
適用ノードにモデルの集合(パーティション化されたモデルとパーティション化されていないモデルの両方)を渡すと、単一スコアが戻されます。結果として、適用ノードによって問合せが生成されます。
結果は、さらに表またはビュー作成ノードに変換または接続し、表としてデータを保存できます。モデルを使用して予測するには、モデルを新しいデータに適用する必要があります。このプロセスは、新しいデータのスコアリングとも呼ばれます。
適用ノードは、1つ以上のモデルを使用してスコアリング用のSQLを生成します。SQLには、スコアリング関数を使用して作成されたパススルー(サプリメンタル)属性および列が含まれます。
注意:
相関モデルまたは属性重要度モデルは適用できません。
適用ノードの入力には、モデル・ノード、モデル構築ノードまたはデータ・ノードなどのデータを生成する任意のノードを使用できます。
適用ノードには、次の入力が必要です。
次の1つ以上を指定します。
モデル・ノード
モデル構築ノード
適用するモデルを少なくとも1つ指定する必要があります。同時に複数のモデルを適用できます。
データ・ノード、変換ノードまたは適切なテキスト・ノードなどの出力としてデータを生成するすべてのノード。
1つの入力ノードのみが許可されます。
新しいデータにモデルを適用する場合、新しいデータはモデルの構築に使用されたデータと同じ方法で変換される必要があります。
注意:
相関モデルまたは属性重要度モデルは適用できません。
適用ノードは、適用および出力の仕様に基づいてデータ・フローを生成します。
「自動設定」オプションや「適用列の定義ウィザード」などを使用する、複数の異なる方法で適用および出力の仕様を指定できます。
関連項目
適用ノードを作成して、モデルに基づいてデータをスコアリングします。
適用ノードの適用および出力の仕様を作成するには、いくつかの方法があります。
次のいずれかの方法を使用できます。
「適用ノードの編集」ダイアログ・ボックスで、予測、追加出力および自動設定の設定を編集できます。
適用の仕様を編集または表示するには、適用ノードをダブルクリックするか、適用ノードを右クリックして「編集」を選択します。「適用ノードの編集」ダイアログ・ボックスには、次の2つのタブがあります。
予測: 適用スコアリングの仕様を定義します。
適用の仕様は、複数の出力適用列で構成されます。列名は、自動的に生成されます。
名前を指定できます。名前は、30字以上にすることはできません。
次に、すべての入力ノード内のモデルのリストからモデルを選択し、適用ファンクションを選択できます。選択できる適用ファンクションは、選択したモデルによって異なります。
追加出力: 入力ノードからパススルー列を指定します。必要な数の列を選択できます。これらの選択した列が適用列の前(デフォルト)または適用列の後に表示されることを指定できます。
これらの列は、適用出力の識別によく使用されます。たとえば、「ケースID」列を使用して適用出力を識別できます。
デフォルトでは、追加出力を指定しません。
「適用ノードの編集」ダイアログ・ボックス下部の「デフォルト列順序」は、出力では「データ列が先」
です。これを「適用列が先」
に変更できます。
パーティション化モデルの予測が必要な場合は、「パーティションの順序付け」オプションを選択します。デフォルトでは、適用ノードの入力として非パーティション化モデルがある場合でも、このオプションが選択されています。
「予測」タブで、適用スコアリングの仕様を定義できます。
特定の適用設定を定義したり、デフォルト設定を編集するには、「自動設定」の選択を解除します。その後、新しい適用ファンクションを追加するか、既存のものを編集します。
「ケースID」ドロップダウン・リストから、ケースIDを選択します(該当する場合)。
様々な方法で設定を編集できます。
パーティション列の表示: 列を選択し、をクリックしてパーティション・キーを表示します。
設定の追加: をクリックして、「出力適用列ダイアログの追加」ボックスを開きます。
既存の設定の編集: 設定を選択して、をクリックします。「「出力データ列の編集」ダイアログ」ボックスが開きます。
仕様の削除: 選択して、をクリックします。
適用列の定義: をクリックします。適用列の定義ウィザードで、「適用列の定義」アイコンをクリックします。
選択できる適用ファンクションは、適用するモデルに依存します。
注意:
特定の適用ファンクションは、Oracle Database 12c以降に接続されている場合にのみ使用できます。
モデル・ノードに従って配置される適用ファンクションは、次のとおりです。
異常検出モデル
予測: モデルに最適な予測を戻す自動設定です。戻されるデータ型は、モデルの作成中に使用するターゲット値の型によって異なります。回帰モデルの場合、このファンクションは期待値を戻します。コスト・マトリックスが存在する場合、ファンクションは、格納されたコスト・マトリックスを使用して最もコストが低い予測を戻します。格納されたコスト・マトリックスが存在しない場合は、最も高い確率の予測が戻されます。
予測の詳細: 予測の詳細を戻します。戻り値は、予測の属性について記述します。異常検出の場合、戻される詳細は最も高確率のクラスまたは指定されたクラス値を参照します。
注意:
「予測の詳細」には、Oracle Database 12c以降への接続が必要です。
「予測の詳細」のデフォルトは、次のとおりです。
ターゲット値: 可能性が最も高い
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
「予測の詳細」の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
予測確率: 最適な予測に関連付けられた確率を戻す自動設定です。
予測セット: 多クラス分類シナリオで、すべてのクラスを含むオブジェクトのVARRAYを戻します。オブジェクト・フィールドはPREDICTION、PROBABILITY
およびCOST
と名付けられます。PREDICTION
フィールドのデータ型は、モデルの構築時に使用したターゲット値の型によって異なります。他の2つのフィールドは、両方ともOracleのNUMBER
になります。要素は最適な予測から最低の予測の順序で戻されます。
クラスタリング・モデル
クラスタ詳細: 戻り値は、最も高い確率のクラスタまたは指定されたクラスタIDの属性について記述します。「TopN」に値を指定すると、このファンクションはクラスタ割当てに最も影響力のあるN個の属性(スコア)を戻します。TopNを指定しないと、このファンクションは最も影響力のある5つの属性を返します。
注意:
「クラスタ詳細」には、Oracle Database 12c以降への接続が必要です。
「クラスタ詳細」のデフォルトは、次のとおりです。
クラスタID: 可能性が最も高い
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
返される属性が重みで順序付けされます。属性の重みは、その属性がクラスタ割当てに与える正の影響または負の影響を表します。正の重みは、割当ての可能性が増加することを示します。負の重みは、割当ての可能性が減少することを示します。
「クラスタ詳細」の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
クラスタ距離: 選択内に含まれる各行のクラスタ距離を戻します。クラスタ距離は、最も高い確率のクラスタまたは指定されたクラスタIDの行と重心との間の距離です。
注意:
「クラスタ距離」には、Oracle Database 12c以降への接続が必要です。
「クラスタ詳細」のデフォルトは、次のとおりです。
クラスタID: 可能性が最も高い
クラスタID: 最も高い確率のクラスタIDのNUMBER
を戻す自動設定です。クラスタIDの名前が変更されている場合、かわりにVARCHAR2
が戻されます。
クラスタ確率: 指定したモデルに関連付けられたクラスタにある入力行のメンバーシップ(NUMBER)の信頼度のメジャーを戻す自動設定です。
クラスタ・セット: 指定の行が指定のパラメータ仕様に属している、可能性があるすべてのクラスタを含むオブジェクトの配列を戻します。配列の各オブジェクトは、クラスタIDとクラスタ確率を含むスカラー値の組です。オブジェクト・フィールドには、CLUSTER_ID
およびPROBABILITY
という名前が付けられ、両方ともOracleのNUMBERのクラスタリング・モデルのみになります。
特徴抽出モデル
機能ID: 行内で最も高い数値を持つ特徴の識別子であるOracleのNUMBERを戻します。
特徴セット: 「クラスタ・セット」に似た自動設定です。
特徴値: 特定の特徴値を戻します。特徴IDの引数を省略すると、このファンクションは最も高い特徴値を戻します。
機能の詳細: 戻り値は、最も値が大きい特徴の属性または指定された特徴IDの属性について記述します。「TopN」に値を指定すると、このファンクションは特徴値に最も影響力のあるN
個の属性を戻します。「TopN」を指定しないと、このファンクションは最も影響力のある5つの属性を戻します。
注意:
特徴抽出モデルには、Oracle Database 12c以降への接続が必要です。
返される属性が重みで順序付けされます。属性の重みは、その属性が特徴値に与える正の影響または負の影響を表します。正の重みは、特徴の値が大きくなることを示します。負の重みは、特徴の値が小さくなることを示します。
「クラスタ詳細」のデフォルトは、次のとおりです。
特徴ID: 可能性が最も高い
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
特徴の詳細の出力は、XML形式(XMLTypeのデータ型)です。出力を解析して、必要なデータを見つける必要があります。
分類モデルと回帰モデル
予測: モデルに最適な予測を戻す自動設定です。戻されるデータ型は、モデルの作成中に使用するターゲット値の型によって異なります。
回帰モデルの場合、このファンクションは期待値を戻します。
分類モデルの場合、戻される詳細は最も高い確率のクラスまたは指定されたクラス値を参照します。
コスト・マトリックスが存在する場合、ファンクションは、格納されたコスト・マトリックスを使用して最もコストが低い予測を戻します。格納されたコスト・マトリックスが存在しない場合は、最も高い確率の予測が戻されます。
予測範囲: 一般化線形モデルでは、2つのNUMBERフィールド(LOWER
およびUPPER
)でオブジェクトを戻します。リッジ回帰を使用してGLMが構築された場合、または構築中に共分散マトリックスに異常が検出された場合、このファンクションは両方のフィールドにNULL
を戻します。
回帰マイニング機能の場合は、予測値に限度が適用されます。
分類マイニング機能の場合は、確率値に限度が適用されます。
予測範囲下限: 「予測範囲」と同じですが、スカラー列として下限のみを戻します。GLMモデルの自動設定です。
予測範囲上限: 「予測範囲」と同じですが、スカラー列として上限のみを戻します。GLMモデルの自動設定です。
予測の詳細: ディシジョン・ツリーを除き、Oracle Database 12c以降への接続が必要です。
分類の「予測の詳細」のデフォルトは、次のとおりです。
ターゲット値: 可能性が最も高い
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
回帰の「予測の詳細」のデフォルトは、次のとおりです。
重みでソート: 絶対値
ランク付けされた属性リストの最大長: 5
DT予測の詳細: 入力行のスコアリングに関連するモデル固有の情報を含む文字列を戻します。Oracle Data Minerリリース4.0以前では、戻り値は<Node id = "integer"/>
の形式になります。
注意:
DT予測の詳細には、Oracle Database 11gリリース2 (11.2)以降への接続が必要です。
分類
予測コスト: 指定した予測のコストのメジャーをNUMBER
として戻します。分類モデルのみ。DTモデルの自動設定です。
予測確率: 最適な予測に関連付けられた確率を戻します。自動設定は「可能性が最も高い」
です。
予測セット: 多クラス分類シナリオで、すべてのクラスを含むオブジェクトの配列を戻します。オブジェクト・フィールドはPREDICTION、PROBABILITY
およびCOST
と名付けられます。PREDICTION
フィールドのデータ型は、モデルの構築時に使用したターゲット値の型によって異なります。他の2つのフィールドは、両方ともOracleのNUMBERになります。要素は最適な予測から最低の予測の順序で戻されます。
関連項目
指定できる適用ファンクション・パラメータは、次のとおりです。
クラスタID:
デフォルトは確率が最も高い
です。他のパラメータはサポートされていません。
クラスタ確率:
デフォルトは確率が最も高い
です。特定のクラスタIDを選択したり、「NULL」
または「可能性が最も高い」
を指定して、可能性が最も高いクラスタの限度を戻すこともできます。
クラスタ・セット:
デフォルトは、すべてのクラスタ
です。次のいずれかまたは両方を指定することもできます。
TopN:
N
は1およびクラスタの数の間になります。オプションのTopN引数は、特徴セットを上位N
の値のいずれかを持つ特徴セットに制限する正の整数です。N
番目の値に同順位がある場合でも、N
個の値のみが戻されます。この引数を指定しない場合、このファンクションはすべての特徴を戻します。
確率カットオフ:
厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻される特徴を、指定したカットオフ以上の特徴値を持つ特徴のみに制限します。カットオフのみでフィルタ処理するには、NULLをTopNに指定し、必要なカットオフ値をcutoffに指定します。
機能ID:
デフォルトは、確率が最も高い
です。その他の値はサポートされません。
機能セット:
デフォルトは、すべての特徴ID
です。次のいずれかまたは両方を指定することもできます。
TopN:
N
は1およびクラスタの数の間になります。オプションのTopN引数は、特徴セットを上位N
の値のいずれかを持つ特徴セットに制限する正の整数です。N
番目の値に同順位がある場合でも、N
個の値のみが戻されます。この引数を指定しない場合、このファンクションはすべての特徴を戻します。
確率カットオフ:
厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻される特徴を、指定したカットオフ以上の特徴値を持つ特徴のみに制限します。カットオフのみでフィルタ処理するには、NULLをTopNに指定し、必要なカットオフ値を指定します。
特徴値:
デフォルトは最大値
です。特定の特徴ID値を選択したり、次の値のいずれかを指定して、可能性が最も高い特徴の限度を戻すこともできます。
NULL
可能性が最も高い
予測:
デフォルトは、コスト・マトリックスを考慮するための最適な予測
です。
「予測範囲上限」
または「予測範囲下限」:
デフォルトは、信頼水準95%の最適な予測
です。信頼水準は、厳密に0より大きく、1以下の値に変更できます。分類モデルについてのみ、「ターゲット値の選択」ダイアログ・ボックスのオプションを使用して、特定のターゲット値を選択できます。「Null」
または「可能性が最も高い」
を指定して、可能性が最も高いターゲット値の限度を戻すこともできます。
予測コスト:
デフォルトは、最適な予測
です。分類モデルにのみ適用できます。ターゲット値の選択オプションを使用して、特定のターゲット値を選択できます。
予測の詳細:
値は最適な予測の詳細のみになります。
予測確率:
デフォルトは、最適な予測
です。分類モデルにのみ適用できます。「ターゲット値の選択」オプションを使用して、特定のターゲット値を選択できます。
予測セット:
デフォルトは、すべてのターゲット値
です。次のいずれかまたは両方を指定することもできます。
bestN:
N
は1およびターゲットの数の間になります。オプションのbestN
引数は、戻されるターゲット・クラスを最も高い確率(コスト・マトリックス句が指定されている場合は、最も低いコスト)のN
に制限する正の整数です。複数のクラスがN
番目の値にあっても、N
個の値のみが戻されます。カットオフのみでフィルタ処理するには、このパラメータにNull
を指定します。
確率カットオフ:
厳密に0より大きく、1以下の値になります。オプションのcutoff引数は、戻されるターゲット・クラスを、指定したカットオフ値以上(コスト・マトリックス句が指定されている場合は、指定したコスト以下)の確率を持つターゲット・クラスに制限します。この値にNULL
を指定することによって、カットオフのみでフィルタ処理できます。
デフォルトの適用列名の構文は、次のとおりです。
"<FUNCTION ABBREVIATION>_<MODEL NAME><SEQUENCE>
SEQUENCE
は、競合を避ける必要がある場合にのみ使用されます。順序番号によって、モデル名は強制的に部分的に切り捨てられることがあります。
FUNCTION ABBREVIATION
は次のいずれかです。
クラスタ詳細: CDET
クラスタ距離: CDST
クラスタID: CLID
クラスタ確率: PROB
クラスタ・セット: CSET
機能の詳細: FDET
機能ID: FEID
機能セット: FSET
機能値: FVAL
予測: PRED
予測範囲: PBND
予測範囲上限: PBUP
予測範囲下限: PBLW
予測コスト: PCST
予測の詳細: PDET
予測確率: PROB
予測セット: PSET
特定のターゲット、特徴またはクラスタのデフォルト名は、2つの方法のいずれかで省略されます。
1つ目の方法は、ターゲット、特徴またはクラスタの値を列名に統合します。この方法は、ターゲット、クラスタまたは特徴の最大値が名前で使用できる残りの文字スペースを超えない場合に使用されます。名前は、30字以下にする必要があります。
2つ目の方法は、ターゲット、クラスタまたは特徴を順序IDと置き換えます。この方法は、1つ目の方法が不可能な場合に使用されます。
適用出力の追加ダイアログ・ボックスまたは適用出力の編集ダイアログ・ボックスでは、単一列の適用定義を手動で追加または編集できます。一度に1つの適用の定義を編集または追加できます。
列を追加または編集する前に、「自動設定」の選択を解除する必要があります。
次のタスクを実行できます。
適用出力列の追加: をクリックします。
適用出力列の編集: をクリックします。列を編集する場合は、「ファンクション」選択ボックスとそのパラメータのみを編集できます。
次のコントロールを使用できます。
列: 生成される列名。
自動:
選択すると、列名を編集できません。
選択を解除すると、自動ネーミングが無効になり、列名を変更できます。列名は、一意であることを確認するために検証されます。
ノード: ノードに接続されるモデル入力ノードのリスト。入力ノードが1つしかない場合、デフォルトでそれが選択されます。
モデル: 選択したノードのモデルのリスト。モデルが1つしかない場合、デフォルトでそれが選択されます。
ファンクション: 選択したモデルのモデル・スコアリング関数のリスト。
パラメータ: 選択したファンクションのパラメータ要件をサポートするために必要な0
以上のコントロールを表示します。
出力列の定義が終了したら、「OK」をクリックします。
関連項目
出力適用列の追加ダイアログ・ボックスでは、適用ノードに接続されているノードの列を手動で追加および編集できます。
デフォルトでは、名前が自動的に出力列に割り当てられます。
列を追加するには、次のステップを実行します。
関連項目
「適用列の定義」ウィザードは、適用および出力の仕様を定義できる、2ステップのウィザードです。
「適用列の定義」ウィザードは、次のステップで構成されます。
「適用列」ウィザードの「モデル」セクションでは、モデルを選択し、そのモデルの出力仕様を定義できます。
モデルを選択するには、次の手順を実行します。
「出力仕様」セクションには、選択されたモデルに指定できる出力仕様が、選択されたデフォルト設定とともにリストされます。
選択したモデルの出力仕様を定義するには、次の手順を実行します。
関連項目
モデルのテストと適用データは、モデルの構築データを準備する方法と同じ方法で準備する必要があります。
テストと適用データを適切に準備するには、構築の変換ノードをコピーして貼り付けることによって、テストと適用データの構築データの変換チェーンを複製します。
「適用ノードの編集」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。
「デフォルト列順序」のデフォルト値は、「データ列が先」
で、追加するデータ列が出力の最初になることを意味します。これを「適用列が先」
に変更できます。
パーティション化モデルの予測が必要な場合は、「パーティションの順序付け」オプションを選択します。デフォルトでは、適用ノードの入力として非パーティション化モデルがある場合でも、このオプションが選択されています。
「適用ノードの編集」ダイアログ・ボックスには、次のタブがあります。
「予測」タブで、適用スコアリングの仕様を定義できます。
特定の適用設定を定義したり、デフォルト設定を編集するには、「自動設定」の選択を解除します。その後、新しい適用ファンクションを追加するか、既存のものを編集します。
「ケースID」ドロップダウン・リストから、ケースIDを選択します(該当する場合)。
様々な方法で設定を編集できます。
パーティション列の表示: 列を選択し、をクリックしてパーティション・キーを表示します。
設定の追加: をクリックして、「出力適用列ダイアログの追加」ボックスを開きます。
既存の設定の編集: 設定を選択して、をクリックします。「「出力データ列の編集」ダイアログ」ボックスが開きます。
仕様の削除: 選択して、をクリックします。
適用列の定義: をクリックします。適用列の定義ウィザードで、「適用列の定義」アイコンをクリックします。
「追加出力」タブで、データ・ソース・ノードからパススルー属性を指定できます。
列を追加するには、次の手順を実行します。
「データ列が先」
になっています。これを「適用列が先」
に変更できます。関連項目
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
適用ノードのプロパティには、次のセクションがあります。
予測: 適用列で定義された出力適用列が表示されます。これらの詳細を編集できます。選択が変更されなかった場合、自動選択オプションが選択されます。
各出力適用列に、名前、ファンクション、パラメータおよびノードがリストされます。
追加出力: パススルーされる出力データ列がリストされます。各列に、名前、列名(ある場合)およびデータ型がリストされます。
キャッシュ
詳細: ノードの名前およびコメントが表示されます。
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
適用ノードのコンテキスト・メニューを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
関連項目
ワークフローを構成するノードに指定されているタスクを実行するには、「実行」オプションを使用します。
Data Minerサーバーは、非同期的にワークフローを実行します。クライアントを接続する必要はありません。ワークフローの1つ以上のノードを実行できます。
1つのノードを実行する場合: ノードを右クリックして、「実行」を選択します。
複数のノードを同時に実行する場合: [Ctrl]キーを押しながら個々のノードをクリックして、ノードを選択します。選択したノードを右クリックして、「実行」を選択します。
ノードが1つ以上の親ノードの出力に依存する場合、実行中のノードに必要な出力がない場合にのみ親ノードが自動的に実行されます。
完了している1つ以上のノードを再実行するには、「実行の強制」オプションを使用します。
「実行の強制」は、モデルをもう一度構築する前に、既存のモデルを削除します。
複数のノードを選択するには、[Ctrl]
キーを押しながらノードをクリックします。
ワークフローの任意の場所で、ノードの「実行の強制」を使用できます。ワークフロー内のノードの場所に応じて、「実行の強制」を使用してノードを実行するための次の選択肢があります。
選択されたノード
選択されたノードと子
(ノードに子ノードがある場合に使用可能)
子ノードのみ
(ノードに1つ以上の子ノードがある場合に使用可能)
選択されたノードと親
(ノードに親ノードがある場合に使用可能)
「スケジュールの作成」オプションを使用して、ワークフローが所定の日時に実行されるようにスケジュールを定義します。
ワークフロー・スケジュールの設定を保存するには、をクリックします。スケジュールの保存ダイアログ・ボックスで、スケジュールの名前を指定できます。
ノードのデフォルト設定を編集するには、「編集」オプションを使用します。
ノードには、デフォルトのアルゴリズムおよび設定があります。ノードを編集する場合は、デフォルトのアルゴリズムおよび設定を変更します。次の方法のいずれかで、ノードを編集できます。
「編集」ダイアログ・ボックスを使用したノードの編集
プロパティUIによるノードの編集
データ・ノードに含まれているデータを表示するには、「データの表示」オプションを使用します。
データ・ノードとは、表またはビュー作成ノード、データ・ソース・ノード、データの参照ノード、グラフ・ノード、SQL問合せノードおよび表更新ノードです。
関連項目
変換を実行するノードの仕様を含む新しいノードを作成するには、「適用チェーンの生成」を使用します。
手順で実行される変換が複数ある場合(たとえばサンプル
の後にカスタム変換
が続く場合など)、手順での変換ごとに「適用チェーンの生成」を選択する必要があります。個々のノードを接続し、それらを適切なデータ・ソースに接続する必要があります。
「適用チェーンの生成」によって、新しいデータが既存のデータと同じ方法で準備されていることを確認するために使用できる変換手順を作成できます。たとえば、適用データが構築データと同じ方法で準備されていることを確認するには、このオプションを使用します。
「適用チェーンの生成」オプションは、すべてのノードに有効なわけではありません。たとえば、構築ノードの仕様はコピーされません。
現在の接続で発生したイベントに関する情報(エラー、警告および情報メッセージ)を表示するには、「イベント・ログの表示」オプションを使用します。
「イベント・ログの表示」オプションをクリックすると、イベント・ログの表示ダイアログ・ボックスが開きます。
関連項目
検証エラー(発生した場合)を表示するには、「検証エラーの表示」オプションを使用します。
このオプションは、検証エラーがある場合にのみ表示されます。たとえば、相関ノードがデータ・ソース・ノードに接続されていない場合、「検証エラーの表示」を選択すると、「ビルド・データ入力ノードが接続されていません」
という検証エラーが表示されます。
または、マウスをノード上に移動することによって検証エラーを表示することもできます。エラーは、ツールチップに表示されます。
現在のノードのすべての親ノードを検証するには、「親の検証」オプションを使用します。
ノードの親ノードを検証するには、ノードを右クリックして、「親の検証」 を選択します。
ノードが「準備完了」、「完了」
および「エラー」
状態の場合は、親ノードを検証できます。すべての親ノードは、完了済の状態である必要があります。
ワークフローに指定されているタスクを実行するSQLスクリプトを作成することによって、ノードまたはワークフローをデプロイするには、「デプロイ」オプションを使用します。
「デプロイ」
によって生成されたスクリプトはディレクトリに保存されます。
注意:
デプロイする前にノードを実行する必要があります。
ワークフロー全体の動作をレプリケートするスクリプトを生成できます。このようなスクリプトは、アプリケーション統合の基礎として、またはData Minerリポジトリとワークフローをターゲットおよび本番システムにインストールする方法よりも軽量のデプロイメントとして機能します。
ワークフローまたはワークフローの一部をデプロイするには、次の手順を実行します。
選択したオブジェクト(ノードまたは接続)を削除するには、「切取り」オプションを使用します。
または、オブジェクトを選択して、キーボードの[Delete]を押すことによってオブジェクトを削除することもできます。
1つ以上のノードをコピーして、同じワークフローまたは別のワークフローに貼り付けるには、「コピー」オプションを使用します。
ノードをコピーして貼り付けるには、次の手順を実行します。
注意:
ノードのコピーおよび貼付けでは、元のノードのマイニング・モデルまたは結果は維持されません。
コピーしたオブジェクトをワークフローに貼り付けるには、「貼付け」オプションを使用します。
オブジェクトを貼り付けるには、ワークフローを右クリックして、「貼付け」をクリックします。または、[Ctrl]を押しながら[V]を押します。
注意:
ノード名およびモデル名は、名前の衝突を避けるために変更されます。名前を維持するには、「拡張貼付け」オプションを使用します。
ノードのパラレル設定およびインメモリー設定を編集するには、「パフォーマンス設定」オプションを使用します。
コンテキスト・メニューで「パフォーマンス設定」をクリックするか、ワークフローのツールバーで「パフォーマンス・オプション」をクリックすると、「選択したノードの設定の編集」ダイアログ・ボックスが開きます。ここには、ワークフローを構成するすべてのノードがリストされます。「選択したノードの設定の編集」ダイアログ・ボックスで設定を編集するには、次の手順を実行します。
「パラレル設定」をクリックして、次のいずれかを選択します。
有効化: ワークフロー内の選択したノードに対してパラレル設定を有効にします。
無効化: ワークフロー内の選択したノードに対してパラレル設定を無効にします。
すべて: ワークフロー内のすべてのノードに対してパラレル処理を有効にします。
なし: ワークフロー内のすべてのノードに対してパラレル処理を無効にします。
「インメモリー設定」をクリックして、次のいずれかを選択します。
有効化: ワークフロー内の選択したノードに対してインメモリー設定を有効にします。
無効化: ワークフロー内の選択したノードに対してインメモリー設定を無効にします。
すべて: ワークフロー内の選択したノードに対してインメモリー設定を有効にします。
なし: ワークフロー内のすべてのノードに対してインメモリー設定を無効にします
をクリックして、「ノードのパフォーマンス設定の編集」ダイアログ・ボックスで「並列度」を設定したり、「圧縮方法」や「優先度レベル」などのインメモリー設定を指定します。
少なくとも1つのノードのパラレル設定を指定すると、次の表示がワークフローのタイトル・バーに示されます。
パフォーマンス設定は、選択したノードに対してオン、すべてのノードに対してオン、またはオフのいずれかになります。「パフォーマンス・オプション」をクリックすると、「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
をクリックして、パラレル処理のデフォルト・プリファレンスを編集します。
ノードのデフォルト設定の編集: 「パフォーマンス・オプション」ダイアログ・ボックスでは、選択したノードのパラレル設定およびインメモリー設定を編集できます。SQL Developerの「ツール」メニューにある「プリファレンス」オプションから「パフォーマンス・オプション」ダイアログ・ボックスにアクセスできます。
デフォルト設定の変更
特徴比較ノードでは、あるデータ・ソース・ノードに含まれているテキスト・データを別のデータ・ソース・ノードのテキスト・データと比較して、テキスト・データのセマンティクスに関する計算を実行できます。
特徴比較ノードの要件は、次のとおりです。
2つの入力データ・ソース。データ・ソースには、データ・ソース・ノードで接続されているレコードなどの複数のレコードのデータ・フローまたはノード内でユーザーが入力する単一レコード・データを指定できます。ユーザーが入力するデータの場合、入力データ・プロバイダは不要です。
セマンティクスに関する計算を行うためにモデルを選択できる、1つの入力特徴抽出モデル・プロバイダ・ノード。
ノードを右クリックし、「編集」を選択して、2つのデータ入力ソースの特徴を比較できます。
特徴比較ノードを作成して、テキスト・データに関する計算を実行します。
関連項目
「機能比較」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。
「機能比較」ダイアログ・ボックスでは、次のタスクを実行できます。
「機能比較」タブでは、特徴抽出モデルを選択し、特徴比較に使用するデータ・ソースを指定できます。データ・ソースを指定するには、次の手順を実行します。
「モデル」フィールドで、ドロップダウン・リストからモデルを選択します。ドロップダウン・リストには、モデル・プロバイダに接続されているすべての特徴抽出モデルが表示されます。
カスタム列名を入力する場合は、「自動」の選択を解除します。「自動」が選択されている場合は、選択したモデルに基づいて列名が自動的に「列」フィールドに表示されます。「自動」オプションは、自動で列名を生成するためのものです。
「データ入力 1」および「データ入力 2」フィールドで、ドロップダウン・リストからデータ・プロバイダ・ノードをそれぞれ選択します。カスタム入力を行う場合は、ドロップダウン・リストから「ユーザー定義」
を選択し、その下のモデル・グリッドで該当するデータ入力セルをクリックして、カスタム・エントリを入力します。
「ケースID」フィールドで、各データ・プロバイダ・ノードにサポートされている列を選択します。データ入力フィールドが「ユーザー定義」
と設定されている場合は、「ケースID」フィールドが無効になります。
「OK」をクリックします。
モデル・グリッドには、次の情報が表示されます。
モデル属性: 選択したモデルのモデル・シグネチャの入力属性が表示されます。
データ型: データ型の属性が表示されます。
データ入力 1: データ入力1の一致する属性またはユーザー定義データが表示されます。
データ入力 2: データ入力1の一致する属性またはユーザー定義データが表示されます。
「自動設定」が「オン」
に設定されている場合、「機能比較」タブに追加されている選択済のケースIDが「追加出力」タブにも追加されます。任意のモデル属性を出力の追加列として追加することもできます。
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
特徴抽出ノードのコンテキスト・メニューを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
関連項目
ワークフローを構成するノードに指定されているタスクを実行するには、「実行」オプションを使用します。
Data Minerサーバーは、非同期的にワークフローを実行します。クライアントを接続する必要はありません。ワークフローの1つ以上のノードを実行できます。
1つのノードを実行する場合: ノードを右クリックして、「実行」を選択します。
複数のノードを同時に実行する場合: [Ctrl]キーを押しながら個々のノードをクリックして、ノードを選択します。選択したノードを右クリックして、「実行」を選択します。
ノードが1つ以上の親ノードの出力に依存する場合、実行中のノードに必要な出力がない場合にのみ親ノードが自動的に実行されます。
完了している1つ以上のノードを再実行するには、「実行の強制」オプションを使用します。
「実行の強制」は、モデルをもう一度構築する前に、既存のモデルを削除します。
複数のノードを選択するには、[Ctrl]
キーを押しながらノードをクリックします。
ワークフローの任意の場所で、ノードの「実行の強制」を使用できます。ワークフロー内のノードの場所に応じて、「実行の強制」を使用してノードを実行するための次の選択肢があります。
選択されたノード
選択されたノードと子
(ノードに子ノードがある場合に使用可能)
子ノードのみ
(ノードに1つ以上の子ノードがある場合に使用可能)
選択されたノードと親
(ノードに親ノードがある場合に使用可能)
「スケジュールの作成」オプションを使用して、ワークフローが所定の日時に実行されるようにスケジュールを定義します。
ワークフロー・スケジュールの設定を保存するには、をクリックします。スケジュールの保存ダイアログ・ボックスで、スケジュールの名前を指定できます。
ノードのデフォルト設定を編集するには、「編集」オプションを使用します。
ノードには、デフォルトのアルゴリズムおよび設定があります。ノードを編集する場合は、デフォルトのアルゴリズムおよび設定を変更します。次の方法のいずれかで、ノードを編集できます。
「編集」ダイアログ・ボックスを使用したノードの編集
プロパティUIによるノードの編集
データ・ノードに含まれているデータを表示するには、「データの表示」オプションを使用します。
データ・ノードとは、表またはビュー作成ノード、データ・ソース・ノード、データの参照ノード、グラフ・ノード、SQL問合せノードおよび表更新ノードです。
関連項目
変換を実行するノードの仕様を含む新しいノードを作成するには、「適用チェーンの生成」を使用します。
手順で実行される変換が複数ある場合(たとえばサンプル
の後にカスタム変換
が続く場合など)、手順での変換ごとに「適用チェーンの生成」を選択する必要があります。個々のノードを接続し、それらを適切なデータ・ソースに接続する必要があります。
「適用チェーンの生成」によって、新しいデータが既存のデータと同じ方法で準備されていることを確認するために使用できる変換手順を作成できます。たとえば、適用データが構築データと同じ方法で準備されていることを確認するには、このオプションを使用します。
「適用チェーンの生成」オプションは、すべてのノードに有効なわけではありません。たとえば、構築ノードの仕様はコピーされません。
現在の接続で発生したイベントに関する情報(エラー、警告および情報メッセージ)を表示するには、「イベント・ログの表示」オプションを使用します。
「イベント・ログの表示」オプションをクリックすると、イベント・ログの表示ダイアログ・ボックスが開きます。
関連項目
検証エラー(発生した場合)を表示するには、「検証エラーの表示」オプションを使用します。
このオプションは、検証エラーがある場合にのみ表示されます。たとえば、相関ノードがデータ・ソース・ノードに接続されていない場合、「検証エラーの表示」を選択すると、「ビルド・データ入力ノードが接続されていません」
という検証エラーが表示されます。
または、マウスをノード上に移動することによって検証エラーを表示することもできます。エラーは、ツールチップに表示されます。
現在のノードのすべての親ノードを検証するには、「親の検証」オプションを使用します。
ノードの親ノードを検証するには、ノードを右クリックして、「親の検証」 を選択します。
ノードが「準備完了」、「完了」
および「エラー」
状態の場合は、親ノードを検証できます。すべての親ノードは、完了済の状態である必要があります。
ワークフローに指定されているタスクを実行するSQLスクリプトを作成することによって、ノードまたはワークフローをデプロイするには、「デプロイ」オプションを使用します。
「デプロイ」
によって生成されたスクリプトはディレクトリに保存されます。
注意:
デプロイする前にノードを実行する必要があります。
ワークフロー全体の動作をレプリケートするスクリプトを生成できます。このようなスクリプトは、アプリケーション統合の基礎として、またはData Minerリポジトリとワークフローをターゲットおよび本番システムにインストールする方法よりも軽量のデプロイメントとして機能します。
ワークフローまたはワークフローの一部をデプロイするには、次の手順を実行します。
選択したオブジェクト(ノードまたは接続)を削除するには、「切取り」オプションを使用します。
または、オブジェクトを選択して、キーボードの[Delete]を押すことによってオブジェクトを削除することもできます。
1つ以上のノードをコピーして、同じワークフローまたは別のワークフローに貼り付けるには、「コピー」オプションを使用します。
ノードをコピーして貼り付けるには、次の手順を実行します。
注意:
ノードのコピーおよび貼付けでは、元のノードのマイニング・モデルまたは結果は維持されません。
コピーしたオブジェクトをワークフローに貼り付けるには、「貼付け」オプションを使用します。
オブジェクトを貼り付けるには、ワークフローを右クリックして、「貼付け」をクリックします。または、[Ctrl]を押しながら[V]を押します。
注意:
ノード名およびモデル名は、名前の衝突を避けるために変更されます。名前を維持するには、「拡張貼付け」オプションを使用します。
ノードのパラレル設定およびインメモリー設定を編集するには、「パフォーマンス設定」オプションを使用します。
コンテキスト・メニューで「パフォーマンス設定」をクリックするか、ワークフローのツールバーで「パフォーマンス・オプション」をクリックすると、「選択したノードの設定の編集」ダイアログ・ボックスが開きます。ここには、ワークフローを構成するすべてのノードがリストされます。「選択したノードの設定の編集」ダイアログ・ボックスで設定を編集するには、次の手順を実行します。
「パラレル設定」をクリックして、次のいずれかを選択します。
有効化: ワークフロー内の選択したノードに対してパラレル設定を有効にします。
無効化: ワークフロー内の選択したノードに対してパラレル設定を無効にします。
すべて: ワークフロー内のすべてのノードに対してパラレル処理を有効にします。
なし: ワークフロー内のすべてのノードに対してパラレル処理を無効にします。
「インメモリー設定」をクリックして、次のいずれかを選択します。
有効化: ワークフロー内の選択したノードに対してインメモリー設定を有効にします。
無効化: ワークフロー内の選択したノードに対してインメモリー設定を無効にします。
すべて: ワークフロー内の選択したノードに対してインメモリー設定を有効にします。
なし: ワークフロー内のすべてのノードに対してインメモリー設定を無効にします
をクリックして、「ノードのパフォーマンス設定の編集」ダイアログ・ボックスで「並列度」を設定したり、「圧縮方法」や「優先度レベル」などのインメモリー設定を指定します。
少なくとも1つのノードのパラレル設定を指定すると、次の表示がワークフローのタイトル・バーに示されます。
パフォーマンス設定は、選択したノードに対してオン、すべてのノードに対してオン、またはオフのいずれかになります。「パフォーマンス・オプション」をクリックすると、「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
をクリックして、パラレル処理のデフォルト・プリファレンスを編集します。
ノードのデフォルト設定の編集: 「パフォーマンス・オプション」ダイアログ・ボックスでは、選択したノードのパラレル設定およびインメモリー設定を編集できます。SQL Developerの「ツール」メニューにある「プリファレンス」オプションから「パフォーマンス・オプション」ダイアログ・ボックスにアクセスできます。
デフォルト設定の変更
Oracle Data Miningを使用すると、分類モデルと回帰モデルをテストできます。他の種類のモデルはテストできません。
テスト・ノードは、同じテスト・セットを使用して複数のモデルをテストできます。「自動設定」オプションが「オン」
に設定されている場合、入力ノードに接続すると、テスト・ノードの仕様が生成されます。
テスト・ノードは、パラレルに実行できます。
注意:
ノードでテストされるすべてのモデルは、分類モデルまたは回帰モデルである必要があります。同じテスト・ノードで両方の種類のモデルをテストすることはできません。
関連項目
Oracle Data Minerは、分類モデルまたは回帰モデルのテストをサポートします。
Oracle Data Minerは、次の方法で分類モデルまたは回帰モデルのテストをサポートします。
次の方法のいずれかを使用して、構築ノードの一部としてモデルをテストします。
構築データを構築サブセットとテスト・サブセットに分割します。
すべての構築データをテスト・データとして使用します。
2つ目のデータ・ソース・ノードのテスト・データ・ソース・ノードを構築ノードに接続します。
テスト・ノードでモデルをテストします。この場合、テスト・データは、構築データと互換性がある表になります。
分類モデルをテストした後に、チューニングを行うことができます。
注意:
回帰モデルはチューニングできません。
関連項目
テスト・ノードの入力には、モデル・ノード、分類ノードまたは回帰ノードを使用できます。
テスト・ノードには次の入力があります。
1つ以上のモデルを識別する少なくとも1つのノード。ノードは、モデル・ノード、分類ノードまたは回帰ノードにできます。モデル・ノードには、分類モデルまたは回帰モデルの両方ではなくいずれかが含まれている必要があります。
データ・ノード、変換ノードまたは適切なテキスト・ノードなどの出力としてデータを生成するすべてのノード。このノードには、テスト・データが含まれます。
ケースIDを指定することをお薦めします。ケースIDを指定しない場合、処理にかかる時間が長くなります。
複数の分類モデルまたは複数の回帰モデルを同時にテストできます。テストされるモデルは、別のノードに存在できます。テストされるモデルは、次の条件を満たす必要があります。
モデルを含むノードは、同じファンクション・タイプを持つ必要があります。つまり、すべて分類構築ノードであるか、すべて回帰構築ノードである必要があります。
分類モデルも、同じターゲット属性値のリストを持つ必要があります。
モデルは、同じデータ型の同じターゲット属性を持つ必要があります。
テスト用のデータ・ソース・ノードには、モデルのターゲットが含まれている必要があります。
テスト・データは、モデルと互換性がある必要があります。つまり、モデルの構築に使用されるデータと同じ方法で変換されている必要があります。
デフォルトでは、「自動設定」オプションがテスト・ノードに選択されています。
自動選択によって、動作は次のようになります。
モデル入力ノードが接続されると、すべてのモデルが仕様に追加されます。
モデル入力ノードが切断されると、すべてのモデルが仕様から削除されます。テスト・ノードが無効になる場合があります。
モデル入力ノードが次の方法で編集されると、動作は次のようになります。
モデルが追加されると、モデルの仕様が自動的にテスト・ノードに追加されます。
モデルが削除されると、テスト・ノードから仕様が削除されます。
モデルが変更されると、次が実行されます。
アルゴリズムが一貫していることを確実にするために、テスト・ノードが更新されます。
ターゲットが変更され、テスト・ノードへの入力としてノードが1つしか存在しない場合、新しいターゲットを反映してすべてのモデルを維持するためにそのノードが更新されます。また、新しい列ターゲットがまだあることを確認するために、テスト入力データも検証されます。
テスト・ノードへの入力として複数のモデル・ノードが存在する場合、変更されたターゲットを持つモデルは自動的に削除されます。
「自動設定」の選択を解除した場合、ノードを編集してすべての変更を入力に反映する必要があります。モデルが追加されている場合、そのモデルは検証されます。
テスト・ノードを作成して、分類モデルおよび回帰モデルをテストします。
「テスト・ノードの編集」ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。
テスト・ノードを編集するには、ノードを右クリックして、「編集」を選択するか、ノードをダブルクリックします。「テスト・ノードの編集」ダイアログ・ボックスが開きます。
「テスト・ノードの編集」ダイアログ・ボックスには、次の情報が表示されます。
ファンクション(CLASSIFICATIONまたはREGRESSION)
ターゲットおよびデータ型(ターゲットのデータ型)
ケースID (存在する場合)
ケースIDを指定することをお薦めします。ケースIDを指定しない場合、処理は低速になります。テキスト・ノードに指定するケースIDは、構築ノードに指定したケースIDと同じである必要があります。
自動設定: デフォルトでは、「自動設定」が選択されています。
次のタスクを実行できます。
「自動設定」を選択している場合でも、テスト結果を比較して、個々のモデルを表示できます。テストされたモデルは、「選択したモデル」グリッドにリストされます。
モデルのリストを変更します。「自動設定」の選択を解除して、「選択したモデル」グリッドで変更を行います。
関連項目
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
テスト・ノードの「プロパティ」ペインには、次のセクションがあります。
「モデル」タブには、「選択したモデル」グリッドでテストするモデルがリストされます。
「選択したモデル」ダイアログ・ボックスには、選択したモデルの詳細が表示されます。ここでは、モデルを追加および削除することもできます。
各モデルについて、グリッドに次の内容がリストされます。
モデル名: モデル名がリストされます。パーティション化モデルの隣には、それがパーティション化されていることを示すアイコンが示されます。
注意:
パーティション列に選択したモデルでの互換性がない場合は、グローバル・テスト結果のみが生成されます。
パーティション列: 各パーティション化モデルのパーティション列がリストされます。
ノード: モデルを含むノードがリストされます。
テスト: モデルのテスト・ステータスが示されます。
アルゴリズム: モデルの構築に使用されるアルゴリズムがリストされます。
次のタスクを実行できます。
パーティション列の表示: をクリックして、選択したモデルのパーティション化列の詳細を表示します。パーティション化列の名前、データ型およびソースが、「パーティション列の定義」ダイアログ・ボックスに表示されます。
モデルの追加: をクリックします。同じファンクションを持つモデルのみ追加できます。モデルを追加する前に、「自動設定」の選択を解除します。
モデルの削除: 選択して、をクリックします。モデルを削除する前に、「自動設定」の選択を解除します。
関連項目
「テスト」セクションでは、テストの実行方法を説明します。
「テスト」には、次の情報が表示されます。
ファンクション: CLASSIFICATIONまたはREGRESSION。
ターゲット: ターゲットの名前。
データ型: ターゲットのデータ型
CLASSIFICATIONの場合、次のテスト結果がデフォルトで計算されます。
パフォーマンス・メトリック
ROC曲線(2項ターゲットのみ)
リフトおよび利益
「メトリック」の選択を解除できます。
デフォルトでは、頻度別の上位100のターゲット値が指定されています。この値を変更するには、「編集」をクリックします。「ターゲット値の選択」ダイアログ・ボックスで値を編集します。
REGRESSIONの場合、「精度メトリック」および「残差」を選択します。「メトリック」の選択を解除できます。
パフォーマンス・メトリックは、テスト・ビューアの「パフォーマンス」タブに表示されるメトリックです。
残差は、テスト・ビューアの「残差」タブに表示されます。
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
テスト・ノードのコンテキスト・メニューを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
編集。「テスト・ノードの編集」ダイアログ・ボックスが開きます。
テスト結果の比較。「テスト結果の比較」ダイアログ・ボックスが開きます。
パフォーマンス設定。これにより、ノードのパラレル設定およびインメモリー設定を指定できる「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
ランタイム・エラーの表示。エラーがある場合にのみ表示されます。
検証エラーの表示。検証エラーがある場合にのみ表示されます。
イベント・ログの表示。エラーがある場合にのみ表示されます。
関連項目