モデル・ノードでは、構築するモデルおよびワークフローに追加するモデルを指定します。
「コンポーネント」ペインの「モデル」セクションに、モデル・ノードが含まれています。「コンポーネント」ペイン内のモデルは次のとおりです。
Oracle Data Minerでサポートされているモデル・ノードのタイプを表示します。
使用可能なモデルのタイプは次のとおりです。
異常検出ノード: 1クラス・サポート・ベクター・マシン(SVM)を使用して異常検出モデルを構築します。
相関ノード: マーケット・バスケット分析用のモデルを構築します。
分類ノード: 同じターゲット、ケースID、コストおよび分割(該当する場合)の設定を使用して分類モデルを構築し、テストします。このモデルでは、サポート・ベクター・マシン(SVM)、Naive Bayes (NB)、ディシジョン・ツリー(DT)、および一般化線形モデル(GLM)の分類アルゴリズムを使用します。
クラスタリング・ノード: クラスタリング・アルゴリズムのk-Means、O-Clusterおよび期待値の最大化(EM)を使用してクラスタリング・モデルを構築します。EMには、Oracle Database 12cリリース1 (12.1)以上が必要です。
明示的特徴抽出ノード: 明示的セマンティック分析アルゴリズムを使用して特徴抽出モデルを構築します。
特徴抽出ノード: 特徴抽出アルゴリズムのNon-Negative Matrix Factorization、主成分分析(PCA)および特異値分解(SVD)を使用して特徴抽出モデルを構築します。PCAおよびSVDには、Oracle Database 12cリリース1 (12.1)以上が必要です。
モデル・ノード: 現在のワークフローでは構築されなかったモデルをワークフローに追加します。このノードには入力データがありません。
モデル詳細ノード: モデル構築ノード、モデル・ノードまたはモデルを生成する任意のノードからモデルの詳細を抽出します。
回帰ノード: 同じターゲット、ケースID、コストおよび分割(該当する場合)の設定を使用して、回帰モデルの集合を構築およびテストします。このモデルは、回帰アルゴリズムSVMおよびGLMを使用します。
自動データ準備(ADP)では、アルゴリズムの要件に従って作成データが変換され、モデルに変換の指示が組み込まれて、モデルの適用時にテスト・データまたはスコアリング・データを変換する際にその指示が使用されます。
モデルの構築に使用されるデータは適切に準備されている必要があります。アルゴリズムごとに必要な入力が異なります。たとえば、Naive Bayesにはビニングされたデータが必要です。
Oracle Database 12c以上に接続している場合、ADPによりテキスト・データが準備されます。
自動データ準備では、アルゴリズムごとに異なる方法で数値データが準備されます。
次のいくつかの例は、ADPによって数値データがどのように準備されるかを示しています。
ビニングされたデータを必要とするアルゴリズム(Naive Bayesなど)の場合、ADPは監視ありビニングを実行します。監視ありビニングは、予測子内の適切なカット位置を特定するためにターゲットを考慮に入れる特殊なビニング方法です。
正規化されているデータが必要なアルゴリズム(サポート・ベクター・マシンなど)の場合、数値データが正規化されます。
変換されていないデータを扱うことができるアルゴリズム(ディシジョン・ツリーなど)の場合、数値データを使用して、監視ありビニングと同様の方法でツリー内のスプリッタを特定できます。
Oracle Data Minerでは、モデルを構築する際に必ずしもデータ・ソースのすべての列を使用するとはかぎりません。
モデル・ノードでは、一連の経験則を使用して、モデル構築プロセスから列を除外するかどうか、または単にマイニング型を数値型からカテゴリ型に変更するかが決定されます。
モデル構築に特定の列を使用ない理由がいくつかあります。有用な情報が含まれていない列は、通常使用されません。
モデルを構築するために入力として使用される属性の正確なリストは、モデルの構築に使用されるアルゴリズムごとに異なります。あるアルゴリズムが特定のデータ型をサポートしない場合、Oracle Data Minerは、そのデータ型の属性を入力として使用しません。
分類モデルなどのターゲットを持つモデルの場合は、ターゲットをテキストにすることはできません。
同じマイニング型がすべてのモデルに使用されます。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、構築ノードの編集時にテキスト属性の特性を指定します。
CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。データの使用方法は、構築エディタの「入力」タブおよび「詳細設定」ダイアログ・ボックスで表示したり変更できます。
「入力」タブでは、設定「入力を自動的に判定(ヒューリスティックを使用)」によって、入力として使用される属性の自動選択およびマイニング型の自動選択が制御されます。
構築ノードを編集するには、次の手順を実行します。
注意:
これらの手順を使用して、相関モデルのデータの使用方法を表示および編集できません。
自動入力を選択した場合、Oracle Data Minerは、有用な情報を提供しない属性を使用しません。たとえば、ほぼ不変の属性は入力に適さないと考えられます。
ノードの実行後に、使用された経験則がルールに示されます。詳細情報を表示するには、「表示」をクリックします。
入力を手動で指定するには、「入力を自動的に判定(ヒューリスティックを使用)」の選択を解除します。
手動入力オプションを使用して次の変更を加えることができます。
属性を無視する場合: 属性を入力として使用しない場合は、「入力」列に移動して出力アイコンをクリックします。無視アイコンを選択して、「OK」をクリックします。属性は使用されません。これは無視されます。同様に、無視した属性を使用するには、「入力」列内のをクリックしてを選択します。属性がモデル構築に使用されます。
属性のマイニング型を変更する場合: 「マイニング型」列に移動してドロップダウン・リストからオプションを選択します。
数値型
カテゴリ型
テキストのマイニング型は、「テキスト」および「テキスト・カスタム」です。列レベルのテキスト指定を作成するには、「テキスト・カスタム」を選択します。
手動でデータを準備する場合: デフォルトで、すべての属性に対して自動データ準備(ADP)が実行されます。ある属性について自動データ準備の実行が不要な場合は、「自動準備」列で該当の属性に対応するチェック・ボックスの選択を解除します。「自動準備」をオフにする場合は、その属性のデータ準備に対して責任を持つ必要があります。
注意:
ある属性のマイニング型が「テキスト」または「テキスト・カスタム」である場合、自動データ準備の選択を解除できません。
関連項目:
テキストは、CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、「モデル構築の編集」ダイアログ・ボックスの「テキスト」タブでテキスト特性を指定できます。
「テキスト」タブでテキスト特性を指定する場合、テキスト・ノードを使用する必要はありません。
注意:
Oracle Database 11gリリース2 (11.2)以前に接続している場合は、テキスト・ノードを使用します。「テキスト」タブは、Oracle Database 11gリリース2以前では使用できません。
データ・マイニング用のテキスト特性を確認または指定するには、構築ノードをダブルクリックするか、ノードを右クリックしてコンテキスト・メニューから「編集」を選択します。「テキスト」タブをクリックします。
「テキスト」タブを使用すると、次を変更できます。
カテゴリ型のカットオフ値: 列がテキストまたはカテゴリのどちらのマイニング型とみなされるかを決定するために使用されるカットオフを制御できます。カットオフ値は整数です。これは、10以上4000以下である必要があります。デフォルト値は200
です。
デフォルトの変換タイプ: 列レベル・テキスト設定のデフォルトの変換タイプを指定します。値は次のとおりです。
トークン(デフォルト): 変換タイプが「トークン」の場合、「デフォルト設定」は次のようになります。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからオプションを選択します。複数の言語を選択できます。
Bigram: このオプションは、NORMAL
トークン・タイプとそのbigramを組み合せる場合に選択します。たとえば、New Yorkです。トークン・タイプはBIGRAM
です。
ステミング: デフォルトでは、このオプションは選択されていません。一部の言語ではステミングはサポートされません。選択されている言語が英語、オランダ語、フランス語、ドイツ語、イタリア語またはスペイン語である場合、ステミングは自動的に有効になっています。ステミングが有効である場合、ステミングされた語句がサポート対象言語に対して戻されます。そうでない場合は、元の語句が戻されます。
注意:
「Bigram」と「ステミング」の両方を選択した場合、トークン・タイプはSTEM_BIGRAM
です。「Bigram」も「ステミング」も選択しない場合、トークン・タイプはNORMAL
です。
「デフォルト」
である場合、その言語のデフォルトのストップワードがリポジトリからデフォルトのストップリストに追加されます。重複したストップワードは追加されません。 ストップリストの詳細を表示するには、をクリックします。「ストップリストの詳細」ダイアログ・ボックスが開きます。
新しいストップリストを追加するには、をクリックします。「新規ストップリスト・ウィザード」が開きます。
すべての行(ドキュメント)のトークンの最大数。デフォルトは3000
です。
トークンに必要な最小行(ドキュメント)数
テーマ: 「テーマ」が選択されている場合、デフォルト設定は次のとおりです。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからいずれかを選択します。複数の言語を選択できます。
ストップリスト: 使用するストップリストを指定します。デフォルト設定では、デフォルトのストップリストを使用します。ストップリストは追加または編集が可能です。複数の言語を選択し、選択されているストップリストが「デフォルト」
である場合、その言語のデフォルトのストップワードがデフォルトのストップリストに追加されます(リポジトリから)。重複したストップワードは追加されません。
テーマ: すべてのドキュメントにわたるテーマの最大数を指定します。デフォルトは3000
です。
シノニム: 「シノニム」タブは、シソーラスがロードされた場合にのみ有効になります。デフォルトでは、シソーラスはロードされません。Oracle Textによって提供されているデフォルトのシソーラスを手動でロードするか、独自のシソーラスをアップロードする必要があります。
ストップリスト・エディタを開くには、「ストップリスト」をクリックします。ストップリストは、表示、編集および作成が可能です。
すべてのテキスト列に対して同じストップリストを使用できます。
モデル・ノードのプロパティでは、ノードの特性を調査および変更できます。
モデル構築ノードのプロパティは、次のいずれかの方法で表示できます。
ノードを選択して「表示」に移動し、「プロパティ」をクリックします。必要に応じて「プロパティ」タブをクリックします。
ノードを右クリックし、コンテキスト・メニューから「プロパティに移動」を選択します。
以前のリリースでは、「プロパティ」はプロパティ・インスペクタと呼ばれていました。モデル・ノードのプロパティには、次のセクションがあります。
「モデル」セクションには、ノードで定義されているモデルのリストが表示されます。デフォルトでは、ノードでサポートされているアルゴリズムごとに1つのモデルが構築されます。
各モデルに対して、モデルの名前、構築情報、アルゴリズムおよびコメントがグリッド内にリストされます。「構築」列には、最新の構築成功日時、またはモデルが構築されていないか正常に構築されなかったかが示されます。
リスト内のモデルを追加、削除または表示できます。モデルが後続のノードに渡されたかどうかを示すこともできます。
リストからモデルを削除するには、それを選択してをクリックします。
モデルを追加するには、をクリックします。「モデルの追加」ダイアログ・ボックスが開きます。
正常に構築されたモデルを表示するには、モデルを選択してをクリックします。
分類モデルは「プロパティ」ペインからチューニングできます。
関連項目:
「モデル設定」グリッドの「出力列」では、後続ノードへのモデルの受渡しを制御します。
デフォルト設定では、すべてのモデルが後続ノードに渡されます。
モデルを無視するには、つまり後続ノードに渡さないようにするには、をクリックします。出力アイコンが無視アイコンに置き換わります。
無視を取り消すには、「無視」アイコンを再度クリックします。それが出力アイコンに変わります。
「ビルド」セクションには、モデル構築に関連する情報が表示されます。分類や回帰などのターゲットを持つモデルでは、ターゲットがリストされます。ノード内のすべてのモデルは、同じターゲットを持ちます。
「構築」セクションには、次が表示されます。
ターゲット: ターゲットが表示されます。ターゲットを変更するには、ドロップダウン・リストから新しいターゲットを選択します。
ケースID: このノードで定義されたモデルのケースIDが表示されます。ノード内のすべてのモデルは、同じケースIDを持ちます。ケースIDを編集するには、ドロップダウン・リストから別のケースIDを選択します。
トランザクションID: 相関モデルに対してのみ表示されます。トランザクションIDを変更するには、「編集」をクリックします。
項目ID: 相関モデルに対してのみ表示されます。値を変更するには、ドロップダウン・リストからオプションを選択します。
項目値: 相関モデルに対してのみ表示されます。値を変更するには、ドロップダウン・リストからオプションを選択します。
「テスト」セクションは、分類および回帰モデルに対して表示されます。これらのモデルのみ、テストが可能です。
「テスト」セクションでは、テストの実行方法を定義します。デフォルトでは、すべてのモデルがテストされます。ノード内のすべてのモデルは、同じ方法でテストされます。
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
異常検出ノードでは、1クラスSVMアルゴリズムを使用して、不正行為などの発生頻度が低い事象を検出する1つ以上モデルが構築されます。
異常検出ノードでは、デフォルトでは1クラスSVMアルゴリズムを使用して1つのモデルが構築されます。ノード内のすべてのモデルは、同じケースIDを持ちます。
異常検出には、次の2つの方法があります。
異常検出モデルを構築して適用します。
予測問合せノードの1つである、異常検出問合せを使用します。
異常検出構築は、パラレルに実行できます。次の項では、異常検出ノードについて説明します。
関連項目:
異常検出ノードでは、1クラスSVMアルゴリズムを使用して、不正行為などの発生頻度が低い事象やその他の異常を検出する1つ以上のモデルが構築されます。
モデル・ノードの入力は、変換ノードやデータ・ノードを含む、出力としてデータを生成する任意のノードです。
注意:
データにテキスト列が含まれている場合は、テキストの構築ノードを使用してテキスト列を準備します。Oracle Database 12c以上に接続している場合、自動データ準備を使用します。
異常検出ノードを作成するには、次の手順を実行します。
関連項目
異常検出ノードの編集ダイアログ・ボックスで、構築するモデルの特性を指定または変更できます。
異常検出ノードの編集ダイアログ・ボックスを開くには、異常検出ノードをダブルクリックするか、異常検出ノードを右クリックして「編集」をクリックします。
関連項目:
「入力」タブの詳細は、「データの使用方法の表示と変更」。
異常検出ノードの編集ダイアログ・ボックスには次のタブがあります。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「入力」タブでは、モデル構築の入力を指定します。
すべてのモデルに対して入力を自動的に判定(経験則を使用)がデフォルトで選択されています。Oracle Data Minerにより、入力に使用する属性が決定されます。たとえば、ほぼ不変の属性は入力に適さないと考えられます。また、Oracle Data Minerはマイニング型を決定し、すべての属性に対して自動データ準備が実行されることを指定します。
注意:
R構築ノードの場合、自動データ準備は実行されません。ノードの実行後に、経験則を説明するルールが示されます。詳細情報を確認するには、「表示」をクリックします。
これらの選択内容を変更できます。これを行うには、入力を自動的に判定(経験則を使用)の選択を解除します。
関連項目:
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
テキストは、CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、「モデル構築の編集」ダイアログ・ボックスの「テキスト」タブでテキスト特性を指定できます。
「テキスト」タブでテキスト特性を指定する場合、テキスト・ノードを使用する必要はありません。
注意:
Oracle Database 11gリリース2 (11.2)以前に接続している場合は、テキスト・ノードを使用します。「テキスト」タブは、Oracle Database 11gリリース2以前では使用できません。
データ・マイニング用のテキスト特性を確認または指定するには、構築ノードをダブルクリックするか、ノードを右クリックしてコンテキスト・メニューから「編集」を選択します。「テキスト」タブをクリックします。
「テキスト」タブを使用すると、次を変更できます。
カテゴリ型のカットオフ値: 列がテキストまたはカテゴリのどちらのマイニング型とみなされるかを決定するために使用されるカットオフを制御できます。カットオフ値は整数です。これは、10以上4000以下である必要があります。デフォルト値は200
です。
デフォルトの変換タイプ: 列レベル・テキスト設定のデフォルトの変換タイプを指定します。値は次のとおりです。
トークン(デフォルト): 変換タイプが「トークン」の場合、「デフォルト設定」は次のようになります。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからオプションを選択します。複数の言語を選択できます。
Bigram: このオプションは、NORMAL
トークン・タイプとそのbigramを組み合せる場合に選択します。たとえば、New Yorkです。トークン・タイプはBIGRAM
です。
ステミング: デフォルトでは、このオプションは選択されていません。一部の言語ではステミングはサポートされません。選択されている言語が英語、オランダ語、フランス語、ドイツ語、イタリア語またはスペイン語である場合、ステミングは自動的に有効になっています。ステミングが有効である場合、ステミングされた語句がサポート対象言語に対して戻されます。そうでない場合は、元の語句が戻されます。
注意:
「Bigram」と「ステミング」の両方を選択した場合、トークン・タイプはSTEM_BIGRAM
です。「Bigram」も「ステミング」も選択しない場合、トークン・タイプはNORMAL
です。
「デフォルト」
である場合、その言語のデフォルトのストップワードがリポジトリからデフォルトのストップリストに追加されます。重複したストップワードは追加されません。 ストップリストの詳細を表示するには、をクリックします。「ストップリストの詳細」ダイアログ・ボックスが開きます。
新しいストップリストを追加するには、をクリックします。「新規ストップリスト・ウィザード」が開きます。
すべての行(ドキュメント)のトークンの最大数。デフォルトは3000
です。
トークンに必要な最小行(ドキュメント)数
テーマ: 「テーマ」が選択されている場合、デフォルト設定は次のとおりです。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからいずれかを選択します。複数の言語を選択できます。
ストップリスト: 使用するストップリストを指定します。デフォルト設定では、デフォルトのストップリストを使用します。ストップリストは追加または編集が可能です。複数の言語を選択し、選択されているストップリストが「デフォルト」
である場合、その言語のデフォルトのストップワードがデフォルトのストップリストに追加されます(リポジトリから)。重複したストップワードは追加されません。
テーマ: すべてのドキュメントにわたるテーマの最大数を指定します。デフォルトは3000
です。
シノニム: 「シノニム」タブは、シソーラスがロードされた場合にのみ有効になります。デフォルトでは、シソーラスはロードされません。Oracle Textによって提供されているデフォルトのシソーラスを手動でロードするか、独自のシソーラスをアップロードする必要があります。
ストップリスト・エディタを開くには、「ストップリスト」をクリックします。ストップリストは、表示、編集および作成が可能です。
すべてのテキスト列に対して同じストップリストを使用できます。
Oracle Data Minerでは、モデル構築のデータに経験則を使用します。
Oracle Data Minerは次のために経験則を使用します。
モデル構築に使用される入力データの属性を決定します。
各属性のマイニング型を決定します。
関連項目
「詳細設定」ダイアログ・ボックスには、上部ペインの「モデル設定」セクションにすべてのモデルがリストされます。モデルを追加したりノードから削除できます。
詳細設定を変更または表示するには、ノードを右クリックして「詳細設定」を選択します。
モデルを削除するには、それを選択してをクリックします。
モデルを追加するには、をクリックします。「モデルの追加」ダイアログ・ボックスが開きます。
モデルのデータ使用方法を変更するには、上部ペインでモデルを選択します。「データの使用方法」で必要な変更を行います。
デフォルトのアルゴリズムを変更するには、上部ペインでモデルを選択します。「アルゴリズム設定」タブで必要な変更を行います。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。異常検出ノードのプロパティを表示するには、次の手順を実行します。
ノードを右クリックし、コンテキスト・メニューから「プロパティに移動」を選択します。
「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。
異常検出の「プロパティ」ペインには、次のセクションがあります。
「モデル」セクションには、ノードで定義されているモデルのリストが表示されます。デフォルトでは、1つのモデルが構築されます。
各モデルに対して、モデルの名前、構築情報、アルゴリズムおよびコメントがグリッド内にリストされます。「構築」列には、最新の構築成功日時、またはモデルが構築されていないか正常に構築されなかったかが示されます。
リスト内のモデルを追加、削除または表示できます。モデルが後続のノードに渡されたかどうかを示すこともできます。
モデルを削除するには、それを選択してをクリックします。
モデルを追加するには、をクリックします。「モデルの追加」モデル・ダイアログ・ボックスが開きます。
モデルを表示するにはをクリックします。適切なモデル・ビューアが開きます。
モデルを複製するには、モデルを選択してをクリックします。
「モデル設定」グリッドの「出力列」では、後続ノードへのモデルの受渡しを制御します。
デフォルトでは、すべてのモデルが後続ノードに渡されます。
モデルを無視するにはをクリックします。出力アイコンが無視アイコンに置き換わります。
無視を取り消すには、「無視」アイコンを再度クリックします。アイコンが出力アイコンに変わります。
「構築」セクションには、ノードで定義されているモデルのケースIDが表示されます。
ノード内のすべてのモデルは、同じケースIDを持ちます。ケースIDを変更するには、リストから別の属性を選択します。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
相関ノードは、1つ以上の相関モデルを定義します。構築用のデータを指定するには、データ・ソース・ノードを相関ノードに接続します。
相関ノード内のすべてのモデルは、同じ入力データを持ちます。
注意:
相関モデル用のデータは、トランザクション形式である必要があります。
相関モデルは、信頼度および支持度の低いルールを非常に多く生成する場合もあれば、ルールをまったく生成しない場合もあります。
相関構築は、パラレルに実行できます。
この項では、次の項目について説明します。
デフォルトでは、相関ノードはAprioriアルゴリズムを使用して1つのモデルを構築します。
Aprioriアルゴリズムでは、次のことが想定されます。
データはトランザクショナル・データです。
データには多くの欠損値があります。Aprioriアルゴリズムは、すべての欠損値をスパース・データとして解釈し、スパース・データを処理するための独自のメカニズムを持っています。
ノード内のすべてのモデルは、同じケースID、項目IDおよび項目値を持ちます。ケースIDは2列にすることができます。たとえば、データ・ソースSH.SALES
の場合、CUST_ID
とTIME_ID
の組合せをケースIDにすることができます。
相関ノードに対しては、自動データ準備は実行されません。「アイテム値」の値としてデフォルトの「存在」
以外の値を選択した場合、データの準備が必要な場合があります。
関連項目:
相関モデルの構築に使用されるデータは、トランザクション形式である必要があります。
相関ノードを作成するには、次の手順を実行します。
関連項目
相関構築ノード・エディタでは、作成するモデルの特性を指定または変更できます。
「アソシエーション・ビルド・ノードの編集」ダイアログ・ボックスを開くには、相関ノードをダブルクリックするか、相関ノードを右クリックして「編集」を選択します。「アソシエーション・ビルド・ノードの編集」ダイアログ・ボックスは、次で構成されています。
「ビルド」タブでは、モデル構築に必要な詳細を指定できます。
「ビルド」タブで指定する設定は次のとおりです。
トランザクションID: これらは、トランザクションを一意に識別する属性の組合せです。トランザクションIDを指定するには、をクリックします。「列の選択」ダイアログ・ボックスが開きます。1つ以上の属性を、「使用可能な属性」リストから「選択された属性」リストに移動します。「OK」をクリックします。
アイテムID: 項目を識別します。リストから属性を選択します。
アイテム値: 存在
(デフォルト)。ドロップダウン・リストから属性を選択できます。これはオプションのフィールドです。
項目値列では、(リンゴ3個などの)項目数、(マッキントッシュのリンゴなどの)項目タイプなどの情報を指定できます。
リストから属性を選択する場合、その属性は10より少ない数の個別値を持っている必要があります。最大個別件数のデフォルト値は10です。相関のモデル構築プリファレンスの値を変更できます。
注意:
項目値の属性を指定する場合、データの準備が必要な場合があります。
次のタスクを実行できます。
モデルの追加: をクリックします。「モデルの追加」ダイアログ・ボックスが開きます。
モデルの削除: モデルを選択してをクリックします。
モデルの編集: モデルを選択してをクリックします。相関ノードの詳細設定ダイアログ・ボックスが開きます。ここで、モデルの設定やアルゴリズムの設定を指定できます。
既存モデルのコピー: モデルを選択してをクリックします。
この時点で、「OK」をクリックしてモデル定義を完了できます。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
フィルタタブでは、フィルタする項目を追加できます。項目のソースはデータ・ソース・ノードであり、モデルではありません。
「詳細設定」ダイアログ・ボックスでは、モデルの追加または削除および各モデルのデフォルトのアルゴリズム設定の変更が可能です。
注意:
相関モデルで非常に多数のルールが作成される場合もあれば、ルールがまったく作成されない場合もあります。コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
コンテキスト・メニューのオプションを表示するには、ノードを右クリックします。相関ノードのコンテキスト・メニューでは、次のオプションを使用できます。
編集。「アソシエーション・ビルド・ノードの編集」ダイアログ・ボックスを開きます。
詳細設定。「アルゴリズム設定」ダイアログ・ボックスを開きます。
モデルの表示。選択したモデルのARモデル・ビューアを開きます。
パフォーマンス設定。これにより、ノードのパラレル設定およびインメモリー設定を指定できる「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
ランタイム・エラーの表示。エラーがある場合にのみ表示されます。
検証エラーの表示。検証エラーがある場合にのみ表示されます。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
相関構築ノードの「プロパティ」ペインには、次のセクションがあります。
「モデル」セクションには、ノードで定義されているモデルのリストが表示されます。デフォルトでは、1つのモデルが構築されます。
各モデルに対して、モデルの名前、構築情報、アルゴリズムおよびコメントがグリッド内にリストされます。「構築」列には、最新の構築成功日時、またはモデルが構築されていないか正常に構築されなかったかが示されます。
リスト内のモデルを追加、削除または表示できます。モデルが後続のノードに渡されたかどうかを示すこともできます。
リストからモデルを削除するには、それを選択してをクリックします。
モデルを追加するには、をクリックします。「モデルの追加」ダイアログ・ボックスが開きます。
正常に構築されているモデルを表示するには、をクリックします。適切なモデル・ビューが開きます。
モデルのコピーを作成するには、モデルを選択してをクリックします。
アルゴリズムはすでに選択されています。モデルをリストに追加するには、次の手順を実行します。
「ビルド」セクションには、ノードで定義されているモデルのトランザクションID、項目IDおよび項目値が表示されます。
ノード内のすべてのモデルは、同じトランザクションID、項目IDおよび項目値を持ちます。表示される情報は、次のとおりです。
トランザクションID: トランザクションIDを変更するには、「編集」をクリックします。
アイテムID: ドロップダウン・リストから別の項目IDを選択できます。
アイテム値: ドロップダウン・リストから別の項目値を選択できます。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
分類ノードでは、構築およびテストを行うための分類モデルを1つ以上定義します。
構築用のデータを指定するには、データ・ソース・ノードを分類ノードに接続します。分類ノード内のモデルは、すべて同じターゲットとケースIDを持ちます。ターゲットは1つのみ指定できます。分類構築は、パラレルに実行できます。
分類予測の実行には、次の2つの方法があります。
分類モデルを構築してテストします。これは、分類ノードを使用して、分類を行うための新しいデータにモデルを適用することで行います。
予測問合せの一種である予測問合せを使用します。
この項の内容は次のとおりです。
分類ノードのデフォルト動作は、特定のアルゴリズム、モデルのテストとチューニング、ケースIDなどに基づきます。
使用されるアルゴリズム: 2項ターゲットに対して、分類ノードは次の4個のアルゴリズムを使用してモデルを構築します。
ターゲットが2項ではない場合、デフォルトではGLMは構築されません。GLMモデルを明示的にノードに追加できます。モデルは、同じ構築データおよび同じターゲットを持つ必要があります。
注意:
特定のモデルの作成を望まない場合は、モデルのリストからそのモデルを削除します。モデル名の左側の青色のチェック・マークにより、後続ノードで使用されるモデルが選択されます。それにより、構築するモデルは選択されません。
モデルのテスト: デフォルトでは、すべてのモデルがテストされます。構築データを構築データ・セットおよびテスト・データ・セットにランダムに分割することにより、テスト・データは作成されます。デフォルトの分割比率は60:40です。つまり、60%の構築と40%のテストです。Oracle Data Minerは、構築表およびテスト表の作成時に、適宜圧縮を使用します。
ノードの接続: 構築データ・ソース・ノードとテスト・データ・ソース・ノードの両方を、構築ノードに接続できます。
モデルのテスト: テスト・ノードと個別のテスト・データを使用して、分類モデルをテストできます。
テスト結果の解釈
モデルのチューニング: 分類のテスト後に、各モデルをチューニングできます。
ケースID: ケースIDはオプションです。ただし、ケースIDを指定しない場合、処理は低速になります。
分類ノードでは、構築およびテストを行うための分類モデルを1つ以上定義します。
関連項目
Oracle Data Minerでは、モデル構築のデータに経験則を使用します。
Oracle Data Minerは次のために経験則を使用します。
モデル構築に使用される入力データの属性を決定します。
各属性のマイニング型を決定します。
関連項目
「分類ビルド・ノードの編集」ダイアログ・ボックスでは、構築するモデルの特性を指定または変更できます。
分類構築ノードの編集ダイアログ・ボックスを開くには、分類ノードをダブルクリックするか、分類ノードを右クリックして「編集」を選択します。
「分類ビルド・ノードの編集」ダイアログ・ボックスには次のタブがあります。
CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。関連項目
構築ノードでは、作成するモデルの特性を指定または変更できます。
構築するモデルの特性を編集するには、次の手順を実行します。
デフォルトでは、モデルは、構築データ・セットを分割して作成されたテスト・データ・セットを使用してテストされます。この方法でのモデルのテストを望まない場合は、分類ノードの「プロパティ」ペインの分類テスト・ノード・セクションに移動します。かわりに、テスト・ノードとテスト・データ・ソース・ノードを使用してモデルをテストできます。
関連項目
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
「入力」タブでは、モデル構築の入力を指定します。
すべてのモデルに対して入力を自動的に判定(経験則を使用)がデフォルトで選択されています。Oracle Data Minerにより、入力に使用する属性が決定されます。たとえば、ほぼ不変の属性は入力に適さないと考えられます。また、Oracle Data Minerはマイニング型を決定し、すべての属性に対して自動データ準備が実行されることを指定します。
注意:
R構築ノードの場合、自動データ準備は実行されません。ノードの実行後に、経験則を説明するルールが示されます。詳細情報を確認するには、「表示」をクリックします。
これらの選択内容を変更できます。これを行うには、入力を自動的に判定(経験則を使用)の選択を解除します。
関連項目:
テキストは、CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、「モデル構築の編集」ダイアログ・ボックスの「テキスト」タブでテキスト特性を指定できます。
「テキスト」タブでテキスト特性を指定する場合、テキスト・ノードを使用する必要はありません。
注意:
Oracle Database 11gリリース2 (11.2)以前に接続している場合は、テキスト・ノードを使用します。「テキスト」タブは、Oracle Database 11gリリース2以前では使用できません。
データ・マイニング用のテキスト特性を確認または指定するには、構築ノードをダブルクリックするか、ノードを右クリックしてコンテキスト・メニューから「編集」を選択します。「テキスト」タブをクリックします。
「テキスト」タブを使用すると、次を変更できます。
カテゴリ型のカットオフ値: 列がテキストまたはカテゴリのどちらのマイニング型とみなされるかを決定するために使用されるカットオフを制御できます。カットオフ値は整数です。これは、10以上4000以下である必要があります。デフォルト値は200
です。
デフォルトの変換タイプ: 列レベル・テキスト設定のデフォルトの変換タイプを指定します。値は次のとおりです。
トークン(デフォルト): 変換タイプが「トークン」の場合、「デフォルト設定」は次のようになります。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからオプションを選択します。複数の言語を選択できます。
Bigram: このオプションは、NORMAL
トークン・タイプとそのbigramを組み合せる場合に選択します。たとえば、New Yorkです。トークン・タイプはBIGRAM
です。
ステミング: デフォルトでは、このオプションは選択されていません。一部の言語ではステミングはサポートされません。選択されている言語が英語、オランダ語、フランス語、ドイツ語、イタリア語またはスペイン語である場合、ステミングは自動的に有効になっています。ステミングが有効である場合、ステミングされた語句がサポート対象言語に対して戻されます。そうでない場合は、元の語句が戻されます。
注意:
「Bigram」と「ステミング」の両方を選択した場合、トークン・タイプはSTEM_BIGRAM
です。「Bigram」も「ステミング」も選択しない場合、トークン・タイプはNORMAL
です。
「デフォルト」
である場合、その言語のデフォルトのストップワードがリポジトリからデフォルトのストップリストに追加されます。重複したストップワードは追加されません。 ストップリストの詳細を表示するには、をクリックします。「ストップリストの詳細」ダイアログ・ボックスが開きます。
新しいストップリストを追加するには、をクリックします。「新規ストップリスト・ウィザード」が開きます。
すべての行(ドキュメント)のトークンの最大数。デフォルトは3000
です。
トークンに必要な最小行(ドキュメント)数
テーマ: 「テーマ」が選択されている場合、デフォルト設定は次のとおりです。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからいずれかを選択します。複数の言語を選択できます。
ストップリスト: 使用するストップリストを指定します。デフォルト設定では、デフォルトのストップリストを使用します。ストップリストは追加または編集が可能です。複数の言語を選択し、選択されているストップリストが「デフォルト」
である場合、その言語のデフォルトのストップワードがデフォルトのストップリストに追加されます(リポジトリから)。重複したストップワードは追加されません。
テーマ: すべてのドキュメントにわたるテーマの最大数を指定します。デフォルトは3000
です。
シノニム: 「シノニム」タブは、シソーラスがロードされた場合にのみ有効になります。デフォルトでは、シソーラスはロードされません。Oracle Textによって提供されているデフォルトのシソーラスを手動でロードするか、独自のシソーラスをアップロードする必要があります。
ストップリスト・エディタを開くには、「ストップリスト」をクリックします。ストップリストは、表示、編集および作成が可能です。
すべてのテキスト列に対して同じストップリストを使用できます。
「詳細設定」ダイアログ・ボックスでは、データの使用方法およびその他のモデル指定の編集、モデルの追加とノードからの削除が可能です。
「詳細設定」ダイアログ・ボックスには、次の設定があります。
データの使用方法
アルゴリズム設定
パフォーマンス設定
詳細設定を変更または表示するには、「分類ビルド・ノードの編集」ダイアログ・ボックスでをクリックします。または、分類構築ノードを右クリックして、「詳細設定」をクリックします。
「詳細設定」ダイアログ・ボックスには、上部ペインにノード内のすべてのモデルがリストされます。ダイアログ・ボックスの上部ペインで、モデルの追加およびモデルの削除が可能です。
下部ペインで、上部ペインで選択されたモデルの次の情報を表示または編集できます。
変更可能な設定は、アルゴリズムによって異なります。
モデルをリストに追加するには、をクリックします。「モデルの追加」ダイアログ・ボックスが開きます。
関連項目
分類ノードのプロパティでは、モデル構築およびテストに関する情報を表示および変更できます。
分類モデルを構築する前に、ターゲットを指定してください。ケースIDを指定できます。ケースIDを指定しない場合、処理は低速になります。
プロパティを表示できない場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
分類ノードの「プロパティ」ペインには、次のセクションがあります。
分類ノードには、ノードの実行時に構築されるモデルがリストされます。デフォルトでは、分類構築ノードは3つの分類モデルを作成します
分類モデルでは、それぞれ異なる分類アルゴリズムが使用されます。
サポート・ベクター・マシン(SVM)
Naive Bayes (NB)
ディシジョン・ツリー(DT)
一般化線形モデル(GLM)。このアルゴリズムは、ターゲットが2項の場合のみ、デフォルトとして使用されます。多クラス・ターゲットの場合、モデルを追加する場合にGLMアルゴリズムを指定することもできます。
「モデル設定」には、構築されるモデルがリストされます。
次のタスクを実行できます。
追加: モデルを追加するには、をクリックします。「モデルの追加」ダイアログ・ボックスが開きます。
削除: モデルを削除するには、それを選択してをクリックします。
テスト結果の比較: モデルがテストされた場合、2つ以上のモデルを選択してをクリックすることで、テスト結果を比較できます。
表示: モデルが正常に構築された場合、モデルを選択してをクリックすることでモデルを表示できます。モデル・ビューアは、モデルの作成に使用されたアルゴリズムによって異なります。
複製: モデルをコピーするには、モデルを選択してをクリックします。
モデルのチューニング: モデルをチューニングするには、モデルを選択してをクリックします。このオプションはパーティション化されたモデルには使用できません。
モデルが後続のノードに渡されたかどうかを示すこともできます。
「構築」セクションには、ターゲットとクラスIDが表示されます。構築ノードは、データ・ソース・ノードに接続されている必要があります。
次のタスクを実行できます。
ターゲット: 「ターゲット」ドロップダウン・リストからターゲットを選択できます。
ケースID: ケースIDを変更または選択するには、「ケースID」ドロップダウン・リストから属性を1つ選択します。この属性は、ケースを一意に識別します。 ケースIDはオプションのフィールドです。ケースIDを選択しない場合、処理は低速になります。
「テスト」セクションでは、テストに使用されるデータおよび実行されるテストを指定します。
次の設定を指定できます。
テストの実施: 分類ノードをテストするには、このオプションを選択します。デフォルトの設定では、構築データを2つのサブセットにランダムに分割して構築されたテスト・データを使用して、構築されたすべてのモデルがテストされます。デフォルトでは、次のテストが実行されます。
パフォーマンス・メトリック
パフォーマンス・マトリックス
ROC曲線(バイナリ・クラスのみ)
リフトおよび利益: 頻度による上位5件のターゲット・クラスのリフトおよび利益。「編集」をクリックします。「ターゲット値の選択」ダイアログ・ボックスが開きます。
チューニングに対して選択したテスト結果を生成: モデルのチューニングを計画している場合は、テスト・ノードではなく、構築ノード内でモデルをテストする必要があります。
注意:
このオプションはパーティション化されたモデルには使用できません。
テスト・データ: テスト・データを作成するための次のいずれかのオプションを選択します。
テストにすべてのマイニング構築データを使用
テストに分割ビルドデータを使用
テストの分割(%)
次の分割を作成: 表
(デフォルト)
テストにテストデータソースを使用: 構築データを接続した後にテスト・データ・ソースを構築ノードに接続するには、このオプションを選択します。
注意:
モデルをテストする別の方法は、テスト・ノードの使用です。
関連項目:
「ターゲット値の選択」ダイアログ・ボックスでは、頻度カウントを変更することで、ターゲット値の数を変更できます。
「ターゲット値の選択」ダイアログ・ボックスには、選択したターゲット値の数が表示されます。デフォルトのオプションの「自動」では、頻度による上位5件のターゲット・クラス値が使用されます。「頻度カウント」を変更することで、ターゲット値の数を変更できます。「最低発生回数を使用」のオプションを選択することもできます。
自動: デフォルトで、頻度による上位5件のターゲット・クラス値を使用します。
頻度カウント: この値の値を変更して、ターゲット値の数を変更できます。
最低発生回数を使用
最高発生回数を使用
カスタム: 特定のターゲット値を指定するには、このオプションを使用します。次に、値を「使用可能な値」から「選択した値」に移動します。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
クラスタリング・ノードは、k-Means、O-Clusterおよび期待値の最大化の各アルゴリズムを使用してクラスタリング・モデルを構築します。
データのクラスタリングには、次の2つの方法があります。
クラスタリング・モデルを構築する。分類ノードを使用します。次に、モデルを新しいデータに適用してクラスタを作成します。
予測問合せの一種であるクラスタリング問合せを使用する。
クラスタリング構築は、パラレルに実行できます。
注意:
期待値の最大化モデルでは、Oracle Database 12cリリース 1 (12.1)以上が必要です。
この項では、次の項目について説明します。
クラスタリング問合せノードは、3つの異なるアルゴリズムを使用して3つのモデルを構築します。
クラスタリング・ノードで使用されるアルゴリズムは、次のとおりです。
k-Meansアルゴリズム(KM)
直交パーティショニング・クラスタリング(OC)
期待値の最大化(EM)。EMには、Oracle Database 12cリリース1 (12.1)以上が必要です。
ケースIDはオプションです。
モデルはすべて同じ構築データを持ちます。
注意:
任意のモデルの作成を望まない場合は、モデルのリストからそのモデルを削除します。モデル名の左の青色のチェックマークにより、「適用」などの後続ノードで使用されるモデルが選択されます。それにより、構築するモデルは選択されません。
クラスタリング・ノードを作成し、k-Means、O-Clusterおよび期待値の最大化の各アルゴリズムを使用してクラスタリング・モデルを構築します。
Oracle Data Minerでは、モデル構築のデータに経験則を使用します。
Oracle Data Minerは次のために経験則を使用します。
モデル構築に使用される入力データの属性を決定します。
各属性のマイニング型を決定します。
関連項目
「クラスタリング・ビルド・ノードの編集」ダイアログ・ボックスでは、構築するモデルの特性を指定または変更できます。
「クラスタリング・ビルド・ノードの編集」ダイアログ・ボックスを開くには、クラスタリング・ノードをダブルクリックします。または、クラスタリング・ノードを右クリックして「編集」を選択します。
「クラスタリング・ビルド・ノードの編集」ダイアログ・ボックスには次の3つのタブがあります。
CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。関連項目
「構築」タブでは、作成するモデルの特性を指定または変更できます。
構築するモデルの特性を編集するには、次の手順を実行します。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
「入力」タブでは、モデル構築の入力を指定します。
すべてのモデルに対して入力を自動的に判定(経験則を使用)がデフォルトで選択されています。Oracle Data Minerにより、入力に使用する属性が決定されます。たとえば、ほぼ不変の属性は入力に適さないと考えられます。また、Oracle Data Minerはマイニング型を決定し、すべての属性に対して自動データ準備が実行されることを指定します。
注意:
R構築ノードの場合、自動データ準備は実行されません。ノードの実行後に、経験則を説明するルールが示されます。詳細情報を確認するには、「表示」をクリックします。
これらの選択内容を変更できます。これを行うには、入力を自動的に判定(経験則を使用)の選択を解除します。
関連項目:
テキストは、CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、「モデル構築の編集」ダイアログ・ボックスの「テキスト」タブでテキスト特性を指定できます。
「テキスト」タブでテキスト特性を指定する場合、テキスト・ノードを使用する必要はありません。
注意:
Oracle Database 11gリリース2 (11.2)以前に接続している場合は、テキスト・ノードを使用します。「テキスト」タブは、Oracle Database 11gリリース2以前では使用できません。
データ・マイニング用のテキスト特性を確認または指定するには、構築ノードをダブルクリックするか、ノードを右クリックしてコンテキスト・メニューから「編集」を選択します。「テキスト」タブをクリックします。
「テキスト」タブを使用すると、次を変更できます。
カテゴリ型のカットオフ値: 列がテキストまたはカテゴリのどちらのマイニング型とみなされるかを決定するために使用されるカットオフを制御できます。カットオフ値は整数です。これは、10以上4000以下である必要があります。デフォルト値は200
です。
デフォルトの変換タイプ: 列レベル・テキスト設定のデフォルトの変換タイプを指定します。値は次のとおりです。
トークン(デフォルト): 変換タイプが「トークン」の場合、「デフォルト設定」は次のようになります。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからオプションを選択します。複数の言語を選択できます。
Bigram: このオプションは、NORMAL
トークン・タイプとそのbigramを組み合せる場合に選択します。たとえば、New Yorkです。トークン・タイプはBIGRAM
です。
ステミング: デフォルトでは、このオプションは選択されていません。一部の言語ではステミングはサポートされません。選択されている言語が英語、オランダ語、フランス語、ドイツ語、イタリア語またはスペイン語である場合、ステミングは自動的に有効になっています。ステミングが有効である場合、ステミングされた語句がサポート対象言語に対して戻されます。そうでない場合は、元の語句が戻されます。
注意:
「Bigram」と「ステミング」の両方を選択した場合、トークン・タイプはSTEM_BIGRAM
です。「Bigram」も「ステミング」も選択しない場合、トークン・タイプはNORMAL
です。
「デフォルト」
である場合、その言語のデフォルトのストップワードがリポジトリからデフォルトのストップリストに追加されます。重複したストップワードは追加されません。 ストップリストの詳細を表示するには、をクリックします。「ストップリストの詳細」ダイアログ・ボックスが開きます。
新しいストップリストを追加するには、をクリックします。「新規ストップリスト・ウィザード」が開きます。
すべての行(ドキュメント)のトークンの最大数。デフォルトは3000
です。
トークンに必要な最小行(ドキュメント)数
テーマ: 「テーマ」が選択されている場合、デフォルト設定は次のとおりです。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからいずれかを選択します。複数の言語を選択できます。
ストップリスト: 使用するストップリストを指定します。デフォルト設定では、デフォルトのストップリストを使用します。ストップリストは追加または編集が可能です。複数の言語を選択し、選択されているストップリストが「デフォルト」
である場合、その言語のデフォルトのストップワードがデフォルトのストップリストに追加されます(リポジトリから)。重複したストップワードは追加されません。
テーマ: すべてのドキュメントにわたるテーマの最大数を指定します。デフォルトは3000
です。
シノニム: 「シノニム」タブは、シソーラスがロードされた場合にのみ有効になります。デフォルトでは、シソーラスはロードされません。Oracle Textによって提供されているデフォルトのシソーラスを手動でロードするか、独自のシソーラスをアップロードする必要があります。
ストップリスト・エディタを開くには、「ストップリスト」をクリックします。ストップリストは、表示、編集および作成が可能です。
すべてのテキスト列に対して同じストップリストを使用できます。
「詳細設定」ダイアログ・ボックスでは、データの使用方法およびモデルで使用されているアルゴリズムに関連する設定を確認および変更できます。
「詳細設定」にアクセスするには、「クラスタリング・ビルド・ノードの編集」ダイアログ・ボックスでをクリックします。または、ノードを右クリックして、「詳細設定」を選択します。「詳細設定」ダイアログ・ボックスには、上部ペインにすべてのモデルがリストされます。
次のタスクを実行できます。
データの使用方法およびアルゴリズムの検査と変更
ノードへのモデルの追加
ノードからのモデルの削除
下部ペインでは、上部ペインで選択されたモデルのデータの使用方法およびアルゴリズム設定を表示および変更できます。次の詳細を編集できます。
変更可能な設定は、アルゴリズムによって異なります。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
クラスタリング構築ノードのプロパティには、次のセクションがあります。
「プロパティ」の「モデル」セクションには、ノードの実行時に構築されるモデルがリストされます。
デフォルトでは、KM、OCおよびEMの各アルゴリズムを使用して2つのクラスタリング・モデルが構築されます。
「モデル設定」グリッドには、ノード内のモデルがリストされます。次のタスクを実行できます。
モデルの検索
モデルの削除
モデルの複製
モデルの表示
後続ノードに渡されるモデルの指定。
「モデル設定」グリッドの「出力」列では、後続ノードへのモデルの受渡しを制御します。
デフォルトでは、すべてのモデルが後続ノードに渡されます。
モデルを無視するには、つまり後続ノードに渡さないようにするには、をクリックします。出力アイコンがに変わります。
無視を取り消すには、「無視」アイコンを再度クリックします。アイコンが出力アイコンに変わります。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
コンテキスト・メニューのオプションを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
編集。「アソシエーション・ビルド・ノードの編集」ダイアログ・ボックスを開きます。
詳細設定。相関ノードの詳細設定ダイアログ・ボックスを開きます。
モデルの表示。選択したモデルの適切なビューア(KMモデル・ビューアまたはOCモデル・ビューア)を開きます。
パフォーマンス設定。これにより、ノードのパラレル設定およびインメモリー設定を指定できる「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
イベント・ログの表示。ノードの実行に失敗した場合にのみ表示されます。
明示的特徴抽出ノードは、明示的セマンティック分析(ESA)と呼ばれる特徴抽出アルゴリズムを使用して構築されます。
ESAは、個々のワードまたはドキュメント全体の場合があるテキストのベクトル表現です。このアルゴリズムでは、ナレッジ・ベースとしてドキュメント・コーパスを使用します。ESAでは、ワードは、テキスト・コーパスのtf-idfマトリックスの列ベクトルとして表現され、ドキュメントは、そのワードを表すベクトルの重心として表現されます。Oracle Data Miningには、Wikipediaに基づく事前構築済のESAモデルが用意されています。そのモデルをマイニング用にOracle Data Minerにインポートできます。
明示的特徴抽出ノードは、次の目的で使用できます。
ドキュメント分類
セマンティックに関連する計算
情報の取得
明示的特徴抽出ノードは、情報取得やドキュメント分類に関連する目的およびセマンティックに関連する他のすべての計算のために作成します。
関連項目
明示的特徴抽出ノードを作成すると、デフォルトのアルゴリズム設定を持つESAモデルが追加されます。明示的特徴抽出ノードの編集ダイアログ・ボックスでさらにESAモデルを追加したり、編集できます。
明示的特徴抽出ノードの編集ダイアログ・ボックスには、次のタブがあります。
CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。関連項目
「構築」タブでは、作成するモデルの特性を指定または変更できます。
構築するモデルの特性を編集するには、次の手順を実行します。
関連項目
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
パーティション化列によって、各一意のパーティションに仮想モデルが構築されます。仮想モデルでは、特定のパーティションのデータのみを使用するため、パーティションを選択しない場合よりも正確にケースを予測できる可能性があります。
属性を選択する他、パーティション化式を指定することもできます。パーティション化式は連結され、結果式はどの予測機能に対しても同じです。
オプションで、パーティション化式を追加できます。
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
「入力」タブでは、モデル構築の入力を指定します。
すべてのモデルに対して入力を自動的に判定(経験則を使用)がデフォルトで選択されています。Oracle Data Minerにより、入力に使用する属性が決定されます。たとえば、ほぼ不変の属性は入力に適さないと考えられます。また、Oracle Data Minerはマイニング型を決定し、すべての属性に対して自動データ準備が実行されることを指定します。
注意:
R構築ノードの場合、自動データ準備は実行されません。ノードの実行後に、経験則を説明するルールが示されます。詳細情報を確認するには、「表示」をクリックします。
これらの選択内容を変更できます。これを行うには、入力を自動的に判定(経験則を使用)の選択を解除します。
関連項目:
テキストは、CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、「モデル構築の編集」ダイアログ・ボックスの「テキスト」タブでテキスト特性を指定できます。
「テキスト」タブでテキスト特性を指定する場合、テキスト・ノードを使用する必要はありません。
注意:
Oracle Database 11gリリース2 (11.2)以前に接続している場合は、テキスト・ノードを使用します。「テキスト」タブは、Oracle Database 11gリリース2以前では使用できません。
データ・マイニング用のテキスト特性を確認または指定するには、構築ノードをダブルクリックするか、ノードを右クリックしてコンテキスト・メニューから「編集」を選択します。「テキスト」タブをクリックします。
「テキスト」タブを使用すると、次を変更できます。
カテゴリ型のカットオフ値: 列がテキストまたはカテゴリのどちらのマイニング型とみなされるかを決定するために使用されるカットオフを制御できます。カットオフ値は整数です。これは、10以上4000以下である必要があります。デフォルト値は200
です。
デフォルトの変換タイプ: 列レベル・テキスト設定のデフォルトの変換タイプを指定します。値は次のとおりです。
トークン(デフォルト): 変換タイプが「トークン」の場合、「デフォルト設定」は次のようになります。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからオプションを選択します。複数の言語を選択できます。
Bigram: このオプションは、NORMAL
トークン・タイプとそのbigramを組み合せる場合に選択します。たとえば、New Yorkです。トークン・タイプはBIGRAM
です。
ステミング: デフォルトでは、このオプションは選択されていません。一部の言語ではステミングはサポートされません。選択されている言語が英語、オランダ語、フランス語、ドイツ語、イタリア語またはスペイン語である場合、ステミングは自動的に有効になっています。ステミングが有効である場合、ステミングされた語句がサポート対象言語に対して戻されます。そうでない場合は、元の語句が戻されます。
注意:
「Bigram」と「ステミング」の両方を選択した場合、トークン・タイプはSTEM_BIGRAM
です。「Bigram」も「ステミング」も選択しない場合、トークン・タイプはNORMAL
です。
「デフォルト」
である場合、その言語のデフォルトのストップワードがリポジトリからデフォルトのストップリストに追加されます。重複したストップワードは追加されません。 ストップリストの詳細を表示するには、をクリックします。「ストップリストの詳細」ダイアログ・ボックスが開きます。
新しいストップリストを追加するには、をクリックします。「新規ストップリスト・ウィザード」が開きます。
すべての行(ドキュメント)のトークンの最大数。デフォルトは3000
です。
トークンに必要な最小行(ドキュメント)数
テーマ: 「テーマ」が選択されている場合、デフォルト設定は次のとおりです。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからいずれかを選択します。複数の言語を選択できます。
ストップリスト: 使用するストップリストを指定します。デフォルト設定では、デフォルトのストップリストを使用します。ストップリストは追加または編集が可能です。複数の言語を選択し、選択されているストップリストが「デフォルト」
である場合、その言語のデフォルトのストップワードがデフォルトのストップリストに追加されます(リポジトリから)。重複したストップワードは追加されません。
テーマ: すべてのドキュメントにわたるテーマの最大数を指定します。デフォルトは3000
です。
シノニム: 「シノニム」タブは、シソーラスがロードされた場合にのみ有効になります。デフォルトでは、シソーラスはロードされません。Oracle Textによって提供されているデフォルトのシソーラスを手動でロードするか、独自のシソーラスをアップロードする必要があります。
ストップリスト・エディタを開くには、「ストップリスト」をクリックします。ストップリストは、表示、編集および作成が可能です。
すべてのテキスト列に対して同じストップリストを使用できます。
「詳細モデル設定」ダイアログ・ボックスでは、選択した明示的セマンティック分析モデルのアルゴリズム設定を編集および指定できます。
明示的セマンティックアルゴリズム(ESA)モデルのアルゴリズム設定は3つのみです。
データの使用方法: 属性名、データ型、マイニング型および選択したモデルの属性に関するその他の詳細が表示されます。ここで入力ソースをカスタマイズできます。
アルゴリズム設定: ESAモデルのアルゴリズム設定は次のとおりです。
上位N機能: これにより、属性ごとの特徴の最大数が制御されます。正の整数である必要があります。デフォルトは1000
です。
最小アイテム: これにより、入力行に表示する必要があるゼロ以外のエントリの最小数が決まります。
しきい値: この設定により、変換される構築データの小さい値がしきい値処理されます。負でない数値である必要があります。デフォルトは0.00000001
です。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
明示的特徴抽出構築ノードのプロパティには、次のセクションがあります。
「モデル」セクションには、ノードで定義されているモデルのリストが表示されます。デフォルトでは、ノードでサポートされているアルゴリズムごとに1つのモデルが構築されます。
各モデルに対して、モデルの名前、構築情報、アルゴリズムおよびコメントがグリッド内にリストされます。「構築」列には、最新の構築成功日時、またはモデルが構築されていないか正常に構築されなかったかが示されます。
リスト内のモデルを追加、削除または表示できます。モデルが後続のノードに渡されたかどうかを示すこともできます。
リストからモデルを削除するには、それを選択してをクリックします。
モデルを追加するには、をクリックします。「モデルの追加」ダイアログ・ボックスが開きます。
正常に構築されたモデルを表示するには、モデルを選択してをクリックします。
分類モデルは「プロパティ」ペインからチューニングできます。
関連項目:
「ビルド」セクションには、モデル構築に関連する情報が表示されます。分類や回帰などのターゲットを持つモデルでは、ターゲットがリストされます。ノード内のすべてのモデルは、同じターゲットを持ちます。
「構築」セクションには、次が表示されます。
ターゲット: ターゲットが表示されます。ターゲットを変更するには、ドロップダウン・リストから新しいターゲットを選択します。
ケースID: このノードで定義されたモデルのケースIDが表示されます。ノード内のすべてのモデルは、同じケースIDを持ちます。ケースIDを編集するには、ドロップダウン・リストから別のケースIDを選択します。
トランザクションID: 相関モデルに対してのみ表示されます。トランザクションIDを変更するには、「編集」をクリックします。
項目ID: 相関モデルに対してのみ表示されます。値を変更するには、ドロップダウン・リストからオプションを選択します。
項目値: 相関モデルに対してのみ表示されます。値を変更するには、ドロップダウン・リストからオプションを選択します。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
コンテキスト・メニューのオプションを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
編集。明示的特徴抽出ノードの編集ダイアログ・ボックスを開きます。
詳細設定。「詳細モデル設定」ダイアログ・ボックスを開きます。
モデルの表示。ESAモデル・ビューアを開きます。
パフォーマンス設定。これにより、ノードのパラレル設定およびインメモリー設定を指定できる「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
画像をクリップボードにコピー
画像を別名で保存。「ダイアグラムの公開」ダイアログ・ボックスが開きます。
特徴抽出ノードでは、Non-negative Matrix Factorization (NMF)アルゴリズムを使用してモデルを構築します。
特徴の抽出には、次の2つの方法があります。
特徴抽出ノードを使用して特徴抽出モデルを構築します。
予測問合せの一種である特徴抽出問合せを使用します。
Oracle Data MinerがOracle Database 12cリリース1 (12.1)以上に接続している場合、特徴抽出ノードはPCAおよびSVDアルゴリズムを使用してモデルを構築します。
注意:
主成分分析モデルおよび特異値分解モデルは、Oracle Database 12cリリース1 (12.1)以上を必要とします。
特徴抽出構築は、パラレルに実行できます。
この項では、次の項目について説明します。
デフォルトでは、特徴抽出ノードでは、Non-Negative Matrix Factorization (NMF)アルゴリズムを使用してモデルを1つ構築します。
Oracle Database 12c以上に接続している場合、ノードはデフォルトで次の2つのモデルを構築します。
NMFモデル
PCAモデル
SVDモデルを追加できます。
ノード内のすべてのモデルは同じ構築データを使用し、ケースIDを指定した場合は同じケースIDを持ちます。
特徴抽出モデルを構築するには、特徴抽出ノードを作成します。ノードでは、Nonnegative Matrix Factorization (NMF)アルゴリズムが使用されます。
関連項目
Oracle Data Minerでは、モデル構築のデータに経験則を使用します。
Oracle Data Minerは次のために経験則を使用します。
モデル構築に使用される入力データの属性を決定します。
各属性のマイニング型を決定します。
関連項目
「特徴抽出ビルド・ノードの編集」ダイアログ・ボックスでは、構築するモデルの特性を指定または変更できます。
特徴構築ノードを編集するには、特徴構築ノードをダブルクリックするか、このノードを右クリックして「編集」を選択します。「機能抽出ビルド・ノードの編集」ダイアログ・ボックスが開きます。特徴構築ノードをワークフローにドロップしても、同じダイアログ・ボックスが開きます。
特徴抽出構築の編集ダイアログ・ボックスには次の3つのタブがあります。
CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。関連項目
「ビルド」タブでは、特徴抽出構築ノードに関連する設定を編集できます。
次のタスクを実行できます。
ケースID: 特徴抽出のケースIDの指定はオプションです。ドロップダウン・リストから属性を選択することでこれを指定します。
モデルの追加: モデルを追加するには、をクリックします
削除: モデルを削除するには、モデルを選択してをクリックします。
コピー: 既存のモデルをコピーするには、モデルを選択してをクリックします。
関連項目
「モデルの追加」ダイアログ・ボックスでは、モデルを追加できます。
モデルを追加するには、をクリックします。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
「入力」タブでは、モデル構築の入力を指定します。
すべてのモデルに対して入力を自動的に判定(経験則を使用)がデフォルトで選択されています。Oracle Data Minerにより、入力に使用する属性が決定されます。たとえば、ほぼ不変の属性は入力に適さないと考えられます。また、Oracle Data Minerはマイニング型を決定し、すべての属性に対して自動データ準備が実行されることを指定します。
注意:
R構築ノードの場合、自動データ準備は実行されません。ノードの実行後に、経験則を説明するルールが示されます。詳細情報を確認するには、「表示」をクリックします。
これらの選択内容を変更できます。これを行うには、入力を自動的に判定(経験則を使用)の選択を解除します。
関連項目:
テキストは、CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、「モデル構築の編集」ダイアログ・ボックスの「テキスト」タブでテキスト特性を指定できます。
「テキスト」タブでテキスト特性を指定する場合、テキスト・ノードを使用する必要はありません。
注意:
Oracle Database 11gリリース2 (11.2)以前に接続している場合は、テキスト・ノードを使用します。「テキスト」タブは、Oracle Database 11gリリース2以前では使用できません。
データ・マイニング用のテキスト特性を確認または指定するには、構築ノードをダブルクリックするか、ノードを右クリックしてコンテキスト・メニューから「編集」を選択します。「テキスト」タブをクリックします。
「テキスト」タブを使用すると、次を変更できます。
カテゴリ型のカットオフ値: 列がテキストまたはカテゴリのどちらのマイニング型とみなされるかを決定するために使用されるカットオフを制御できます。カットオフ値は整数です。これは、10以上4000以下である必要があります。デフォルト値は200
です。
デフォルトの変換タイプ: 列レベル・テキスト設定のデフォルトの変換タイプを指定します。値は次のとおりです。
トークン(デフォルト): 変換タイプが「トークン」の場合、「デフォルト設定」は次のようになります。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからオプションを選択します。複数の言語を選択できます。
Bigram: このオプションは、NORMAL
トークン・タイプとそのbigramを組み合せる場合に選択します。たとえば、New Yorkです。トークン・タイプはBIGRAM
です。
ステミング: デフォルトでは、このオプションは選択されていません。一部の言語ではステミングはサポートされません。選択されている言語が英語、オランダ語、フランス語、ドイツ語、イタリア語またはスペイン語である場合、ステミングは自動的に有効になっています。ステミングが有効である場合、ステミングされた語句がサポート対象言語に対して戻されます。そうでない場合は、元の語句が戻されます。
注意:
「Bigram」と「ステミング」の両方を選択した場合、トークン・タイプはSTEM_BIGRAM
です。「Bigram」も「ステミング」も選択しない場合、トークン・タイプはNORMAL
です。
「デフォルト」
である場合、その言語のデフォルトのストップワードがリポジトリからデフォルトのストップリストに追加されます。重複したストップワードは追加されません。 ストップリストの詳細を表示するには、をクリックします。「ストップリストの詳細」ダイアログ・ボックスが開きます。
新しいストップリストを追加するには、をクリックします。「新規ストップリスト・ウィザード」が開きます。
すべての行(ドキュメント)のトークンの最大数。デフォルトは3000
です。
トークンに必要な最小行(ドキュメント)数
テーマ: 「テーマ」が選択されている場合、デフォルト設定は次のとおりです。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからいずれかを選択します。複数の言語を選択できます。
ストップリスト: 使用するストップリストを指定します。デフォルト設定では、デフォルトのストップリストを使用します。ストップリストは追加または編集が可能です。複数の言語を選択し、選択されているストップリストが「デフォルト」
である場合、その言語のデフォルトのストップワードがデフォルトのストップリストに追加されます(リポジトリから)。重複したストップワードは追加されません。
テーマ: すべてのドキュメントにわたるテーマの最大数を指定します。デフォルトは3000
です。
シノニム: 「シノニム」タブは、シソーラスがロードされた場合にのみ有効になります。デフォルトでは、シソーラスはロードされません。Oracle Textによって提供されているデフォルトのシソーラスを手動でロードするか、独自のシソーラスをアップロードする必要があります。
ストップリスト・エディタを開くには、「ストップリスト」をクリックします。ストップリストは、表示、編集および作成が可能です。
すべてのテキスト列に対して同じストップリストを使用できます。
特徴抽出の詳細設定のオプションを使用すると、ノード内の各モデルのデータの使用方法およびアルゴリズム設定を検査および変更できます。
次を実行できます。
データの使用方法を検査および変更します。
ノード内の各モデルのアルゴリズム設定を変更します。
詳細設定を変更または表示するには、「機能抽出ビルド・ノードの編集」ダイアログ・ボックスでをクリックします。または、ノードを右クリックして、「詳細設定」 を選択します。詳細設定を選択することにより、ノード内の各モデルのデータの使用方法およびアルゴリズム設定を検査および変更できます。
上部ペインに、すべてのモデルがリストされます。次のタスクを実行できます。
削除: モデルを削除するには、それを選択してをクリックします。
追加: モデルを追加するには、をクリックします。
下部ペインで、上部ペインで選択されたモデルの次の情報を表示または編集できます。
設定は、アルゴリズムによって異なります。
PCAおよびSVDは、Oracle Data MinerがOracle Database 12cリリース1 (12.1)以上に接続している場合に使用可能です。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
モデル: モデル設定の詳細が表示されます。ここでモデルを編集できます。
ビルド: このノードで定義されているモデルのケースIDが表示されます。ノード内のすべてのモデルは、同じケースIDを持ちます。ケースIDを編集するには、「ケースID」リストから別の属性を選択します。
パーティション: パーティション化されたモデルに関連する詳細が表示されます。ここでパーティション化されたモデルを追加および変更できます。
詳細: 特徴抽出ノードに関連する詳細が表示されます。
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
コンテキスト・メニューのオプションを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
編集: 「特徴抽出ビルド・ノードの編集」ダイアログ・ボックスを開きます。
詳細設定: 特徴抽出の詳細設定ダイアログ・ボックスを開きます。
モデルの表示: 選択したモデルのNMFモデル・ビューアを開きます。
パフォーマンス設定: これにより、ノードのパラレル設定およびインメモリー設定を指定できる「選択したノードの設定の編集」ダイアログ・ボックスが開きます。
ランタイム・エラーの表示。エラーがある場合にのみ表示されます。
検証エラーの表示。検証エラーがある場合にのみ表示されます。
モデル・ノードは、その定義にデータベース・リソースを使用します。データベース・リソースが変更された場合は、ノード定義のリフレッシュが必要になることがあります。
たとえば、リソースが削除または再作成された場合です。いずれかのODM APIを使用して構築されたモデルを指定できます。モデル・ノード内のモデルはモデルの制約を満たしている必要があります。
モデル・ノードは入力を取りません。モデル・ノードは、少なくとも一部の関数タイプについては、適用ノード、テスト・ノードなど、モデルを受け入れる任意のノードの入力にすることができます。たとえば、モデル・ノードに分類モデルまたは回帰モデルが含まれている場合、それをテスト・ノードの入力にすることができます。テスト・データは、構築データを準備する方法と同じ方法で準備する必要があります。
モデル・ノードでは、ワークフローで構築されていないモデルを、そのワークフローに追加できます。
ワークフローにモデル・ノードを追加して、モデル・ノードにモデルを追加するには、次の手順を実行します。
関連項目
「モデル選択の編集」ダイアログ・ボックスでは、モデル・ノードに含める、またはモデル・ノードからモデルを削除するための、1つ以上のモデルを選択できます。
ノード内のモデルを編集するには、モデル・ノードをダブルクリックするか、モデル・ノードを右クリックして「編集」を選択します。
注意:
モデル・ノード内のすべてのモデルはモデルの制約を満たしている必要があります。
次のタスクを実行できます。
「使用可能な互換モデル」リストからモデルを選択し、リスト間のコントロールを使用してこれらを「選択したモデル」リストに移動します。選択したモデルは互換性がチェックされます。モデル・ノード内のモデルはモデルの制約を満たしている必要があります。選択したモデルは、モデル・ノードの一部になります。モデル・ノードのプロパティを使用してモデルを表示できます。
他のスキーマからのモデルを含めます。モデルを含めるには、「他のスキーマからのモデルを含める」 を選択します。
次の方法を使用して、「使用可能な互換モデル」リストをフィルタ処理します。
モデル関数リストからモデル関数を選択します。オプションは次のとおりです。
すべて
異常検出
相関ルール
回帰
クラスタリング
機能抽出
モデルを名前、関数、アルゴリズム、ターゲット、ターゲット・データ型、作成日またはコメントでソートします。ソートを行うには、使用可能モデルのリスト内の列ヘッダーをクリックします。
モデルを追加または削除します。
モデルを「使用可能な互換モデル」リストから「選択したモデル」リストに移動して、これらを追加します。
モデルを「選択したモデル」リストから「使用可能な互換モデル」リストに移動して、これらを削除します。「モデル」タブを使用してモデルを削除することもできます。
モデル・ノードは、類似したモデルで構成されています。モデル・ノード内のモデルは、次を満たしている必要があります。
すべてのモデルの関数タイプ(分類、回帰、クラスタリング、異常検出、相関ルールまたは特徴検出)が同じである必要があります。異なる関数タイプのモデルを含めることはできません。
モデルが異なるアルゴリズムを使用して構築されていても、同じ関数タイプを持つ場合、それらのモデルを追加できます。
分類モデルまたは回帰モデルは、同じターゲット属性を持つ必要があります。ターゲット属性は、すべて同じデータ型を持つ必要があります。
CHAR
およびVARCHAR2
は、分類モデルでは同じデータ型とみなされます。
分類モデルは、同じターゲット値のリストを持つ必要があります。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
モデル・ノードの「プロパティ」ペインでは、次が可能です。
モデル・ノードへのモデルの追加
モデル・ノードからのモデルの削除
モデル・ノード内のモデルの表示
モデル・ノードのソース・ノードの「プロパティ」ペインには、次のセクションがあります。
「モデル」セクションでは、モデルが使用するマイニング機能を示し、ノード内のすべてのモデルをグリッドにリストします。
モデルの検索、モデルの追加、およびモデルの削除が可能です。次のタスクを実行できます。
モデルの追加: モデルを追加するには、次の手順を実行します。
をクリックします。「モデル選択の編集」ダイアログ・ボックスが開きます。
「モデル選択の編集」ダイアログ・ボックスで、ノードに追加するモデルを選択します。他のスキーマからもモデルを追加できます。ただし、追加するモデルは、すべてノード内の既存のモデルと互換性がある必要があります。
「OK」をクリックします。これでモデルがノードに追加されます。モデル・ノードの「プロパティ」ペインに移動して、モデルを表示できます。
モデルの削除: モデルを削除するには、モデルを選択してをクリックします。
モデルの表示: モデルを表示するには、モデルを選択してをクリックします。
モデルのリフレッシュ: モデルをリフレッシュするには、をクリックします。サーバー上のデータが変更された場合、ノードのリフレッシュが必要となる場合があります。
関連項目:
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
モデル詳細ノードは、モデルとアルゴリズムに関する情報を抽出し、提供します。
モデル詳細ノードは、アプリケーション開発者にとって最も有用です。モデル詳細ノードは、次の機能を実行します。
モデル構築ノード、モデル・ノードまたはモデルを出力する任意のノードから、モデルの詳細を抽出します。
モデル属性と、アルゴリズムによるその処理に関する情報を表示します。出力は選択されたモデルのタイプおよび指定した特定のモデル詳細のタイプにより異なります。
モデル詳細ノードの出力は、データ・フローです。データを永続化するには、表またはビュー作成ノードを使用します。
モデル詳細ノードは、パラレルに実行できます。
モデル詳細ノードに関するこの項では、次の項目について説明します。
モデル詳細ノードの入力は、構築ノード(任意のモデル・タイプ)またはモデル・ノードのいずれかです。
構築ノードまたはモデル・ノード内のすべてのモデルは、同じマイニング機能タイプを持っている必要があります。たとえば、1つが分類モデルの場合、これらのすべては分類モデルである必要があります。
モデル詳細ノードの出力は、モデル詳細指定に基づくデータ・フローです。データを永続化するには、表またはビュー作成ノードを使用します。
モデル詳細ノード・エディタでは、ノードにより提供されるモデルの詳細を表示または指定できます。
「選択したモデル」セクションで、モデル、ノード、アルゴリズムおよびパーティション・キーを表示できます。「モデル詳細ノードの編集」を開くには、モデル詳細ノードをダブルクリックします。または、モデル詳細ノードを右クリックして「編集」を選択します。
次のタスクを実行できます。
自動設定: このオプションが選択されている場合(デフォルト)、システムにより指定が決定されます。出力タイプ、アルゴリズム・タイプまたは選択されたモデルは変更できません。
ファンクション: 接続されている入力ノードのファンクション・タイプが表示されます。たとえば、分類ノードがモデル詳細に接続されている場合、ファンクションは「分類」です。入力ノードが接続されていない場合、それは未定義です。
モデル・タイプ: 「すべて」
を含む、使用可能なアルゴリズムのリストが表示されます。モデル・タイプを選択します。
出力: アルゴリズムのモデル詳細の出力タイプを選択します。使用できるオプションは次のとおりです。
属性ヒストグラム
重心
重心スコアリング(K-Meansでのみ使用可能)
ツリー全体
モデル・シグネチャ
ルール
「期待値の最大化」を選択した場合、使用可能な出力タイプは次のとおりです。
属性ガウス分布
属性ヒストグラム
重心
コンポーネント・ベルヌーイ分布
コンポーネント・クラスタ
事前コンポーネント
コンポーネント
ツリー全体
グローバル詳細
モデル・シグネチャ
予測
ルール
「R拡張」を選択した場合、使用可能な出力タイプは次のとおりです。
モデル・シグネチャ
Rモデル詳細
列: 「列」をクリックして、選択されている出力タイプの列のリスト(名前とデータ型)を表示します。
追加: モデル・タイプの追加または出力タイプの編集を行うには、自動指定の選択を解除します。別のモデル・タイプを追加するには、モデル・タイプを選択してをクリックします。「モデル詳細ノードの編集」ダイアログ・ボックスが開きます。デフォルトの指定をそのまま使用することも変更することも可能です。
モデル選択詳細の編集では、マイニング機能、モデル・タイプ、出力タイプ、使用可能な互換モデルおよび選択したモデルに関連する一般情報が2つのセクションに表示されます。
モデル選択詳細の編集ダイアログ・ボックスの上部ペインには、一般情報が含まれます。
ファンクション: 接続されている入力ノードのファンクション・タイプが表示されます。たとえば、分類ノードがモデル詳細に接続されている場合、ファンクションは「分類」です。入力ノードが接続されていない場合、それは未定義です。
モデル・タイプ: アルゴリズムを表示します。すでに選択されているモデルが存在する場合(「選択したモデル」にリストされます)、「モデル・タイプ」フィールドは無効になり、すでに選択したモデルと一致しています。すべてのモデルを「選択したモデル」グリッドから移動すると、「モデル・タイプ」フィールドは再び有効になります。「モデル・タイプ」が有効である場合、モデルを選択できます。デフォルトは、「すべてのモデル」
です。
出力タイプ: 指定されたモデル・タイプに使用可能な出力タイプ(モデル問合せ)のリストが表示されます。各アルゴリズム選択に対する値は、次のとおりです。
ディシジョン・ツリー(初期デフォルト): 「ツリー全体」(デフォルト)、「ツリー全体のXML」、「リーフ・ノード」、「モデル・シグネチャ」
SVM分類: 「係数」(デフォルト)、「モデル・シグネチャ」
SVM回帰: 「係数」(デフォルト)、「モデル・シグネチャ」
Naive Bayes: 「ペア確度」(デフォルト)、「モデル・シグネチャ」
相関ルール: 「ルール」(デフォルト)、「グローバル詳細」、項目セット
異常検出: 「係数」(デフォルト)、「モデル・シグネチャ」
GLM分類: 「統計」(デフォルト)、「行診断」、「モデル・シグネチャ」、「グローバル詳細」
GLM回帰: 「統計」(デフォルト)、「行診断」、「モデル・シグネチャ」、「グローバル詳細」
KMまたはOCクラスタリング: 「ツリー全体」(デフォルト)、「ルール」、「属性ヒストグラム」、「重心」、「モデル・シグネチャ」
期待値の最大化(EM): 「ツリー全体」(デフォルト)、「属性ヒストグラム」、重心コンポーネント、「グローバル詳細」、「モデル・シグネチャ」、「予測」、「ルール」。
EMには、Oracle Database 12cリリース1 (12.1)以上が必要です。
NMF: 「トランザクションの機能」(デフォルト)、「モデル・シグネチャ」
SVD: 「トランザクションの機能」(デフォルト)、「グローバル詳細」、「モデル・シグネチャ」、「予測」、特異値
SVDには、Oracle Database 12cリリース1 (12.1)以上が必要です。
PCA: 「トランザクションの機能」(デフォルト)、「固有値」、「グローバル詳細」、「モデル・シグネチャ」、「予測」
PCAには、Oracle Database 12cリリース1 (12.1)以上が必要です。
出力値は、複数のモデル・タイプに対しても使用可能です。たとえば、すべてのクラスタリング・モデルに対して「重心」を選択できます。
列: クリックして、選択されている出力タイプの列のリスト(名前とデータ型)を表示します。
ダイアログ・ボックスの下側のセクションには、次の情報が表示されます。
使用可能な互換モデル: 使用可能なモデル、つまりアルゴリズム選択に一致するモデルがリストされます。各モデルのグリッドには、モデル名、モデルの入力ノードおよびモデルの構築に使用されるアルゴリズムが表示されます。
選択したモデル: 選択したモデルがリストされます。各モデルのグリッドには、モデル名、モデルの入力ノードおよびモデルの構築に使用されるアルゴリズムが表示されます。
自動指定設定では、指定を自動的に変更する方法を決定します。
デフォルトでは、自動指定は「オン」
に設定されているか、選択されています。自動指定が「オン」
に設定されている場合は、次の動作が実行されます。
最初の入力ノードがモデル詳細ノード接続されると、デフォルトの優先順位で、入力ノードでモデルが検索されされます。最初のモデル・タイプが見つかると、モデルに一致するすべてノードが、デフォルトの出力タイプとともにモデル詳細の指定に追加されます。
後続の接続で、モデル詳細ノード内のタイプと一致するモデルが自動的に追加されます。モデルが自動的に追加されることを通知するメッセージが表示されます。
入力ノードが切断されると、そのノードにより提供されたすべてのモデル指定が、モデル詳細ノードから自動的に削除されます。
入力ノードが編集されると、追加されたモデルがそのノードに含まれているモデル・タイプに一致する場合、追加されたすべてのモデルが自動的にモデル詳細ノードに追加されます。入力ノードからモデルが削除されると、これらはモデル詳細ノードから削除されます。
すべてのモデルが削除されるように親ノードが編集された場合、モデル・ノードは未定義に設定されます。新しいモデルが親モデルに追加されると、多数の親ノードがモデル・ノードに接続されている可能性がある場合、デフォルトでどのモデルおよび出力タイプが選択されるかの予測が非常に困難であるため、モデル・ノードは未定義を維持します。
入力ノードが編集されて、モデル詳細ノード内の指定との一貫性がなくなるようにモデルが変更された場合、モデル指定は削除されます。
自動指定が「オフ」
になっているか、選択が解除されている場合は、次の動作が実行されます。
モデルは自動的には追加されません。
モデル詳細ノードを編集する必要があります。
検証が通常どおり実行されるため、現在一貫性がない、または欠損しているモデルは、無効としてマークされます。また、モデルが欠損していて、そのモデルとの一致を含むノードが追加された場合、それは有効になり新しいノードと関連付けられます。
無効なモデル参照を手動で修正または削除する必要があります。
関連項目
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
モデル詳細ノードの「プロパティ」には、次のセクションがあります。
関連項目
キャッシュを生成できます。キャッシュを生成する場合は、サンプリング・サイズを指定できます。
デフォルトでは、結果の表示を最適化するためのキャッシュは生成されません。デフォルトのサンプリング・サイズは2000
行です。
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
コンテキスト・メニューのオプションを表示するには、ノードを右クリックします。コンテキスト・メニューでは、次のオプションを使用できます。
関連項目
R構築ノードを使用すると、Rモデルを登録できます。Rモデルを構築し、分類および回帰マイニング機能のRモデル・テスト結果を生成します。R構築ノードでは、分類、回帰、クラスタリングおよび特徴抽出のマイニング機能のみサポートされています。
Rモデルを構築するには、ホストにOracle R Enterpriseがインストールされている必要があります。
注意:
Rモデルは、Oracle SQL DeveloperがOracle Database 12.2以降に接続されている場合にのみ表示されます。Rモデルを登録するには、R構築ノードを作成します。
「Rビルド・ノードの編集」ダイアログ・ボックスでは、Rモデルに関連する設定を編集できます。
このダイアログ・ボックスは、次のタブで構成されます。
「ビルド」タブでは、構築するモデルの特性を指定または変更できます。
Oracle Data Mining拡張可能フレームワークと互換性があるR関数を指定する必要があります。指定しない場合、ランタイム・エラーが発生する可能性があります。
注意:
必要なR関数は、Oracle R EnterpriseでスクリプトrqScriptCreate
を使用して登録しておく必要があります。手順の詳細は、『Oracle R Enterpriseユーザーズ・ガイド』を参照してください「ビルド関数」ダイアログ・ボックスでは、構築関数で使用する登録済R関数を選択できます。
関連項目
「ビルド設定」ダイアログ・ボックスでは、必要な設定を名前、値およびデータ型で指定できます。名前は、R関数内の引数の名前と一致する必要があります。データ型は、NUMBERまたはSTRINGです。
「モデル詳細関数」ダイアログ・ボックスでは、登録済R関数を選択できます。
NUMBER
またはVARCHAR2
のいずれかです。内部的には、Oracle Data Minerは、ODM拡張可能フレームワークを使用して、Rモデル詳細関数に渡される、指定された名前/値ペアからSELECT
文を構成します。「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
パーティション化列によって、各一意のパーティションに仮想モデルが構築されます。仮想モデルでは、特定のパーティションのデータのみを使用するため、パーティションを選択しない場合よりも正確にケースを予測できる可能性があります。
属性を選択する他、パーティション化式を指定することもできます。パーティション化式は連結され、結果式はどの予測機能に対しても同じです。
オプションで、パーティション化式を追加できます。
「入力」タブでは、モデル構築の入力を指定します。
すべてのモデルに対して入力を自動的に判定(経験則を使用)がデフォルトで選択されています。Oracle Data Minerにより、入力に使用する属性が決定されます。たとえば、ほぼ不変の属性は入力に適さないと考えられます。また、Oracle Data Minerはマイニング型を決定し、すべての属性に対して自動データ準備が実行されることを指定します。
注意:
R構築ノードの場合、自動データ準備は実行されません。ノードの実行後に、経験則を説明するルールが示されます。詳細情報を確認するには、「表示」をクリックします。
これらの選択内容を変更できます。これを行うには、入力を自動的に判定(経験則を使用)の選択を解除します。
関連項目:
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
テキストは、CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、「モデル構築の編集」ダイアログ・ボックスの「テキスト」タブでテキスト特性を指定できます。
「テキスト」タブでテキスト特性を指定する場合、テキスト・ノードを使用する必要はありません。
注意:
Oracle Database 11gリリース2 (11.2)以前に接続している場合は、テキスト・ノードを使用します。「テキスト」タブは、Oracle Database 11gリリース2以前では使用できません。
データ・マイニング用のテキスト特性を確認または指定するには、構築ノードをダブルクリックするか、ノードを右クリックしてコンテキスト・メニューから「編集」を選択します。「テキスト」タブをクリックします。
「テキスト」タブを使用すると、次を変更できます。
カテゴリ型のカットオフ値: 列がテキストまたはカテゴリのどちらのマイニング型とみなされるかを決定するために使用されるカットオフを制御できます。カットオフ値は整数です。これは、10以上4000以下である必要があります。デフォルト値は200
です。
デフォルトの変換タイプ: 列レベル・テキスト設定のデフォルトの変換タイプを指定します。値は次のとおりです。
トークン(デフォルト): 変換タイプが「トークン」の場合、「デフォルト設定」は次のようになります。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからオプションを選択します。複数の言語を選択できます。
Bigram: このオプションは、NORMAL
トークン・タイプとそのbigramを組み合せる場合に選択します。たとえば、New Yorkです。トークン・タイプはBIGRAM
です。
ステミング: デフォルトでは、このオプションは選択されていません。一部の言語ではステミングはサポートされません。選択されている言語が英語、オランダ語、フランス語、ドイツ語、イタリア語またはスペイン語である場合、ステミングは自動的に有効になっています。ステミングが有効である場合、ステミングされた語句がサポート対象言語に対して戻されます。そうでない場合は、元の語句が戻されます。
注意:
「Bigram」と「ステミング」の両方を選択した場合、トークン・タイプはSTEM_BIGRAM
です。「Bigram」も「ステミング」も選択しない場合、トークン・タイプはNORMAL
です。
「デフォルト」
である場合、その言語のデフォルトのストップワードがリポジトリからデフォルトのストップリストに追加されます。重複したストップワードは追加されません。 ストップリストの詳細を表示するには、をクリックします。「ストップリストの詳細」ダイアログ・ボックスが開きます。
新しいストップリストを追加するには、をクリックします。「新規ストップリスト・ウィザード」が開きます。
すべての行(ドキュメント)のトークンの最大数。デフォルトは3000
です。
トークンに必要な最小行(ドキュメント)数
テーマ: 「テーマ」が選択されている場合、デフォルト設定は次のとおりです。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからいずれかを選択します。複数の言語を選択できます。
ストップリスト: 使用するストップリストを指定します。デフォルト設定では、デフォルトのストップリストを使用します。ストップリストは追加または編集が可能です。複数の言語を選択し、選択されているストップリストが「デフォルト」
である場合、その言語のデフォルトのストップワードがデフォルトのストップリストに追加されます(リポジトリから)。重複したストップワードは追加されません。
テーマ: すべてのドキュメントにわたるテーマの最大数を指定します。デフォルトは3000
です。
シノニム: 「シノニム」タブは、シソーラスがロードされた場合にのみ有効になります。デフォルトでは、シソーラスはロードされません。Oracle Textによって提供されているデフォルトのシソーラスを手動でロードするか、独自のシソーラスをアップロードする必要があります。
ストップリスト・エディタを開くには、「ストップリスト」をクリックします。ストップリストは、表示、編集および作成が可能です。
すべてのテキスト列に対して同じストップリストを使用できます。
「詳細設定」ダイアログ・ボックスでは、データの使用方法、拡張可能設定および構築関数、スコアリング関数、モデル詳細関数などの事前定義済のR関数の構成に関連するモデル設定を表示および編集できます。
次のタスクを実行できます。
モデルの追加: モデルを追加するには、をクリックします。
モデルの削除: モデルを選択してをクリックします。
回帰ノードでは、構築およびテストを行うための回帰モデルを1つ以上定義します。
構築用のデータを指定するには、データ・ソース・ノードを回帰ノードに接続します。2番目のデータ・ソースを回帰構築ノードに接続して、テスト・データを指定することも可能です。ターゲットは1つのみ指定できます。回帰構築は、パラレルに実行できます。
回帰ノード内のモデルは、すべて同じターゲットとケースIDを持ちます。
回帰予測の実行には、次の2つの方法があります。
回帰モデルの構築とテスト: 回帰ノードを使用し、次に、分類を行うための新しいデータにモデルを適用します。
予測問合せの一種である予測問合せを使用します。
この項は次のトピックで構成されています:
関連項目:
2項ターゲットに対して、回帰ノードは4つのモデルを構築します。
モデルは、次のアルゴリズムを使用して構築されます。
一般化線形モデル(GLM)
サポート・ベクター・マシン(SVM)
モデルは、同じ構築データおよび同じターゲットを持ちます。
デフォルトでは、すべてのモデルがテストされます。構築データを構築データ・セットおよびテスト・データ・セットにランダムに分割することにより、テスト・データは作成されます。デフォルトの分割比率は、60%が構築で40%がテストです。可能な場合、Data Minerはテスト・データ・セットおよび構築データ・セットの作成時に圧縮を使用します。
かわりに、すべての構築データをテスト・データとして使用できます。
個別のテスト・データを使用するには、テスト・データ・ソースを構築ノードに接続するか、テスト・ノードを使用します。
モデルのテスト後に、テスト結果を表示できます。
コンテキスト・メニューの「テスト結果の比較」選択肢を使用して、2つ以上の回帰モデルのテスト結果を比較できます。
ケースIDはオプションです。ただし、ケースIDを指定しない場合、処理は低速になります。
回帰ノードでは、デフォルトで2つのモデル(それぞれ一般化線形モデル(GLM)およびサポート・ベクター・マシン(SVM)に基づく)が構築されます。
関連項目
Oracle Data Minerでは、モデル構築のデータに経験則を使用します。
Oracle Data Minerは次のために経験則を使用します。
モデル構築に使用される入力データの属性を決定します。
各属性のマイニング型を決定します。
関連項目
「回帰ビルド・ノードの編集」ダイアログ・ボックスでは、モデル構築、モデル・パーティション、サンプリング、入力、テキスト設定などに関連する設定を編集できます。
回帰構築ノードの編集 ダイアログ・ボックスを開くには、回帰構築ノードをダブルクリックするか、回帰構築ノードを右クリックして「編集」を選択します。
関連項目:
「入力」タブの詳細は、「データの使用方法の表示と変更」。
「回帰ビルド・ノードの編集」ダイアログ・ボックスには、次のタブがあります。
「構築」タブでは、作成するモデルの特性を指定または変更できます。
構築するモデルの特性を編集するには、次の手順を実行します。
デフォルトでは、構築データ・セットを分割して作成されたテスト・データ・セットを使用してモデルをテストします。この方法でのモデルのテストを望まない場合は、回帰ノードの「プロパティ」ペインの「テスト」セクションに移動します。かわりに、テスト・ノードとテスト・データ・ソース・ノードを使用してモデルをテストすることもできます。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「サンプリング」タブの設定は、ノード内のすべてのモデルに適用されます。「サンプリング」タブでは、行サイズを指定できます。
デフォルトでは、「サンプリング」は「オフ」
に設定されています。「オン」
に設定するには、次の手順を実行します。
「入力」タブでは、モデル構築の入力を指定します。
すべてのモデルに対して入力を自動的に判定(経験則を使用)がデフォルトで選択されています。Oracle Data Minerにより、入力に使用する属性が決定されます。たとえば、ほぼ不変の属性は入力に適さないと考えられます。また、Oracle Data Minerはマイニング型を決定し、すべての属性に対して自動データ準備が実行されることを指定します。
注意:
R構築ノードの場合、自動データ準備は実行されません。ノードの実行後に、経験則を説明するルールが示されます。詳細情報を確認するには、「表示」をクリックします。
これらの選択内容を変更できます。これを行うには、入力を自動的に判定(経験則を使用)の選択を解除します。
関連項目:
テキストは、CHAR、VARCHAR2、BLOB、CLOB、NCHAR
またはNVARCHAR2
のいずれのデータ型でも使用可能です。
Oracle Database 12cリリース1 (12.1)以上に接続している場合、「モデル構築の編集」ダイアログ・ボックスの「テキスト」タブでテキスト特性を指定できます。
「テキスト」タブでテキスト特性を指定する場合、テキスト・ノードを使用する必要はありません。
注意:
Oracle Database 11gリリース2 (11.2)以前に接続している場合は、テキスト・ノードを使用します。「テキスト」タブは、Oracle Database 11gリリース2以前では使用できません。
データ・マイニング用のテキスト特性を確認または指定するには、構築ノードをダブルクリックするか、ノードを右クリックしてコンテキスト・メニューから「編集」を選択します。「テキスト」タブをクリックします。
「テキスト」タブを使用すると、次を変更できます。
カテゴリ型のカットオフ値: 列がテキストまたはカテゴリのどちらのマイニング型とみなされるかを決定するために使用されるカットオフを制御できます。カットオフ値は整数です。これは、10以上4000以下である必要があります。デフォルト値は200
です。
デフォルトの変換タイプ: 列レベル・テキスト設定のデフォルトの変換タイプを指定します。値は次のとおりです。
トークン(デフォルト): 変換タイプが「トークン」の場合、「デフォルト設定」は次のようになります。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからオプションを選択します。複数の言語を選択できます。
Bigram: このオプションは、NORMAL
トークン・タイプとそのbigramを組み合せる場合に選択します。たとえば、New Yorkです。トークン・タイプはBIGRAM
です。
ステミング: デフォルトでは、このオプションは選択されていません。一部の言語ではステミングはサポートされません。選択されている言語が英語、オランダ語、フランス語、ドイツ語、イタリア語またはスペイン語である場合、ステミングは自動的に有効になっています。ステミングが有効である場合、ステミングされた語句がサポート対象言語に対して戻されます。そうでない場合は、元の語句が戻されます。
注意:
「Bigram」と「ステミング」の両方を選択した場合、トークン・タイプはSTEM_BIGRAM
です。「Bigram」も「ステミング」も選択しない場合、トークン・タイプはNORMAL
です。
「デフォルト」
である場合、その言語のデフォルトのストップワードがリポジトリからデフォルトのストップリストに追加されます。重複したストップワードは追加されません。 ストップリストの詳細を表示するには、をクリックします。「ストップリストの詳細」ダイアログ・ボックスが開きます。
新しいストップリストを追加するには、をクリックします。「新規ストップリスト・ウィザード」が開きます。
すべての行(ドキュメント)のトークンの最大数。デフォルトは3000
です。
トークンに必要な最小行(ドキュメント)数
テーマ: 「テーマ」が選択されている場合、デフォルト設定は次のとおりです。
言語: ドキュメントで使用される言語を指定します。デフォルトは「英語」
です。この値を変更するには、ドロップダウン・リストからいずれかを選択します。複数の言語を選択できます。
ストップリスト: 使用するストップリストを指定します。デフォルト設定では、デフォルトのストップリストを使用します。ストップリストは追加または編集が可能です。複数の言語を選択し、選択されているストップリストが「デフォルト」
である場合、その言語のデフォルトのストップワードがデフォルトのストップリストに追加されます(リポジトリから)。重複したストップワードは追加されません。
テーマ: すべてのドキュメントにわたるテーマの最大数を指定します。デフォルトは3000
です。
シノニム: 「シノニム」タブは、シソーラスがロードされた場合にのみ有効になります。デフォルトでは、シソーラスはロードされません。Oracle Textによって提供されているデフォルトのシソーラスを手動でロードするか、独自のシソーラスをアップロードする必要があります。
ストップリスト・エディタを開くには、「ストップリスト」をクリックします。ストップリストは、表示、編集および作成が可能です。
すべてのテキスト列に対して同じストップリストを使用できます。
「詳細設定」ダイアログ・ボックスでは、モデルの追加、モデルの削除、設定の確認、モデルやアルゴリズムに関連する設定の変更が可能です。
「詳細設定」ダイアログ・ボックスでは、次の操作が可能です。
ノード内の各モデルのデータの使用方法およびアルゴリズム設定の検査と変更
モデルの追加と削除
詳細設定を変更または表示するには、「回帰ビルド・ノードの編集」ダイアログ・ボックスでをクリックします。または、ノードを右クリックして、「詳細設定」を選択します。
上部パネルには、ノード内のすべてのモデルがリストされます。次の操作を実行できます。
削除: モデルを削除するには、モデルを選択してをクリックします。
追加: モデルを追加するには、をクリックします。「モデルの追加」ダイアログ・ボックスが開きます。
下部ペインでは、上部ペインで選択されたモデルのデータの使用方法およびアルゴリズム設定を表示および変更できます。次の詳細を編集できます。
変更可能な設定は、アルゴリズムによって異なります。
関連項目
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
回帰モデルを構築する前に、次の操作を必ず実行してください。
ターゲットの指定。
ケースIDの指定。これはオプションです。ただし、ケースIDを指定しない場合、処理は低速になります。
この項では、次の項目について説明します。
「モデル」セクションには、構築されるモデルがリストされます。
デフォルトでは、3つの異なるアルゴリズム(SVM、NBおよびDT)を使用して3つの回帰モデルが構築されます。モデルを追加する場合に、GLMアルゴリズムを指定することも可能です。
次のタスクを実行できます。
削除: モデルを削除するには、モデルを選択してをクリックします。
追加: モデルを追加するには、をクリックします。
テスト結果の比較: モデルがテストされた場合、テスト結果を比較できます。2つ以上のモデルを選択してをクリックします。
モデルの表示: モデルが正常に構築された場合、モデルを表示できます。モデルを選択してをクリックします。対応するビューアが開きます。
モデル・ステータスの表示: モデルが後続のノードに渡されたかどうかが示されます。
「ビルド」セクションには、選択したターゲットおよびケースIDに関連する情報が表示されます。
「ビルド」セクションに表示される情報は次のとおりです。
ターゲット: 構築ノードがデータ・ソース・ノードに接続されている必要があります。次に、ターゲット・リストからターゲットを選択します。ターゲットを変更するには、ドロップダウン・リストから別のターゲットを選択します。
ケースID: ドロップダウン・リストから属性を選択します。この属性は、ケースを一意に識別する必要があります。ケースIDはオプションです。ケースIDが選択されていない場合、「なし」
が表示されます。ただし、ケースIDが指定されていない場合は、処理が低速になります。
「パーティション」タブでは、パーティション化されたモデルを構築できます。
「パーティションの最大数」フィールドで、矢印をクリックして値を設定します。これにより、パーティションのカットオフ値が設定されます。カットオフ値は0 (ゼロ)より大きい値である必要があります。このオプションを選択しない場合は、ネイティブOracle Data Minerのカットオフ値が使用されますが、非常に大きい値である可能性があります。
「詳細設定」をクリックして、パーティション構築のタイプを設定および選択します。
パーティション化用の列を追加するにはをクリックします。
注意:
NUMBERおよびVARCHAR2列のみをパーティション列として選択できます。「ケースID」および「ターゲット」列は、パーティション列として選択できません。
パーティション列を削除するには、その列を選択してをクリックします。
列を最上位に移動するには、をクリックします。
列を上に移動するには、をクリックします
列を下に移動するには、をクリックします
列を最下位に移動するには、をクリックします
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
「テスト」セクションでは、テストに使用されるデータおよび実行するテストを指定します。
デフォルトでは、テスト・データを使用して構築されたすべてのモデルがテストされます。テスト・データは、構築データをランダムに分割して作成されます。
「テスト」セクションでは、次の設定を使用できます。
テストの実施: デフォルトでは、テスト・データを使用して構築されたすべてのモデルがテストされます。テスト・データは、構築データをランダムに分割して作成されます。デフォルトのテスト結果は、次のとおりです。
パフォーマンス・メトリック
残差
両方の選択を解除できます。
テスト・データ: テスト・データは、次のいずれかの方法で作成されます。
テストにすべてのマイニング構築データを使用
テストに分割構築データを使用テストの分割(%) 次の分割を作成: ビュー
(デフォルト)。分割により、パラレルではないビューが作成されます。
テストにテストデータソースを使用: 構築データを接続した後に個別のテスト・データ・ソースを提供してテスト・データ・ソースを構築ノードに接続するには、このオプションを選択します。または、テスト・ノードを使用してモデルをテストできます。
関連項目:
「詳細設定」ダイアログ・ボックスでは、データの使用方法およびその他のモデル指定の編集、モデルの追加とノードからの削除が可能です。
次のいずれかの方法で、「詳細設定」ダイアログ・ボックスを開くことができます。
任意のモデル・ノードを右クリックして、コンテキスト・メニューから「詳細設定」を選択します。
ノードをダブルクリックしてエディタを開きます。次に、をクリックします。
「詳細設定」の上部ペインでは、モデルの削除およびモデルの追加が可能です。上部ペインでモデルを選択して、データの使用方法を変更することも可能です。「詳細設定」の下部ペインには、1、2または3個のタブがあり、モデル指定を編集できます。
「詳細設定」の上部ペインには、ノード内のすべてのモデルがリストされます。
「モデル設定」グリッドには、各モデルに関する次の情報が提供されます。
モデル名
アルゴリズム
最新の構築の日付
自動
データの使用方法
次により除外された列
入力および属性のマイニング型を表示するには、上部ペインでモデルを選択して「自動」の選択を解除します。「自動」が選択されている場合(デフォルト)、モデルの構築に使用される属性がシステムにより自動的に決定されます。
Oracle Data Minerは、モデルの構築に使用するために必ずしもすべての属性を選択するとはかぎりません。たとえば、属性の値の大部分が同じである場合、その属性は選択されません。
選択されている属性を確認するには、「自動」の選択を解除します。モデルを選択します。下部ペインには、選択された属性が、「入力」列にチェック・マークが付いた状態で示されます。
「自動」が選択されていない場合、「データの使用方法」タブ内のシステムによる選択をオーバーライドできます。「自動」が選択されていない場合、入力およびマイニング型も表示できます。これにより、モデル構築に使用される属性を確認でき、必要に応じてこれらを変更できます。
「モデル設定」グリッドでは、ノードに対してモデルを削除または追加できます。
削除: モデルを削除するには、モデルを選択してをクリックします。
追加: モデルをノード追加するには、をクリックします。ノードの「モデルの追加」ダイアログ・ボックスが開きます。「モデルの追加」ダイアログ・ボックスでアルゴリズムを選択して、デフォルトの名前をそのまま使用するか別の名前を指定して、オプションのコメントを追加します。
関連項目:
複数の列のデータの使用方法を同時に変更する方法の説明は、「データの使用方法の表示と変更」。
「詳細設定」の下部ペインには、データの使用方法、アルゴリズム設定およびパフォーマンス設定に関する情報が表示されます。
上部ペインでモデルを選択します。関連情報は、次のタブに表示されます。
データの使用方法: 相関を除くすべてのモデル用
アルゴリズム設定: すべてのモデル用
パフォーマンス設定: 分類モデル専用
これらのタブに、選択されたモデルの構築に使用される指定が表示されます。指定を変更できます。
「データの使用方法」タブには、データ・ソース内のすべての属性がリストされるデータ・グリッドがあります。
「データの使用方法」タブは、相関ノードではサポートされません。任意の値の変更、入力として使用されない属性の確認またはマイニング型の確認を行うには、下部ペインで「表示」を選択します。
データの使用方法の情報は、複数のモデルで同時に変更できます。各属性に対して、グリッドには次のリストが表示されます。
属性: これは、属性の名前です。
データ型: これは、属性のOracle Databaseデータ型です。
入力: 属性がモデルの構築に使用されるかどうかを示します。入力タイプを変更するには、「自動」をクリックします。次にアイコンをクリックして新しいアイコンを選択します。分類モデルや回帰モデルなどのターゲットを持つモデルの場合は、ターゲットが赤色のターゲット・アイコンでマークされます。
アイコンは、属性がモデルの構築に使用されることを示します。
アイコンは、属性が無視される、つまりモデルの構築に使用されないことを示します。
マイニング型: これは属性の論理型で、数値型(数値データ)、カテゴリ型(文字データ)、ネストした数値型、またはネストしたカテゴリ型、テキストまたはカスタム・テキストのいずれかです。属性の型がマイニングでサポートされない場合、列は空白になります。マイニング型はアイコンで示されます。このアイコン上にカーソルを置くと、アイコンが何を表しているか確認できます。マイニング型を変更するには、「自動」をクリックして、次に属性の型をクリックします。リストから新しい型を選択します。マイニング型は、次のように変更できます。
数値型はカテゴリ型に変更できます。カテゴリ型への変更により、数値が文字列にキャストされます。
カテゴリ型。
ネストしたカテゴリ型およびネストした数値型は変更できません。
自動準備: 「自動準備」が選択された場合、属性上で自動データ準備が実行されます。「自動準備」が選択されていない場合、属性上で自動データ準備は実行されません。この場合、正規化など、モデルの構築に使用されるアルゴリズムで必要になる可能性のあるデータ操作を実行する必要があります。ターゲット属性に対してはデータ準備は行われません(または必要ありません)。デフォルトでは、自動データ準備が実行されます。
ルール: モデルの実行後に、「ルール」には使用された経験則が示されます。詳細を確認するには「表示」をクリックします。
属性を入力として選択しない理由が2つあります。
属性のデータ型が、モデルの構築に使用されるアルゴリズムでサポートされていないため。
たとえば、O-Clusterでは、DM_NESTED_NUMERICALS
などのネストしたデータ型はサポートされません。DM_NESTED_NUMERICALS
の型の属性を使用してO-Clusterモデルを構築すると、構築に失敗します。
属性がマイニングに有用なデータを提供しないため。たとえば、不変またはほぼ不変の値を持つ属性が該当します。
この種類の属性を含めた場合、これらを除外した場合よりモデルの品質が低下します。
パフォーマンス設定は、分類モデルでのみ使用できます。
「パフォーマンス設定」タブでは、分類モデル構築のパフォーマンス目標を定義します。モデルのパフォーマンス設定を表示または変更するには、上部ペインでモデルを選択します。「重み」グリッドに重みがリストされます。次のいずれかの設定を選択します。
平均化: (デフォルト)すべてのターゲット・クラス値にわたって最適な全体精度の実現を試みます。これは、選択されたアルゴリズムに応じて異なる方法で行われます。通常これは、モデル構築プロセスにおいて、出現頻度の低いターゲット値に追加の重みを提供する重み値を使用して、バイアスをかけることが求められます。
自然: バイアスをかけないモデルの構築を可能にするため、モデルはデータの本来の特徴を使用して正確なモデルを構築できるようになります。この場合、出現頻度の低いターゲット・クラス値は多くの場合、それらが平均化オプションを使用して構築されたモデルを予測する頻度と同じ頻度では予測されません。
カスタム: 各ターゲット値に一連の重みを入力できます。カスタム重みの定義を開始する1つの方法は、「重み」グリッドのすぐ上にある「平均化」または「自然」をクリックすることです。これらのいずれのオプションも、「平均化」または「自然」パフォーマンスで得られる重みと同様な重みを生成します。次に、これらの重みを異なる値に変更できます。
値を保存するには、「OK」をクリックします。
関連項目:
各マイニング機能は、データ・マイニング・アルゴリズムを使用して解決可能なマイニング問題の種類を表しています。
データ・マイニング・モデルを作成する場合、まずマイニング機能を指定してから、その機能を実装する適切なアルゴリズムを選択する必要があります(デフォルトのアルゴリズムがない場合)。
Oracle Data Miningは、次のマイニング機能をサポートしています。
分類とは、ある集合内の項目をターゲットのカテゴリまたはクラスに割り当てる、つまり項目がターゲット・カテゴリに従って分類されるデータ・マイニング機能です。
分類の目的は、データの各ケースのターゲット・クラスを正確に予測することです。たとえば、分類モデルを使用すれば、融資希望者を信用リスク別(低、中、高)で識別することが可能です。
分類のターゲット・カテゴリは、離散的であり、順序付けされていません。最も単純なタイプの分類問題は、2項分類です。2項分類では、ターゲット属性が取り得る値は2つのみ(たとえば「支払能力が高い」と「支払能力が低い」)です。多クラス・ターゲットは、3つ以上の値(たとえば支払能力の場合、低、中、高、不明など)を持ちます。
次の項では、分類について説明します。
分類モデルは、分類が既知である履歴データから構築されます。
分類モデルを構築(トレーニング)するために、分類アルゴリズムは、予測子の値とターゲットの値の関係を見つけます。関係の検出に使用される手法は、分類アルゴリズムによって異なります。これらの関係がモデル内に集約されます。次に、このモデルはクラスの割当てが未知である別のデータ・セットに適用できます。
「アルゴリズム」設定では、モデル構築を制御します。設定は、アルゴリズムによって異なります。
構築ノードを使用して、1つ以上の分類モデルを作成します。
分類モデルはデフォルトでテストされます。
分類モデルのスコアリングまたは適用の結果は、クラスの割当ておよび割当てが正しい確率となります。
たとえば、顧客を低、中、高の値に分類するモデルの場合、分類が正しい確率も予測されます。
適用ノードを使用して分類モデルのスコアリング、つまり新しいデータへのモデルの適用を行います。
関連項目:
分類には、ディシジョン・ツリー・アルゴリズム、Naive Bayesアルゴリズムおよび一般化線形モデル・アルゴリズムが使用されます。
ディシジョン・ツリー・アルゴリズムは、ツリーの構築に使用されるロジックを明らかにする条件文であるルールを自動的に生成します。
Naive Bayesアルゴリズムでは、Bayesの定理が使用されます(履歴データの値の組合せと値の頻度を数えて確率を計算する式)。
一般化線形モデル(GLM)アルゴリズムは、線形モデリングでよく使用される統計的手法です。Oracle Data Miningでは、2項分類および回帰でGLMを実装しています。
GLMでは、係数統計情報やモデルの統計情報および行の診断情報など多数の情報を利用できます。また、GLMは、予測値がある区間に収まると考えられるときのその区間の上限と下限である、信頼限界もサポートします。
サポート・ベクター・マシン(SVM)アルゴリズムは、線形回帰および非線形回帰に基づく強力な最新のアルゴリズムです。Oracle Data Miningでは、2項分類および多クラス分類に対してSVMが実装されています。
Oracle Data Miningでは、2項分類および多クラス分類に対してSVMが実装されています。
回帰は、数値を予測するデータ・マイニング機能です。利益、売上、住宅ローン金利、住宅価格、建坪、気温、距離などはすべて、回帰の手法を使用して予測することが可能です。
たとえば、回帰モデルを使用すると、立地、部屋数、敷地の広さその他の要因に基づいて住宅価格を予測できます。
回帰に関するこの項では、次の項目について説明します。
回帰モデルはデフォルトでテストされます。
関連項目:
構築ノードを使用して、1つ以上の回帰モデルを作成します。
「アルゴリズム」設定では、モデル構築を制御します。設定は、アルゴリズムによって異なります。
回帰タスクは、ターゲット値が判明しているデータ・セットから着手します。たとえば、住宅価格を予測する回帰モデルは、一定の期間に観測された多数の住宅のデータに基づいて作成されます。このデータには、住宅価格だけでなく、築年数、建坪、部屋数、税金、学区、商店街までの距離などのデータが含まれていることが考えられます。住宅価格をターゲット、他の属性を予測子として、各住宅のデータが1つのケースを構成します。
モデルの作成(トレーニング)プロセスでは、回帰アルゴリズムは、作成データの各ケースの予測子の関数としてターゲットの値を予測します。予測子とターゲットの関係はモデルに集約され、このモデルはターゲット値が未知である別のデータセットに適用できます。
回帰モデルのスコアリングまたは適用の結果は、クラスの割当ておよび各ケースについて割当てが正しい確率となります。
たとえば、各ケースの値を予測するモデルは、値が正しい確率も予測します。
適用ノードを使用して回帰モデルのスコアリング、つまり新しいデータへのモデルの適用を行います。
関連項目:
異常検出(AD)では、一見同質なデータ内に存在する特異なケースを識別します。
標準の分類アルゴリズムでは、ターゲット・クラスのポジティブ例およびネガティブ例(反例)の両方が存在している必要があります。1クラス・サポート・ベクター・マシン(SVM)分類では、単一のターゲット・クラスの例のみ存在している必要があります。
例がある集合に属する場合はポジティブである
例がその集合の補集合に属する場合はネガティブまたはゼロである
注意:
1クラス分類問題の解決は困難な場合があります。1クラス分類プログラムの精度は通常、有意の反例を使用して作成した標準的な分類プログラムの精度とは一致しません。
異常検出モデルに関するこの項では、次の項目について説明します。
Oracle Data Miningでは、異常検出(AD)用の1クラス分類機能としてSVMが使用されます。
SVMは異常検出で使用される場合、分類マイニング機能を持ちますが、ターゲットは使用しません。
ADモデルを構築するには、適切なデータ・ソースに接続されている異常検出ノードを使用します。
関連項目:
クラスタリングでは、データ・オブジェクトの自然なグループ、つまり相互になんらかの類似性を持つオブジェクトを見つけます。
つまり、あるクラスタのメンバーは、別のクラスタのメンバーよりも同じクラスタのメンバーに類似していることになります。クラスタリング分析の目的は、クラスタ間の類似度が低くなり、クラスタ内の類似度が高くなるような、質の高いクラスタを見つけることです。
次の項では、クラスタリングについて説明します。
クラスタリングは、データの分割、データの参照および異常検出に使用できます。
クラスタリングは、分類と同じくデータを分割するために使用します。クラスタリング・モデルが分類と異なるのは、事前に定義されていないグループにデータを分割する点です。分類モデルの場合は、あらかじめ定義済のクラスをターゲットとして指定し、それらのクラスに割り当てることによってデータを分割します。クラスタリング・モデルではターゲットを使用しません。
クラスタリングはデータの調査に役立ちます。ケース数が多くグループが明らかでない場合、クラスタリング・アルゴリズムを使用して、自然なグループを見つけることができます。クラスタリングは、監視ありモデルの作成対象となる同種グループを識別するためのデータの前処理手段としても有効です。
クラスタリングは、異常検出にも使用できます。データがいくつかのクラスタに分割された後に、どのクラスタにも適合しないケースを検出することが可能です。これらのケースが異常値または外れ値です。
項目が複数のクラスタに存在する可能性があり、クラスタは必ずしも分離しているとはかぎりません。
Oracle Data Miningでは階層クラスタリングを実行します。
リーフ・クラスタは、アルゴリズムによって生成される最終クラスタです。階層内で上位にあるクラスタは中間クラスタです。
Oracle Data Miningでは、クラスタリング用に次のアルゴリズムがサポートされます。
期待値の最大化。Oracle Database 12cリリース1 (12.1)以上が必要です。
相関ルールは、同時に発生する項目間の関係を表します。
相関ルールは、よく販売トランザクションの分析に使用されます。たとえば、食料品店でシリアルを購入する顧客は同時に牛乳も購入することが多いことがわかっているとします。実際に相関分析を行うと、精算時にシリアルと牛乳の両方が含まれている確率は85%である、という結果が得られることがあります。
相関モデルのこうした応用は、マーケット・バスケット分析と呼ばれています。マーケット・バスケット分析は、ダイレクト・マーケティングや販促活動、ビジネス上の傾向の把握などに役立ちます。また、店舗レイアウト、カタログのデザイン、抱合せ販売などにも活用できます。
相関モデルは、その他の分野でも重要な用途に応用されています。たとえば、E-Commerceアプリケーションにおいて、Webページのパーソナライズに相関ルールを使用することがあります。相関モデルから、ページAとページBにアクセスするユーザーは70%の確率で同じセッション内でページCにアクセスすることがわかったとします。このルールに基づいて、ページCに関心を持ちそうなユーザー向けに動的なリンクを作成することが可能です。
相関モデルでは、トランザクションで構成されるデータを分析します。
トランザクショナル・データで、項目の集合は、各ケースに関連付けられます。ケースは、マーケット・バスケットやWebセッションなどのトランザクションで構成されます。
トランザクションの項目の集まりが、そのトランザクションの1つの属性です。トランザクションに関連する日付、時間、場所、ユーザーIDなどがその他の属性となります。ただし、ほとんどの場合は、可能性があるすべての項目の小さなサブセットが所定のトランザクションに存在します。マーケット・バスケット内の項目は、店舗内の売上対象のほんの一部分のみを表します。相関はトランザクションに基づきます。
ある項目が集合内に含まれていない場合は、その値がNULLであるか、または欠損している可能性があります。集合に含まれる可能性がある項目の大部分は個々のトランザクションに存在しない確率が高いので、ほとんどの項目はNULLであるかまたは欠損していると考えられます。
特徴抽出のマイニング機能では、属性を組み合せて、新しい削減された特徴セットを作成します。特徴選択のマイニング機能では、最適な属性を選択します。
情報量が多すぎると、データ・マイニングの有効性が低下する可能性があります。モデルの構築やテストのために集められたデータ属性の一部の列が、そのモデルにとって意味のある情報とならない場合もあります。実際にモデルの質や精度を落としてしまう場合もあります。
無関係な属性は、データにノイズを加えるのでモデルの精度に響きます。無関係な属性は、モデルのサイズ、およびモデルの構築とスコアリングに必要な時間とシステム・リソースも増加します。
特徴選択は、予測における重要度に従って既存の属性をランク付けします
一部のデータ・マイニング・プロジェクトでは、最も重要な予測子を見つけることが最終目的となります。たとえば、高い信用リスクを示す顧客の主要な特徴を見つけることを目的とするモデルなどです。
属性重要度は、分類モデルの作成の準備段階で使用しても効果的です。ディシジョン・ツリー・モデルと一般化線形モデルは、このタイプの前処理によってメリットを得られます。Oracle Data Miningは、これらの両方のアルゴリズム内で最適化を行うために特徴選択を実装しています。
Oracle Data Minerでは、フィルタ列ノード変換で「属性重要度」設定を提供し、Oracle Data Mining重要度関数を使用して重要な特徴を特定します。
ヒント:
特徴抽出は、属性を削減するプロセスです。
予測における重要度に従って既存の属性をランク付けする特徴選択とは異なり、特徴抽出では実際に属性を変換します。変換された属性、つまり特徴は、元の属性の一次結合です。
特徴抽出のプロセスによって、より小さく上質な属性のセットが生成されます。特徴の最大数は、ユーザーが指定するか、アルゴリズムによって決定されます。デフォルトでは、アルゴリズムによって決定されます。
Oracle Data Miningでは、次の特徴抽出用アルゴリズムがサポートされます。
特異値分解および主成分分析。Oracle Database 12cリリース1 (12.1)以上が必要です。