7 変換ノード
変換ノードは、データ・ノードで識別された表(複数可)で1つ以上の変換を実行します。
変換は、「コンポーネント」ペインの「変換」セクションで使用できます。評価と適用データノードは、構築データを準備する方法と同じ方法で準備する必要があります。
- 集計
集計とは、複数の値を1つの値に集約するプロセスです。 - データ・ビューア
変換ノードが有効な状態の場合、データを表示できます。 - 式ビルダー
式ビルダーは、フィルタの制約など、SQL式の入力および検証に役立ちます。 - フィルタ列ノード
フィルタ列では、列が後続のワークフロー計算で使用されないように、フィルタ処理で列を除外します。 - フィルタ列の詳細
フィルタ列の詳細ノードでは、「属性重要度」の結果で構成されるデータ・フローを作成します。 - フィルタ行
フィルタ行ノードでは、行を記述するSQL文を指定して行を選択できます。 - 結合
結合ノードでは、2つ以上のデータ・ソース・ノードからのデータを、新しいデータ・ソースに結合します。 - JSON問合せ
Oracle Data Miner (SQL Developer 4.1以上)でのJSONデータ・フォーマットのサポートは、JSON問合せノードにより実現されます。 - サンプル
「サンプル」タブでは、データをサンプリングできます。 - 変換
変換ノードでは、サンプリングされたデータまたはすべてのデータを使用して統計を計算できます。
7.1 集計
集計とは、複数の値を1つの値に集約するプロセスです。
たとえば、複数の州の売上を、複数の州で構成される地域の売上に集計できます。集計を実行するには、集計ノードを使用します。
次の各項で、集計ノードについて説明します。
- 集計ノードの作成
集計ノードを作成するには、集計するデータ・ソース・ノードおよび列を識別する必要があります。 - 集計ノードの編集
集計ノードの集計要素は、「集計ノードの編集」ダイアログ・ボックスで定義および編集が可能です。 - 集計ノードのプロパティ
「プロパティ」ペインでは、ノードの特性やプロパティを調査および変更できます。 - 集計ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
関連項目
親トピック: 変換ノード
7.1.1 集計ノードの作成
集計ノードを作成するには、集計するデータ・ソース・ノードおよび列を識別する必要があります。
7.1.2 集計ノードの編集
集計ノードの集計要素は、「集計ノードの編集」ダイアログ・ボックスで定義および編集が可能です。
集計ノードを編集するには:
- グループ化の編集
「グループ化の編集」ダイアログ・ボックスでは、集計のグループ化設定を編集できます。 - 集計の定義
集計の定義ウィザードを使用して、集計を定義できます。 - 集計要素の編集
集計の個別要素を定義または変更できます。 - 列集計の追加
「列集計の追加」ダイアログ・ボックスでは、列の集計方法を定義できます。 - カスタム集計の追加
「カスタム集計の追加」ダイアログ・ボックスでは、カスタム集計の式を定義できます。
親トピック: 集計
7.1.2.1 グループ化の編集
「グループ化の編集」ダイアログ・ボックスでは、集計のグループ化設定を編集できます。
デフォルトのタイプは「列」
です。このタイプを「式」
に変更できます。
-
タイプが
「列」
の場合、「使用可能な属性」リストで1つ以上の列を選択します。名前またはデータ型でリストを検索できます。矢印を使用して、選択した列を「選択された属性」リストに移動します。 -
タイプが
「式」
の場合、「式」ボックスに適切な式を入力します。
式を検証するには、「検証」をクリックします。完了後、「OK」をクリックします。
親トピック: 集計ノードの編集
7.1.2.3 集計要素の編集
集計の個別要素を定義または変更できます。
個別要素を定義または変更するには:
- 「出力」では、名前を指定できます。名前を指定するには、「自動名」の選択を解除して名前を入力します。デフォルトでは、「自動名」は選択されています。「出力」は、集計の結果を保持する列の名前です。
- 集計対象の列を選択または変更します。
- 列に適用する関数を選択します。使用可能な関数は、列のデータ型によって異なります。
- 「編集」をクリックして、新しい「サブ・グループ化」列を定義します。「グループ化の編集」ダイアログ・ボックスが開きます。
- 終了したら、「OK」をクリックします。
7.1.2.4 列集計の追加
「列集計の追加」ダイアログ・ボックスでは、列の集計方法を定義できます。
属性を追加するには:
- をクリックします。
- 名前を指定するには、「自動名」の選択を解除して名前を入力します。デフォルトでは、
「自動名」
は選択されています。「出力」は、集計の結果を保持する列の名前です。 - 集計する列をリストから選択します。
- 列に適用する関数を選択します。使用可能な関数は、列のデータ型によって異なります。たとえば、数値に対して平均(AVG)を指定できます。DATEおよびTIMESTAMPデータ型に対して使用できる関数は、
COUNT()、COUNT (DISTINCT())、MAX()、MEDIAN()、MIN()、STATS_MODE()
です。 - 「サブ・グループ化」列を定義するには、「編集」をクリックします。「グループ化の編集」ダイアログ・ボックスが開きます。「サブ・グループ化」列の定義は必須ではありません。
- 完了後、「OK」をクリックします。
7.1.3 集計ノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
集計ノードの「プロパティ」ペインには、次のセクションがあります。
-
列、集計用の列。
-
キャッシュ
-
詳細
関連項目
親トピック: 集計
7.1.3.1 キャッシュ
「キャッシュ」セクションには、出力データのキャッシュを生成するオプションがあります。
デフォルトの設定では、結果の表示を最適化するためのキャッシュは生成されません。キャッシュを生成できます。
キャッシュを生成する場合は、サンプリング・サイズを次のいずれかに指定します。
-
行数: デフォルトは
2000
行です。 -
パーセント: デフォルトは
60
パーセントです。
親トピック: 集計ノードのプロパティ
7.1.3.2 詳細
「詳細」セクションには、ノードの名前、およびノードについてのコメントが表示されます。
次のフィールドで名前とコメントを変更できます。
-
ノード名
-
ノード・コメント
親トピック: 集計ノードのプロパティ
7.2 データ・ビューア
変換ノードが有効な状態の場合、データを表示できます。
データを表示するには、ノードを右クリックして、コンテキスト・メニューから「データの表示」を選択します。データ・ビューアが開きます。
データ・ビューアには次のタブがあります。
- データ
「データ」タブには、データのサンプルが表示されます。 - グラフ
「グラフ」タブでは、数値データからグラフを作成できます。 - 列
「列」タブは、ノードからの出力であるすべての列のリストです。 - SQL
「SQL」タブでは、「SQLの詳細」テキスト領域に、「データ」タブ内に表示されている実際のビューにより提供されているデータを生成したSQLコードが表示されます。
親トピック: 変換ノード
7.2.1 データ
「データ」タブには、データのサンプルが表示されます。
データ・ビューアは、キャッシュで定義されたサンプリングからのデータまたはソース表に遡るノード系統から取得されたデータの行のグリッド表示を提供します。
表示は、次で制御されます。
-
リフレッシュ: 表示をリフレッシュするにはをクリックします。
-
表示: キャッシュされたデータまたは実際のデータのいずれかを選択できます。
-
ソート: 「ソートする列の選択」ダイアログ・ボックスが表示されます。
-
フィルタ: データを選択するための
WHERE
句を入力できます。
7.2.1.1 ソートする列の選択
「ソートする列の選択」ダイアログ・ボックスでは、次を実行できます。
-
ソート対象の複数の列を選択します。
-
列の順序を決定します。
-
列による昇順または降順を決定します。
-
「NULLS FIRST」
を指定して、NULL値が実際のデータ値に先行して表示されるようにします。
ソート順序は、クリアするまで維持されます。
列ヘッダーもソート対応であり、ソートの選択に対して一時的なオーバーライドを提供します。
親トピック: データ
7.2.3 列
「列」タブは、ノードからの出力であるすべての列のリストです。
このタブ内の表示は、次の条件に応じて異なります。
-
ノードが未実行である場合、データベースにより提供される表またはビュー構造が表示されます。
-
ノードが正常に実行済である場合、サンプリングされた表の構造が表示されます。これは、ノードの指定時に定義されたサンプリングに基づきます。
各列の次の値が表示されます。
-
名前
-
データ型
-
マイニング型
-
長さ
-
精度
-
スケール(浮動小数点用)
-
列ID
表示される列を制限する複数のフィルタリング・オプションがあります。(または)/(および)
の接尾辞を指定したフィルタ設定を使用すると、スペースで区切られた複数の文字列を入力できます。たとえば、「名前/データ型/マイニング型(いずれか)」
が選択されている場合、フィルタ文字列A B
では、「名前」、「データ型」または「マイニング型」が文字AまたはBで始まるすべての列が生成されます。
親トピック: データ・ビューア
7.2.4 SQL
「SQL」タブでは、「SQLの詳細」テキスト領域に、「データ」タブ内に表示されている実際のビューにより提供されているデータを生成したSQLコードが表示されます。
SQLは、実際のデータにアクセスするために必要な系統に応じて親ノードからのSQLが含まれる、積み重ね型の式にすることができます。
次のタスクを実行できます。
-
適切なSQLインタフェース内でのSQL問合せのコピーおよび実行。次のオプションが有効です。
-
すべて選択([Ctrl]+[A])
-
コピー([Ctrl]+[C])
-
-
テキストを検索します。検索コントロールは、一致したテキストをハイライトし、前方検索および後方検索を実行する標準の検索コントロールです。
親トピック: データ・ビューア
7.3 式ビルダー
式ビルダーは、フィルタの制約など、SQL式の入力および検証に役立ちます。
式とは、データを変換したり制限を指定するSQL文または句です。式ビルダーには使用可能な列が表示され、関数と一般に使用される演算子の選択肢が提供され、式が検証されます。
式ビルダーで式を構築して検証するには、次の手順に従います。
-
「カスタム変換の追加」ダイアログ・ボックスでをクリックします。「式ビルダー」ダイアログ・ボックスが開きます。
-
「式ビルダー」ダイアログ・ボックスには、次のコンポーネントが含まれています。
-
属性: ソース・データ内の属性(列)がリストされます。「式」ボックスで作成している問合せに属性を挿入したり、選択した文字を置換するには、現在の文字位置で属性をダブルクリックします。
-
関数: 一般的に使用されるSQL関数が、フォルダに分割されてリストされます。フォルダをダブルクリックして、そこにリストされている関数を表示します。式の現在の文字位置に関数を挿入したり、選択した文字を置換するには、関数をダブルクリックします。
-
式: 作成する式が「式」ボックスに表示されます。式は、次のいずれかの方法で作成できます。
-
「式」ボックスに式を直接入力します。
-
「属性」タブおよび「関数」タブでそれぞれ属性および関数をダブルクリックして、これらを追加します。
演算子を式に追加するには、演算子をクリックします。
-
-
一般的に使用される演算子が、「式」ボックスの下にリストされています。記号で示されている適切な演算子をクリックします。「式」ボックスに、直接演算子を入力することも可能です。表7-1は、入力できる演算子を示しています。
表7-1 一般的に使用される演算子
入力する演算子 クリック より小さい
<
より大きい
>
以下
記号<=に対応
以上
記号>=に対応
等しくない
!=
等しい
=
OR (論理和)
...
And
...
左カッコ
(
右カッコ
)
並行記号
||
加算
+
減算
-
乗算
*
除算
/
パーセント
%
-
「検証結果」テキスト領域(読取り専用): 検証結果が表示されます。
-
検証: 「式」ボックス内の式を検証するには、「検証」をクリックします。結果は、「検証結果」に表示されます。
-
-
式の作成が完了したら、「OK」をクリックします。
7.3.1 関数
式ビルダーには、文字、数値および日付のデータに適用できる様々な関数が含まれています。
欠損値処理も含めて、機械学習に必要な通常のデータ前処理の大半をサポートする関数が用意されています。使用可能な関数のリストを参照するには、該当するカテゴリを開いてください。
関数は、次のカテゴリに分類されています。
-
文字: concatenate、trim、length、substringなどが含まれます。
-
変換: 文字、日付、数字などに変換します。
-
日付: 翌日の計算、タイムスタンプの挿入、切捨て、丸めおよびその他の日付操作を実行します。
-
数値: 絶対値、ceiling、floor、三角関数、双曲線関数、対数、指数関数などが含まれます。
-
分析: 分析関数を実行します。
-
NULL値の置換: 日付、文字および数値用。
関数の表記法は、SQL関数の表記法です。
親トピック: 式ビルダー
7.4 フィルタ列ノード
「列のフィルタ」は、列が後続のワークフロー計算で使用されないように、フィルタ処理で列を除外します。
たとえば、Null値が94%を超える列を除外または無視できます。
オプションで、重要な属性を識別できます。
「列のフィルタ」は、実行後に分析を必要とします。変換により、推奨が提示されます。受け入れる推奨項目を決定できます。
「列のフィルタ」はパラレルに実行できます。
次の各項で、フィルタ列ノードについて説明します。
- フィルタ列ノードの作成
フィルタ列ノードを作成すると、列が後続のワークフロー計算で使用されないように、フィルタ処理で列を除外できるようになります。 - フィルタ列ノードの編集
「フィルタ列ノードの編集」ダイアログ・ボックスでは、フィルタ列ノードにより実行されるフィルタを定義または編集できます。 - フィルタ列ノードのプロパティ
「プロパティ」ペインでは、ノードの特性やプロパティを調査および変更できます。 - フィルタ列ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
関連項目
親トピック: 変換ノード
7.4.1 フィルタ列ノードの作成
フィルタ列ノードを作成すると、列が後続のワークフロー計算で使用されないように、フィルタ処理で列を除外できるようになります。
関連項目
親トピック: フィルタ列ノード
7.4.2 フィルタ列ノードの編集
「フィルタ列ノードの編集」ダイアログ・ボックスでは、フィルタ列ノードにより実行されるフィルタを定義または編集できます。
教師ありモードの場合は、属性名の横にそれがターゲット属性であることを示すアイコンが表示されます。また、右上隅でも同じアイコンでターゲット属性が示されます。次のタスクを実行できます。
-
属性重要度の表示: 「属性重要度の表示」を選択すると、表の列に属性重要度が表示されるようになります。この情報は「ランク」列と「重要度」列に表示されます。
-
データ品質の表示: 「データ品質の表示」を選択すると、フィルタ列設定としてNULL値の割合(「% Null」)、一意な値の割合(「%一意」)および定数の割合(「%定数」)が表示されるようになります。
-
列の除外: フィルタ列ノードを初めて編集する際に列を除外できます。
-
フィルタ列設定の編集または表示: フィルタ列ノードを初めて編集する際にフィルタ列設定を編集または表示できます。
-
重要な属性を計算します。「設定」をクリックして、属性重要度を有効にします。
-
ヒントを評価して、フィルタ処理で除外する列を決定します。フィルタ列ノードの実行後に、追加情報をヒントの形式で使用できます。
-
選択した設定に推奨設定を適用し、をクリックします
-
出力設定を元に戻します。推奨設定を別の設定に適用した後で、元の設定に戻す場合は、をクリックします
-
データ・セット内の組の依存性の参照: をクリックすると、「依存性の参照」ダイアログ・ボックスで組の属性間の依存性を参照できます。
-
依存性設定の編集: をクリックすると、「予測子依存性」ダイアログ・ボックスで依存性設定を参照して編集できます。
ノート:
このオプションは、ノードが教師ありモードで実行されている場合にのみ有効になります。
- 列の除外
デフォルトでは、すべての列が出力対象として選択されています。つまり、すべての列がワークフローの次のノードに渡されます。 - フィルタ列設定の定義
「フィルタ列設定の定義」ダイアログ・ボックスでは、フィルタ列設定を作成および編集できます。 - 依存性の参照
「依存性の参照」ダイアログ・ボックスでは、組の2つの属性間の依存性を参照できます。 - 予測子依存性
「予測子依存性」ウィンドウでは、選択した属性の他の属性に対する依存性を参照したり、それらを出力対象として設定できます。 - フィルタ列ノード実行後のタスクの実行
フィルタ列ノードの実行後に実行できるタスクを示します。 - 列フィルタの詳細レポート
フィルタ列ノードを実行すると、「列の詳細の編集」ダイアログ・ボックスに列フィルタの詳細レポートが生成されます。 - 属性重要度
Oracle Data Minerは、ターゲット値のデータ・マイニングにおける重要度で属性をランク付けします。
親トピック: フィルタ列ノード
7.4.2.1 列の除外
デフォルトでは、すべての列が出力対象として選択されています。つまり、すべての列がワークフローの次のノードに渡されます。
-
列を除外するには、をクリックします。矢印が取り消されたことがにより示されます。除外された列は無視され、渡されなくなります。
-
設定を表示または変更するには、「設定」をクリックします。「フィルタ列設定の定義」ダイアログ・ボックスが開きます。
関連項目
親トピック: フィルタ列ノードの編集
7.4.2.2 フィルタ列設定の定義
「フィルタ列設定の定義」ダイアログ・ボックスでは、フィルタ列設定を作成および編集できます。
次の3種類の設定があります。
-
データ品質: NULL値の割合、一意な値の割合および定数の割合に関して「列のフィルタ」の設定を可能にします。「データ品質」のデフォルト値は、プリファレンスで指定されます。デフォルトを変更できます。次のデータ品質の基準を指定できます。
-
% Nullが次の値以下: データ・ソースの列内のNull値の最大許容パーセンテージを示します。Null値の割合が多い列は無視することをお薦めします。デフォルト値は
95
パーセントです。 -
%一意が次の値以下: データ・ソースの列内で一意な値の最大許容パーセンテージを示します。列に多数の一意値が含まれている場合、モデル構築に有用な情報が含まれていない可能性があります。デフォルト値は95%です。
-
%定数が次の値以下: データ・ソースの列内の定数値の最大許容パーセンテージを示します。列内の大部分の値が同じである場合、その列はモデル構築に有用でない可能性があります。
-
-
属性重要度: 重要な属性を識別するための属性重要度モデルの構築を可能にします。デフォルトでは、この設定は
「オフ」
になっています。「列のフィルタ」は、「属性重要度」を計算しません。-
ターゲット: 重要な属性を見つける対象の値。通常は、分類問題のターゲットです。
-
重要度カットオフ: 0から1.0までの数値です。この値は、受け入れる重要度の最小値を特定します。属性の重要度が負の数である場合、その属性はターゲットと関連付けられないため、カットオフは負にできません。デフォルトのカットオフは0です。属性のランクまたは重要度により、モデルの構築に使用する属性を選択できます。
-
上位N: 属性の最大数です。デフォルトは
100
です。 -
属性依存性: 組依存性情報を生成する場合に、このオプションを選択します。教師ありモードの場合は、結果で使用される出力列を変更できます。「属性重要度」が選択されている場合、「属性依存性」はデフォルトで選択されています。
ノート:
属性依存性を生成するには、「属性重要度」を選択する必要があります。
サンプリング(データ品質および属性重要度): 行数を選択できます。システムによって決定される場合も、ユーザーが指定する場合もあります。サンプリングのデフォルト値は、プリファレンスで指定されます。デフォルトを変更することも、サンプリングをオフにすることも可能です。デフォルトのサンプル・サイズは
10,000
レコードです。 -
親トピック: フィルタ列ノードの編集
7.4.2.3 依存性の参照
「依存性の参照」ダイアログ・ボックスでは、組の2つの属性間の依存性を参照できます。
親トピック: フィルタ列ノードの編集
7.4.2.4 予測子依存性
「予測子依存性」ウィンドウでは、選択した属性の他の属性に対する依存性を参照したり、それらを出力対象として設定できます。
-
列
-
重要度
-
重み付けされた依存性
-
出力: 属性が出力対象かどうかを示します。緑の矢印をクリックすると、に変わり、属性が出力対象外になります。
-
列
-
依存性
-
出力: 列が出力として使用されるかどうかを示します。緑の矢印は、列が出力で使用されることを示し、緑の矢印に赤の十字が付いている場合は、列が出力で除外されることを示します。
親トピック: フィルタ列ノードの編集
7.4.2.5 フィルタ列ノード実行後のタスクの実行
フィルタ列ノードの実行後に実行できるタスクを示します。
次のタスクを実行できます。
-
ヒントの表示: ヒントを表示するには、フィルタ列ノードをダブルクリックします。列のフィルタ詳細ノードの編集ダイアログ・ボックスに、データ品質チェックに適合しなかった属性を示すヒントが表示されます。詳細は、をクリックしてください。
-
データ品質に関するサマリー情報が表示されます。
-
値は、データ・ビューア内にグラフィカルに示されます。
「属性重要度」を指定した場合は、次のようになります。
-
「ヒント」に、最小の重要度値を持たない属性が示されます。
-
各列の重要度が表示されます。
-
-
列の除外: 属性の「出力」列に移動してをクリックします。「出力」列のアイコンがに変わります。選択された列は無視または除外され、これは列が後続のノード用ではないことを意味します。ノードを再度実行する必要はありません。
-
推奨の受入れ:
-
推奨が複数の場合、属性を選択してをクリックします。
-
すべての推奨の場合、[Ctrl]を押しながら[A]を押してをクリックします。
-
-
推奨される出力設定の適用: ヒントがある属性は渡されません。ヒントがない属性は変更されず、渡されます。
-
表またはビューの作成ノード: このノードの出力はデータ・フローです。結果が含まれる表を作成するには、表またはビューの作成ノードを使用します。
関連項目
親トピック: フィルタ列ノードの編集
7.4.2.6 列フィルタの詳細レポート
フィルタ列ノードを実行すると、「列の詳細の編集」ダイアログ・ボックスに列フィルタの詳細レポートが生成されます。
グリッドの各列には、データ品質情報が要約されています。
デフォルト設定では、「属性重要度」と「データ品質」の両方が表示されます。
-
「属性重要度」が選択されている場合、次が表示されます。
-
ランク
-
重要度
-
-
「データ品質」が選択されている場合、次の列が表示されます。
-
% Null
-
%一意
-
%定数
-
グリッド内の「ヒント」列は、データ品質に適合しない、最小重要度値を満たさないデータ・セット内の列を示します。
棒グラフにより、値が視覚的に提示されます。
たとえば、Null値の割合が「% Nullが次の値以下」で指定された値より大きい場合、NULL値の割合が超過していることを示すヒントが生成されます。ある列のNULL
値の割合が非常に大きい場合、その列を除外することをお薦めします。
親トピック: フィルタ列ノードの編集
7.4.2.7 属性重要度
Oracle Data Minerは、ターゲット値のデータ・マイニングにおける重要度で属性をランク付けします。
データ・セットが多数の属性を持つ場合、すべての属性が予測モデルに寄与するとはかぎりません。一部の属性は単にノイズを加えるのみの場合があり、これらは実際にモデルの予測値の精度を損います。次に、ターゲット値の特定に重要ではない属性をフィルタ処理で除外できます。
使用する属性を少なくすることは、必ずしも予測の精度を損ねることにはなりません。使用する属性の数が多すぎると、モデルに影響を与え、そのパフォーマンスや精度が低下する場合があります。最小数の属性を使用したマイニングにより、計算時間を大幅に削減でき、より優れたモデルを構築することが可能になります。
次の事項が属性重要度に適用されます。
-
属性重要度は分類において最も有用です。
-
「列のフィルタ」における属性重要度のターゲットは、構築を計画している分類モデルのターゲットと同じである必要があります。
-
属性重要度では、各属性のランクおよび重要度が計算されます。
-
属性のランクは、整数です。
-
属性の重要度は実数であり、負の場合もあります。
-
属性重要度に対して次の値を指定します。
-
ターゲット: 重要な属性を見つける対象の値。通常は、分類問題のターゲットです。
ノート:
教師なしの属性重要度の場合は、ユーザーがターゲットを指定しないかぎり、「ターゲット」は「指定なし」
に設定されます。 -
重要度カットオフ: 0から1.0までの数値です。この値は、受け入れる重要度の最小値を特定します。属性の重要度が負の数である場合、その属性はターゲットと関連付けられないため、カットオフは負にできません。デフォルトのカットオフは
0
です。属性のランクまたは重要度により、モデルの構築に使用する属性を選択できます。 -
上位N: 属性の最大数です。デフォルトは
100
です。 -
属性重要度の計算用の「サンプル手法」を選択します。デフォルトは「システム決定」です。「層別」または「ランダム」も選択できます。
「システム決定」は、層別カットオフ値を持ち、そのデフォルト値は
10
です。-
選択された列の個別の数がカットオフ値を超えている場合、ランダム・サンプリングが使用されます。
-
選択された列の個別の数がカットオフ値以下である場合、層別サンプリングが使用されます。
ターゲットのサンプリングの特定の組合せにより、パフォーマンスの問題が発生する可能性があります。パフォーマンスに問題がある場合は、警告が表示されます。
-
- 属性重要度ビューア
属性重要度モデルを表示するには、選択された「属性重要度」を使用してフィルタ列ノードを構築します。
親トピック: フィルタ列ノードの編集
7.4.2.7.1 属性重要度ビューア
属性重要度モデルを表示するには、選択された「属性重要度」を使用してフィルタ列ノードを構築します。
ノードを右クリックして、「データの表示」を選択します。結果は、新しい「フィルタ列の詳細」タブに表示されます。ビューアには、次のタブがあります。
-
属性重要度: 重要度が0以上の属性がリストされます。属性は、最小ランク(最重要)から最大ランクまでランク順にリストされます。このタブには、各属性のデータ型も表示されます。青色のバーがランクを示しています。任意の列ヘッダーをクリックして、列をソートできます。
-
列をフィルタ処理するには、つまり表示される列を数を制限するには、を使用します。
-
フィルタ定義をクリアするには、をクリックします。名前、タイプ、ランクまたは重要度でも検索できます。
-
-
データ: 重要な属性が重要度順にリストされます(最重要が先頭)。各属性のランクおよび重要度について、値がリストされます。重要度値が0以上の属性のみがリストされます。
-
列: 「属性重要度」により作成される、属性名、ランクおよび重要度値の列が表示されます。
-
SQL: これは、詳細を生成するSQLです。
親トピック: 属性重要度
7.4.3 フィルタ列ノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
フィルタ列ノードのプロパティには、次のセクションがあります。
関連項目
親トピック: フィルタ列ノード
7.4.4 フィルタ列ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
関連項目
親トピック: フィルタ列ノード
7.5 フィルタ列の詳細
フィルタ列の詳細ノードでは、「属性重要度」の結果で構成されるデータ・フローを作成します。
各属性について、ランクおよび重要度の値がリストされます。
ノート:
「フィルタ列の詳細」は、「設定」で選択された属性重要度を持つフィルタ列ノードに接続されている必要があります。それ以外の場合、フィルタ列の詳細ノードは無効となります。
「フィルタ列の詳細」はパラレルに実行できます。
この項は次のトピックで構成されています:
- フィルタ列の詳細ノードの作成
フィルタ列の詳細ノードを作成すると、「属性重要度」の結果で構成されるデータ・フローを作成できるようになります。 - フィルタ列の詳細ノードの編集
フィルタ列ノードにより実行されるフィルタを定義または編集できます。 - フィルタ列の詳細ノードのプロパティ
「プロパティ」ペインでは、ノードの特性やプロパティを調査および変更できます。 - フィルタ列の詳細ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
親トピック: 変換ノード
7.5.1 フィルタ列の詳細ノードの作成
フィルタ列の詳細ノードを作成すると、「属性重要度」の結果で構成されるデータ・フローを作成できるようになります。
関連項目
親トピック: フィルタ列の詳細
7.5.2 フィルタ列の詳細ノードの編集
フィルタ列ノードにより実行されるフィルタを定義または編集できます。
-
列の除外: フィルタ列ノードを初めて編集する際に列を除外できます。
-
フィルタ列設定の編集または表示: フィルタ列ノードを初めて編集する際にフィルタ列設定を編集または表示できます。
-
重要な属性の計算: 「設定」をクリックして属性重要度を有効にします。
-
評価: ヒントを評価して、フィルタ処理で除外する列を決定します。追加情報です。
親トピック: フィルタ列の詳細
7.6 フィルタ行
フィルタ行ノードでは、行を記述するSQL文を指定して行を選択できます。
たとえば、CUST_GENDER
がF
であるすべての行を選択するには、CUST_GENDER = 'F'のように指定します。
SQL式を直接記述することも、式ビルダーを使用することも可能です。
フィルタ行はパラレルに実行できます。
この項は次のトピックで構成されています:
- フィルタ行ノードの作成
フィルタ行ノードを作成すると、必要に応じてSQL文を指定して行を選択できるようになります。 - フィルタ行の編集
「行のフィルタの編集」ダイアログ・ボックスでは、フィルタ行ノードで実行されるフィルタを定義または編集します。 - フィルタ行ノードのプロパティ
「プロパティ」ペインでは、ノードの特性やプロパティを調査および変更できます。 - フィルタ行ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
親トピック: 変換ノード
7.6.1 フィルタ行ノードの作成
フィルタ行ノードを作成すると、必要に応じてSQL文を指定して行を選択できるようになります。
7.6.2 フィルタ行の編集
「行のフィルタの編集」ダイアログ・ボックスでは、フィルタ行ノードで実行されるフィルタを定義または編集します。
「行のフィルタの編集」ダイアログ・ボックスには、次の2つのタブがあります。
7.6.2.1 フィルタ
フィルタは、選択する行を記述した1つ以上のSQL式です。
フィルタを作成または編集するには:
- をクリックして、「式ビルダー」を開きます。
- フィルタリングに使用するSQL問合せを記述します。
- 式の指定後に、それを削除できます。それを選択して、をクリックします。
- 完了後、「OK」をクリックします。Data Minerにより、式が検証されます。
7.6.3 フィルタ行ノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。フィルタ行ノードのプロパティを表示するには:
フィルタ行ノードの「プロパティ」タブには、次のセクションがあります。
-
フィルタ: 「行のフィルタの編集」を使用して作成したSQL式。をクリックして、「プロパティ」内で式を変更できます。
-
列:出力データ列。各列に対して、名前、別名(該当する場合)およびデータ型がリストされます。
-
キャッシュ
-
詳細
7.7 結合
「結合」ノードでは、2つ以上のデータ・ソース・ノードからのデータを、新しいデータ・ソースに結合します。
理論的には、結合ノードとは、2つ以上の表、ビューまたはマテリアライズド・ビューの行を結合する問合せです。たとえば、結合ノードは表またはビューを組み合せて(FROM
句で指定)、指定した条件に一致する行のみを選択し(WHERE
句)、投影を使用して2つの列からデータを取得します(SELECT
文)。
「結合」はパラレルに実行できます。
この項では、次の項目について説明します。
- 結合ノードの作成
結合ノードを作成すると、2つ以上のデータ・ソース・ノードからのデータを、新しいデータ・ソースに結合できるようになります。 - 結合ノードの編集
「結合ノードの編集」ダイアログ・ボックスでは、構築するモデルの特性を指定または変更できます。 - 結合ノードのプロパティ
「プロパティ」ペインでは、ノードの特性やプロパティを調査および変更できます。 - 結合ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
関連項目
親トピック: 変換ノード
7.7.1 結合ノードの作成
結合ノードを作成すると、2つ以上のデータ・ソース・ノードからのデータを、新しいデータ・ソースに結合できるようになります。
ノート:
結合入力を表またはビューとしてマテリアライズする場合、それを表またはビュー作成ノードに接続します。関連項目
親トピック: 結合
7.7.2 結合ノードの編集
「結合ノードの編集」ダイアログ・ボックスでは、構築するモデルの特性を指定または変更できます。
結合ノードは次のどちらかの方法で定義できます。
-
結合ノードをダブルクリックするか、ノードを右クリックして「編集」をクリックします。「結合」タブをクリックします。
-
ノードを選択します。「プロパティ」ペインで「結合」タブを選択します。をクリックします。
いずれの場合でも、「結合ノードの編集」ダイアログ・ボックスが開きます。
- 結合ノードの編集
「結合ノードの編集」ダイアログ・ボックスでは、列の追加、フィルタの定義、および結合仕様に関連する問題の解決を行うことができます。 - 列の編集
デフォルト設定では、表示された列のリストに対して「自動設定」を使用します。 - 出力データ列の編集
「出力データ列の編集」ダイアログ・ボックスでは、出力から列を除外できます。 - 解決
「解決」ダイアログ・ボックスでは、様々な理由で無効になる可能性がある結合仕様に関連する問題を解決できます。
親トピック: 結合
7.7.2.1 結合ノードの編集
「結合ノードの編集」ダイアログ・ボックスでは、列の追加、フィルタの定義、および結合仕様に関連する問題の解決を行うことができます。
「結合」タブが表示されていない場合は、それをクリックします。「結合ノードの編集」ダイアログ・ボックスでは、次のタスクを実行できます。
-
新しい結合列を追加するには、をクリックします。「結合列の編集」ダイアログ・ボックスが開きます。
-
「結合列の編集」ダイアログ・ボックスで、「データソース」—「ソース1」および「ソース2」を選択します。いずれのソース内の列も、名前またはデータ型で検索できます。
-
「ソース1」でエントリを1つ選択して、対応するエントリを「ソース2」で選択します。
-
「追加」をクリックします。Data Minerにより適切な結合タイプが選択されます。「列1」(「ソース1」から)、「列2」(「ソース2」から)および「結合タイプ」がグリッドに表示されます。このグリッドは、「列1」、「列2」または「結合タイプ」で検索できます。
-
完了後、「OK」をクリックします。
-
-
「結合」で列を選択するには、「列」タブをクリックして、「列の編集」ダイアログ・ボックスを表示します。
-
「結合」のフィルタを定義するには、「フィルタ」タブを選択して適切なSQL式を入力します。SQLワークシート(SQL Developerの一部)を使用してフィルタを記述することも可能です。
いずれかのデータ・ノードが結合ノードに接続されなくなった場合など、結合の問題が発生した場合は、次のように情報インジケータが表示されます。
「問題の解決」をクリックします。「解決」ダイアログ・ボックスが開きます。
7.7.2.2 列の編集
デフォルト設定では、表示された列のリストに対して「自動設定」を使用します。
列を選択するには、次のいずれかの方法で結合詳細の編集内の「列」タブに移動します。
-
結合ノードを右クリックして「編集」を選択します。その後、「列」をクリックします。
-
結合ノードを選択します。「プロパティ」ペインで「列」をクリックします。
変更を行うには、「自動設定」の選択を解除します。次のタスクを実行できます。
-
列のリストの編集: 「「出力データ列の編集」ダイアログ」ボックスを開いてをクリックします。
-
出力からの列の削除: 列を選択してをクリックします。
ノードを実行していない場合は、それを再度実行する必要があります。
7.7.2.3 出力データ列の編集
「出力データ列の編集」ダイアログ・ボックスでは、出力から列を除外できます。
デフォルト設定では、出力内の両方の表からのすべての列が含まれます。
出力から列を除外するには:
- 列を「選択された属性」リストから「使用可能な属性」リストに移動します。
- 「OK」をクリックします。
親トピック: 結合ノードの編集
7.7.2.4 解決
「解決」ダイアログ・ボックスでは、様々な理由で無効になる可能性がある結合仕様に関連する問題を解決できます。
データ・ソース・ノードが結合ノードから切断されると、そのノードのすべての結合仕様が保持され、「無効」としてマークされます。結合ノードを実行する前に、問題を解決する必要があります。「解決」ダイアログ・ボックスでは、次の2通りの方法で結合の問題を解決できます。
-
削除: すべての無効なエントリを、すべての指定(「適用」および「データ」)から削除します。
-
解決: 未割当てノードと欠落ノードの関連付けを可能にするグリッドが表示されます。欠落ノードがグリッドにリストされ、アクションが提示されます。
親トピック: 結合ノードの編集
7.7.3 結合ノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。結合ノードのプロパティを表示するには:
結合ノードの「プロパティ」ペインには、次のセクションがあります。
-
結合: 結合を定義します。
-
列: 「結合」の出力列が表示されます。各列に対して、名前、ノード、別名(該当する場合)およびデータ型がリストされます。最大1000列が表示されます。
-
フィルタ: 式ビルダーを使用してフィルタ条件を定義して、結果をフィルタ処理します。をクリックして、「式ビルダー」を開きます。
-
キャッシュ
-
詳細
7.8 JSON問合せ
Oracle Data Miner (SQL Developer 4.1以上)でのJSONデータ・フォーマットのサポートは、JSON問合せノードにより実現されます。
JSON (JavaScript Object Notation)は一種のデータ・フォーマットであり、ユーザーが一連の値、リストおよびキーと値のペアのマッピングを複数のシステムにわたって格納および通信することを可能にします。
JSON問合せノードは、JSONデータ・フォーマットをリレーショナル・フォーマットに投影します。それは、データ・ソース・ノードなどの入力データ・プロバイダ・ノードを1つのみサポートします。JSON問合せノードでは、次のタスクを実行できます。
-
ソース・データ内の任意のJSON属性を選択して、それをリレーショナル・データとして投影します
-
ソース・データ内のリレーショナル列を選択して、それをリレーショナル・データとして投影します
-
JSONデータ上の集計列を定義します
-
出力データをプレビューします
-
ユーザー指定に基づいてJSON問合せを構成します
ノート:
Oracle Database 12.1.0.2以上では、JSON問合せノードがサポートされています。
- JSON問合せノードの作成
JSON問合せノードは、データ・ソース・ノードなどの入力プロバイダ・ノードに接続されている必要があります。 - JSON問合せノード・エディタ
「JSON問合せノードの編集」ダイアログ・ボックスでは、擬似JSON型の入力列のみを操作できます。 - JSON問合せノードのプロパティ
「プロパティ」ペインでは、ノードの特性やプロパティを調査および変更できます。 - JSON問合せノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。 - データ型とサポートされている演算子
JSONデータ型とサポートされている演算子を示します。
親トピック: 変換ノード
7.8.1 JSON問合せノードの作成
JSON問合せノードは、データ・ソース・ノードなどの入力プロバイダ・ノードに接続されている必要があります。
ノードを正常に実行するには、入力提供ノードにJSONデータが含まれている必要があります。
JSON問合せノードを作成するには:
親トピック: JSON問合せ
7.8.2 JSON問合せノード・エディタ
「JSON問合せノードの編集」ダイアログ・ボックスでは、擬似JSON型の入力列のみを操作できます。
「JSON問合せノードの編集」ダイアログ・ボックスを開くするには:
-
JSON問合せノードをダブルクリックします。
-
ノードを右クリックして「編集」をクリックします。
「JSON問合せノードの編集」ダイアログ・ボックスは、次のタブで構成されています。
- JSON
「JSON」タブでは、JSONデータの選択や属性に対するフィルタの指定などを行うことができます。 - 追加出力
「追加出力」タブでは、ソース・データのリレーショナル列を出力対象として選択できます。 - 集計
「集計」タブでは、JSON属性上の集計列の定義を定義できます。 - プレビュー
「プレビュー」タブでは、ノード出力のプレビューが可能です。
親トピック: JSON問合せ
7.8.2.1 JSON
「JSON」タブでは、JSONデータの選択や属性に対するフィルタの指定などを行うことができます。
「列」ドロップダウン・リストには、JSONデータ(擬似JSONデータ型)が含まれる入力列のみがリストされます。ARRAY、BOOLEAN、NUMBERおよびSTRINGデータ型の属性に対するフィルタを指定することもできます。フィルタは、「すべてに一致」や「いずれか」など、ユーザーが指定した論理演算子に基づいて、データに階層順に適用されます。ドロップダウン・リストから入力列を1つ選択します。
フィルタ設定を指定して適用するには、をクリックします。「フィルタ設定」ダイアログ・ボックスが開きます。
「JSON」タブは次で構成されています。
- 構造
「構造」タブには、選択した列のJSONデータ構造が表示されます。 - データ
「データ」タブには、JSON構造の作成に使用されているJSONデータが表示されます。 - フィルタ設定
「フィルタ設定」ダイアログ・ボックスでは、ARRAY、BOOLEAN、NUMBERおよびSTRINGデータ型の属性に対するフィルタを指定できます。
親トピック: JSON問合せノード・エディタ
7.8.2.1.1 このマニュアルの構成
「構造」タブには、選択した列のJSONデータ構造が表示されます。
構造またはデータ・ガイド表が、データ・ソース・ノードなどの親ソース・ノード内で生成されている必要があります。構造が見つからない場合、それを通知するメッセージが表示されます。
データ構造に関する次の情報が表示されます。
-
JSON属性: 生成されたJSON構造が階層形式で表示されます。インポートする1つ以上の属性を選択できます。親属性を選択した場合、すべての子属性が自動的に選択されます。
-
JSONデータ型: JSONデータから得られた、すべての属性のJSONデータ型が表示されます。
-
ネストされていない: 配列内のすべての属性が、リレーショナル・フォーマットにネストされていません。デフォルトでは、ネスト解除オプションは有効です。配列属性の「ネストされていない」オプションが無効である場合、次のようになります。
-
この属性は表示されますが、選択できません。
-
出力に対して配列属性が選択されている場合、出力列には配列のJSON表現が含まれます。
-
「構造」タブでは、次のタスクを実行できます。
-
表示プリファレンスの設定: 「表示」ドロップダウン・リストでは、次のいずれかをクリックして、表示プリファレンスを設定できます。
-
すべて: すべての属性を表示します。
-
選択したもののみ: 選択した属性のみを表示します。
-
フィルタ付きのみ: フィルタ定義が適用されている属性とその親属性のみを表示します。
-
選択したものでフィルタ付き: 選択した属性のうち、フィルタ定義が適用されているもののみを表示します。
-
-
属性の選択: 1つ以上の属性を選択するには、属性のチェック・ボックスをクリックします。
ノート:
属性を選択すると、その親属性が自動的に選択されます。親属性を選択した場合、すべての子属性が自動的に選択されます。ただし、直近の子属性がグループ選択に含まれていない場合にかぎります。
-
フィルタのコピー: をクリックして、属性のフィルタをローカル・キャッシュにコピーします。その後、貼付けオプションを使用して、コピーしたフィルタを同じデータ型の別の属性に適用できます。
ノート:
このオプションは、選択した属性にフィルタ定義が適用されている場合にのみ有効になります。
-
フィルタの貼付け: 属性からフィルタをコピーした後、そのフィルタを貼り付ける属性をクリックして、をクリックします。
ノート:
コピーしたフィルタは、互換性があるデータ型を持つ属性に対して使用できます。たとえば、NUMBERデータ型の属性からコピーしたフィルタは、NUMBERデータ型の属性にのみ貼り付けることができます。
-
フィルタのクリア: フィルタを削除する属性を選択して、をクリックします。
-
フィルタの編集: インプレース編集オプションを使用すると、STRING、NUMBER、BOOLEAN、ARRAYのいずれかの型の属性に対するフィルタを追加または編集できます。属性に対するフィルタを編集または追加するには:
-
属性を選択し、をクリックします。または、属性を選択し、対応するフィルタ列のセルをダブルクリックします。選択した属性に対するインプレース編集オプションが有効になり、適用可能な演算子がドロップダウン・リストにリストされます。ドロップダウン・リストから演算子を選択します。
-
をクリックして、対応するフィールドから値を選択します。「値の検索」ダイアログ・ボックスが開きます。
-
「値の検索」ダイアログ・ボックスで、値を選択し、「OK」をクリックします。次に示すように、フィルタと値が「JSON問合せノード・エディタ」ダイアログ・ボックスに表示されるようになります。
編集を完了するには、[Enter]キーを押します。編集を取り消すには、[Esc]キーを押します
-
親トピック: JSON
7.8.2.1.2 データ
「データ」タブには、JSON構造の作成に使用されているJSONデータが表示されます。
テキスト・パネルでは、データが読取り専用モードで表示されます。コピーおよび貼付け操作用にテキストを選択できます。
表示するデータを問合せできます。データを問い合せるには、をクリックします。
親トピック: JSON
7.8.2.1.3 フィルタ設定
「フィルタ設定」ダイアログ・ボックスでは、ARRAY、BOOLEAN、NUMBERおよびSTRINGデータ型の属性に対するフィルタを指定できます。
次のフィルタ設定を指定できます。
-
フィルタ設定の編集の対象:
-
すべて
-
いずれか
-
-
フィルタ設定の適用先:
-
JSONネスト解除: リレーショナル・データ・フォーマットへの投影に使用されるJSONソース・データにフィルタを適用します。フィルタ処理されたデータのみが投影されます。
-
集計: 集計のみに使用されるJSONデータにフィルタを適用します。
-
JSONネスト解除および集計: JSONネスト解除と集計に使用されるデータの両方にフィルタを適用します。
-
フィルタ設定を指定したら、「OK」をクリックします。
親トピック: JSON
7.8.2.2 追加出力
「追加出力」タブでは、ソース・データ内のリレーショナル列を出力用に選択できます。
「集計」タブで集計定義により使用されている入力列は、出力のリストに自動的に追加されます。
ここでは、次のタスクを実行できます。
-
リレーショナル列の追加: 「出力データ列の編集」ダイアログでリレーショナル列を追加するには、をクリックします。
-
リレーショナル列の削除: 削除するリレーショナル列を選択してをクリックします。
- 「出力データ列の編集」ダイアログ
「「出力データ列の編集」ダイアログ」ボックスでは、データ・ソース内の使用可能なすべてのリレーショナル列がリストされます。出力に追加する1つ以上の列を選択できます。
親トピック: JSON問合せノード・エディタ
7.8.2.3 集計
「集計」タブでは、JSON属性上の集計列の定義を定義できます。
「集計」タブでは、次の2つのセクションに情報が表示されます。
-
「グループ化基準属性」セクション: ここでは、グループ化基準属性が、属性カウントとともにリストされます。次のタスクを実行できます。
-
JSONパスの表示: 属性名とコンテキスト情報を表示するには、「JSONパス」をクリックします。たとえば、
$."customers"."cust_id"
などです。有効になっていない場合は、属性名のみが表示されます。 -
属性の編集と追加: 「グループ化の編集」ダイアログ・ボックスにグループ化基準属性を追加するには、をクリックします。
-
属性の削除: 削除する属性を選択してをクリックします。
-
-
「集計属性」セクション: ここでは、集計列が列カウントとともに表示されます。
-
JSONパスの表示: 属性名とコンテキスト情報を表示するには、「JSONパス」をクリックします。たとえば、
$."customers"."cust_id"
などです。有効になっていない場合は、属性名のみが表示されます。 -
集計列の定義: 「集計ダイアログの追加」ボックスで集計列を定義するには、をクリックします。
-
集計列の削除: 選択した列を削除するには、をクリックします。
-
- 集計の追加
「集計ダイアログの追加」ボックスでは、JSON属性に対して関数を定義できます。 - サブ・グループ化の編集
「サブ・グループ化の編集」ダイアログ・ボックスでは、選択したJSON属性に「サブ・グループ化」属性を追加できます。 - グループ化の編集
「グループ化の編集」ダイアログ・ボックスには、JSON属性コレクションの上にリレーショナル列が表示されます。
親トピック: JSON問合せノード・エディタ
7.8.2.3.1 集計の追加
「集計ダイアログの追加」ボックスでは、JSON属性に対して関数を定義できます。
このダイアログ・ボックスには、階層ビューでJSON構造が表示されます。複数の属性を選択して、それに集計関数を適用できます。
ノート:
オブジェクトおよび配列タイプの属性は選択できません。
次のタスクを実行できます。
-
集計関数の定義:
-
JSON属性を選択します。[Ctrl]キーを押しながら関数を定義する属性をクリックすると、複数の属性を選択できます。
-
選択した属性に対して関数を選択および適用するには、をクリックします。適用可能な関数がリストされます。適用する関数を選択します。
または、「関数」列で対応する行をクリックします。適用可能な関数がドロップダウン・リスト内にリストされます。適用する関数を選択します。このオプションを使用すると、一度に1つの属性にのみ関数を定義できます。
-
「OK」をクリックします。
-
-
集計定義のクリア: 属性を選択してをクリックします。定義された関数に加え、出力と「サブ・グループ化」エントリも削除されます。
-
サブ・グループ化要素の編集: 属性を選択してをクリックします。「サブ・グループ化の編集」ダイアログ・ボックスが開きます。
-
検索: 属性名の一部に基づいて属性を見つけるにはをクリックします。
関連項目
親トピック: 集計
7.8.2.3.2 サブ・グループ化の編集
「サブ・グループ化の編集」ダイアログ・ボックスでは、選択したJSON属性に「サブ・グループ化」属性を追加できます。
属性を追加するには:
- 上部ペインで、「使用可能な属性」フォルダを展開します。
- 「サブ・グループ化」属性として追加する属性を選択します。選択した属性は下部ペインにリストされ、そこには追加した属性のカウントも表示されます。
- 「OK」をクリックします。
親トピック: 集計
7.8.2.3.3 グループ化の編集
「グループ化の編集」ダイアログ・ボックスには、JSON属性コレクションの上にリレーショナル列が表示されます。
リレーショナル列を、最上位レベルのグループ化基準の一部として追加できます。リレーショナル列を追加するには:
- 上部ペインで、「使用可能な属性」フォルダを展開します。
- 追加する列を選択します。選択した列が、下部ペインにリストされます。
- 「OK」をクリックします。
親トピック: 集計
7.8.2.4 プレビュー
「プレビュー」タブでは、ノード出力のプレビューが可能です。
出力は、次の2つのタブに表示されます。
親トピック: JSON問合せノード・エディタ
7.8.2.4.1 出力列
「出力列」タブでは、ヘッダー内の列がグリッド・フォーマットで表示されます。「JSONパス」をクリックすると、ソース属性名が表示されます。
-
「JSONパス」をクリックすると、ソース属性名がコンテキスト情報とともに表示されます。たとえば、
$."customers"."cust_id"
などです。 -
「JSONパス」をクリックしない場合は、属性名のみが表示されます。たとえば、
cust_id
などです。
列の次の詳細が「出力列」タブに表示されます。
-
名前: 出力列の名前が表示されます
-
データ型: 出力列のデータ型が表示されます
-
データソース: 属性名のソースが表示されます
-
JSONパス: 属性ソースが表示されます
-
集計: 集計に使用される集計関数が表示されます
-
グループ化基準: グループ化基準属性が表示されます
-
サブ・グループ化: 集計で使用されるサブ・グループ化属性が表示されます
親トピック: プレビュー
7.8.2.4.2 出力データ
「出力データ」タブでは、結果の上位N行が表示されます。問合せには、最新のユーザー指定が反映されます。問合せ結果は、グリッド・フォーマットで表示されます。
親トピック: プレビュー
7.8.3 JSON問合せノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
JSON問合せノードの「プロパティ」ペインには、次のセクションがあります。
- 出力
「プロパティ」ペインの「出力」セクションには、出力列が読取り専用モードで表示されます。 - キャッシュ
「キャッシュ」セクションには、出力データのキャッシュを生成するオプションがあります。 - 詳細
「詳細」セクションには、ノードの名前およびノードについてのコメントが表示されます。
親トピック: JSON問合せ
7.8.3.3 詳細
「詳細」セクションには、ノードの名前、およびノードについてのコメントが表示されます。
このフィールドでは、名前の変更およびコメントの追加が可能です。
-
ノード名
-
ノード・コメント
親トピック: JSON問合せノードのプロパティ
7.8.4 JSON問合せノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
関連項目
親トピック: JSON問合せ
7.8.5 データ型とサポートされている演算子
JSONデータ型とサポートされている演算子を示します。
表7-2 データ型とサポートされている演算子
データ型 | サポートされている演算子 | 説明 |
---|---|---|
Array |
次に含まれる |
指定した索引(0、1など)、索引範囲(2:4など)、またはこれらの両方の組合せを使用して、要素を取得します。 |
< |
指定した索引より小さい索引を持つ要素を取得します。 |
|
Boolean |
True |
条件と一致する要素を取得します。 |
False |
条件と一致しない要素を取得します。 |
|
Number |
次に含まれる |
条件に含まれる数値を取得します。 |
次に含まれない |
条件に含まれない数値を取得します。 |
|
= |
指定した条件と等しい数値を取得します。 |
|
!= |
指定した条件と等しくない数値を取得します。 |
|
> |
指定した条件より大きい数値を取得します。 |
|
>= |
指定した条件と等しいか、それより大きい数値を取得します。 |
|
< |
指定した条件より小さい数値を取得します。 |
|
<= |
指定した条件と等しいか、それより小さい数値を取得します。 |
|
String |
次に含まれる |
条件に含まれる要素を取得します。 |
次に含まれない |
条件に含まれない要素を取得します。 |
|
次で始まる |
条件の文字列で始まる要素を取得します。 |
|
次を含む |
条件と一致する要素が含まれている要素を取得します。 |
|
= |
条件と等しい要素を取得します。 |
|
!= |
条件と等しくない要素を取得します。 |
|
> |
条件より大きい要素を取得します。 |
|
>= |
条件と等しいか、それより大きい要素を取得します。 |
|
< |
条件より小さい要素を取得します。 |
|
<= |
条件と等しいか、それより小さい要素を取得します。 |
親トピック: JSON問合せ
7.9 サンプル
「サンプル」タブでは、データをサンプリングできます。
サンプル・ノードでは、次のいずれかの方法でのデータのサンプリングが可能です。
-
ランダム・サンプル: データ・セットの各要素が選択される機会を等しく持つ場合のサンプル。
-
上位Nサンプル: 最初のN個の値を選択するデフォルトのサンプル。
-
層別サンプル: 次のように作成されるサンプル。
-
最初に、データ・セットは、分断されたサブセットまたは層に分割されます。
-
各サブセットからサンプルがランダムに取得されます。
この手法は、ターゲット値の分布が大幅に偏っている場合に使用される。たとえば、マーケティング・キャンペーンに対する反応のポジティブ・ターゲット値が、そのキャンペーン期間の1%以下の場合などで使用されます。
-
ネストしたデータのサンプリングは、ケースIDを使用すると最適に実行されます。サンプル・ノードはパラレルに実行できます。
この項の内容は次のとおりです。
- ネストしたデータのサンプリング
ネストしたデータのサンプリングは、ケースIDを必要とする場合があります。 - サンプル・ノードの作成
サンプル・ノードを作成すると、データのサンプルを作成できるようになります。 - サンプル・ノードの編集
「サンプル・ノードの編集」ダイアログ・ボックスでは、サンプルを定義および編集できます。この設定は、作成するサンプルのタイプおよびサンプルのサイズを示します。 - サンプル・ノードのプロパティ
「プロパティ」ペインでは、ノードの特性やプロパティを調査および変更できます。 - サンプル・ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
親トピック: 変換ノード
7.9.1 ネストしたデータのサンプリング
ネストしたデータのサンプリングは、ケースIDを必要とする場合があります。
ケースIDを指定しない場合、密度および深度が非常に高いネストした列に対するサンプル操作が失敗する可能性があります。1行当たりのネストしたデータの量が、特定の列または行に対する最大値である30,000を超過すると、失敗する可能性があります。
また、ケースIDにより、Data Minerが密度および深度の高いデータ上で層別ソートを実行することが可能になります。
親トピック: サンプル
7.9.2 サンプル・ノードの作成
サンプル・ノードを作成すると、データのサンプルを作成できるようになります。
関連項目
親トピック: サンプル
7.9.3 サンプル・ノードの編集
「サンプル・ノードの編集」ダイアログ・ボックスでは、サンプルを定義および編集できます。この設定は、作成するサンプルのタイプおよびサンプルのサイズを示します。
サンプル・ノードの設定を編集するには:
7.9.3.1 ランダム
ランダム・サンプルに対して次を指定します。
-
シード: デフォルトのシードは
2345
です。別の整数を指定できます。 -
ケースID (オプション): ドロップダウン・リストからケースIDを選択します。
シードおよびケースIDを指定すると、サンプルは再現可能になります。
親トピック: サンプル・ノードの編集
7.9.3.3 層別
層別サンプルに対して次を指定します。
-
列: 層化用の列を選択します。
-
シード: デフォルトのシードは
12345
です。別の整数を指定できます。 -
ケースID(オプション): ドロップダウン・リストからケースIDを選択します。
シードおよびケースIDを指定すると、サンプルは再現可能になります。
-
分布: サンプルがどのように作成されるかを指定します。3つのオプションがあります。
-
オリジナル: サンプル内の選択された列の分布は、データ・ソース内の分布と同じです。たとえば、列GENDERにケースの95%の値としてMがある場合、サンプルでは、GENDERの値はM (ケースの95%)になります。
-
平均化: 列の値の分布は、データ・ソース内の分布とは関係なくサンプル内で均等です。列がGENDERでGENDERがMとFの2つの値を持つ場合、GENDERの値は50%の確率でMです。
-
カスタム: サンプル内の列の値の分布を定義します。カスタム分布を定義する前に、ノードを1回実行する必要があります。「編集」をクリックして、「カスタム平均化」ダイアログ・ボックスを開きます。
-
「層別」ダイアログ・ボックスでは、選択された列の値のヒストグラムがウィンドウの底部に表示されます。詳細を表示するには、「表示」をクリックして「カスタム平均化」ダイアログ・ボックスを表示します。
関連項目
親トピック: サンプル・ノードの編集
7.9.3.4 カスタム平均化
「カスタム平均化」ダイアログ・ボックスでは、選択された列がどのように分散されるかを正確に指定できます。
カスタム分布を作成する前に、ノードを実行して統計を収集する必要があります。ノードの実行後に、カスタム分布を選択して「表示」を選択し、それを編集します。「カスタム平均化」ダイアログが開きます。
層別属性の各値に対してカスタム・エントリを作成することも、「オリジナル」または「平均化」をクリックして開始点を準備することも可能です。「リセット」をクリックして、元の値にリセットできます。
カスタム値を作成するには、変更する属性を選択してをクリックします。
「サンプル・カウント」列内の値をカスタム値に変更します。[Enter]を押します。新しいサンプルが、出力として画面下部に表示されます。必要に応じて何度でも値を変更できます。作業を終了後、「OK」をクリックします。
親トピック: サンプル・ノードの編集
7.9.4 サンプル・ノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
サンプル・ノードの「プロパティ」ペインには、次のセクションがあります。
-
設定: 次を指定できます。
-
サンプル・サイズ: 次の観点でサンプル・サイズを選択します。
-
パーセント。デフォルト=60%
-
行数。デフォルトの行数は2000です。
-
-
サンプル・タイプ: オプションは次のとおりです。
-
ランダム(デフォルト)
-
層別
-
上位N
-
-
シード: デフォルトのシードは12345です。別の整数を指定できます。
-
ケースID: これはオプションのフィールドです。ドロップダウン・リストからケースIDを選択します。シードおよびケースIDを指定すると、サンプルは再現可能になります。
-
-
キャッシュ
-
詳細
- キャッシュ
「キャッシュ」セクションには、出力データのキャッシュを生成するオプションがあります。変換プリファレンスを使用して、このデフォルトを変更できます。 - 詳細
「詳細」セクションには、ノードの名前およびノードについてのコメントが表示されます。
親トピック: サンプル
7.9.4.1 キャッシュ
「キャッシュ」セクションには、出力データのキャッシュを生成するオプションがあります。変換プリファレンスを使用して、このデフォルトを変更できます。
次のタスクを実行できます。
-
出力データのキャッシュ生成による結果表示の最適化: キャッシュを生成する場合は、このオプションを選択します。デフォルト設定では、キャッシュを生成しません。
-
サンプリング・サイズ: キャッシュを選択したり、デフォルト設定をオーバーライドできます。 デフォルトのサンプリング・サイズは
「行数」
です デフォルト値は2000
です
-
関連項目
親トピック: サンプル・ノードのプロパティ
7.9.4.2 詳細
「詳細」セクションには、ノードの名前、およびノードについてのコメントが表示されます。
次のフィールドで名前とコメントを変更できます。
-
ノード名
-
ノード・コメント
親トピック: サンプル・ノードのプロパティ
7.10 変換
変換ノードでは、サンプリングされたデータまたはすべてのデータを使用して統計を計算できます。
変換は、列単位で定義します。変換を定義したら、複数の列を同じ方法で変換できます。変換ノードはパラレルに実行できます。変換ノードを使用するには、それをデータ・フロー、つまりデータ・ソース・ノードまたは属性を生成するフィルタリング・ノードなどのその他のノードに接続します。次に、変換する属性を選択します。
- サポートされる変換
使用可能な変換は、属性のデータ型によって異なります。たとえば、正規化は文字データ上では実行できません。 - 日付と時間データ型のサポート
変換ノードでサポートされているデータ型を示します。 - 変換ノードの作成
変換ノードを作成すると、変換を定義し、列を変換できるようになります。 - 変換ノードの編集
「変換ノードの編集」ダイアログ・ボックスを使用して、変換ノードの定義および編集を実行できます。 - 変換ノードのプロパティ
「プロパティ」ペインでは、ノードの特性やプロパティを調査および変更できます。 - 変換ノードのコンテキスト・メニュー
コンテキスト・メニューのオプションは、ノードのタイプによって異なります。様々なタスクを実行したり、ノードに関する情報を表示するためのショートカットが用意されています。
親トピック: 変換ノード
7.10.1 サポートされる変換
使用可能な変換は、属性のデータ型によって異なります。たとえば、正規化は文字データ上では実行できません。
変換は、列単位で定義します。変換を定義したら、複数の列を同じ方法で変換できます。
これらの統計を、複数の変換のうちの1つを定義するためのガイドとして使用できます。次の変換がサポートされています。
- ビニング
ビニングは、連続変数を質的変数に変換し、連続値を連続値に変換し、質的な値を質的変数に変換する変換タイプです。 - カスタム
「カスタム」ダイアログ・ボックスでは、既存の属性と一般的な関数の組合せに基づいて、フィールドの新しい値を計算できます。 - 欠損値
欠損値変換では、欠損値の処理方法を指定できます。 - 正規化
正規化では、x_new = (x_old-shift)/scale
のように、量的な値を[–1.0,1.0]や[0.0,1.0]などの特定の範囲に変換します。正規化は、量的属性に対してのみ適用されます。 - 外れ値
外れ値は、通常のデータの個体群には存在しないデータ値(極値)です。正規分布では、外れ値は通常、平均値からの標準偏差が少なくとも3である。
親トピック: 変換
7.10.1.1 ビニング
ビニングは、連続変数を質的変数に変換し、連続値を連続値に変換し、質的な値を質的変数に変換する変換タイプです。
ビニングは、次の変換を行います。
-
連続変数から質的変数へ。
-
連続値から連続値へ。たとえば、年齢を1から10の10グループに変換できます。
-
多くの値の質的な値から少ない変数の質的変数へ。
たとえば、給与は連続変数です。給与を10個のビンに分割する場合は、給与を、10個の給与の範囲を表す値を持つ質的変数に変換します。
数値、およびVARCHAR2
とCHAR
の文字型の両方をビニングできます。
7.10.1.1.1 再コーディング
Oracle Data Minerは、再コーディング変換をサポートしません。ただし、カスタム・ビニングを使用してレコード変換を実行できます。たとえば、米国の州のME、NH、VT、CT、MAおよびRIを値NEに再コーディングするには、5州をNEという名前のビンに入れるカスタム・ビンを作成します。
親トピック: ビニング
7.10.1.3 欠損値
欠損値変換では、欠損値の処理方法を指定できます。
データ値は、様々な理由で欠損します。
-
データ値が測定されなかった、つまりそれがNull値を持っている場合。
-
データ値が回答されなかった場合。
-
データ値が既知ではなかった場合。
-
データ値が失われた場合。
Oracle Machine Learningのアルゴリズムによって、欠損値の処理方法は異なります。
-
欠損値を無視し、欠損値を含むすべてのレコードを省略します。
-
欠損値を最頻値または平均値で置き換えます。
-
既存値から欠損値を推測します。
親トピック: サポートされる変換
7.10.1.4 正規化
正規化では、[–1.0,1.0]や[0.0,1.0]などの量的な値を、x_new = (x_old-shift)/scale
などのように特定の範囲に変換します。正規化は、量的属性に対してのみ適用されます。
Oracle Data Minerでは、次の種類の正規化を指定できます。
-
最小/最大:: 変換
「x_new = (x_old-min)/(max-min)」
を使用して各属性を正規化します -
線形目盛: 変換
x_new = (x_old-shift)/scale
を使用して各属性を正規化します -
Z-スコア: データから計算される平均および標準偏差を使用して、量的属性を正規化します。変換
x_new = (x-平均)/標準偏差
を使用して各属性を正規化します -
カスタム: 正規化方法をユーザーが定義します。
正規化により、最小/最大正規化、スケール正規化およびZ-スコア正規化を実行する変換が提供されます。
ノート:
文字データは正規化できません。
親トピック: サポートされる変換
7.10.1.5 外れ値
外れ値は、通常のデータの個体群には存在しないデータ値(極値)です。正規分布では、外れ値は通常、平均値からの標準偏差が少なくとも3である。
外れ値の構成(たとえば、値の上位および下位5%の値すべて)を定義することで処理を指定し、外れ値の置換方法を指定します。
ノート:
通常、外れ値をNull値または境界値で置換できます。
次に例を示します。
属性分布の平均=10
標準偏差=5
外れ値は次の値です。
-
-5未満 (平均から標準偏差の3倍を減算)
-
25より大きな値(平均に標準偏差の3倍を加算)
この場合、外れ値-10をNULLまたは5のいずれかで置換できます。
親トピック: サポートされる変換
7.10.3 変換ノードの作成
変換ノードを作成すると、変換を定義し、列を変換できるようになります。
7.10.4 変換ノードの編集
「変換ノードの編集」ダイアログ・ボックスを使用して、変換ノードの定義および編集を実行できます。
このダイアログ・ボックスは次の2つのタブで構成されています。
-
変換
-
統計
「変換」タブには、各列の統計が表示されます。統計を非表示にするには、「統計情報の表示」の選択を解除します。
ノート:
統計を表示するには、ノードを実行する必要があります。
「変換」タブでは、次のタスクを実行できます。
-
変換の定義: 元の列、つまり変換されていない列を1つ以上選択します。をクリックします。
1つまたは少数の列を選択すると、「変換を追加」ダイアログ・ボックスが開きます。それ以外の場合は、「分割適用ウィザード」が開きます。
-
カスタム変換の定義: 元の列、つまり変換されていない列を1つ以上選択します。をクリックします。
「カスタム変換の追加」ダイアログ・ボックスが開きます。ここで、カスタム変換の追加を行うことができます。
デフォルトの動作では、元の列を無視して、変換された列を出力として使用します。「出力」列に表示される値には、次が示されます。
-
: 含まれている列
-
: 無視されている列
-
-
「出力」列の値の変更: 「出力」列に示されているアイコンをクリックして、「変換を追加」ダイアログ・ボックス内の値を編集します。
-
変換された列の編集: 変換された列のみを編集できます。たとえば、AGE_BINを編集できますがAGEは編集できません。変換を編集するには、変換された列を1つ以上選択してをクリックします。1つまたは少数の列を選択すると、「変換の編集」ダイアログ・ボックスが開きます。
-
変換の削除: 変換された列を1つ以上選択してをクリックします。
-
列のフィルタリング: 表示される列を制限するには、をクリックします。次の基準で検索できます。
-
出力列
-
変換
-
ソース列
-
-
フィルタ定義のクリア: フィルタ定義をクリアするには、をクリックします。
-
変換の効果の表示: 変換の効果を表示するには:
-
ノードを実行します。
-
ノードの実行の完了後に、ノードをダブルクリックします。
-
元の列と変換済列を比較するヒストグラムを表示するには、変換済の列を選択します。
-
列に、それに適用される変換がある場合、列のリストに新しい行が生成されます。各列には名前が必要であるため、新しい行の名前は古い列の名前および実行された変換のタイプに基づきます。ユーザーは通常、列を変換した後、新しい列に含まれている変換ノードの出力のみを必要とします。元の列には、それが出力列の1つとして渡されないようにするために設定されるオプションがあります。たとえば、AGEをビニングしてAGE_BINを作成している場合、AGEは渡されず、AGE_BINが渡されます。
- 変換の追加
「変換を追加」ダイアログ・ボックスでは、データ型の属性に応じて、ビニング、欠損値、正規化などのカスタム変換を追加できます。 - カスタム変換の追加
「カスタム変換の追加」ダイアログ・ボックスでは、カスタム変換を定義できます。 - 分割適用ウィザード
分割適用ウィザードでは、複数の列の変換を同時に定義または編集できます。 - 変換の編集
ノードが実行されると、「変換の編集」ダイアログ・ボックスに、変換されていない列および変換されたバージョンの両方の情報が表示されます - カスタム変換の編集
カスタム変換の編集ダイアログ・ボックスでは、式ビルダーを使用して式を編集できます。
親トピック: 変換
7.10.4.1 変換の追加
「変換を追加」ダイアログ・ボックスでは、データ型の属性に応じて、ビニング、欠損値、正規化などのカスタム変換を追加できます。
変換を追加するには:
- ビニング
ビニングは変換のタイプです。 - 等幅のビニング(数)
「等幅のビニング(数)」は、指定した同じサイズのビン数に値の範囲を分割することによって、量的属性のビンを決定します。 - 分位数のビニング
「分位数のビニング」は、各ビンにほぼ同数のケースが含まれるように属性をビンに分割します。 - トップNのビニング
「トップNのビニング」タイプは、質的属性をビニングします。各属性のビンの定義は、データから計算される値の発生頻度に基づいて計算されます。 - カスタム
「カスタム」ビニングでは、カスタム・ビンを定義できます。 - 欠損値
「欠損値」は、欠損した値を適切な値に置き換える変換タイプです。 - 正規化
正規化では、x_new = (x_old-shift)/scaleのように、量的な値を[–1.0,1.0]や[0.0,1.0]などの特定の範囲に変換します。 - 外れ値
外れ値は、通常のデータの個体群から離れているデータ値です。つまり、それは極値です。 - 既存の列を使用
「既存の列を使用」オプションは、少なくとも1つの変換が存在する場合にのみ使用できます。 - 複数の変換の追加または編集
複数の列の変換を同時に定義または編集できます。既存の変換を、1つ以上の列に適用することも可能です。
親トピック: 変換ノードの編集
7.10.4.1.1 ビニング
ビニングは変換のタイプです。
ビニングは次の目的で使用できます。
-
連続値を不連続値に変換します。
-
多数の不連続値を持つ変数を、少数の不連続値を持つ変数に変換します。
デフォルトの変換タイプは、「ビニング」
です。サポートされるビニングのタイプは、列のデータ型によって異なります。
-
量的データ型
NUMBER
の場合、サポートされるビニングのタイプは次のとおりです。-
等幅のビニング(数) (デフォルト)
-
-
質的データ型
VARCHAR2
の場合、サポートされるビニングのタイプは次のとおりです。 -
日付および時間データ型の
DATE、TIMESTAMP、TIMESTAMP WITH LOCAL TIMEZONE
およびTIMESTAMP WITH TIMEZONE
の場合、サポートされるビニングのタイプは次のとおりです。-
等幅のビニング(数) (デフォルト)
-
ノート:
ビン数には、2を指定する必要があります。
親トピック: 変換の追加
7.10.4.1.2 等幅のビニング(数)
「等幅のビニング(数)」は、指定した同じサイズのビン数に値の範囲を分割することによって、量的属性のビンを決定します。
次のフィールドを編集します。
-
ビン件数: ビン件数を、2以上の任意の数に変更できます。デフォルトの件数は
10
に設定されています。 -
ビン・ラベル: リストから別のビン・ラベル・スキームを選択します。デフォルトは
「範囲」
に設定されています。
作業を終了後、「OK」をクリックします。
親トピック: 変換の追加
7.10.4.1.3 分位数のビニング
「分位数のビニング」は、各ビンにほぼ同数のケースが含まれるように属性をビンに分割します。
次のフィールドを編集します。
-
ビン件数: ビン件数を、2以上の任意の数に変更できます。デフォルトの件数は
10
に設定されています。 -
ビン・ラベル: リストから別のビン・ラベル・スキームを選択できます。デフォルトは
「範囲」
に設定されています。
作業を終了後、「OK」をクリックします。
親トピック: 変換の追加
7.10.4.1.4 トップNのビニング
「トップNのビニング」タイプは、質的属性をビニングします。各属性のビンの定義は、データから計算される値の発生頻度に基づいて計算されます。
N
(ビンの数)を指定します。各ビン(bin_1、…、bin_N
)には、頻度が上位にある値が含まれます。最後のbin_N
には、残りのすべての値が含まれます。
「ビン件数」を、3以上の任意の数に変更できます。デフォルトの件数は10
に設定されています。
終了したら、「OK」をクリックします。
親トピック: 変換の追加
7.10.4.1.5 カスタム
「カスタム」ビニングでは、カスタム・ビンを定義できます。
ビンを定義するには、「ビン割当て」をクリックしてデフォルトのビンを変更します。デフォルト・ビンの生成後に、生成されたビンを次の複数の方法で変更できます。
-
ビン名の編集: 範囲ラベルの場合。
-
ビンの削除: それを選択してをクリックします。
-
ビンの追加: をクリックします。
-
ビンの編集: ビンを選択してをクリックします。
- ビン割当て
「ビン割当て」ダイアログ・ボックスでは、様々なデータ型のビン・タイプ、ビン件数、ビン・ラベルなどのオプションを指定できます。 - ビンの編集
ビンの編集方法は属性のデータ型によって決まります。 - ビンの追加
カテゴリ・データ型と数値データ型のビンを追加できます。
親トピック: 変換の追加
7.10.4.1.5.1 ビン割当て
「ビン割当て」ダイアログ・ボックスでは、様々なデータ型のビン・タイプ、ビン件数、ビン・ラベルなどのオプションを指定できます。
ビンを割り当てるには、次のオプションを選択します。
-
ビニング・タイプ: デフォルトのタイプは、ビニング対象属性のデータ型によって異なります。
-
属性のデータ型が数値型である場合、デフォルトのビニング・タイプは
等幅のビニング
です。 -
属性のデータ型が文字型である場合、デフォルトのビニング・タイプは
「トップNのビニング」
です。
数値の場合、ビニング・タイプを変更できます。
-
-
ビン件数: デフォルトの数は
10
です。これは、2
より大きい任意の整数に変更できます。 -
ビン・ラベル: 数値のデフォルト・ラベルは
「範囲」
です。このビン・ラベルを「数値」
に変更できます。 -
NULLの変換: NUMBERデータ型を生成するビニング変換に対して「NULLの変換」チェック・ボックスが選択されている場合、Null値は最後のビンに配置されます。たとえば、AGE列にNull値があり、「ビン・ラベル」値が番号と等しく、ビン数が10の等幅ビニングが要求された場合、Null値は11番ビンに入れられます。このオプションには、次の条件が適用されます。
-
選択が解除されている場合、Null値は生成された変換SQLから除外されます。
ノート:
変換後にVARCHAR2データ型を生成するビニング変換のみに適用されます。
-
このフィールドは、変換後に数値データ型を生成するビニング変換の場合は編集できません。
-
レガシー・ワークフローの場合、このフィールドはデフォルトで選択され、対応するフィールドには値
Null bin
が含まれています。
-
作業を終了後、「OK」をクリックします。生成されたビンを変更する「カスタム」表示に戻ります。
親トピック: カスタム
7.10.4.1.5.2 ビンの編集
ビンの編集方法は属性のデータ型によって決まります。
次の方法で数値と文字のビンを編集できます。
-
数値の場合: グリッドで下限を編集します。下限を持たないビンは編集できません。前のビンの下限値より小さい値または後続のビンの下限値より大きい値は追加できません。
-
文字の場合: 「カスタム・カテゴリ型ビンの編集」ダイアログ・ボックスには次の2つの列があります。
-
ビン: ビンの追加、選択したビンの削除および選択したビンの名前の変更が可能です。
-
ビン割当て: 選択したビンの値を削除できます。
-
ビンの編集が完了したら、「OK」をクリックします。カスタムのカテゴリ型ビンを編集している場合、初めに「OK」を2回クリックします(1回は「カスタム・カテゴリ型ビンの編集」ダイアログ・ボックスを閉じるため)。
親トピック: カスタム
7.10.4.1.5.3 ビンの追加
カテゴリ・データ型と数値データ型のビンを追加できます。
ビンを追加するには:
-
カテゴリ型: 「カスタム・カテゴリ型ビンの編集」を開いてをクリックします。新しいビンは、変更可能なデフォルト名を持ちます。「ビン割当て」列で、ビンに値を追加します。
-
数値型: ビンを選択してをクリックします。ビンの名前変更および値の範囲の追加が可能です。
親トピック: カスタム
7.10.4.1.7 正規化
正規化では、[–1.0,1.0]や[0.0,1.0]などの量的な値を、x_new = (x_old-shift)/scaleなどのように特定の範囲に変換します。
正規化の結果は、通常、絶対値が1.0以下の値となります。
ノート:
正規化は、量的な列に対してのみ適用されます。したがって、量的な属性のみを正規化できます。
列を正規化するには:
親トピック: 変換の追加
7.10.4.1.8 外れ値
外れ値は、通常のデータの個体群から離れているデータ値です。つまり、それは極値です。
正規分布では、外れ値は通常、平均値からの標準偏差が少なくとも3である。外れ値は、通常、極値ではない値と置き換えられるか、NULL
と置き換えられます。
ノート:
外れ値の処理は、量的な列に対してのみ定義できます。
「外れ値」変換を定義するには:
親トピック: 変換の追加
7.10.4.1.9 既存の列を使用
「既存の列を使用」オプションは、少なくとも1つの変換が存在する場合にのみ使用できます。
この選択肢は、複数の変換の追加または編集を行う場合に使用されます。
関連項目
親トピック: 変換の追加
7.10.4.1.10 複数の変換の追加または編集
複数の列の変換を同時に定義または編集できます。既存の変換を、1つ以上の列に適用することも可能です。
複数の変換の変換を追加または編集するには:
-
変換ノードをダブルクリックします。変換エディタが開きます。
-
複数の列に対して同じ変換を定義するには、列を選択します。データ型が異なっていても互換性がある場合、それらの列を選択できます。たとえば、CHARとVARCHARは文字であり、互換性のあるデータ型です。すべての列に適用される変換が存在しない場合、メッセージが表示されます。をクリックします。
分割適用ウィザードが開きます。
-
すべての列に適用する「変換」タイプを選択します。
-
選択した変換タイプに関連する特定の詳細を指定します。
-
「次へ」をクリックします。
-
統計の生成をクリックします。
-
「終了」をクリックします。
-
-
すでに列を変換している場合は、同じ変換を複数の別の列に対して定義できます。
AGEをビニングして
AGE_BIN
を作成してあるとします。同じ方法で複数の列をビニングするには、AGE、および同じ方法でビニングする列を選択します。をクリックします。分割適用ウィザードが開きます。
-
「変換タイプ」に既存を使用を選択します。AGE_BINが、変換済列としてリストされます。その他の値は変更できません。
-
「次へ」をクリックします。出力列の名前を変更できます。
-
「完了時に統計を生成」を選択します。
-
「終了」をクリックします。
-
-
複数の変換を同時に編集するには、複数の変換を選択してをクリックします。
分割適用ウィザードが開きます。変換を編集し、「終了」をクリックします。
7.10.4.2 カスタム変換の追加
「カスタム変換の追加」ダイアログ・ボックスでは、カスタム変換を定義できます。
新しい属性のデフォルトの名前はEXPRESSION
です。この名前は変更可能です。
「カスタム変換の追加」ダイアログ・ボックスでは、次のタスクを実行できます。
-
式の追加: をクリックします。式ビルダーが開きます。式ビルダーを使用して、式を定義します。
-
式を検証します。
-
「OK」をクリックします。
-
-
カスタム変換を編集します。
-
カスタム変換の削除: をクリックします。
7.10.4.3 分割適用ウィザード
分割適用ウィザードでは、複数の列の変換を同時に定義または編集できます。
ウィザードの初めのステップは、「変換を追加」ダイアログ・ボックスと似ています。カスタム変換は選択できません。
7.10.4.3.1 列の定義
分割適用ウィザードの第2ステップでは、変換された列の名前を指定できます。名前は変更せずにそのまま使用することも、変更することも可能です。
デフォルトでは、終了時に統計が生成されません。チェック・ボックスを選択して統計を生成します。
終了したら、「終了」をクリックします。
親トピック: 分割適用ウィザード
7.10.4.4 変換の編集
ノードが実行されると、「変換の編集」ダイアログ・ボックスに、変換されていない列および変換されたバージョンの両方の情報が表示されます
「変換の編集」ダイアログ・ボックスは、「変換を追加」ダイアログ・ボックスと似ています。
「編集」ダイアログ・ボックスの次のタブに、変換されていない列および変換されたバージョンの両方の情報が表示されます。
-
「ヒストグラム」 タブには、変換されていない属性および変換された属性の両方のヒストグラムが、2つのセットのヒストグラムに表示されます。タブの左側は、変換されていない列のヒストグラムです。タブの右側は、変換された列のヒストグラムです。
-
「統計」タブには、変換されたデータおよび元のデータの統計が表示されます。
ノート:
データを変換した場合、変換済データは、元のデータのデータ型とは異なるデータ型を持つ場合があります。たとえば、AGEはNUMBER
型を持ち、AGE_BINはVARCHAR2
型を持ちます。
7.10.5 変換ノードのプロパティ
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
変換ノードの「プロパティ」ペインには、次のセクションがあります。