テキスト・マイニングを含むモデルの作成

33.4 テキスト・マイニングを含むモデルの作成

テキスト・マイニングを含むモデルを作成する方法を学習します。

Oracle Data Miningでは、VARCHAR2、CHAR、CLOB、BLOBおよびBFILEの列内の非構造化テキストをサポートしています(次の表を参照)。

表33-2 非構造化テキストを格納できる列のデータ型

データ型	説明
`BFILE`、`BLOB`	Oracle Data Miningでは、モデルの作成時に`BLOB`および`BFILE`の列をテキストとして特定した場合のみ、これらの列をテキストとして解釈します。列をテキストとして特定していない場合は、`CREATE_MODEL`がエラーを戻します。
`CLOB`	Oracle Data Miningでは、`CLOB`をテキストとして解釈します。
`CHAR`	Oracle Data Miningでは、デフォルトでは`CHAR`を質的として解釈します。モデルの作成時に、`CHAR`の列をテキストとして特定することができます。
`VARCHAR2`	Oracle Data Miningでは、4000より長いデータを持つ`VARCHAR2`をテキストとして解釈します。 Oracle Data Miningでは、デフォルトでは長さが4000以下のデータを持つ`VARCHAR2`を質的として解釈します。モデルの作成時に、これらの列をテキストとして特定することができます。

ノート:

テキストは、ネストした列ではサポートされておらず、また教師ありデータ・マイニングでターゲットとして使用することはできません。

次の表で説明されている設定は、モデルのテキスト属性に対する用語抽出プロセスを制御します。モデルの設定を指定する手順については、「モデルの設定の指定」を参照してください。

表33-3 テキスト用のモデルの設定

設定名データ型設定値説明

設定名	データ型	設定値	説明
`ODMS_TEXT_POLICY_NAME`	`VARCHAR2(4000)`	`CTX_DDL.CREATE_POLICY`で作成されたOracle Textのポリシー・オブジェクトの名前。	非構造化テキストからの個々のトークンの抽出方法に影響を与える。「テキスト・ポリシーの作成」を参照。
`ODMS_TEXT_MAX_FEATURES`	`INTEGER`	1 <= 値 <= 100000	`CREATE_MODEL`に渡される(各テキスト列のすべてのドキュメントの)ドキュメント・セットから使用する特徴の最大数。デフォルトは3000です。

ODMS_TEXT_POLICY_NAME

VARCHAR2(4000)

CTX_DDL.CREATE_POLICYで作成されたOracle Textのポリシー・オブジェクトの名前。

非構造化テキストからの個々のトークンの抽出方法に影響を与える。「テキスト・ポリシーの作成」を参照。

ODMS_TEXT_MAX_FEATURES

INTEGER

1 <= 値 <= 100000

CREATE_MODELに渡される(各テキスト列のすべてのドキュメントの)ドキュメント・セットから使用する特徴の最大数。

デフォルトは3000です。

モデルには1つ以上のテキスト属性を含めることができます。テキスト属性を持つモデルには、質的属性と量的属性を含めることもできます。

テキスト属性を含むモデルを作成するには:

関連トピック