テキスト・マイニングを含むモデルの作成

次の表に示されているように、Oracle Data Miningは、VARCHAR2、CHAR、CLOB、BLOBおよびBFILEの列に格納された非構造化テキストをサポートしています。

表7-1 非構造化テキストを格納できる列のデータ型

データ型	説明
`BFILE`および`BLOB`	Oracle Data Miningでは、モデルの作成時に`BLOB`および`BFILE`の列をテキストとして特定した場合のみ、これらの列をテキストとして解釈します。列をテキストとして特定していない場合は、`CREATE_MODEL`がエラーを戻します。
`CLOB`	Oracle Data Miningでは、`CLOB`をテキストとして解釈します。
`CHAR`	Oracle Data Miningでは、デフォルトでは`CHAR`を質的として解釈します。モデルの作成時に、`CHAR`の列をテキストとして特定することができます。
`VARCHAR2`	Oracle Data Miningでは、4000より長いデータを持つ`VARCHAR2`をテキストとして解釈します。 Oracle Data Miningでは、デフォルトでは長さが4000以下のデータを持つ`VARCHAR2`を質的として解釈します。モデルの作成時に、これらの列をテキストとして特定することができます。

注意:

テキストは、ネストした列ではサポートされておらず、また監視ありデータ・マイニングでターゲットとして使用することはできません。

次の表に示す設定により、モデルのテキスト属性に対する用語抽出プロセスが制御されます。モデルの設定を指定する方法は、「モデルの設定の指定」を参照してください。

表7-2 テキスト用のモデルの設定

設定名データ型設定値説明

設定名	データ型	設定値	説明
`ODMS_TEXT_POLICY_NAME`	`VARCHAR2(4000)`	`CTX_DDL.CREATE_POLICY`で作成されたOracle Textのポリシー・オブジェクトの名前。	非構造化テキストからの個々のトークンの抽出方法に影響を与える。「テキスト・ポリシーの作成」を参照。
`ODMS_TEXT_MAX_FEATURES`	`INTEGER`	1 <= 値 <= 100000	`CREATE_MODEL`に渡される(各テキスト列のすべてのドキュメントの)ドキュメント・セットから使用する特徴の最大数。デフォルトは3000です。

ODMS_TEXT_POLICY_NAME

VARCHAR2(4000)

CTX_DDL.CREATE_POLICYで作成されたOracle Textのポリシー・オブジェクトの名前。

非構造化テキストからの個々のトークンの抽出方法に影響を与える。「テキスト・ポリシーの作成」を参照。

ODMS_TEXT_MAX_FEATURES

INTEGER

1 <= 値 <= 100000

CREATE_MODELに渡される(各テキスト列のすべてのドキュメントの)ドキュメント・セットから使用する特徴の最大数。

デフォルトは3000です。

モデルには1つ以上のテキスト属性を含めることができます。テキスト属性を持つモデルには、質的属性と量的属性を含めることもできます。

テキスト属性を含むモデルを作成するには、次の手順を実行します。