テキスト・ノードは、「コンポーネント」ペインの「テキスト」セクションで使用できます。テキストの処理には、Oracle Textのナレッジ・ベースが必要です。
Oracle Textナレッジ・ベースをインストールするには、Oracle Database Examplesをインストールする必要があります。Examplesのインストール手順は、『Oracle Database Examplesインストレーション・ガイド』を参照してください。
Oracle Database 12c以降に接続している場合、自動データ準備(ADP)を使用できるため、データの使用方法を指定する「テキスト」タブを使用してテキスト・データを準備できます。
Oracle Data Minerでは、次のテキスト・ノードがサポートされます。
「Oracle Textの概念」には、テーマ、ストップワード、ストップリストおよびストップテーマの各用語が記載されています。
テーマ: テーマは、所定のドキュメントと関連付けられているトピックです。1つのドキュメントに多数のテーマが存在する場合があります。テーマは、ドキュメント内に出現する必要はありません。たとえば、ワードSan Francisco
を含むドキュメントがテーマの1つとしてCalifornia
を持つ場合があります。
ストップワード: ストップワードは、テキスト変換中に索引付けされないワードです。通常、ストップワードは下位レベルの情報を提供するワードを指します。英語では、通常a、the、this
またはwith
がストップワードです。
ストップリスト: ストップリストは、ストップワードのリストです。Oracle Textには各言語のストップリストが用意されています。デフォルトでは、索引付け時に使用言語に対して、Oracle Textのデフォルトのストップリストが使用されます。デフォルトのストップリストを編集したり、新しいストップリストを作成できます。
注意:
Oracle Data Minerでは、ストップリストはすべての変換にわたって共有されるものであり、特定の変換によって所有されません。
ストップテーマ: ストップテーマは、索引付け時にスキップされるテーマです。ストップテーマは、これらをストップリストに追加することで指定されます。
Oracle Textでは、ストップワードおよびストップテーマを使用して、テキスト・マイニング時に無視しても問題のないテキストを示します。
Oracle Textのレクサーは、指定された言語に応じてソース・テキストをトークンまたはテーマ(通常はワード)に分割します。レクサーは、トークンの抽出にレクサー・プリファレンスに定義されたパラメータを使用します。パラメータには次のものが含まれます。
トークンを区切る文字の定義。たとえば、空白です。
テキストをすべて大文字に変換する条件または変換しない条件。
テーマ・トークンを作成するためのテキスト分析テキスト。これは、テーマの索引付けが有効化されているときに行われます。
テキストは、マイニングする前に変換プロセスを行う必要があります。
データが正しく変換されると、ケース表を使用して、データ・マイニング・モデルの構築、テストまたはスコアリングを行うことができます。ケース表は、リレーショナル表である必要があります。それは、ビューとしては作成できません。
Oracle Data Miningのソース表には、1つ以上のテキストの列を含めることができます。テキスト列はターゲットとしては使用できません。
次のOracle Data Miningアルゴリズムでテキストがサポートされます。
異常検出(1クラス・サポート・ベクター・マシン)
分類アルゴリズム: Naive Bayes、一般化線形モデルおよびサポート・ベクター・マシン
ディシジョン・ツリー(Oracle Database 12c以降に接続している場合)
クラスタリング・アルゴリズム: k- Meansおよび期待値の最大化
特徴抽出アルゴリズム: Nonnegative Matrix Factorization、特異値分解および主成分分析
回帰アルゴリズム: 一般化線形モデルおよびサポート・ベクター・マシン
注意:
次のアルゴリズムではテキストはサポートされません。
O-Cluster
ディシジョン・ツリー(Oracle Database 11gに接続している場合)
相関(Apriori)
Oracle Database 11gに接続されているO-Clusterおよびディシジョン・ツリーを使用する場合、すべてのテキスト属性はモデル構築に対して自動的にフィルタ処理で除外されます。
テキストのデータ準備は、接続先のOracle Databaseのバージョンによって異なります。
Oracle Data Mining 12cリリース1 (12.1)以降では、非構造化テキスト・データが存在する場合、テキスト・マイニング前のテキスト処理にテキスト変換が含まれます。
Oracle Data Miningではテキスト処理が大幅な強化されており、入力に非構造化テキスト・データが存在する場合のデータ・マイニング・プロセス(モデルの構築、デプロイメントおよびスコアリング)が簡素化されます。非構造化テキストおよびテキスト変換の要点のいくつかは次のとおりです。
非構造化テキストには、Webページ、ドキュメント・ライブラリ、Microsoft PowerPointプレゼンテーション、製品仕様、電子メール・メッセージ、レポートのコメント・フィールド、コール・センターのメモなどのデータ項目が含まれます。
CLOB
列および長いVARCHAR2
列は、Oracle Data Miningにより自動的に非構造化テキストとして解釈されます。
短いVARCHAR2
、CHAR
、BLOB
およびBFILE
の列を、非構造化テキストとして指定できます。
非構造化テキストをマイニング用に変換するために、Oracle Data Miningでは、Oracle Textユーティリティおよび用語の重み付け方針を使用します。
テキスト用語が抽出され、テキスト索引内の数値が付与されます。
テキスト変換プロセスは、モデルおよび個々の属性に対して構成可能です。モデル・ノードの定義時に、テキスト・ノードのデータ準備を指定できます。
テキストの変換後に、テキストは、データ・マイニング・アルゴリズムでマイニングできます。
注意:
Oracle 12cリリース1以降に接続している場合は、テキストの適用ノード、テキストの構築およびテキスト参照のテキスト・ノードを使用する必要があるとはかぎりません。
関連項目:
Oracle Data Mining 11gリリース2 (11.2)以前では、テキスト・マイニングを実行する前に、特徴抽出およびテキスト準備プロセスを実行する必要があります。
プロセスは次のとおりです。
抽出または特徴抽出: これは、テキストがマイニング可能な単位(用語)に分類される特殊な事前処理ステップです。テキストの用語は、キーワードまたはその他のドキュメント派生の特徴です。
テキストの準備: テキストの準備では、テキストの構築ノードを使用してテキスト列を変換します。テキストの構築では、HTMLまたはXMLドキュメントはサポートされません。また、いずれのバイナリ・データ型もサポートされません。
Oracle Data Minerは、Oracle Textの機能を使用してテキスト列を事前処理します。
注意:
テキストの適用ノード、テキストの構築およびテキスト参照のテキスト・ノードを使用して、テキストの事前処理を行う必要があります。
テキストの適用ノードでは、テキストの構築ノードまたはテキスト・ノードのいずれかの既存のテキスト変換を新しいデータに適用できます。
これにより、構築データが変換された方法と同じ方法で適用データが変換されることが保証されます。
テキストの適用はパラレルに実行できます。
テキストの適用ノードは、テキストの構築ノードまたはテキスト・ノードのいずれかの既存のテキスト変換を新しいデータに適用します。
これにより、構築データが変換された方法と同じ方法で適用データが変換されることが保証されます。
注意:
ノード内のすべてのモデルは、同じケースIDを持つ必要があります。
テキストの適用ノードを作成して、テキストの構築ノードまたはテキスト・ノードのいずれかの既存のテキスト変換を新しいデータに適用します。
関連項目
「テキスト適用ノードの編集」ダイアログ・ボックスでは、構築データで実行されたテキスト変換を表示できます。
適用データは、構築データと同じ方法で準備する必要があります。
「テキスト適用ノードの編集」ダイアログ・ボックスを開くには、テキストの適用ノードを右クリックして「編集」を選択するか、ノードをダブルクリックします。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
テキストの適用のプロパティには、次のセクションがあります。
関連項目
「キャッシュ」セクションには、出力データのキャッシュを生成するオプションがあります。変換プリファレンスを使用して、このデフォルトを変更できます。
次のタスクを実行できます。
出力データのキャッシュ生成による結果表示の最適化: キャッシュを生成する場合は、このオプションを選択します。デフォルト設定では、キャッシュを生成しません。
サンプリング・サイズ: キャッシュを選択したり、デフォルト設定をオーバーライドできます。 デフォルトのサンプリング・サイズは「行数」
です デフォルト値は2000
です
関連項目:
データは、データ分析をサポートするためにサンプリングされます。
デフォルトでは、サンプルを使用します。「サンプル」タブでは、次のことを選択できます。
すべてのデータを使用: デフォルトでは、「すべてのデータを使用」の選択は解除されています。
サンプリング・サイズ: デフォルトは「行数」
で、デフォルト値は2000です。サンプリング・サイズを「パーセント」
に変更できます。デフォルトは60パーセントです。
テキストの構築ノードは、1つ以上の「テキスト」列を含むデータ・ソースを準備します。
データを使用してモデルを構築できます。
テキストの構築はパラレルに実行できます。
関連項目:
テキストの構築ノードによって、各テスト列のテキスト変換を定義できます。
変換された列は、テキストをサポートする任意のアルゴリズムを使用したモデルの構築に使用できます。
注意:
O-Clusterおよびディシジョン・ツリーでは、テキストはサポートされません。
テキストの構築ノードでは、デフォルトではNMFアルゴリズムを使用して1つのモデルを構築します。変換された列(複数可)は、後続ノードに渡され、変換されていない列は渡されません。
ノード内のすべてのモデルは、同じケースIDを持ちます。
テキストの構築ノードを作成して、1つ以上のテキスト列を含むデータ・ソースを準備します。
関連項目
「テキスト作成ノードの編集」ダイアログ・ボックスでは、テキスト列の変換を定義できます。変換されたテキスト列は、データ・マイニングに使用できます。
「テキスト作成ノードの編集」ダイアログ・ボックスを開く手順:
「テキスト変換の追加/編集」ダイアログ・ボックスで、テキストの追加および編集に関する変換設定を追加できます。
「テキスト変換の追加/編集」ダイアログ・ボックスを、「テキスト作成ノードの編集」ダイアログ・ボックスから開くことができます。テキスト変換を開くまたは編集するには、 をクリックします。次の図に、変換のデフォルト値を示します。
ソース列: これは、変換対象列の名前です。
変換タイプ: これは、「トークン」(デフォルト)または「テーマ」です。
出力列: これは、新しい列の名前です。デフォルト名は、変換タイプに応じてソース列名にTOK (トークンの場合)またはTHM (テーマの場合)が追加されます。出力列名を指定するには、「自動」の選択を解除し、「出力列」フィールドに名前を入力します。
「設定」セクションでは、テキストおよび変換の特性を指定します。
言語: 次のいずれか1つのオプションを選択します。
1つの言語: デフォルトでは、1つの言語が指定されています。「英語」がデフォルトの言語です。別の言語を選択できます。
多言語: 複数の言語を指定するにはこのオプションを選択します。たとえば、アラビア語、トルコ語、タイ語およびヨーロッパ言語などのシングルバイト言語を指定するには、「シングルバイト」リストからこれらを選択します。中国語(簡体字または繁体字)、日本語または韓国語などのマルチバイト言語を指定するには、「マルチバイト」言語からこれらを選択します。
ストップリスト: Oracle Textには、複数の単体言語についてストップリストがデフォルトで用意されています。デフォルトのストップリストがある場合、それが選択されています。いくつかの言語では、デフォルトのストップリストはありません。この属性に対して以前に作成された任意のストップリストを、ドロップダウン・リストから選択できます。次のタスクを実行できます。
ストップリストの編集: ストップリストを編集するには、をクリックします。ストップリスト・エディタが開きます。
ストップリストの追加: ストップリストを追加するには、をクリックします。ストップリスト・エディタが開きます。
トークン: 「トークン」を選択した場合、デフォルトは次のとおりです。
ドキュメント当たりの最大数: 50
(デフォルト)
ドキュメント全体にわたる最大数: 3000
(デフォルト)
これらの値は変更できます。ドキュメント当たりおよびドキュメント全体のトークン数のカットオフはランキングを対象としたもので、トークンの絶対数を対象としていません。同順位がある場合、ドキュメント全体で3000を超えるトークンを持つことができます。
テーマ: 「テーマ」を選択した場合、デフォルトは次のとおりです。
ドキュメント当たりの最大数: 50
(デフォルト)
ドキュメント全体にわたる最大数: 3000
(デフォルト)
これらの値は変更できます。ドキュメント当たりおよびドキュメント全体のテーマ数のカットオフはランキングを対象としたもので、テーマの絶対数を対象としていません。同順位がある場合、ドキュメント全体で3000を超えるテーマを持つことができます。
テーマには「テーマ・タイプ」の指定が含まれます。デフォルトは、「シングル」
です。「完全」
を選択できます。
頻度: デフォルトは「条件頻度」
です。「条件頻度 - IDF」
を選択できます。
注意:
頻度の設定は保持されます。これを変更すると、変更した値がデフォルトになります。
単語出現頻度は、ドキュメント自身内の単語出現頻度を使用します。それは、コレクション情報を考慮に入れません。
単語出現頻度 - IDFは、従来のTF-IDFです。それは、ドキュメントからの情報(単語出現頻度)およびコレクションレベルの情報(IDFに加えて、コレクションに対して単語の全体の最大数が設定されている場合は使用する単語)を考慮に入れます。
TF-IDF (単語出現頻度-逆文書頻度)は、情報取得およびテキスト・マイニングで一般的に使用される重みです。この重みは、コレクション内のドキュメント対するワードの重要度を評価するための統計的な手法です。重要度はドキュメント内でワードが出現する回数に比例して増加しますが、コレクション内のワードの頻度によりオフセットされます。
関連項目
ストップリスト・エディタでは、既存のストップリストの編集または新規ストップリストの作成が可能です。ストップリストは、すべてのワークフロー間で共有されます。
このダイアログ・ボックスで、このノードで定義された変換に関連付けられているストップリストの他に、任意のストップリストを編集できます。
ストップリスト・エディタにアクセスするには、テキストの構築ノードをダブルクリックして「テキスト作成ノードの編集」を開きます。ストップリストを表示、編集および作成する手順:
新規ストップリスト・エディタ・ウィザードを使用して、新規ストップリストを作成し、ストップリストを編集し、ストップリストを組み合せることができます。
次のタスクを実行できます。
新規ストップリストを作成します。ストップリストを作成するには、をクリックします。新規ストップリスト・ウィザードが起動します。このウィザードには次の2つのステップがあります。
ストップリストの定義
確認
既存のストップリストからワードを削除します。
複数のストップリストを結合して新しいストップリストを作成します。たとえば、ドキュメントがフランス語と英語の両方である場合、フランス語と英語のストップリストを結合できます。
すべてのストップワードおよびストップテーマを追加する空のストップリストを作成します。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
テキストの構築ノードの「プロパティ」ペインには、次のセクションがあります。
データは、データ分析をサポートするためにサンプリングされます。
デフォルトでは、サンプルを使用します。「サンプル」タブでは、次のことを選択できます。
すべてのデータを使用: デフォルトでは、「すべてのデータを使用」の選択は解除されています。
サンプリング・サイズ: デフォルトは「行数」
で、デフォルト値は2000です。サンプリング・サイズを「パーセント」
に変更できます。デフォルトは60パーセントです。
「キャッシュ」セクションには、出力データのキャッシュを生成するオプションがあります。変換プリファレンスを使用して、このデフォルトを変更できます。
次のタスクを実行できます。
出力データのキャッシュ生成による結果表示の最適化: キャッシュを生成する場合は、このオプションを選択します。デフォルト設定では、キャッシュを生成しません。
サンプリング・サイズ: キャッシュを選択したり、デフォルト設定をオーバーライドできます。 デフォルトのサンプリング・サイズは「行数」
です デフォルト値は2000
です
関連項目:
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。
テキスト参照ノードでは、現在のワークフローまたは別のワークフロー内のテキストの構築ノードで定義されているテキスト変換を参照できます。
たとえば、テキスト・モデルを構築する1つのワークフロー(つまり、テキストの構築ノードを含むワークフロー)があり、最初のワークフローで作成されたモデルを適用する別のワークフローを作成する場合、テキスト参照を使用して、テキストの適用で必要とされるテキスト変換情報を提供できます。
テキスト参照ノードを作成して、現在のワークフローまたは別のワークフロー内のテキストの構築ノードで定義されているテキスト変換を参照します。
「テキスト参照ノードの編集」ダイアログ・ボックスでは、テキストの構築ノードを選択して、その変換を現在のワークフローの現在の位置で使用できるようにします。
「テキスト参照ノードの編集」を開くには、次の手順を実行します。
「ビルド・テキスト・ノードの選択」ダイアログ・ボックスで、現在のワークフロー(デフォルト)またはすべてのワークフロー内のテキストの構築ノードを選択できます。
「表示」では、選択対象のテキストの構築ノードのリストを指定します。
注意:
完全ではないテキスト・ノードは選択できません。
「プロパティ」ペインで、ノードの特性やプロパティを調査および変更できます。
ノードのプロパティを表示するには、ノードをクリックし、「プロパティ」をクリックします。「プロパティ」ペインが閉じている場合は、「表示」に移動して「プロパティ」をクリックします。または、ノードを右クリックし、「プロパティに移動」をクリックします。
テキスト参照ノードの「プロパティ」ペインには、次のセクションがあります。
テキスト参照ノードの「変換」ダイアログ・ボックスには、「テキスト参照ノードの編集」ダイアログ・ボックスで選択された変換に関する情報が表示されます。
「プロパティ」ペインから別のテキストの構築ノードを選択できます。
関連項目
「詳細」セクションには、ノード名およびノードについてのコメントが表示されます。
このセクションでは、ノード名の変更およびコメントの編集が可能です。新しいノード名およびコメントは、要件を満たしている必要があります。
関連項目:
要件の詳細は、「ノード名およびノードのコメント」。