33.1 非構造化テキストについて
データ・マイニングのアルゴリズムは、量的データまたは質的データに対して動作します。量的データは順序付けされます。これは、NUMBER
やFLOAT
などの数値データ型の列に格納されます。質的データは、カテゴリまたは分類によって識別されます。これは、VARCHAR2
やCHAR
などの文字データ型の列に格納されます。
非構造化テキスト・データは、量的でも質的でもありません。非構造化テキストには、Webページ、ドキュメント・ライブラリ、PowerPointプレゼンテーション、製品仕様、電子メール、レポートのコメント・フィールド、コール・センターのノートなどの項目が含まれます。非構造化テキストは、企業のすべてのデータの4分の3以上を占めると言われています。非構造化テキストから意味のある情報を抽出することは、ビジネスの成功にとって不可欠となります。