統合テキスト・マイニング
OMLでの統合テキスト・マイニングでは、SQLとPL/SQLを使用して、Oracle Database内でテキスト分析を直接実行できます。この統合により、データベース環境の外部にデータを移動する必要なく、非構造化テキスト・データから有意義なインサイトを抽出できるようになります。
非構造化テキスト・データは、量的でも質的でもありません。非構造化テキストには、Webページ、ドキュメント・ライブラリ、PowerPointプレゼンテーション、製品仕様、電子メール、レポートのコメント・フィールド、コール・センターのノートなどの項目が含まれます。非構造化テキストは、企業のすべてのデータの4分の3以上を占めると言われています。非構造化テキストから意味のある情報を抽出することは、ビジネスの成功にとって不可欠となります。Oracleでは、VARCHAR2
(>4000)およびCLOB
の列はテキストとして解釈されます。CHAR
、VARCHAR2
(<=4000)、BFILE
およびBLOB
の列をテキスト属性(非構造化テキスト)として識別することもできます。
テキストに対する機械学習操作とは、機械学習の手法をテキストの用語(テキストの特徴またはトークンとも呼ばれる)に適用する処理のことです。テキスト用語とは、テキスト・ドキュメントから抽出して、量的な重みを割り当てられた単語または単語のグループです。これらは、アルゴリズムが分析できる形式に変換されます。テキスト用語は、操作および分析の対象となるテキストの基本単位です。Oracle Textとは、用語抽出、単語とテーマの検索、およびその他のテキスト問合せ用ユーティリティを提供するOracle Databaseテクノロジです。
主な機能は次のとおりです:
- データベース内処理: Oracleのスケーラビリティとパフォーマンスを活用して、データベース内でテキスト・マイニング操作を実行します。
- テキスト前処理関数: テキスト・データのクリーニングとトークン化のための関数が含まれ、それが、分析に適した構造化形式に変換されます。
- 特徴抽出: 非構造化テキストを、機械学習アルゴリズムに適した構造化数値データに変換します。
- 機械学習アルゴリズム: アルゴリズム(分類、クラスタリング、異常検出など)をテキスト・データに適用します。
- SQLとPL/SQLの統合: SQLとPL/SQLのプロシージャを使用してテキスト・マイニング・タスクを実行できるため、既存のデータおよびワークフローとシームレスに統合できます。
親トピック: データベース内アルゴリズムの機能