プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Serviceデータ処理ガイド

E65369-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

TF.IDF用語エクストラクタ

このモジュールは、入力テキストからキーワードを抽出します。

TF.IDF用語モジュールは、予測可能な統計アルゴリズムを使用して、主な用語(さまざまな用語)を抽出します。 (TFは"用語の頻度"で、IDFは"逆ドキュメント頻度"です。)

TF.IDF統計は、1つのドキュメントだけでなく、コーパスのすべてのドキュメントを検討することによって、ドキュメントからキーワードを抽出するための一般的なツールです。 TF.IDFアルゴリズムの場合、特定のドキュメントがドキュメント内で比較的頻繁に出現し、コーパス内の他のドキュメントにほとんど表示されない場合、そのドキュメントでは単語が重要です。

このモジュールで生成される出力用語の数は、TF.IDF曲線の関数です。 デフォルトでは、指定された語のスコアが68%より小さい場合、モジュールは語を返します。

TF.IDF用語エクストラクタは、次の言語をサポートしています:
  • 英語(英国/米国)
  • フランス語
  • ドイツ語
  • イタリア語
  • ポルトガル語(ブラジル)
  • スペイン語

構成オプション

データ処理サンプリング操作中、このモジュールは、30から30,000トークンを含むテキストで自動的に実行されます。 ただし、このような操作の構成オプションはありません。

Studioでは、変換APIは、精度を向上するための入力テキストの言語を指定する言語引数を提供します。

出力

この出力は、複数割当文字列Dgraph属性としてDgraphに収集される単一または複数の単語で構成されるフレーズの順序付けられたリストです。 出力属性の名前は<attribute>_key_phrasesです。