TF.IDF語エクストラクタ

このモジュールは、入力テキストからキーワードを抽出します。

TF.IDF語モジュールは、予測可能な統計アルゴリズムを使用して重要な語(顕著な語)を抽出します。(TFは「語の頻度」、IDFは「逆ドキュメント頻度」を表します。)

TF.IDF統計は、単一ドキュメントのみでなくコーパス内のすべてのドキュメントを検討することによってドキュメントからキーワードを抽出することを目的とした共通ツールです。TF.IDFの観点からは、特定のドキュメントに対してある語句が重要になるのは、この語句がこのドキュメント内に比較的頻繁に出現するがコーパス内の他のドキュメントにはめったに出現しない場合です。

出力語の数は、TF.IDF曲線の関数です。デフォルトでは、指定した語のスコアが68%を下回る場合、このモジュールは語を返すことを停止します。

TF.IDF語エクストラクタは、次の言語をサポートしています。

英語(イギリス/アメリカ合衆国)
フランス語
ドイツ語
イタリア語
ポルトガル語(ブラジル)
スペイン語

構成可能性

データ処理サンプリング操作中、このモジュールは、30から30,000個までのトークンが含まれるテキストに対して自動的に実行されます。ただし、このような操作には構成オプションがありません。

Studioでは、変換APIには、入力テキストの言語を指定して精度を向上させるための言語引数が用意されています。

出力

出力は、複数割当文字列属性としてDgraphに収集される句(単一語句または複数語句)の順序付きリストです。出力属性の名前は<colname>_key_phrasesです。