プライマリ・コンテンツに移動
Oracle® Big Data Discovery Cloud Service Studioユーザー・ガイド

E65365-05
目次へ
目次
索引へ移動
索引

前
次
機械翻訳について

属性値からのキー・フレーズの抽出

「キー・フレーズの抽出」変換は、String属性からキー・フレーズを抽出し、新しい複数割当属性にフレーズのリストを作成します。 この変換は、TF/IDFアルゴリズムを使用してキー・フレーズを計算します。このアルゴリズムでは、各語が文字列内に出現する合計回数を使用し、この値から、この語がより大きい処理本文内に出現する回数を相殺します。

属性値からキー・フレーズを抽出するには:

  1. カタログでプロジェクトを選択します。
  2. 「変換」を選択します。
  3. フレーズを抽出する属性を見つけて、列を選択します。
  4. 変換メニューから、「詳細」 > 「キー・フレーズの抽出」を選択します。
  5. 「入力言語」で、属性値の言語を指定します。
    これによって、言語固有の識別モデルが適用され、キー・フレーズの識別の精度が上がります。
  6. タイトルの大/小文字または大文字のいずれかを主とするドキュメントをより適切に処理するには、「入力テキストで大/小文字のスマート一致を使用」を選択します。
    スマート・エクスポートを使用すると、変換により、大文字のテキストを小文字に変換し、次に小文字のテキストでフレーズ抽出を実行することで、キー・フレーズをより適切に識別できます。
  7. 「新規属性名」では、作成する属性の名前を指定します。 デフォルトでは、Studioは複数割当属性を作成してキー・フレーズを格納します。
  8. 変換の実行結果をプレビューする場合は「プレビュー」をクリックし、変換ステップをスクリプトに保存する場合は「スクリプトに追加」をクリックします。

プロジェクト・データ・セットに変更を加えた場合は、変更をコミットできます。 「プロジェクト・データ・セットに対する変換スクリプトの実行」を参照してください。