TF.IDFモデルの更新

このトピックでは、TF.IDFモデルを新規のトレーニング・データで設定し更新する方法について説明します。

TF.IDFトレーニング・データの場合、1つ以上の言語固有の<lang>_abstracts.zipファイルを指定します(<lang>はサポートされている言語コードです)。
  • de (ドイツ語)
  • en (アメリカ英語)
  • es (スペイン語)
  • fr (フランス語)
  • gb (イギリス英語)
  • is (アイスランド語)
  • it (イタリア語)
  • pt (ポルトガル語)
各ZIPファイルには、指定言語の任意のテキストである、多数の言語トレーニング・モデル・ファイルが含まれます。幅広く使用されている次の2つのバージョンなど、多様なコーパスを使用できます。
すべてのZIPファイルは、任意の名前を指定できる同じディレクトリ内に含まれている必要があります。次の例は、このディレクトリ構造を前提としています。
/share/models/tfidf/en_abstracts.zip

次の手順は、コーパスZIPファイルをダウンロード済で、それをen__abstracts.zipに名前変更済であることを前提としています。

TF.IDFモデルを更新するには、次の手順を実行します。

  1. ZIPファイルの1つのディレクトリを含む、TF.IDFトレーニング・ファイルのディレクトリ構造(前述)を作成します。
  2. en__abstracts.zipトレーニング・ファイルを/share/models/tfidfディレクトリにコピーします。
  3. update-modelコマンド、tdidfモデルタイプ引数および/tfidfディレクトリへの絶対パスを使用して、bdd-adminスクリプトを実行します。
    ./bdd-admin.sh update-model tfidf /share/models/tfidf
成功した場合、コマンドにより次のメッセージが出力されます。
[2015/08/17 11:21:42 -0400] [web2014.example.com] Generating the tfidf model file using new model file...Success!
[2015/08/17 11:24:45 -0400] [Admin Server] Publishing the tfidf model file...
[2015/08/17 11:24:57 -0400] [Admin Server] Successfully published the model file.

この操作は、YARNワーカー・ノード上のTF.IDFモデルの現在のJARを新規のもので置換します。

パス引数なしでコマンドを実行することで、モデルを元に戻すことができます。
./bdd-admin.sh update-model tfidf

これにより、TF.IDFモデルが、当初の出荷バージョンに戻されます。