カスタム辞書の使用

サポートされている言語のデフォルト辞書を補完するために、オプションでカスタム辞書を追加できます。

データ内に存在することがわかっている用語を検索しても予期される結果が得られない場合などに、カスタム辞書を使用する必要があります。カスタム辞書は、行単位、タブ区切りのUTF-8エンコーディング・ファイルです。ファイル内の各行は、プライマリ辞書を補完する個々のエントリを表します。

カスタム辞書ファイル内の行の一般的な構文は、次のとおりです。
COMMAND value1 value 2 ... 
COMMANDは、STEM(辞書用語の場合)またはCOMPOUND(複合語の解除の場合)に設定する必要があります。各valueはタブ区切りで、COMMANDに応じて異なります。

辞書用語

カスタム辞書の使用方法の1つは、新しい辞書用語の追加です。(辞書用語は見出語とも呼ばれます。)辞書に追加された用語には、すべての形態学的ルールが適用されます。たとえば、新しい名詞を追加すると、その複数形が見出語から派生します。

カスタム辞書ファイル内のSTEM行の一般的な構文は、次のとおりです。
STEM new_term POS [,POS2 ...]
STEMで始まる各行は見出語エントリを表し、次の情報を含んでいます。
  • new_termは、見出語を表すタブ区切りの単純なテキスト文字列です。
  • POSは、次のリストにある有効な品詞です。少なくとも1つの品詞が必要です。複数の品詞はカンマで区切ります。品詞では大文字と小文字が区別されることに注意してください。
品詞の属性は、フルネームまたは略語(カッコ内)で指定できます。
  • noun (N) - 単純名詞(table、book、procedureなど)。
  • nounProper (propN) - 通常、語頭が大文字になる、人や場所などの固有名詞(Zachary、Supidito、Susquehannaなど)。
  • verb (V) - 動詞の辞書形(deconstruct、upsell、skateなど)。
  • adjective (Adj) - 通常、比較可能(green、greener、greenest)である、名詞の修飾語(fast、trenchant、pendulousなど)。
  • adverb (Adv) - 形容詞または動詞を修飾するか単独で使用される、文の一般修飾語(slowly、yet、perhapsなど)。
  • preposition (Prep) - 名詞とともに前置詞句を形成する単語(off、beside、fromなど)。同様の後置詞がある言語では後置詞としても使用されます。
  • punct (Punct) - 単独で単位として扱われる、文字ではない記号(%、$、]など)。
  • pronoun (Pro) - 代名詞(人称代名詞(I、they)、指示代名詞(those、this)、関係代名詞(who、which、wherever)など)。
  • interrog (Wh) - 疑問詞(who、why、when、where、howなど)。
  • determiner (Det) - 定冠詞/不定冠詞(the、a、anなど)のような、名詞群についての文法情報を含む単語。
  • particle (Part) - 間投詞としても使用される、文法情報を含む短い不変化詞。
  • conjunction (Conj) - 従属節を導く接続詞(although、because、whileなど)および等位節を導く接続詞(and、or、yetなど)。
  • numCardinal (Card) - 基数(thirteen、100、fiveなど)。
  • numOrdinal (Ord) - 序数(thirteenth、100th、fifthなど)。
たとえば、このドイツ語カスタム辞書には、3つのエントリがあります。各エントリには、名詞であることを示すN属性が指定されています。
STEM	aalglatt N
STEM aalglatte N
STEM aalglatter N

複合語の解除

複合語の構成要素を定義するために、カスタム辞書を手動で構成できます。これは、既存の言語辞書が特定の地域や市場での言語の用法と一致していない場合や、既存のライブラリが言語の最近の変化に対応していない場合などに役立ちます。レコード検索問合せで複合語のいずれかの構成要素に一致した場合、その複合語も一致レコードとして返されます。

たとえば、1996年改正のドイツ語正書法では、複合語に関する標準ルールがいくつか導入されましたが、これらのルールが守られていない場合があります。このような場合には、複合語内の区切りを指定した辞書エントリを明示的に構成できます。

カスタム辞書ファイル内のCOMPOUND行の一般的な構文はSTEMの構文と類似し、POS属性を含んでいます。

たとえば、ドイツ語の複合語Binnenschiffahrt(内陸河川航行を意味する)を分割するとします。このとき、1996年改正のドイツ語正書法に基づいたスペルと、それ以前に使用されていたスペルの、2つのバージョンを追加できます。
COMPOUND Binnenschifffahrt Binnen|Schiff|Fahrt N
COMPOUND Binnenschiffahrt Binnen|Schiff|Fahrt N

複合語の構成要素である各単語は辞書に存在する必要があることに注意してください。つまり、前述の例では、binnen、schiff、fahrtの各エントリが辞書に含まれている必要があります。