Wnn6 の辞書は「自立語」向けの辞書と、「付属語」向けの辞書から構成されています。 「自立語」向けの辞書には、主に単語の読み、単語、品詞が収められています。「付属語」向けの辞書には、付属語の種類、自立語との接続情報、付属語間での接続情報が収められています。
「自立語」向けの辞書には、Wnn6 が管理する「システム辞書」と、ユーザーが管理する「ユーザー辞書」があります。「ユーザー辞書」は、ユーザーごとに持ち、単語の登録や削除ができます。
「自立語」向けの辞書はそれぞれの学習に使用する頻度情報ファイルをユーザーごとに持てます。ただし、初期設定ではユーザー辞書は使用頻度情報をユーザー辞書自身の内部に保持します。
辞書の構成を図 1-1 に示します。
Wnn6 の辞書ファイルの構成を図 1-2 に示します。
部首入力用辞書ファイルの内容を表 1-1 に示します。
表 1-1 部首入力用辞書ファイル一覧
ファイル名 |
内容 |
---|---|
補助漢字を含んだ部首情報の辞書 |
部首入力用辞書ファイル (補助漢字を含まない) の内容を表 1-2 に示します。
表 1-2 部首入力用辞書ファイル (補助漢字なし) 一覧
ファイル名 |
内容 |
---|---|
補助漢字を含まない部首情報の辞書 |
部首入力用付属語情報ファイルの内容を表 1-3 に示します。
表 1-3 部首入力用付属語情報ファイル一覧
ファイル名 |
内容 |
---|---|
部首入力用 |
システム辞書ファイルの内容を表 1-4 に示します。
表 1-4 システム辞書ファイル一覧
ファイル名 |
内容 |
---|---|
基本辞書 |
|
記号辞書 |
|
記号辞書 (@ 入力なし) |
|
単漢字辞書 (JIS X 0208 第 1 水準) |
|
単漢字辞書 (JIS X 0208 第 2 水準) |
|
単漢字辞書 (JIS X 0212 補助漢字) |
|
電話番号辞書 (市外局番を住所に変換する) |
|
郵便番号辞書 (郵便番号を住所に変換する) |
|
異形字辞書 (新字体<==>旧字体、略字体<==>正字体) |
FI 関係システム辞書ファイルの内容を表 1-5 に示します
表 1-5 FI 関係システム辞書ファイル一覧
ファイル名 |
内容 |
---|---|
FI 関係基本辞書 |
付属語情報ファイルの内容を表 1-6 に示します。
表 1-6 付属語情報ファイル一覧
ファイル名 |
内容 |
---|---|
文語 & 口語用 |
ユーザー辞書ファイルの内容を表 1-7 に示します。
表 1-7 ユーザ辞書ファイル一覧
ファイル名 |
内容 |
---|---|
ユーザー辞書 |
FI 関係ユーザー辞書ファイルの内容を表 1-8 に示します。
表 1-8 FI 関係ユーザ辞書ファイル一覧
ファイル名 |
内容 |
---|---|
FI 関係ユーザー辞書 |
無変換学習辞書ファイルの内容を表 1-9 に示します。
表 1-9 無変換学習辞書ファイル一覧
ファイル名 |
内容 |
---|---|
無変換学習用 |
文節学習辞書ファイルの内容を表 1-10 に示します。
表 1-10 文節学習辞書ファイル一覧
ファイル名 |
内容 |
---|---|
文節切り学習用 |
ユーザー頻度情報ファイルの内容を表 1-11 に示します。
表 1-11 ユーザー頻度情報ファイル一覧
ファイル名 |
内容 |
---|---|
基本辞書内の単語に対するユーザー頻度情報 |
|
記号辞書内の単語に対するユーザー頻度情報 |
|
記号辞書 (@ 入力なし) 内の単語に対するユーザー頻度情報 |
|
電話番号辞書内の単語に対するユーザー頻度情報 |
|
郵便番号辞書内の単語に対するユーザー頻度情報 |
FI 関係ユーザー頻度情報ファイルの内容を表 1-12 に示します。
表 1-12 FI 関係ユーザー頻度情報ファイル一覧
ファイル名 |
内容 |
---|---|
FI 関係基本辞書内の単語に対するユーザー頻度情報 |
単語登録を行う時には、品詞を指定します。 指定できる品詞を表 1-13 に示します。
表 1-13 単語登録時に指定できる品詞の一覧
大項目 |
種類 |
---|---|
名詞 / サ行 (する) & 名詞 / 一段 & 名詞 / ら抜き一段 & 名詞 / 形容動詞 & 名詞 / 数詞 / 数詞 & 名詞 / ザ行 (ずる) & 名詞 / 形動 & する & 名詞 / 形容動詞 (たる) & 名詞 / 副詞 & 名詞 / 副詞 & する & 名詞 / 助数詞 & 名詞 / 助数詞 & する & 名詞 / 接頭助数詞 & 名詞 / 名詞 (御なし) |
|
人名 / 地名 / 人名 & 地名 / 固有名詞 / 姓 / 名 / 企業 / 姓 & 地名 / 名 & 地名 / 地名 & 人名 |
|
一段 / 一段 & 名詞 / ら抜き一段 / ら抜き一段 & 名詞 / カ行五段 / ガ行五段 / サ行五段 / タ行五段 / ナ行五段 / ハ行五段 / バ行五段 / マ行五段 / ラ行五段 / ワ行五段 / サ行 (する) / サ行 (する) & 名詞 / ザ行 (ずる) / ザ行 (ずる) & 名詞形動 & する & 名詞 / 副詞 & する / 副詞 & と & する / 副詞 & する & 名詞 / 助数詞 & する & 名詞 |
|
カ行 (行く) / ラ行 (下さい) / 来 (こ) / 来 (き) / 来 (く) / 為 (し) / 為 (す) / 為 (せ) |
|
形容詞 / 形容動詞 / 形容動詞 & 名詞 / 形容動詞 (たる) / 形容詞 (いい) / 形容詞連用形う / 形動 & する & 名詞 / 形容動詞 & 副詞 / 形容動詞 (たる) & 名詞 /形容動詞 (たる) & 副詞 |
|
その他の独立語 |
副詞 / 連体詞 / 接続詞 / 感動詞 / 形容動詞 (たる) & 副詞副詞 & 名詞 / 副詞 & する / 副詞 & と & する / 副詞 & する & 名詞 |
接頭語 / 接尾語 / 接尾人名 / 接頭地名 / 接尾地名 / 接頭数詞 / 助数詞 / 接頭助数詞 / 接尾助数詞 / 形容動詞化接尾語 / サ行 (する) & 名詞化接尾語 / 接尾動詞 / 形容詞化接尾動詞 / 接頭語 (お) / 接頭語 (各) / 接頭人名 / 助数詞 & 名詞 / 助数詞 & する & 名詞 / 助数詞 & 接尾助数詞 / 接頭助数詞 & 名詞 / 接尾姓 / 接尾名 / 動作接尾語 |
|
単漢字 |
|
数字 / カナ / 英数 / 記号 / 閉括弧 / 開括弧 / 付属語 |
|
その他の特殊品詞 |
特殊助数詞 / 特殊数詞 / 数助数詞 / 特殊接頭数詞 / 特殊単独語 / 郵便番号 / 電話番号 / 連濁 / 異形字 |
助数詞 (音読) / 助数詞 (音読) & する & 名詞 / 助数詞 (音読) & 接尾助数詞 / 助数詞(音読) & 名詞 / 助数詞 (共通) / 助数詞 (共通) & 名詞 / 助数詞 (数字) / 助数詞 (数字) & する & 名詞 / 助数詞 (数字) & する & 名詞 (御なし) / 助数詞 (数字) & 名詞助数詞 (数字) & 名詞 (御なし) |
|
数詞 (一) / 数詞 (訓読) / 数詞 A / 数詞 A & 名詞 / 数詞A (一般) / 数詞A (証書) / 数詞 B / 数詞 B & 名詞 / 数詞 B (一般) / 数詞B (一般) & 名詞 / 数詞 B (証書) / 数詞 B (証書) & 名詞 / 数詞 C / 数詞 C & 名詞 / 数詞 C (一般) / 数詞 C (証書) |
|
数助数詞 A (一般) / 数助数詞 B / 数助数詞 C / 数助数詞 C & 助数詞 (数字) & 名詞 / 数助数詞 C & 助数詞 (数字) & 名詞 (御なし) |
|
接頭数詞 A / 接頭数詞 A (数字) / 接頭数詞 B / 接頭数詞 B (一般) / 接頭数詞 B (証書) |
|
単独語 / 単独接頭語 / 単独接尾語 |
品詞に関する情報を管理します。
ファイル :
/usr/lib/locale/ja/wnn/ja/hinsi.data |
このファイルに定義されている順番に、品詞、複合品詞に番号が割り当てられます。
割り当てられた番号は、
辞書、品詞ファイルの作成時
サーバーでの品詞名参照時
複合品詞の構成 (複合品詞は品詞の集合) 参照時
に使用されます。
品詞に関する情報はすべての辞書と付属語ファイルの間で共通なので、品詞の削除またはファイル中での並び替えはできません。削除や並び替えを行うと、変更前の品詞管理ファイルを使用して作成された辞書および付属語の品詞情報 (番号) が不適正なものとなります。
新しい品詞および複合品詞を追加することができます。
書式は次のとおりです。
複合品詞 / 品詞 : 品詞: ... :品詞 |
複合品詞の定義で使用される品詞は、それより先に品詞として定義されていなければなりません。また、品詞名、複合品詞名は重複して使用することはできません。
以下に例を示します。
;;;; ;;;; 品詞は、階層的に分類されています。 ;;;; ルートのノードは、「/」という名前を持っています。 ;;;; リーフが本当の品詞になっています。 ;;;; ノードは、 ;;;; ノード名|品詞1:品詞2:... ;;;; と書かれます。 ... ... /|普通名詞/:固有名詞/:動詞/:特殊な動詞/:動詞以外の用言/ :その他の独立語/:接頭語,接尾語/:単漢字:疑似品詞/その他の特殊品詞 普通名詞/|名詞:サ行(する)&名詞:一段&名詞:形容動詞&名詞:数詞 ... 固有名詞/|人名:地名:人名&地名:固有名詞 ... 動詞/|一段 :一段&名詞 :カ行五段:ガ行五段:サ行五段:タ行五段:ナ行五段 ... ; ; 疑似品詞 ; 先頭 ;文節先頭 数字 ;0123... カナ ;カタカナ 英数 ;ABCD... 記号 ;!"#$%... 閉括弧 ;)] } など 付属語 ;付属語 開括弧 ; ([{ など 疑似 ;その他の疑似文節 @ ; ここまでの 10 個の品詞の語は、辞書に存在しなくても jserver が ; 理解しています。 ... |
「@」だけの行は領域を確保することを意味します。品詞の定義に置き換えることもできます。
「;」以降はコメントとなります。
頻度情報ファイルは、辞書内の単語の使用頻度を各ユーザーごとに管理します。
ファイル :
/var/locale/ja/wnn/ja/dic/usr/username/*.h |
username には、各ユーザーのアカウント名が入ります。
頻度情報ファイルは、ユーザー頻度情報ファイルと FI 関係ユーザー頻度情報ファイルから構成されています。
頻度情報は、頻度情報ファイルの他に辞書本体の内部にも用意されています。頻度情報ファイルを新しく作成した場合には、すべての項目の頻度値が 0 に初期化されます。以後、頻度値の更新には、辞書本体内にある頻度値と頻度情報ファイルの頻度値を加算したものが適用されていきます。
かな漢字変換に使用する辞書を指定するとき、頻度情報ファイルも指定できます。頻度情報ファイルを指定しない場合は、辞書本体内の頻度値が使用されます。
頻度値を 「-1」 に設定すると、その辞書エントリを一時的に変換候補から外すことができます。これにより、複数のユーザーで共有して使用している辞書でも、1 ユーザーから不要であると思われる単語を、意図的に変換候補の対象から外すことができます。頻度ファイルを指定している場合は、頻度ファイル内にある頻度値、または辞書本体内の頻度値のいずれかを 「-1」 に設定します。頻度ファイルを指定していない場合には、辞書本体内の頻度値を 「-1」 に設定します。この処理は単語を実際に削除するわけではありません。あくまで一時的な処理ですから、辞書を柔軟に使用することができます。
テキスト形式辞書では、一時的に削除されたエントリの頻度を 「-」 で表します。
付属語情報ファイルは、jserver の起動時に読み込まれます。
付属語の種類、自立語と付属語の接続方法、付属語同士の接続方法が収められています。
ファイル :
/usr/lib/locale/ja/wnn/ja/dic/iwanami/kougo.fzk |
テキスト形式辞書は日本語 EUC コードで記述され、テキストエディタで編集することができます。テキスト形式辞書はバイナリデータ形式辞書と相互に変換することができます。
テキスト形式の辞書ファイル名の拡張子は「.u」 、バイナリデータ形式の辞書ファイル名の拡張子は 「.dic」 です。
テキスト形式辞書は次の書式で作成します。
読み 単語 品詞 頻度 コメント ← 個々の単語について記述します。 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ |
「読み」、「単語」、「品詞」、「頻度」、「コメント」は「空白文字」または「タブ文字」で区切ります。
表 1-14 テキスト形式辞書の書式
ユーザーが新規にユーザー辞書ファイルを作成した場合は、その辞書を Wnn6 が参照するように環境設定ファイル wnnenvrc に記述する必要があります。
"address.dic" を新しく作成した場合、次のように wnnenvrc に記述します。
・ setdic usr/@USR/address.dic - 5 0 0 - - 0 ・↑ ・↑ 新規に追加する辞書ファイルの パス名を設定 |
|
↑ 頻度情報 この場合、辞書ファイル内の頻度値を参照 |
以下に例を示します。
sun% wnnatod /usr/lib/locale/ja/wnn/ja/dic/usr/userA.dic < userA.u |
上記の例では、カレントディレクトリ下の userA.u というテキスト形式辞書を、userA.dic (バイナリデータ形式辞書) に変換します。
以下に例を示します。
sun% wnndtoa /usr/lib/locale/ja/wnn/ja/dic/usr/userB.dic > userB.u |
上記の例では、/usr/lib/locale/ja/wnn/ja/dic/usr/userB.dic というバイナリデータ形式辞書を、カレントディレクトリ下の userB.u というテキスト形式辞書に変換します。
バイナリデータ形式辞書と付属語情報のヘッダー部分を書き換えて、辞書の inode と合わせます。
実行形式は次のとおりです。
sun% /usr/bin/wnntouch <バイナリデータ> ... |
表 1-15 データの種類と保存形式
バイナリデータ |
データ形式辞書 (*.dic) / 付属語情報 (*.fzk) |
データ形式辞書または付属語情報ファイルは、複数指定することができます。