Wnn6 のかな漢字変換では、「文節」という変換対象の単位を設定しています。この「文節」は、「自立語」と「付属語」で構成されています。Wnn6 の辞書は、「自立語」向け辞書、「付属語」向け辞書、および、FI 関係辞書に分類されます。「自立語」向けの辞書には、主に、単語の読み、 変換結果の文字列、品詞情報が収められています。「付属語」向けの辞書には、付属語の種類、自立語との接続情報、 付属語間での接続情報が収められています。
自立語向けの辞書は、システム全体で共有するシステム辞書と、特定のユーザーが専有するユーザー辞書に分類されます。システム辞書に対しては、単語の登録や削除といった編集作業を行うことはできません。ユーザー辞書に対しては、その辞書を専有するユーザーは、自由に単語の登録や削除といった編集作業を行うことができます。
Wnn6 のかな漢字変換サーバーは、バイナリデータ形式の辞書を扱います。バイナリデータ形式のユーザー辞書は、テキスト形式の辞書に変換することができます。バイナリデータ形式のシステム辞書は、テキスト形式の辞書に変換することはできません。テキスト形式の辞書は、バイナリデータ形式の辞書に変換することができます。
ユーザーのかな漢字変換操作に関する使用頻度情報は、学習情報として保持されます。システム辞書に対する使用頻度情報は、辞書毎に指定できる、独立した「頻度ファイル」に保存されます。ユーザー辞書に対する使用頻度情報は、対象ユーザー辞書内、または独立した「頻度ファイル」に保存されます。
図 1–1 に、辞書の構成を示します。
図 1–2 に、Wnn6 の辞書ファイルの構成を示します。
表 1–1 に、部首入力用辞書ファイルの内容を示します。
表 1–1 部首入力用辞書ファイル一覧
ファイル名 |
内容 |
---|---|
補助漢字を含んだ部首情報の辞書 |
表 1–2 に、部首入力用辞書ファイル (補助漢字を使用しない) の内容を示します。
表 1–2 部首入力用辞書ファイル (補助漢字なし) 一覧
ファイル名 |
内容 |
---|---|
補助漢字を含まない部首情報の辞書 |
表 1–3 に、部首入力用付属語情報ファイルの内容を示します。
表 1–3 部首入力用付属語情報ファイル一覧
ファイル名 |
内容 |
---|---|
部首入力用 |
表 1–4 に、システム辞書ファイルの内容を示します。
表 1–4 システム辞書ファイル一覧
ファイル名 |
内容 |
---|---|
基本辞書 |
|
記号辞書 |
|
記号辞書 (@ 入力なし) |
|
単漢字辞書 (JIS X 0208 第 1 水準) |
|
単漢字辞書 (JIS X 0208 第 2 水準) |
|
単漢字辞書 (JIS X 0212 補助漢字) |
|
電話番号辞書 (市外局番を住所に変換する) |
|
郵便番号辞書 (郵便番号を住所に変換する) |
|
異形字辞書 (新字体<=⇒旧字体、略字体<=⇒正字体) |
表 1–5 に、FI 関係システム辞書ファイルの内容を示します
表 1–5 FI 関係システム辞書ファイル一覧
ファイル名 |
内容 |
---|---|
FI 関係基本辞書 |
表 1–6 に、付属語情報ファイルの内容を示します。
表 1–6 付属語情報ファイル一覧
ファイル名 |
内容 |
---|---|
文語 & 口語用 |
表 1–7 に、ユーザー辞書ファイルの内容を示します。
表 1–7 ユーザー辞書ファイル一覧
ファイル名 |
内容 |
---|---|
ユーザー辞書 |
表 1–8 に、FI 関係ユーザー辞書ファイルの内容を示します。
表 1–8 FI 関係ユーザー辞書ファイル一覧
ファイル名 |
内容 |
---|---|
FI 関係ユーザー辞書 |
表 1–9 に、無変換学習辞書ファイルの内容を示します。
表 1–9 無変換学習辞書ファイル一覧
ファイル名 |
内容 |
---|---|
無変換学習用 |
表 1–10 に、文節学習辞書ファイルの内容を示します。
表 1–10 文節学習辞書ファイル一覧
ファイル名 |
内容 |
---|---|
文節切り学習用 |
表 1–11 に、ユーザー頻度情報ファイルの内容を示します。
表 1–11 ユーザー頻度情報ファイル一覧
ファイル名 |
内容 |
---|---|
基本辞書内の単語に対するユーザー頻度情報 |
|
記号辞書内の単語に対するユーザー頻度情報 |
|
記号辞書 (@ 入力なし) 内の単語に対するユーザー頻度情報 |
|
電話番号辞書内の単語に対するユーザー頻度情報 |
|
郵便番号辞書内の単語に対するユーザー頻度情報 |
表 1–12 に、FI 関係ユーザー頻度情報ファイルの内容を示します。
表 1–12 FI 関係ユーザー頻度情報ファイル一覧
ファイル名 |
内容 |
---|---|
FI 関係基本辞書内の単語に対するユーザー頻度情報 |
単語登録を行うときは、品詞を指定します。 表 1–13に、指定できる品詞を示します。
表 1–13 単語登録時に指定できる品詞の一覧
大項目 |
種類 |
---|---|
名詞 / サ行 (する) & 名詞 / 一段 & 名詞 / ら抜き一段 & 名詞 / 形容動詞 & 名詞 / 数詞 / 数詞 & 名詞 / ザ行 (ずる) & 名詞 / 形動 & する & 名詞 / 形容動詞 (たる) & 名詞 / 副詞 & 名詞 / 副詞 & する & 名詞 / 助数詞 & 名詞 / 助数詞 & する & 名詞 / 接頭助数詞 & 名詞 / 名詞 (御なし) |
|
人名 / 地名 / 人名 & 地名 / 固有名詞 / 姓 / 名 / 企業 / 姓 & 地名 / 名 & 地名 / 地名 & 人名 |
|
一段 / 一段 & 名詞 / ら抜き一段 / ら抜き一段 & 名詞 / カ行五段 / ガ行五段 / サ行五段 / タ行五段 / ナ行五段 / ハ行五段 / バ行五段 / マ行五段 / ラ行五段 / ワ行五段 / サ行 (する) / サ行 (する) & 名詞 / ザ行 (ずる) / ザ行 (ずる) & 名詞 / 形動 & する & 名詞 / 副詞 & する / 副詞 & と & する / 副詞 & する & 名詞 / 助数詞 & する & 名詞 |
|
カ行 (行く) / ラ行 (下さい) / 来 (こ) / 来 (き) / 来 (く) / 為 (し) / 為 (す) / 為 (せ) |
|
形容詞 / 形容動詞 / 形容動詞 & 名詞 / 形容動詞 (たる) / 形容詞 (いい) / 形容詞連用形う / 形動 & する & 名詞 / 形容動詞 & 副詞 / 形容動詞 (たる) & 名詞 /形容動詞 (たる) & 副詞 |
|
その他の独立語 |
副詞 / 連体詞 / 接続詞 / 感動詞 / 形容動詞 (たる) & 副詞 / 副詞 & 名詞 / 副詞 & する / 副詞 & と & する / 副詞 & する & 名詞 |
接頭語 / 接尾語 / 接尾人名 / 接頭地名 / 接尾地名 / 接頭数詞 / 助数詞 / 接頭助数詞 / 接尾助数詞 / 形容動詞化接尾語 / サ行 (する) & 名詞化接尾語 / 接尾動詞 / 形容詞化接尾動詞 / 接頭語 (お) / 接頭語 (各) / 接頭人名 / 助数詞 & 名詞 / 助数詞 & する & 名詞 / 助数詞 & 接尾助数詞 / 接頭助数詞 & 名詞 / 接尾姓 / 接尾名 / 動作接尾語 |
|
単漢字 |
|
数字 / カナ / 英数 / 記号 / 閉括弧 / 開括弧 / 付属語 |
|
その他の特殊品詞 |
特殊助数詞 / 特殊数詞 / 数助数詞 / 特殊接頭数詞 / 特殊単独語 / 郵便番号 / 電話番号 / 連濁 / 異形字 |
助数詞 (音読) / 助数詞 (音読) & する & 名詞 / 助数詞 (音読) & 接尾助数詞 / 助数詞(音読) & 名詞 / 助数詞 (共通) / 助数詞 (共通) & 名詞 / 助数詞 (数字) / 助数詞 (数字) & する & 名詞 / 助数詞 (数字) & する & 名詞 (御なし) / 助数詞 (数字) & 名詞助数詞 (数字) & 名詞 (御なし) |
|
数詞 (一) / 数詞 (訓読) / 数詞 A / 数詞 A & 名詞 / 数詞A (一般) / 数詞A (証書) / 数詞 B / 数詞 B & 名詞 / 数詞 B (一般) / 数詞B (一般) & 名詞 / 数詞 B (証書) / 数詞 B (証書) & 名詞 / 数詞 C / 数詞 C & 名詞 / 数詞 C (一般) / 数詞 C (証書) |
|
数助数詞 A (一般) / 数助数詞 B / 数助数詞 C / 数助数詞 C & 助数詞 (数字) & 名詞 / 数助数詞 C & 助数詞 (数字) & 名詞 (御なし) |
|
接頭数詞 A / 接頭数詞 A (数字) / 接頭数詞 B / 接頭数詞 B (一般) / 接頭数詞 B (証書) |
|
単独語 / 単独接頭語 / 単独接尾語 |
品詞に関する情報を管理します。
ファイル :
/usr/lib/locale/ja/wnn/ja/hinsi.data |
このファイルに定義されている順番で、品詞や複合品詞に番号が割り当てられます。
この番号は、次の場合に使用されます。
辞書、品詞ファイルの作成時
サーバー、クライアントでの品詞名参照時
複合品詞の構成 (複合品詞は品詞の集合) 参照時
品詞管理ファイルに対しては以下の編集を行うことができます。
新しい品詞および複合品詞を最後に追加する
「@」のみで構成される行を、品詞の定義に置き換える
品詞に関する情報はすべての辞書と付属語ファイルの間で共通なので、品詞の削除やファイル内での並べ替えはできません。削除や並べ替えを行うと、変更前の品詞管理ファイルを使用して作成された辞書と付属語の品詞情報 (番号) が正しくなくなります。
書式は次のとおりです。
複合品詞 / 品詞 : 品詞: … :品詞 |
複合品詞の定義に使用する品詞は、前もって品詞として定義されていなければなりません。また、品詞名と複合品詞名を重複して使用することはできません。
「@」だけの行は領域を確保することを意味します。品詞の定義に置き換えることもできます。
「;」以降はコメントです。
以下に例を示します。
;;;; ;;;; 品詞は、階層的に分類されています。 ;;;; ルートのノードは、「/」という名前を持っています。 ;;;; リーフが本当の品詞になっています。 ;;;; ノードは、 ;;;; ノード名|品詞1:品詞2:… ;;;; と書かれます。 … … /|普通名詞/:固有名詞/:動詞/:特殊な動詞/:動詞以外の用言\ :その他の独立語/:接頭語,接尾語/:単漢字:疑似品詞/その他の特殊品詞\ /普通名詞/ 普通名詞/|名詞:サ行(する)&名詞:一段&名詞:形容動詞&名詞:数詞 … 固有名詞/|人名:地名:人名&地名:固有名詞 … 動詞/|一段 :一段&名詞\ :カ行五段:ガ行五段:サ行五段:タ行五段:ナ行五段 … ; ; 疑似品詞 ; 先頭 ;文節先頭 数字 ;0123... カナ ;カタカナ 英数 ;ABCD... 記号 ;!"#$%... 閉括弧 ;)] } など 付属語 ;付属語 開括弧 ; ([{ など 疑似 ;その他の疑似文節 @ ; ここまでの 10 個の品詞の語は、辞書に存在しなくても jserver が ; 理解しています。 … |
使用頻度情報は、辞書内と、辞書を使用する時に指定できる頻度情報ファイルに保存されます。
頻度情報ファイル :
/var/locale/ja/wnn/ja/dic/usr/username/*.h |
username は、Wnn6 の利用者のユーザー名です。
頻度情報ファイルは、ユーザー頻度情報ファイルと FI 関係ユーザー頻度情報ファイルに分類されます。ユーザー頻度情報ファイルには、対応する自立語向け辞書に登録された単語の使用頻度が保存されます。FI 関係ユーザー頻度情報ファイルには、対応する FI 関係辞書に登録された関係情報の使用頻度が保存されます。
システム辞書、ユーザー辞書のいずれも、辞書内に頻度情報を保持します。頻度情報の値は、辞書に単語が登録される時に設定されます。システム辞書は読み込み専用のため、システム辞書内の頻度情報を更新することはできません。ユーザー辞書内の頻度情報は更新可能です。
頻度情報ファイルは、辞書を使用する際に指定することができます。辞書の使用時に頻度情報ファイルが指定されない場合、辞書内の頻度情報が使用されます。
自立語向け辞書に登録された単語の使用頻度の値は、Wnn6 辞書ユーティリティなどを使用して、動的に変更することができます。また、特定の単語を一時的にかな漢字変換に使用しないように設定することもできます。
テキスト形式辞書では、一時的に削除されたエントリの頻度を「-」で表します。
付属語情報ファイルには、付属語の種類、自立語と付属語の接続方法、付属語同士の接続方法が収められています。付属語情報ファイルは、jserver の起動時に読み込まれます。
ファイル :
/usr/lib/locale/ja/wnn/ja/dic/iwanami/kougo.fzk |
テキスト形式辞書は日本語 EUC で記述され、テキストエディタで編集することができます。テキスト形式辞書は、バイナリデータ形式辞書と相互変換できます。
テキスト形式の辞書ファイル名の接尾辞は「.u」 、バイナリデータ形式の辞書ファイル名の接尾辞は 「.dic」 です。
テキスト形式辞書は次の書式で作成します。
読み 単語 品詞 頻度 コメント <— 個々の単語について記述します。 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント 読み 単語 品詞 頻度 コメント ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ |
「読み」、「単語」、「品詞」、「頻度」、「コメント」は空白文字またはタブ文字で区切ります。
表 1–14 テキスト形式辞書の書式
No |
項目 |
|
---|---|---|
1 |
読み |
単語の読み。 指定できる文字数は 124* 文字まで。ユーザー辞書はひらがな、「ー」、半角英数字で、システム辞書はひらがな、「ー」で逆順に表現する。 半角英数字の大文字と小文字は区別しない。ソート時の文字の昇順は「ー」、ひらがな、半角英数字の順になる1 |
2 |
単語 |
指定できる文字数は 124* 文字まで。半角文字、全角文字、ユーザー定義文字など、すべての文字表現が可能。 スペース、改行などの制御文字は「0」 に続く 2 桁の 8 進数で表す。 「\」 に「0」 以外の文字を続けると、その文字を指す (「\\」 は文字「\」 を指す) |
3 |
品詞 |
品詞名を入力する |
4 |
頻度 |
各単語ごとの頻度値 |
5 |
コメント |
各単語ごとに付けられるコメント。指定できる文字数は 124* 文字まで |
|
|
注 : *「読み」「単語」「コメント」は、合計で 124 文字まで |
ユーザーが新規にユーザー辞書ファイルを作成した場合は、その辞書を Wnn6 が参照するように環境設定ファイルwnnenvrc に記述する必要があります。
"address.dic"を新しく作成した場合、wnnenvrc には次のように記述します。
setdic usr/@USR/address.dic - 5 0 0 - - 0 ・ ・ |
以下に例を示します。
sun% wnnatod /usr/lib/locale/ja/wnn/ja/dic/usr/userA.dic < userA.u |
この例では、カレントディレクトリの下の userA.u というテキスト形式辞書を userA.dic というバイナリデータ形式辞書に変換します。
以下に例を示します。
sun% wnndtoa /usr/lib/locale/ja/wnn/ja/dic/usr/userB.dic > userB.u |
この例では、/usr/lib/locale/ja/wnn/ja/dic/usr/userB.dic というバイナリデータ形式辞書をカレントディレクトリの下の userB.uというテキスト形式辞書に変換します。
バイナリデータ形式辞書と付属語情報のヘッダー部分を書き換えて、辞書の inode と合わせます。
実行形式は次のとおりです。
sun% /usr/bin/wnntouch <バイナリデータ>… |
表 1–15 バイナリデータの種類と保存形式
バイナリデータ |
バイナリデータ形式辞書 (*.dic)、付属語情報 (*.fzk) |
バイナリデータ形式辞書や付属語情報ファイルは、複数指定することができます。