Wnn6 上級ユーザーおよびシステム管理者ガイド

第 1 章 かな漢字変換辞書

辞書の構成

Wnn6 のかな漢字変換では、「文節」という変換対象の単位を設定しています。この「文節」は、「自立語」と「付属語」で構成されています。Wnn6 の辞書は、「自立語」向け辞書、「付属語」向け辞書、および、FI 関係辞書に分類されます。「自立語」向けの辞書には、主に、単語の読み、 変換結果の文字列、品詞情報が収められています。「付属語」向けの辞書には、付属語の種類、自立語との接続情報、 付属語間での接続情報が収められています。

自立語向けの辞書は、システム全体で共有するシステム辞書と、特定のユーザーが専有するユーザー辞書に分類されます。システム辞書に対しては、単語の登録や削除といった編集作業を行うことはできません。ユーザー辞書に対しては、その辞書を専有するユーザーは、自由に単語の登録や削除といった編集作業を行うことができます。

Wnn6 のかな漢字変換サーバーは、バイナリデータ形式の辞書を扱います。バイナリデータ形式のユーザー辞書は、テキスト形式の辞書に変換することができます。バイナリデータ形式のシステム辞書は、テキスト形式の辞書に変換することはできません。テキスト形式の辞書は、バイナリデータ形式の辞書に変換することができます。

ユーザーのかな漢字変換操作に関する使用頻度情報は、学習情報として保持されます。システム辞書に対する使用頻度情報は、辞書毎に指定できる、独立した「頻度ファイル」に保存されます。ユーザー辞書に対する使用頻度情報は、対象ユーザー辞書内、または独立した「頻度ファイル」に保存されます。

図 1–1 に、辞書の構成を示します。

図 1–1 辞書構成図

辞書構成図を表示しています。自立語向け辞書と、付属語向け辞書があります。自立語向け辞書には、システム辞書と、ユーザー辞書が含まれています。

図 1–2 に、Wnn6 の辞書ファイルの構成を示します。

図 1–2 Wnn6 の辞書ファイル構成

Wnn6 の辞書ファイルの構成を示しています。

  1. 部首入力用辞書ファイル

    表 1–1 に、部首入力用辞書ファイルの内容を示します。

    表 1–1 部首入力用辞書ファイル一覧

    ファイル名 

    内容 

    bushu.dic

    補助漢字を含んだ部首情報の辞書 

  2. 部首入力用辞書ファイル (補助漢字を使用しない)

    表 1–2 に、部首入力用辞書ファイル (補助漢字を使用しない) の内容を示します。

    表 1–2 部首入力用辞書ファイル (補助漢字なし) 一覧

    ファイル名 

    内容 

    bushu.dic.no_JISX0212

    補助漢字を含まない部首情報の辞書  

  3. 部首入力用付属語情報ファイル

    表 1–3 に、部首入力用付属語情報ファイルの内容を示します。

    表 1–3 部首入力用付属語情報ファイル一覧

    ファイル名 

    内容 

    bushu.fzk

    部首入力用  

  4. システム辞書ファイル

    表 1–4 に、システム辞書ファイルの内容を示します。

    表 1–4 システム辞書ファイル一覧

    ファイル名 

    内容 

    kihon.dic

    基本辞書 

    symbol.dic

    記号辞書  

    symbol_noat.dic

    記号辞書 (@ 入力なし)  

    tankan.dic

    単漢字辞書 (JIS X 0208 第 1 水準)  

    tankan2.dic

    単漢字辞書 (JIS X 0208 第 2 水準)  

    tankan3.dic

    単漢字辞書 (JIS X 0212 補助漢字)  

    tel.dic

    電話番号辞書 (市外局番を住所に変換する) 

    zip.dic

    郵便番号辞書 (郵便番号を住所に変換する) 

    ikeiji.dic

    異形字辞書 (新字体<=⇒旧字体、略字体<=⇒正字体)  

  5. FI 関係システム辞書ファイル

    表 1–5 に、FI 関係システム辞書ファイルの内容を示します

    表 1–5 FI 関係システム辞書ファイル一覧

    ファイル名 

    内容 

    fisd

    FI 関係基本辞書  

  6. 付属語情報ファイル

    表 1–6 に、付属語情報ファイルの内容を示します。

    表 1–6 付属語情報ファイル一覧

    ファイル名 

    内容 

    kougo.fzk

    文語 & 口語用  

  7. ユーザー辞書ファイル

    表 1–7 に、ユーザー辞書ファイルの内容を示します。

    表 1–7 ユーザー辞書ファイル一覧

    ファイル名 

    内容 

    ud

    ユーザー辞書 

  8. FI 関係ユーザー辞書ファイル

    表 1–8 に、FI 関係ユーザー辞書ファイルの内容を示します。

    表 1–8 FI 関係ユーザー辞書ファイル一覧

    ファイル名 

    内容 

    fiud

    FI 関係ユーザー辞書  

  9. 無変換学習辞書ファイル

    表 1–9 に、無変換学習辞書ファイルの内容を示します。

    表 1–9 無変換学習辞書ファイル一覧

    ファイル名 

    内容 

    muhenkan

    無変換学習用 

  10. 文節学習辞書ファイル

    表 1–10 に、文節学習辞書ファイルの内容を示します。

    表 1–10 文節学習辞書ファイル一覧

    ファイル名 

    内容 

    bunsetsu

    文節切り学習用 

  11. ユーザー頻度情報ファイル

    表 1–11 に、ユーザー頻度情報ファイルの内容を示します。

    表 1–11 ユーザー頻度情報ファイル一覧

    ファイル名 

    内容 

    kihon.h

    基本辞書内の単語に対するユーザー頻度情報 

    symbol.h

    記号辞書内の単語に対するユーザー頻度情報  

    symbol_noat.h

    記号辞書 (@ 入力なし) 内の単語に対するユーザー頻度情報  

    tel.h

    電話番号辞書内の単語に対するユーザー頻度情報  

    zip.h

    郵便番号辞書内の単語に対するユーザー頻度情報  

  12. FI 関係ユーザー頻度情報ファイル

    表 1–12 に、FI 関係ユーザー頻度情報ファイルの内容を示します。

    表 1–12 FI 関係ユーザー頻度情報ファイル一覧

    ファイル名  

    内容 

    fisd.h

    FI 関係基本辞書内の単語に対するユーザー頻度情報  

品詞

品詞の種類

単語登録を行うときは、品詞を指定します。 表 1–13に、指定できる品詞を示します。

表 1–13 単語登録時に指定できる品詞の一覧

大項目 

種類 

普通名詞

名詞 / サ行 (する) & 名詞 / 一段 & 名詞 / ら抜き一段 & 名詞 / 形容動詞 & 名詞 / 数詞 / 数詞 & 名詞 / ザ行 (ずる) & 名詞 / 形動 & する & 名詞 / 形容動詞 (たる) & 名詞 / 副詞 & 名詞 / 副詞 & する & 名詞 / 助数詞 & 名詞 / 助数詞 & する & 名詞 / 接頭助数詞 & 名詞 / 名詞 (御なし)  

固有名詞

人名 / 地名 / 人名 & 地名 / 固有名詞 / 姓 / 名 / 企業 / 姓 & 地名 / 名 & 地名 / 地名 & 人名 

動詞

一段 / 一段 & 名詞 / ら抜き一段 / ら抜き一段 & 名詞 / カ行五段 / ガ行五段 / サ行五段 / タ行五段 / ナ行五段 / ハ行五段 / バ行五段 / マ行五段 / ラ行五段 / ワ行五段 / サ行 (する) / サ行 (する) & 名詞 / ザ行 (ずる) / ザ行 (ずる) & 名詞 / 形動 & する & 名詞 / 副詞 & する / 副詞 & と & する / 副詞 & する & 名詞 / 助数詞 & する & 名詞 

特殊な動詞

カ行 (行く) / ラ行 (下さい) / 来 (こ) / 来 (き) / 来 (く) / 為 (し) / 為 (す) / 為 (せ)  

動詞以外の用言

形容詞 / 形容動詞 / 形容動詞 & 名詞 / 形容動詞 (たる) / 形容詞 (いい) / 形容詞連用形う / 形動 & する & 名詞 / 形容動詞 & 副詞 / 形容動詞 (たる) & 名詞 /形容動詞 (たる) & 副詞 

その他の独立語 

副詞 / 連体詞 / 接続詞 / 感動詞 / 形容動詞 (たる) & 副詞 / 副詞 & 名詞 / 副詞 & する / 副詞 & と & する / 副詞 & する & 名詞  

接頭語 / 接尾語

接頭語 / 接尾語 / 接尾人名 / 接頭地名 / 接尾地名 / 接頭数詞 / 助数詞 / 接頭助数詞 / 接尾助数詞 / 形容動詞化接尾語 / サ行 (する) & 名詞化接尾語 / 接尾動詞 / 形容詞化接尾動詞 / 接頭語 (お) / 接頭語 (各) / 接頭人名 / 助数詞 & 名詞 / 助数詞 & する & 名詞 / 助数詞 & 接尾助数詞 / 接頭助数詞 & 名詞 / 接尾姓 / 接尾名 / 動作接尾語 

単漢字

単漢字 

疑似品詞

数字 / カナ / 英数 / 記号 / 閉括弧 / 開括弧 / 付属語 

その他の特殊品詞 

特殊助数詞 / 特殊数詞 / 数助数詞 / 特殊接頭数詞 / 特殊単独語 / 郵便番号 / 電話番号 / 連濁 / 異形字  

特殊助数詞

助数詞 (音読) / 助数詞 (音読) & する & 名詞 / 助数詞 (音読) & 接尾助数詞 / 助数詞(音読) & 名詞 / 助数詞 (共通) / 助数詞 (共通) & 名詞 / 助数詞 (数字) / 助数詞 (数字) & する & 名詞 / 助数詞 (数字) & する & 名詞 (御なし) / 助数詞 (数字) & 名詞助数詞 (数字) & 名詞 (御なし) 

特殊数詞

数詞 (一) / 数詞 (訓読) / 数詞 A / 数詞 A & 名詞 / 数詞A (一般) / 数詞A (証書) / 数詞 B / 数詞 B & 名詞 / 数詞 B (一般) / 数詞B (一般) & 名詞 / 数詞 B (証書) / 数詞 B (証書) & 名詞 / 数詞 C / 数詞 C & 名詞 / 数詞 C (一般) / 数詞 C (証書)  

数助数詞

数助数詞 A (一般) / 数助数詞 B / 数助数詞 C / 数助数詞 C & 助数詞 (数字) & 名詞 / 数助数詞 C & 助数詞 (数字) & 名詞 (御なし)  

特殊接頭数詞

接頭数詞 A / 接頭数詞 A (数字) / 接頭数詞 B / 接頭数詞 B (一般) / 接頭数詞 B (証書) 

特殊単独語

単独語 / 単独接頭語 / 単独接尾語  

品詞管理ファイル

品詞に関する情報を管理します。

ファイル :

/usr/lib/locale/ja/wnn/ja/hinsi.data

このファイルに定義されている順番で、品詞や複合品詞に番号が割り当てられます。

この番号は、次の場合に使用されます。


注 –

品詞に関する情報はすべての辞書と付属語ファイルの間で共通なので、品詞の削除やファイル内での並べ替えはできません。削除や並べ替えを行うと、変更前の品詞管理ファイルを使用して作成された辞書と付属語の品詞情報 (番号) が正しくなくなります。


書式は次のとおりです。

複合品詞 / 品詞 : 品詞: … :品詞

複合品詞の定義に使用する品詞は、前もって品詞として定義されていなければなりません。また、品詞名と複合品詞名を重複して使用することはできません。

「@」だけの行は領域を確保することを意味します。品詞の定義に置き換えることもできます。

「;」以降はコメントです。

以下に例を示します。

;;;;
;;;;	品詞は、階層的に分類されています。
;;;;	ルートのノードは、「/」という名前を持っています。
;;;;	リーフが本当の品詞になっています。
;;;;	ノードは、
;;;;	ノード名|品詞1:品詞2:…
;;;;	と書かれます。
 …
 …
	/|普通名詞/:固有名詞/:動詞/:特殊な動詞/:動詞以外の用言\
     :その他の独立語/:接頭語,接尾語/:単漢字:疑似品詞/その他の特殊品詞\
     /普通名詞/

	普通名詞/|名詞:サ行(する)&名詞:一段&名詞:形容動詞&名詞:数詞 …
	固有名詞/|人名:地名:人名&地名:固有名詞 …

動詞/|一段	:一段&名詞\
     :カ行五段:ガ行五段:サ行五段:タ行五段:ナ行五段
	…
;
; 疑似品詞
;
先頭	;文節先頭
数字	;0123...
カナ	;カタカナ
英数	;ABCD...
記号	;!"#$%...
閉括弧	;)] } など
付属語	;付属語
開括弧	; ([{ など
疑似	;その他の疑似文節
@
;	ここまでの 10 個の品詞の語は、辞書に存在しなくても jserver が
;	理解しています。
…

頻度情報ファイル

使用頻度情報は、辞書内と、辞書を使用する時に指定できる頻度情報ファイルに保存されます。

頻度情報ファイル :

/var/locale/ja/wnn/ja/dic/usr/username/*.h

username は、Wnn6 の利用者のユーザー名です。

頻度情報ファイルは、ユーザー頻度情報ファイルと FI 関係ユーザー頻度情報ファイルに分類されます。ユーザー頻度情報ファイルには、対応する自立語向け辞書に登録された単語の使用頻度が保存されます。FI 関係ユーザー頻度情報ファイルには、対応する FI 関係辞書に登録された関係情報の使用頻度が保存されます。

システム辞書、ユーザー辞書のいずれも、辞書内に頻度情報を保持します。頻度情報の値は、辞書に単語が登録される時に設定されます。システム辞書は読み込み専用のため、システム辞書内の頻度情報を更新することはできません。ユーザー辞書内の頻度情報は更新可能です。

頻度情報ファイルは、辞書を使用する際に指定することができます。辞書の使用時に頻度情報ファイルが指定されない場合、辞書内の頻度情報が使用されます。

自立語向け辞書に登録された単語の使用頻度の値は、Wnn6 辞書ユーティリティなどを使用して、動的に変更することができます。また、特定の単語を一時的にかな漢字変換に使用しないように設定することもできます。


注 –

テキスト形式辞書では、一時的に削除されたエントリの頻度を「-」で表します。


付属語情報ファイル

付属語情報ファイルには、付属語の種類、自立語と付属語の接続方法、付属語同士の接続方法が収められています。付属語情報ファイルは、jserver の起動時に読み込まれます。

ファイル :

/usr/lib/locale/ja/wnn/ja/dic/iwanami/kougo.fzk

テキスト形式辞書

テキスト形式辞書は日本語 EUC で記述され、テキストエディタで編集することができます。テキスト形式辞書は、バイナリデータ形式辞書と相互変換できます。

図 1–3 辞書構成

この図では、バイナリデータ形式辞書とテキスト形式辞書が双方向で変換を行うことができることを示しています。

テキスト形式の辞書ファイル名の接尾辞は「.u」 、バイナリデータ形式の辞書ファイル名の接尾辞は 「.dic」 です。

テキスト形式辞書は次の書式で作成します。

 読み 単語 品詞 頻度 コメント  <— 個々の単語について記述します。
 読み 単語 品詞 頻度 コメント
 読み 単語 品詞 頻度 コメント
 読み 単語 品詞 頻度 コメント
 読み 単語 品詞 頻度 コメント
 ・   ・   ・  ・     ・
 ・   ・   ・  ・     ・
 ・   ・   ・  ・     ・ 

「読み」、「単語」、「品詞」、「頻度」、「コメント」は空白文字またはタブ文字で区切ります。

表 1–14 テキスト形式辞書の書式

No 

項目 

 

1  

読み 

単語の読み。  

指定できる文字数は 124* 文字まで。ユーザー辞書はひらがな、「ー」、半角英数字で、システム辞書はひらがな、「ー」で逆順に表現する。 

半角英数字の大文字と小文字は区別しない。ソート時の文字の昇順は「ー」、ひらがな、半角英数字の順になる1

2  

単語 

指定できる文字数は 124* 文字まで。半角文字、全角文字、ユーザー定義文字など、すべての文字表現が可能。 

スペース、改行などの制御文字は「0」 に続く 2 桁の 8 進数で表す。  

「\」 に「0」 以外の文字を続けると、その文字を指す (「\\」 は文字「\」 を指す)  

3  

品詞 

品詞名を入力する  

4  

頻度  

各単語ごとの頻度値  

5  

コメント  

各単語ごとに付けられるコメント。指定できる文字数は 124* 文字まで  

 

 

注 : *「読み」「単語」「コメント」は、合計で 124 文字まで 

ユーザーが新規にユーザー辞書ファイルを作成した場合は、その辞書を Wnn6 が参照するように環境設定ファイルwnnenvrc に記述する必要があります。

"address.dic"を新しく作成した場合、wnnenvrc には次のように記述します。


setdic usr/@USR/address.dic	-	5 0 0 - - 0
					・
					・
( ※ 上記で、usr/@USR/address.dic は、新規に追加する辞書ファイルのパス名です。続いて頻度情報ファイルのパス名を指定しますが、この例のように - を指定すると、辞書ファイル内の頻度値を参照します。)

辞書ユーティリティ (コマンド行)

テキスト形式辞書をバイナリデータ形式辞書へ変換する

以下に例を示します。

sun% wnnatod /usr/lib/locale/ja/wnn/ja/dic/usr/userA.dic < userA.u

この例では、カレントディレクトリの下の userA.u というテキスト形式辞書を userA.dic というバイナリデータ形式辞書に変換します。

バイナリデータ形式辞書をテキスト形式辞書へ変換する

以下に例を示します。

sun% wnndtoa /usr/lib/locale/ja/wnn/ja/dic/usr/userB.dic > userB.u

この例では、/usr/lib/locale/ja/wnn/ja/dic/usr/userB.dic というバイナリデータ形式辞書をカレントディレクトリの下の userB.uというテキスト形式辞書に変換します。

辞書のヘッダー書き換え

バイナリデータ形式辞書と付属語情報のヘッダー部分を書き換えて、辞書の inode と合わせます。

実行形式は次のとおりです。

sun% /usr/bin/wnntouch <バイナリデータ>

表 1–15 バイナリデータの種類と保存形式

バイナリデータ 

バイナリデータ形式辞書 (*.dic)、付属語情報 (*.fzk)

バイナリデータ形式辞書や付属語情報ファイルは、複数指定することができます。