Wnn6 上級ユーザーおよびシステム管理者ガイド

第 1 章 かな漢字変換辞書

1.1 辞書の構成

Wnn6 の辞書は「自立語」向けの辞書と、「付属語」向けの辞書から構成されています。 「自立語」向けの辞書には、主に単語の読み、単語、品詞が収められています。「付属語」向けの辞書には、付属語の種類、自立語との接続情報、付属語間での接続情報が収められています。

「自立語」向けの辞書には、Wnn6 が管理する「システム辞書」と、ユーザーが管理する「ユーザー辞書」があります。「ユーザー辞書」はユーザーごとに用意されており、これを使用して単語を登録したり削除したりできます。

「自立語」向けの辞書では、ユーザーごとに学習用の頻度情報ファイルを持てます。この使用頻度情報は、初期設定ではユーザー辞書の内部に保持されます。

図 1-1 に、辞書の構成を示します。

図 1-1 辞書構成図

Graphic

図 1-2 に、Wnn6 の辞書ファイルの構成を示します。

図 1-2 Wnn6 の辞書ファイル構成

Graphic

  1. 部首入力用辞書ファイル

    表 1-1 に、部首入力用辞書ファイルの内容を示します。

    表 1-1 部首入力用辞書ファイル一覧

    ファイル名 

    内容 

    bushu.dic

    補助漢字を含んだ部首情報の辞書 

  2. 部首入力用辞書ファイル (補助漢字を使用しない)

    表 1-2 に、部首入力用辞書ファイル (補助漢字を使用しない) の内容を示します。

    表 1-2 部首入力用辞書ファイル (補助漢字なし) 一覧

    ファイル名 

    内容 

    bushu.dic.no_JISX0212

    補助漢字を含まない部首情報の辞書  

  3. 部首入力用付属語情報ファイル

    表 1-3 に、部首入力用付属語情報ファイルの内容を示します。

    表 1-3 部首入力用付属語情報ファイル一覧

    ファイル名 

    内容 

    bushu.fzk

    部首入力用  

  4. システム辞書ファイル

    表 1-4 に、システム辞書ファイルの内容を示します。

    表 1-4 システム辞書ファイル一覧

    ファイル名 

    内容 

    kihon.dic

    基本辞書 

    symbol.dic

    記号辞書  

    symbol_noat.dic

    記号辞書 (@ 入力なし)  

    tankan.dic

    単漢字辞書 (JIS X 0208 第 1 水準)  

    tankan2.dic

    単漢字辞書 (JIS X 0208 第 2 水準)  

    tankan3.dic

    単漢字辞書 (JIS X 0212 補助漢字)  

    tel.dic

    電話番号辞書 (市外局番を住所に変換する) 

    zip.dic

    郵便番号辞書 (郵便番号を住所に変換する) 

    ikeiji.dic

    異形字辞書 (新字体<==>旧字体、略字体<==>正字体)  

  5. FI 関係システム辞書ファイル

    表 1-5 に、FI 関係システム辞書ファイルの内容を示します

    表 1-5 FI 関係システム辞書ファイル一覧

    ファイル名 

    内容 

    fisd

    FI 関係基本辞書  

  6. 付属語情報ファイル

    表 1-6 に、付属語情報ファイルの内容を示します。

    表 1-6 付属語情報ファイル一覧

    ファイル名 

    内容 

    kougo.fzk

    文語 & 口語用  

  7. ユーザー辞書ファイル

    表 1-7 に、ユーザー辞書ファイルの内容を示します。

    表 1-7 ユーザー辞書ファイル一覧

    ファイル名 

    内容 

    ud

    ユーザー辞書 

  8. FI 関係ユーザー辞書ファイル

    表 1-8 に、FI 関係ユーザー辞書ファイルの内容を示します。

    表 1-8 FI 関係ユーザー辞書ファイル一覧

    ファイル名 

    内容 

    fiud

    FI 関係ユーザー辞書  

  9. 無変換学習辞書ファイル

    表 1-9 に、無変換学習辞書ファイルの内容を示します。

    表 1-9 無変換学習辞書ファイル一覧

    ファイル名 

    内容 

    muhenkan

    無変換学習用 

  10. 文節学習辞書ファイル

    表 1-10 に、文節学習辞書ファイルの内容を示します。

    表 1-10 文節学習辞書ファイル一覧

    ファイル名 

    内容 

    bunsetsu

    文節切り学習用 

  11. ユーザー頻度情報ファイル

    表 1-11 に、ユーザー頻度情報ファイルの内容を示します。

    表 1-11 ユーザー頻度情報ファイル一覧

    ファイル名 

    内容 

    kihon.h

    基本辞書内の単語に対するユーザー頻度情報 

    symbol.h

    記号辞書内の単語に対するユーザー頻度情報  

    symbol_noat.h

    記号辞書 (@ 入力なし) 内の単語に対するユーザー頻度情報  

    tel.h

    電話番号辞書内の単語に対するユーザー頻度情報  

    zip.h

    郵便番号辞書内の単語に対するユーザー頻度情報  

  12. FI 関係ユーザー頻度情報ファイル

    表 1-12 に、FI 関係ユーザー頻度情報ファイルの内容を示します。

    表 1-12 FI 関係ユーザー頻度情報ファイル一覧

    ファイル名  

    内容 

    fisd.h

    FI 関係基本辞書内の単語に対するユーザー頻度情報  

1.2 品詞

1.2.1 品詞の種類

単語登録を行うときは、品詞を指定します。 表 1-13 に、指定できる品詞を示します。

表 1-13 単語登録時に指定できる品詞の一覧

大項目 

種類 

普通名詞

名詞 / サ行 (する) & 名詞 / 一段 & 名詞 / ら抜き一段 & 名詞 / 形容動詞 & 名詞 / 数詞 / 数詞 & 名詞 / ザ行 (ずる) & 名詞 / 形動 & する & 名詞 / 形容動詞 (たる) & 名詞 / 副詞 & 名詞 / 副詞 & する & 名詞 / 助数詞 & 名詞 / 助数詞 & する & 名詞 / 接頭助数詞 & 名詞 / 名詞 (御なし)  

固有名詞

人名 / 地名 / 人名 & 地名 / 固有名詞 / 姓 / 名 / 企業 / 姓 & 地名 / 名 & 地名 / 地名 & 人名 

動詞

一段 / 一段 & 名詞 / ら抜き一段 / ら抜き一段 & 名詞 / カ行五段 / ガ行五段 / サ行五段 / タ行五段 / ナ行五段 / ハ行五段 / バ行五段 / マ行五段 / ラ行五段 / ワ行五段 / サ行 (する) / サ行 (する) & 名詞 / ザ行 (ずる) / ザ行 (ずる) & 名詞形動 & する & 名詞 / 副詞 & する / 副詞 & と & する / 副詞 & する & 名詞 / 助数詞 & する & 名詞 

特殊な動詞

カ行 (行く) / ラ行 (下さい) / 来 (こ) / 来 (き) / 来 (く) / 為 (し) / 為 (す) / 為 (せ)  

動詞以外の用言

形容詞 / 形容動詞 / 形容動詞 & 名詞 / 形容動詞 (たる) / 形容詞 (いい) / 形容詞連用形う / 形動 & する & 名詞 / 形容動詞 & 副詞 / 形容動詞 (たる) & 名詞 /形容動詞 (たる) & 副詞 

その他の独立語 

副詞 / 連体詞 / 接続詞 / 感動詞 / 形容動詞 (たる) & 副詞副詞 & 名詞 / 副詞 & する / 副詞 & と & する / 副詞 & する & 名詞  

接頭語 / 接尾語

接頭語 / 接尾語 / 接尾人名 / 接頭地名 / 接尾地名 / 接頭数詞 / 助数詞 / 接頭助数詞 / 接尾助数詞 / 形容動詞化接尾語 / サ行 (する) & 名詞化接尾語 / 接尾動詞 / 形容詞化接尾動詞 / 接頭語 (お) / 接頭語 (各) / 接頭人名 / 助数詞 & 名詞 / 助数詞 & する & 名詞 / 助数詞 & 接尾助数詞 / 接頭助数詞 & 名詞 / 接尾姓 / 接尾名 / 動作接尾語 

単漢字

単漢字 

疑似品詞

数字 / カナ / 英数 / 記号 / 閉括弧 / 開括弧 / 付属語 

その他の特殊品詞 

特殊助数詞 / 特殊数詞 / 数助数詞 / 特殊接頭数詞 / 特殊単独語 / 郵便番号 / 電話番号 / 連濁 / 異形字  

特殊助数詞

助数詞 (音読) / 助数詞 (音読) & する & 名詞 / 助数詞 (音読) & 接尾助数詞 / 助数詞(音読) & 名詞 / 助数詞 (共通) / 助数詞 (共通) & 名詞 / 助数詞 (数字) / 助数詞 (数字) & する & 名詞 / 助数詞 (数字) & する & 名詞 (御なし) / 助数詞 (数字) & 名詞助数詞 (数字) & 名詞 (御なし) 

特殊数詞

数詞 (一) / 数詞 (訓読) / 数詞 A / 数詞 A & 名詞 / 数詞A (一般) / 数詞A (証書) / 数詞 B / 数詞 B & 名詞 / 数詞 B (一般) / 数詞B (一般) & 名詞 / 数詞 B (証書) / 数詞 B (証書) & 名詞 / 数詞 C / 数詞 C & 名詞 / 数詞 C (一般) / 数詞 C (証書)  

数助数詞

数助数詞 A (一般) / 数助数詞 B / 数助数詞 C / 数助数詞 C & 助数詞 (数字) & 名詞 / 数助数詞 C & 助数詞 (数字) & 名詞 (御なし)  

特殊接頭数詞

接頭数詞 A / 接頭数詞 A (数字) / 接頭数詞 B / 接頭数詞 B (一般) / 接頭数詞 B (証書) 

特殊単独語

単独語 / 単独接頭語 / 単独接尾語  

1.2.2 品詞管理ファイル

品詞に関する情報を管理します。

ファイル :

/usr/lib/locale/ja/wnn/ja/hinsi.data

このファイルに定義されている順番で、品詞や複合品詞に番号が割り当てられます。

この番号は、次の場合に使用されます。


注 -

品詞に関する情報はすべての辞書と付属語ファイルの間で共通なので、品詞の削除やファイル内での並べ替えはできません。削除や並べ替えを行うと、変更前の品詞管理ファイルを使用して作成された辞書と付属語の品詞情報 (番号) が正しくなくなります。


新しい品詞や複合品詞を追加することができます。

書式は次のとおりです。

複合品詞 / 品詞 : 品詞: ... :品詞

複合品詞の定義に使用する品詞は、前もって品詞として定義されていなければなりません。また、品詞名と複合品詞名を重複して使用することはできません。

以下に例を示します。

;;;;
;;;;	品詞は、階層的に分類されています。
;;;;	ルートのノードは、「/」という名前を持っています。
;;;;	リーフが本当の品詞になっています。
;;;;	ノードは、
;;;;	ノード名|品詞1:品詞2:...
;;;;	と書かれます。
 ...
 ...
	/|普通名詞/:固有名詞/:動詞/:特殊な動詞/:動詞以外の用言/
	:その他の独立語/:接頭語,接尾語/:単漢字:疑似品詞/その他の特殊品詞
	普通名詞/|名詞:サ行(する)&名詞:一段&名詞:形容動詞&名詞:数詞 ...
	固有名詞/|人名:地名:人名&地名:固有名詞 ...

動詞/|一段	:一段&名詞
	:カ行五段:ガ行五段:サ行五段:タ行五段:ナ行五段
	...
;
; 疑似品詞
;
先頭	;文節先頭
数字	;0123...
カナ	;カタカナ
英数	;ABCD...
記号	;!"#$%...
閉括弧	;)] } など
付属語	;付属語
開括弧	; ([{ など
疑似	;その他の疑似文節
@
;	ここまでの 10 個の品詞の語は、辞書に存在しなくても jserver が
;	理解しています。
...

「@」だけの行は領域を確保することを意味します。品詞の定義に置き換えることもできます。

「;」以降はコメントです。

1.3 頻度情報ファイル

頻度情報ファイルは、辞書内の単語の使用頻度をユーザー別に管理します。

ファイル :

/var/locale/ja/wnn/ja/dic/usr/username/*.h

username には、各ユーザーのアカウント名が入ります。

頻度情報ファイルは、ユーザー頻度情報ファイルと FI 関係ユーザー頻度情報ファイルから構成されています。

頻度情報は、頻度情報ファイル内だけでなく、辞書本体の内部にも用意されています。頻度情報ファイルを新しく作成した場合は、すべての項目の頻度値が 0 に初期化されます。以後、頻度値を更新するたびに、辞書本体内の頻度値と頻度情報ファイルの頻度値を加算した値が適用されていきます。

かな漢字変換に使用する辞書を指定するとき、頻度情報ファイルも指定できます。頻度情報ファイルを指定しない場合は、辞書本体内の頻度値が使用されます。

頻度値を「-1」に設定すると、その辞書エントリを一時的に変換候補から外すことができます。これにより、複数のユーザーで共有して使用している辞書内のエントリであっても、1 ユーザーにとって不要であれば、意図的に変換候補の対象から外すことができます。頻度ファイルを指定している場合は、頻度ファイル内にある頻度値か、辞書本体内の頻度値を「-1」に設定します。頻度ファイルを指定していない場合は、辞書本体内の頻度値を「-1」に設定します。この処理は、辞書を柔軟に使用するための一時的な処理です。実際に単語が削除されるわけではありません。


注 -

テキスト形式辞書では、一時的に削除されたエントリの頻度を「-」で表します。


1.4 付属語情報ファイル

付属語情報ファイルは、jserver の起動時に読み込まれます。

付属語の種類、自立語と付属語の接続方法、付属語同士の接続方法が収められています。

ファイル :

/usr/lib/locale/ja/wnn/ja/dic/iwanami/kougo.fzk

1.5 テキスト形式辞書

テキスト形式辞書は日本語 EUC コードで記述され、テキストエディタで編集することができます。テキスト形式辞書は、バイナリデータ形式辞書と相互変換できます。

図 1-3 辞書構成

Graphic

テキスト形式の辞書ファイル名の拡張子は「.u」 、バイナリデータ形式の辞書ファイル名の拡張子は 「.dic」 です。

テキスト形式辞書は次の書式で作成します。

読み	単語	品詞	頻度	コメント	<-	個々の単語について記述します。
読み	単語	品詞	頻度	コメント	
読み	単語	品詞	頻度	コメント	
読み	単語	品詞	頻度	コメント	
読み	単語	品詞	頻度	コメント	
 ・    ・    ・    ・	     ・
 ・    ・    ・    ・	     ・
 ・    ・    ・    ・	     ・

「読み」、「単語」、「品詞」、「頻度」、「コメント」は空白文字またはタブ文字で区切ります。

表 1-14 テキスト形式辞書の書式

No 

項目 

 

1  

読み 

単語の読み。  

指定できる文字数は 252 文字まで。ユーザー辞書はひらがな、「ー」、半角英数字で、システム辞書はひらがな、「ー」で逆順に表現する。 

半角英数字の大文字と小文字は区別しない。ソート時の文字の昇順は「ー」、ひらがな、半角英数字の順になる1

2  

単語 

指定できる文字数は 252 文字まで。半角文字、全角文字、ユーザー定義文字など、すべての文字表現が可能。 

スペース、改行などの制御文字は「0」 に続く 2 桁の 8 進数で表す。  

「¥」 に「0」 以外の文字を続けると、その文字を指す (「¥¥」 は文字「¥」 を指す)  

3  

品詞 

品詞名を入力する  

4  

頻度  

各単語ごとの頻度値  

5  

コメント  

各単語ごとに付けられるコメント。指定できる文字数は 252 文字まで  

1. 「読み」「単語」「コメント」はそれぞれあわせて 252 文字です。

ユーザーが新規にユーザー辞書ファイルを作成した場合は、その辞書を Wnn6 が参照するように環境設定ファイル wnnenvrc に記述する必要があります。

"address.dic" を新しく作成した場合、wnnenvrc には次のように記述します。


setdic usr/@USR/address.dic	-	5 0 0 - - 0
					・↑
					・↑
新規に追加する辞書ファイルの
パス名を設定
											 																↑
																												↑
																											頻度情報
																											この場合、辞書ファイル内の頻度値を参照

1.6 辞書ユーティリティ (コマンド行)

1.6.1 テキスト形式辞書をバイナリデータ形式辞書へ変換する

以下に例を示します。

sun% wnnatod /usr/lib/locale/ja/wnn/ja/dic/usr/userA.dic < userA.u

この例では、カレントディレクトリの下の userA.u というテキスト形式辞書を userA.dic というバイナリデータ形式辞書に変換します。

1.6.2 バイナリデータ形式辞書をテキスト形式辞書へ変換する

以下に例を示します。

sun% wnndtoa /usr/lib/locale/ja/wnn/ja/dic/usr/userB.dic > userB.u

この例では、/usr/lib/locale/ja/wnn/ja/dic/usr/userB.dic というバイナリデータ形式辞書をカレントディレクトリの下の userB.u というテキスト形式辞書に変換します。

1.6.3 辞書のヘッダー書き換え

バイナリデータ形式辞書と付属語情報のヘッダー部分を書き換えて、辞書の inode と合わせます。

実行形式は次のとおりです。

sun% /usr/bin/wnntouch <バイナリデータ> ...

表 1-15 データの種類と保存形式

バイナリデータ 

データ形式辞書 (*.dic)、付属語情報 (*.fzk)

データ形式辞書や付属語情報ファイルは、複数指定することができます。