日本語入力システムの概要とセットアップ

5.2 ファイル形式

この節では、Wnn6 のテキスト形式辞書を作成する場合に使われるファイルの形式について説明します。各ファイルでは、日本語 EUC を使用します。

5.2.1 単語ファイル

変換の対象となる単語ファイル (ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE) を指定します。それぞれの「読み」と「単語」の長さは、253 文字までです。

5.2.1.1 ATOK8 辞書形式

`!コメント`
`読み 1,`	`単語 1,`	`品詞 1`
`読み 2,`	`単語 2,`	`品詞 2`
`読み 3,`	`単語 3,`	`品詞 3`
`・`	`・`	`・`
`・`	`・`	`・`

例 :

`!ATOK8UT;単語一覧;A:ATOK8 ATOK8.DIC`
`book,`	`本,`	`一般名詞`
`ア,`	`有,`	`ラ行五段`
`ア,`	`亜,`	`単漢字`
`ア,`	`阿,`	`単漢字`
`ア,`	`あ,`	`カ行五段`
		`・`
		`・`

5.2.1.2 ATOK7 辞書形式

`【コメント】`
`読み 1,`	`単語 1,`	`品詞 1`
`読み 2,`	`単語 2,`	`品詞 2`
`読み 3,`	`単語 3,`	`品詞 3`
`・`	`・`	`・`
`・`	`・`	`・`

例 :

`ア,`	`亜,`	`単漢字`
`ア,`	`あ,`	`カ行五段`
`ア,`	`あ,`	`ワ行五段`
`ア,`	`阿,`	`単漢字`
`ア,`	`開,`	`カ行五段`
		`・`
		`・`

5.2.1.3 cs00 辞書形式

#コメント
`読み 1「Tab」`	`単語 1「Tab」`	`品詞 1`
`読み 2「Tab」`	`単語 2「Tab」`	`品詞 2`
`読み 3「Tab」`	`単語 3「Tab」`	`品詞 3`
`・`	`・`	`・`
`・`	`・`	`・`

例 :

`あ`	`有`	`:RV`
`あ`	`飽`	`:KV`
`あ`	`遭`	`:MV`
	`・`
	`・`

5.2.1.4 VJE-Delta 辞書形式

`#コメント`
`読み 1「Tab」`	`単語 1「Tab」`	`品詞 1`
`読み 2「Tab」`	`単語 2「Tab」`	`品詞 2`
`読み 3「Tab」`	`単語 3「Tab」`	`品詞 3`
`・`	`・`	`・`
`・`	`・`	`・`

例 :

`あ`	`編`	`[マ五]`
`あ`	`あ`	`[ワ五]`
`あ`	`あ`	`[ラ五ある]`
`あ`	`開`	`[カ五]`
`あ`	`空`	`[カ五]`
	`・`
	`・`

5.2.1.5 EGBRIDGE 辞書形式

`#コメント`
`読み 1「Tab」`	`単語 1「Tab」`	`品詞 1`
`読み 2「Tab」`	`単語 2「Tab」`	`品詞 2`
`読み 3「Tab」`	`単語 3「Tab」`	`品詞 3`
`・`	`・`	`・`
`・`	`・`	`・`

例 :

`あー`	`アーカイブ`	`1+20`
`あきはばら`	`秋葉原`	`1+3`
`あせ`	`(^_^;`	`1`
`あたらし`	`新し`	`1`
`あたかぎ`	`』`	`1`
`あとかく`	`］`	`1`
`あとてん`	`”`	`1`
`あとば`	`】`	`1`
`アプリ`	`アプリケーション`	`1`
`・`	`・`	`・`
`・`	`・`	`・`

5.2.2 書式ファイル

単語ファイルの書式を定義します。

書式ファイルの内容は、「書式データ」部分と「品詞」部分に分かれています。

書式ファイルは /usr/lib/locale/ja/wnn/ja/otow.format/ の下に、接尾辞 .fmt が付いて置かれています。

各日本語入力システムの書式ファイル名は表 5-1 のとおりです。

表 5-1 各日本語入力システムの書式ファイル


ATOK8 用書式ファイル	`atok8-wnn6.fmt`
ATOK7 用書式ファイル	`atok7-wnn6.fmt`
cs00 用書式ファイル	`cs00-wnn6.fmt`
VJE-Delta 用書式ファイル	`vje-wnn6.fmt`
EGBRIDGE 用書式ファイル	`egbridge-wnn6.fmt`

以下は ATOK7 の書式ファイル例です。「書式データ」と「品詞」は次のように分類されています。

"¥" で始まる行はコメント行になり、解釈されません。

5.2.2.1 書式データ

書式データは、単語ファイルの単語データについて、個々の要素の区切り文字列や最大文字列、読み / 単語に使用される文字で無効とする文字などを定義しています。

書式データのフォーマットは次のとおりです。

`キーワード`	`=`	`パラメタ`
`キーワード`	`=`	`パラメタ`
`キーワード`	`=`	`パラメタ`
`・`		`・`
`・`		`・`

書式キーワードに対応する定義を ASCII 文字 "=" で指定します。「タブ文字」などの制御文字を使用する場合、実際の制御文字を使用することができます。

また、次の例のように、"¥" に続く一文字、または "¥" に続く 3 桁の 8 進数で、ASCII コードを指定することもできます。

例 :

制御コード	
	¥a
	¥t
	¥n
	¥v
	¥f
	¥r
	¥"
	¥`
	¥¥

8 進数
¥007
¥011
¥012
¥013
¥014
¥015
¥042
¥047
¥104

書式データでキーワードが定義されていない場合は、ATOK7 用の定義が適用されます。

表 5-2 日本語入力システム各キーワードの意味


キーワード	意味
コメント開始	コメント開始部分の文字を指定。最大 4 バイトでコメント開始文字を指定することができる。単語ファイルにコメントがない場合は、パラメタを記述しない
コメント終了	コメント終了部分の文字を指定。最大 4 バイトでコメント終了文字を指定することができる。単語ファイルにコメントがない場合は、パラメタを記述しない。行末は必ずコメントの終了になる
読み	読みの文字幅 (半角、全角) を指定。半角の場合は 1、全角の場合は 2 を指定
読み区切り	読みの終了を示す文字を指定。最大 4 バイトで終了文字を指定することができる。「読み区切り」は複数設定することができる
読み区切り連続	読み区切りの文字を連続して入力できるかを指定。できる場合は OK、できない場合は NG を指定
読み無効	読みに使用される文字で、無効となる文字を指定。最大 4 バイトで無効となる文字を指定することができる。単語ファイルに「読み無効」の文字がない場合は、パラメタを記述しない。「読み無効」は複数指定することができる
単語識別	単語を囲む文字を指定。最大 4 バイトで文字を指定することができる。単語ファイルに「単語識別」の文字がない場合は、パラメタを記述しない
単語区切り	単語の終了を示す文字を指定。最大 4 バイトで終了文字を指定することができる。単語ファイルに「単語区切り」の文字がない場合は、パラメタを記述しない。「単語区切り」は複数指定することができる
単語区切り連続	単語区切りの文字を連続して入力できるかを指定。できる場合は OK、できない場合は NG を指定
単語無効	単語に使用される文字で、無効となる文字を指定。最大 4 バイトで無効となる文字を指定することができる。単語ファイルに「単語無効」の文字がない場合は、パラメタを記述しない。「単語無効」は複数指定することができる
品詞区切り	品詞の終了を示す文字を指定。最大 4 バイトで終了文字を指定することができる。単語ファイルに「品詞区切り」の文字がない場合は、パラメタを記述しない。行末は必ず品詞の終了
品詞無効	品詞に使用される文字で、無効となる文字を指定。最大 4 バイトで無効となる文字を指定することができる。単語ファイルに「品詞無効」の文字がない場合は、パラメタを記述しない。「品詞無効」は複数指定することができる
品詞つなぎ	複数の品詞を指定する場合に使用。最大 4 バイトでつなぎとなる文字を指定することができる。単語ファイルに「品詞つなぎ」の文字がない場合は、パラメタを記述しない
シーケンス	エスケープシーケンスの解釈が必要であるかを指定。必要がある場合は ON、必要がない場合は OFF を指定

注 -

「読み区切り」から「単語識別」の間にある文字と、「単語識別」から「単語区切り」の間ある文字は無視されます。「読み区切り」と「読み無効」に同じ文字を指定することはできません。「単語区切り」と「単語無効」、「単語識別」と「単語無効」、「単語識別」と「単語区切り」でも、同様に同じ文字を指定することはできません。

書式データの例 :

読み区切り=" "
読み区切り="¥t"
読み区切り連続=OK

上記のように指定した場合、「空白文字」または「タブ文字」で、読みを区切ります。

図 5-1 に書式データと単語ファイルの対応例を示します。

図 5-1 書式データと単語ファイルの対応例

ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE の各書式データの設定は次のとおりです。

表 5-3 各日本語入力システムの書式データ設定一覧


キーワード	ATOK8	ATOK7 (初期設定)	cs00	VJE-Delta	EGBRIDGE
コメント開始	"!"	"【"	"#"	指定なし	"//"
コメント終了	指定なし	"】"	指定なし	指定なし	指定なし
読み	1	1	2	2	2
読み区切り	","	","	" "	「タブ文字」	「タブ文字」
読み区切り連続	NG	NG	OK	OK	NG
読み無効	" "	" "	指定なし	指定なし	指定なし
単語識別	"¥" "	指定なし	指定なし	指定なし	指定なし
単語区切り	"," "、"	","	「タブ文字」	「タブ文字」	「タブ文字」
単語区切り連続	NG	NG	OK	OK	NG
単語無効	" "	" "	指定なし	指定なし	指定なし
品詞区切り	","	","	指定なし	","	「タブ文字」
品詞無効	"$" "*"	指定なし	指定なし	"*"	指定なし
品詞つなぎ	指定なし	指定なし	":"	指定なし	"＋"
シーケンス	OFF	OFF	OFF	OFF	OFF

5.2.2.2 品詞

単語ファイルで指定した辞書の品詞と Wnn6 での辞書の品詞の対応を示します。

品詞対応の書式は次のとおりです。

`入力辞書の品詞,`	`Wnn6 の品詞`
`入力辞書の品詞,`	`Wnn6 の品詞`
`入力辞書の品詞,`	`Wnn6 の品詞`
`・`	`・`

単語ファイルの品詞名称に対応する Wnn6 の品詞名称を、ASCII 文字 "," で指定します。

例 : 単語ファイル ATOK7 の場合


"一般名詞"， "名詞"

"固有名詞"， "固有名詞"

"名詞サ変"， "サ行(する)&名詞"

・ ・
例 : 単語ファイル VJE-Delta の場合


"【カ五】"， "カ行五段"

"【ガ五】"， "ガ行五段"

"【サ五】" "サ行五段"

・ ・

5.2.3 Wnn6 テキスト形式辞書

Wnn6 で使用できるテキスト形式辞書です。

Wnn6 テキスト形式辞書の書式は、次のとおりです。

`¥comment`
`¥total`
`¥hinsi`
`読み`	`単語`	`品詞`	`頻度`
`読み`	`単語`	`品詞`	`頻度`
`読み`	`単語`	`品詞`	`頻度`
`・`		`・`

例 :

`¥comment`
`¥total`
`¥hinsi`
`あ`	`亜`	`単漢字`	`1`
`あ`	`あ`	`カ行五段`	`1`
`あ`	`あ`	`ワ行五段`	`1`
`あ`	`会`	`ワ行五段`	`1`
`あ`	`合`	`ワ行五段`	`1`
`あ`	`阿`	`単漢字`	`1`
`・`	`・`	`・`	`・`
`・`	`・`	`・`	`・`

5.2.4 ログファイル

単語情報の変換に失敗した単語を記録します。

ログファイルの書式は、次のとおりです。

`変換できない行`	`<-`	`エラー番号`
`変換できない行`	`<-`	`エラー番号`
`変換できない行`	`<-`	`エラー番号`
`・`	`・`	`・`
`・`	`・`	`・`

「変換できない行」には、単語ファイル中の変換不可能な単語が存在する行が入ります。

エラー番号とその原因は表 5-4 のとおりです。

表 5-4 単語情報の変換エラー番号と原因対応表


エラー番号	原因
1	「読み」の長さが 253 を超えている
2	「読み」の長さが 0
3	単語部分が識別できない。書式データ : 単語区切りなどを確認する
4	「単語」の長さが 253 を超えている
5	「単語」の長さが 0
6	単語識別が書式データと不適合
7	品詞部分が識別できない。書式データ : 品詞区切りなどを確認する
8	品詞が不適切
9	品詞定義の形式が不適合

`"一般名詞"，`	`"名詞"`
`"固有名詞"，`	`"固有名詞"`
`"名詞サ変"，`	`"サ行(する)&名詞"`
`・`	`・`

`"【カ五】"，`	`"カ行五段"`
`"【ガ五】"，`	`"ガ行五段"`
`"【サ五】"`	`"サ行五段"`
`・`	`・`