日本語入力方式の概要と移行

書式ファイル

単語ファイルの書式を定義します。

書式ファイルの内容は、「書式データ」部分と「品詞」部分に分かれています。

書式ファイルは /usr/lib/locale/ja/wnn/ja/otow.format/ の下に、接尾辞 .fmt が付いて置かれています。

各日本語入力システムの書式ファイル名は表 5–1 のとおりです。

表 5–1 各日本語入力システムの書式ファイル

ATOK8 用書式ファイル 

atok8-wnn6.fmt

ATOK7 用書式ファイル 

atok7-wnn6.fmt

cs00 用書式ファイル 

cs00-wnn6.fmt

VJE-Delta 用書式ファイル 

vje-wnn6.fmt

EGBRIDGE 用書式ファイル 

egbridge-wnn6.fmt

以下は ATOK7 の書式ファイル例です。「書式データ」と「品詞」は次のように分類されています。

ATOK7 における「書式データ」と「品詞」の分類の例を示しています。

\” で始まる行はコメント行になり、解釈されません。

書式データ

書式データは、単語ファイルの単語データについて、個々の要素の区切り文字列や最大文字列、読み / 単語に使用される文字で無効とする文字などを定義しています。

書式データのフォーマットは次のとおりです。

キーワード

=

パラメタ

キーワード

=

パラメタ

キーワード

=

パラメタ

書式キーワードに対応する定義を ASCII 文字 “=” で指定します。「タブ文字」などの制御文字を使用する場合、実際の制御文字を使用することができます。

また、次の例のように、“\”に続く一文字、または “\” に続く 3 桁の 8 進数で、ASCII コードを指定することもできます。

例 :

制御コード	
	\a
	\t
	\n
	\v
	\f
	\r
	\"
	\`
	\\
8 進数
\007
\011
\012
\013
\014
\015
\042
\047
\104

書式データでキーワードが定義されていない場合は、ATOK7 用の定義が適用されます。

表 5–2 日本語入力システム各キーワードの意味

キーワード 

意味 

コメント開始

コメント開始部分の文字を指定。 最大 4 バイトでコメント開始文字を指定することができる。 単語ファイルにコメントがない場合は、パラメタを記述しない 

コメント終了

コメント終了部分の文字を指定。 最大 4 バイトでコメント終了文字を指定することができる。 単語ファイルにコメントがない場合は、パラメタを記述しない。 行末は必ずコメントの終了になる 

読み

読みの文字幅 (半角、全角) を指定。 半角の場合は 1、全角の場合は 2 を指定 

読み区切り

読みの終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 「読み区切り」は複数設定することができる 

読み区切り連続

読み区切りの文字を連続して入力できるかを指定。 できる場合は OK、できない場合は NG を指定 

読み無効

読みに使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「読み無効」の文字がない場合は、パラメタを記述しない。「読み無効」は複数指定することができる 

単語識別

単語を囲む文字を指定。 最大 4 バイトで文字を指定することができる。 単語ファイルに「単語識別」の文字がない場合は、パラメタを記述しない  

単語区切り

単語の終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 単語ファイルに「単語区切り」の文字がない場合は、パラメタを記述しない。 「単語区切り」は複数指定することができる 

単語区切り連続

単語区切りの文字を連続して入力できるかを指定。 できる場合は OK、できない場合は NG を指定 

単語無効

単語に使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「単語無効」の文字がない場合は、パラメタを記述しない。 「単語無効」は複数指定することができる 

品詞区切り

品詞の終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 単語ファイルに「品詞区切り」の文字がない場合は、パラメタを記述しない。 行末は必ず品詞の終了 

品詞無効

品詞に使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「品詞無効」の文字がない場合は、パラメタを記述しない。 「品詞無効」は複数指定することができる 

品詞つなぎ

複数の品詞を指定する場合に使用。 最大 4 バイトでつなぎとなる文字を指定することができる。 単語ファイルに「品詞つなぎ」の文字がない場合は、パラメタを記述しない 

シーケンス

エスケープシーケンスの解釈が必要であるかを指定。 必要がある場合は ON、必要がない場合は OFF を指定 


注 –

「読み区切り」から「単語識別」の間にある文字と、「単語識別」から「単語区切り」の間ある文字は無視されます。「読み区切り」と「読み無効」に同じ文字を指定することはできません。「単語区切り」と「単語無効」、「単語識別」と「単語無効」、「単語識別」と「単語区切り」でも、同様に同じ文字を指定することはできません。


書式データの例 :

読み区切り=" "
読み区切り="\t"
読み区切り連続=OK

上記のように指定した場合、「空白文字」または「タブ文字」で、読みを区切ります。

図 5–1 に書式データと単語ファイルの対応例を示します。

図 5–1 書式データと単語ファイルの対応例

書式データと単語ファイルの対応例を示しています。

ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE の各書式データの設定は次のとおりです。

表 5–3 各日本語入力システムの書式データ設定一覧

キーワード 

ATOK8 

ATOK7 (初期設定) 

cs00 

VJE-Delta 

EGBRIDGE 

コメント開始 

“!” 

“【” 

“#” 

指定なし 

“//” 

コメント終了 

指定なし 

“】” 

指定なし 

指定なし 

指定なし 

読み 

読み区切り 

“,” 

“,” 

“ ” 

「タブ文字」 

「タブ文字」 

読み区切り連続 

NG 

NG 

OK 

OK 

NG 

読み無効 

“ ” 

“” 

指定なし 

指定なし 

指定なし 

単語識別 

“\”” 

指定なし 

指定なし 

指定なし 

指定なし 

単語区切り 

“,” “、” 

“,” 

「タブ文字」 

「タブ文字」 

「タブ文字」 

単語区切り連続 

NG 

NG 

OK 

OK 

NG 

単語無効 

“” 

“” 

指定なし 

指定なし 

指定なし 

品詞区切り 

“,” 

“,” 

指定なし 

“,” 

「タブ文字」 

品詞無効 

“$” “*” 

指定なし 

指定なし 

“*” 

指定なし 

品詞つなぎ 

指定なし 

指定なし 

“:” 

指定なし 

“+” 

シーケンス 

OFF 

OFF 

OFF 

OFF 

OFF 

品詞

単語ファイルで指定した辞書の品詞と Wnn6 での辞書の品詞の対応を示します。

品詞対応の書式は次のとおりです。

入力辞書の品詞,

Wnn6 の品詞

入力辞書の品詞,

Wnn6 の品詞

入力辞書の品詞,

Wnn6 の品詞

単語ファイルの品詞名称に対応する Wnn6 の品詞名称を、ASCII 文字 “,” で指定します。