単語ファイルの書式を定義します。
書式ファイルの内容は、「書式データ」部分と「品詞」部分に分かれています。
書式ファイルは /usr/lib/locale/ja/wnn/ja/otow.format/ の下に、接尾辞 .fmt が付いて置かれています。
各日本語入力システムの書式ファイル名は表 7-1 のとおりです。
表 7-1 各日本語入力システムの書式ファイルATOK8 用書式ファイル | atok8-wnn6.fmt |
ATOK7 用書式ファイル | atok7-wnn6.fmt |
cs00 用書式ファイル | cs00-wnn6.fmt |
VJE-Delta 用書式ファイル | vje-wnn6.fmt |
EGBRIDGE 用書式ファイル | egbridge-wnn6.fmt |
以下は ATOK7 の書式ファイル例です。「書式データ」と「品詞」は次のように分類されています。
"¥" で始まる行はコメント行になり、解釈されません。
書式データは、単語ファイルの単語データについて、個々の要素の区切り文字列や最大文字列、読み / 単語に使用される文字で無効とする文字などを定義しています。
書式データのフォーマットは次のとおりです。
キーワード | = | パラメタ |
キーワード | = | パラメタ |
キーワード | = | パラメタ |
・ |
| ・ |
・ |
| ・ |
書式キーワードに対応する定義を ASCII 文字 "=" で指定します。「タブ文字」などの制御文字を使用する場合、実際の制御文字を使用することができます。
また、次の例のように、"¥" に続く一文字、または "¥" に続く 3 桁の 8 進数で、ASCII コードを指定することもできます。
例 :
制御コード ¥a ¥t ¥n ¥v ¥f ¥r ¥" ¥` ¥¥ |
8 進数 ¥007 ¥011 ¥012 ¥013 ¥014 ¥015 ¥042 ¥047 ¥104 |
書式データでキーワードが定義されていない場合は、ATOK7 用の定義が適用されます。
表 7-2 日本語入力システム各キーワードの意味
キーワード |
意味 |
---|---|
コメント開始部分の文字を指定。 最大 4 バイトでコメント開始文字を指定することができる。 単語ファイルにコメントがない場合は、パラメタを記述しない |
|
コメント終了部分の文字を指定。 最大 4 バイトでコメント終了文字を指定することができる。 単語ファイルにコメントがない場合は、パラメタを記述しない。 行末は必ずコメントの終了になる |
|
読みの文字幅 (半角、全角) を指定。 半角の場合は 1、全角の場合は 2 を指定 |
|
読みの終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 「読み区切り」は複数設定することができる |
|
読み区切りの文字を連続して入力できるかを指定。 できる場合は OK、できない場合は NG を指定 |
|
読みに使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「読み無効」の文字がない場合は、パラメタを記述しない。「読み無効」は複数指定することができる |
|
単語を囲む文字を指定。 最大 4 バイトで文字を指定することができる。 単語ファイルに「単語識別」の文字がない場合は、パラメタを記述しない |
|
単語の終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 単語ファイルに「単語区切り」の文字がない場合は、パラメタを記述しない。 「単語区切り」は複数指定することができる |
|
単語区切りの文字を連続して入力できるかを指定。 できる場合は OK、できない場合は NG を指定 |
|
単語に使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「単語無効」の文字がない場合は、パラメタを記述しない。 「単語無効」は複数指定することができる |
|
品詞の終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 単語ファイルに「品詞区切り」の文字がない場合は、パラメタを記述しない。 行末は必ず品詞の終了 |
|
品詞に使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「品詞無効」の文字がない場合は、パラメタを記述しない。 「品詞無効」は複数指定することができる |
|
複数の品詞を指定する場合に使用。 最大 4 バイトでつなぎとなる文字を指定することができる。 単語ファイルに「品詞つなぎ」の文字がない場合は、パラメタを記述しない |
|
エスケープシーケンスの解釈が必要であるかを指定。 必要がある場合は ON、必要がない場合は OFF を指定 |
「読み区切り」から「単語識別」の間にある文字と、「単語識別」から「単語区切り」の間ある文字は無視されます。「読み区切り」と「読み無効」に同じ文字を指定することはできません。「単語区切り」と「単語無効」、「単語識別」と「単語無効」、「単語識別」と「単語区切り」でも、同様に同じ文字を指定することはできません。
書式データの例 :
読み区切り=" " 読み区切り="¥t" 読み区切り連続=OK |
上記のように指定した場合、「空白文字」または「タブ文字」で、読みを区切ります。
図 7-1 に書式データと単語ファイルの対応例を示します。
ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE の各書式データの設定は次のとおりです。
表 7-3 各日本語入力システムの書式データ設定一覧
キーワード |
ATOK8 |
ATOK7 (初期設定) |
cs00 |
VJE-Delta |
EGBRIDGE |
---|---|---|---|---|---|
コメント開始 |
"!" |
"【" |
"#" |
指定なし |
"//" |
コメント終了 |
指定なし |
"】" |
指定なし |
指定なし |
指定なし |
読み |
1 |
1 |
2 |
2 |
2 |
読み区切り |
"," |
"," |
" " |
「タブ文字」 |
「タブ文字」 |
読み区切り連続 |
NG |
NG |
OK |
OK |
NG |
読み無効 |
" " |
" " |
指定なし |
指定なし |
指定なし |
単語識別 |
"¥" " |
指定なし |
指定なし |
指定なし |
指定なし |
単語区切り |
"," "、" |
"," |
「タブ文字」 |
「タブ文字」 |
「タブ文字」 |
単語区切り連続 |
NG |
NG |
OK |
OK |
NG |
単語無効 |
" " |
" " |
指定なし |
指定なし |
指定なし |
品詞区切り |
"," |
"," |
指定なし |
"," |
「タブ文字」 |
品詞無効 |
"$" "*" |
指定なし |
指定なし |
"*" |
指定なし |
品詞つなぎ |
指定なし |
指定なし |
":" |
指定なし |
"+" |
シーケンス |
OFF |
OFF |
OFF |
OFF |
OFF |
単語ファイルで指定した辞書の品詞と Wnn6 での辞書の品詞の対応を示します。
品詞対応の書式は次のとおりです。
入力辞書の品詞, | Wnn6 の品詞 |
入力辞書の品詞, | Wnn6 の品詞 |
入力辞書の品詞, | Wnn6 の品詞 |
・ | ・ |
単語ファイルの品詞名称に対応する Wnn6 の品詞名称を、ASCII 文字 "," で指定します。