日本語入力方式の概要と移行

パート III ユーザー登録単語および設定ファイルの移行

第 4 章 ATOK12 への移行

この章では、ATOK8 および cs00 でユーザーが登録した単語情報を ATOK12 で使用する方法について説明します。また、ATOK8 の環境設定をATOK12 に移す方法についても説明します。

ATOK8 の辞書に登録した単語を ATOK12 で使用する

ATOK8 の辞書は、atok12migd コマンドを使用して、ATOK12 の辞書に併合することができます。この際、ユーザーによって登録された単語が併合の対象となります。ATOK8 の初期状態の辞書に含まれていた単語は、併合の対象にはなりません。また、ATOK8 の辞書は読み出し元となりますので、この併合によって ATOK8 の辞書の内容が変わることはありま せん。

例 - ATOK12 の辞書 (atok12u0.dic) に、ATOK8 の辞書 (atok8.dic) を併合する。

sun% atok12migd atok8.dic atok12u0.dic

併合の結果の辞書 (atok12u0.dic) は、システム管理者 (root) の権限で、/var/locale/ja/atokserver/user/<ユーザー名> の下に移します。

例 - ユーザー (yamada) が作成した ATOK12 の辞書 (atok12u0.dic) を、システムのディレクトリに移す。


sun# cp -p atok12u0.dic /var/locale/ja/atokserver/users/yamada
sun# chown  yamada /var/locale/ja/atokserver/users/yamada/atok12u0.dic
sun# chmod 600  /var/locale/ja/atokserver/users/yamada/atok12u0.dic 

atok12migd コマンドの詳細に関しては、atok12migs(1) のマニュアルページを参照してください。

ATOK8 の環境設定ファイルを ATOK12 に移す

ATOK8 の環境設定ファイルは、atok12migs コマンドを使用して、ATOK12 のスタイルファイルに変換することができます。

例 - ATOK8 の 環境設定ファイル (atok8.ucf) を、ATOK12 のスタイルファイル (atok12new.sty) に変換する。


sun% atok12migs atok8.ucf atok12new.sty

作成したスタイルファイルは (atok12new.sty)、システム管理者 (root) の権限で、/var/locale/ja/atokserver/user/<ユーザー名> の 下に移します。

例 - ユーザー (yamada) が作成した ATOK12 のスタイルファイル (atok12new.sty) を、システムのディレクトリに移す。


sun# cp -p atok12new.sty /var/locale/ja/atokserver/users/yamada 
sun# chown yamada /var/locale/ja/atokserver/users/yamada/atok12new.sty
sun# chmod 600 /var/locale/ja/atokserver/users/yamada/atok12new.sty

atok12migs コマンドの詳細については、atok12migs(1) のマニュアルページを参照してください。

cs00 の辞書に登録した単語を ATOK12 で利用する

Procedurecs00 の辞書に登録した単語を ATOK12 で使用する手順

手順
  1. udicmsdtudicm (Solaris CDE の場合) 、または udicmtool (OpenWindows の場合) を使用して、既存の cs00 の辞書から単語リストのファイルを作成します。この作業は、cs00 が動作しているシステム上で行います。Solaris 9 では、cs00 は提供されていません。

    例 -udicm を使用して、cs00 のユーザー辞書 (cs00_u.dic) を単語リストのファイル (cs00_u.list) に変換する


    sun% udicm show cs00_u.dic > cs00_u.list
    

    udicm コマンドの詳細に関しては、Solaris 10 の udicm(1) のマニュアルページを参照してください。

    sdtudicm または udicmtool を使用する方法については、Solaris 8 User Collection - Japanese の『cs00 ユーザーズガイド』を参照してください。

  2. cs00toatok コマンド使用して、cs00 の単語リストのファイルを ATOK12 が扱える単語ファイルに変換します。

    例 - cs00 の単語リストのファイル (cs00_u.dic) を ATOK12 が扱える単語ファイルリスト (atok12.list) に変換する


    sun% cs00toatok cs00_u.list > atok12.list
    
  3. ATOK12 辞書ユーティリティを使用して、手順 2 で作成した単語ファイルから単語を登録します。

    1. ATOK パレットから ATOK12 辞書ユーティリティを起動します。

    2. ATOK12 辞書ユーティリティの「一括処理」ボタンを押し、「単語一括処理」を選択します。

    3. 「単語ファイル」として、作成した単語ファイル (この例ではatok12.list) を指定します。

    4. 必要に応じて、「ATOK 辞書」と「出力ファイル」を設定します。

    5. 「登録」ボタンを押します。

第 5 章 Wnn6 への移行

この章では、ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE でユーザーが登録した単語情報を Wnn6 で使用する方法について説明します。また、移行の際に利用されるファイルの形式についても説明します。

ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE の単語情報を Wnn6 で使用する

Procedure単語情報をWnn6 で使用する手順

手順
  1. ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE でユーザーが登録した単語情報を、テキスト形式で単語ファイルに保存します。この方法については、各日本語入力システムのマニュアルを参照してください。なお、作成した単語ファイルの文字コードが日本語 EUC でない場合、文字コードを日本語 EUC に変換する作業が必要です。変換方法については、iconv(1) および iconv_ja(5) のマニュアルページを参照してください。

    • 例 - ATOK8 で単語ファイルを作成する場合

      1. ATOK8 の「辞書ツール」ボタンを押し、辞書メンテナンスツールを起動します。

      2. 「一覧表示」ボタンを押し、一覧表示ウィンドウを開きます。

      3. 「単語一覧ファイル作成」を「する」に設定し、一覧表示を実行して、atok8.txt に単語情報を保存します。

    • 例 - cs00 で単語ファイルを作成する場合

      sun% udicm show cs00_u.dic > cs00.txt
    • 例 - PC 漢字コードで作成されたテキストファイルの文字コードを変換する場合

      sun% iconv -f PCK -t eucJP pck-word-file >word-file
      
  2. 作成した単語ファイルを Wnn6 のテキスト形式辞書に変換します。

    sun% wnnotow -i word-file -o wnn6-dict -f format -l log-file
    

    各指定の意味は次のとおりです。詳細については、後述の「ファイル形式」の節を参照してください。

    -i word-file変換の対象となる単語ファイル

    -f format 変換の対象となる単語ファイルの形式を示す書式ファイル

    -o wnn6-dict作成する Wnn6 テキスト形式辞書

    -l log-file 変換に失敗した単語を記録するログファイル

    • 例 - ATOK8 で登録した単語情報を使用する場合

      sun%	wnnotow -i atok8.txt -o wnn6.u -f \
      /usr/lib/locale/ja/wnn/ja/otow.format/atok8-wnn6.fmt 
    • 例 - ATOK7 で登録した単語情報を使用する場合

      sun%	wnnotow -i atok7.txt -o wnn6.u -f \
      /usr/lib/locale/ja/wnn/ja/otow.format/atok7-wnn6.fmt
    • 例 - cs00 で登録した単語情報を使用する場合

      sun%	wnnotow -i cs00.txt -o wnn6.u -f \
      /usr/lib/locale/ja/wnn/ja/otow.format/cs00-wnn6.fmt
    • 例 - VJE-Delta で登録した単語情報を使用する場合

      sun%	wnnotow -i vje.txt -o wnn6.u -f \
      /usr/lib/locale/ja/wnn/ja/otow.format/vje-wnn6.fmt
    • 例 - EGBRIDGE で登録した単語情報を使用する場合

      sun%	wnnotow -i egb.txt -o wnn6.u -f \
      /usr/lib/locale/ja/wnn/ja/otow.format/egbridge-wnn6.fmt
  3. 作成した Wnn6 テキスト形式辞書を Wnn6 辞書ユーティリティ (wnndictutil) で登録します。Wnn6 辞書ユーティリティの使用方法については、『Wnn6 ユーザーズガイド』を参照してください。

ファイル形式

この節では、Wnn6 のテキスト形式辞書を作成する場合に使われるファイルの形式について説明します。各ファイルでは、日本語 EUC を使用します。

単語ファイル

変換の対象となる単語ファイル (ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE) を指定します。それぞれの「読み」と「単語」の長さは、253 文字までです。

ATOK8 辞書形式

!コメント

   

読み 1,

単語 1,

品詞 1

読み 2,

単語 2,

品詞 2

読み 3,

単語 3,

品詞 3

例 :

!ATOK8UT;単語一覧;A:ATOK8 ATOK8.DIC

   

book,

本,

一般名詞

ア,

有,

ラ行五段

ア,

亜,

単漢字

ア,

阿,

単漢字

ア,

あ,

カ行五段

ATOK7 辞書形式

【コメント】

   

読み 1,

単語 1,

品詞 1

読み 2,

単語 2,

品詞 2

読み 3,

単語 3,

品詞 3

例 :

ア,

亜,

単漢字

ア,

あ,

カ行五段

ア,

あ,

ワ行五段

ア,

阿,

単漢字

ア,

開,

カ行五段

cs00 辞書形式

#コメント

   

読み 1「Tab」

単語 1「Tab」

品詞 1

読み 2「Tab」

単語 2「Tab」

品詞 2

読み 3「Tab」

単語 3「Tab」

品詞 3

例 :

:RV

:KV

:MV

VJE-Delta 辞書形式

#コメント

   

読み 1「Tab」

単語 1「Tab」

品詞 1

読み 2「Tab」

単語 2「Tab」

品詞 2

読み 3「Tab」

単語 3「Tab」

品詞 3

例 :

[マ五]

[ワ五]

[ラ五ある]

[カ五]

[カ五]

EGBRIDGE 辞書形式

#コメント

   

読み 1「Tab」

単語 1「Tab」

品詞 1

読み 2「Tab」

単語 2「Tab」

品詞 2

読み 3「Tab」

単語 3「Tab」

品詞 3

例 :

あー

アーカイブ

1+20

あきはばら

秋葉原

1+3

あせ

(^_^;

1

あたらし

新し

1

あたかぎ

1

あとかく

1

あとてん

1

あとば

1

アプリ

アプリケーション

1

書式ファイル

単語ファイルの書式を定義します。

書式ファイルの内容は、「書式データ」部分と「品詞」部分に分かれています。

書式ファイルは /usr/lib/locale/ja/wnn/ja/otow.format/ の下に、接尾辞 .fmt が付いて置かれています。

各日本語入力システムの書式ファイル名は表 5–1 のとおりです。

表 5–1 各日本語入力システムの書式ファイル

ATOK8 用書式ファイル 

atok8-wnn6.fmt

ATOK7 用書式ファイル 

atok7-wnn6.fmt

cs00 用書式ファイル 

cs00-wnn6.fmt

VJE-Delta 用書式ファイル 

vje-wnn6.fmt

EGBRIDGE 用書式ファイル 

egbridge-wnn6.fmt

以下は ATOK7 の書式ファイル例です。「書式データ」と「品詞」は次のように分類されています。

ATOK7 における「書式データ」と「品詞」の分類の例を示しています。

\” で始まる行はコメント行になり、解釈されません。

書式データ

書式データは、単語ファイルの単語データについて、個々の要素の区切り文字列や最大文字列、読み / 単語に使用される文字で無効とする文字などを定義しています。

書式データのフォーマットは次のとおりです。

キーワード

=

パラメタ

キーワード

=

パラメタ

キーワード

=

パラメタ

書式キーワードに対応する定義を ASCII 文字 “=” で指定します。「タブ文字」などの制御文字を使用する場合、実際の制御文字を使用することができます。

また、次の例のように、“\”に続く一文字、または “\” に続く 3 桁の 8 進数で、ASCII コードを指定することもできます。

例 :

制御コード	
	\a
	\t
	\n
	\v
	\f
	\r
	\"
	\`
	\\
8 進数
\007
\011
\012
\013
\014
\015
\042
\047
\104

書式データでキーワードが定義されていない場合は、ATOK7 用の定義が適用されます。

表 5–2 日本語入力システム各キーワードの意味

キーワード 

意味 

コメント開始

コメント開始部分の文字を指定。 最大 4 バイトでコメント開始文字を指定することができる。 単語ファイルにコメントがない場合は、パラメタを記述しない 

コメント終了

コメント終了部分の文字を指定。 最大 4 バイトでコメント終了文字を指定することができる。 単語ファイルにコメントがない場合は、パラメタを記述しない。 行末は必ずコメントの終了になる 

読み

読みの文字幅 (半角、全角) を指定。 半角の場合は 1、全角の場合は 2 を指定 

読み区切り

読みの終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 「読み区切り」は複数設定することができる 

読み区切り連続

読み区切りの文字を連続して入力できるかを指定。 できる場合は OK、できない場合は NG を指定 

読み無効

読みに使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「読み無効」の文字がない場合は、パラメタを記述しない。「読み無効」は複数指定することができる 

単語識別

単語を囲む文字を指定。 最大 4 バイトで文字を指定することができる。 単語ファイルに「単語識別」の文字がない場合は、パラメタを記述しない  

単語区切り

単語の終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 単語ファイルに「単語区切り」の文字がない場合は、パラメタを記述しない。 「単語区切り」は複数指定することができる 

単語区切り連続

単語区切りの文字を連続して入力できるかを指定。 できる場合は OK、できない場合は NG を指定 

単語無効

単語に使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「単語無効」の文字がない場合は、パラメタを記述しない。 「単語無効」は複数指定することができる 

品詞区切り

品詞の終了を示す文字を指定。 最大 4 バイトで終了文字を指定することができる。 単語ファイルに「品詞区切り」の文字がない場合は、パラメタを記述しない。 行末は必ず品詞の終了 

品詞無効

品詞に使用される文字で、無効となる文字を指定。 最大 4 バイトで無効となる文字を指定することができる。 単語ファイルに「品詞無効」の文字がない場合は、パラメタを記述しない。 「品詞無効」は複数指定することができる 

品詞つなぎ

複数の品詞を指定する場合に使用。 最大 4 バイトでつなぎとなる文字を指定することができる。 単語ファイルに「品詞つなぎ」の文字がない場合は、パラメタを記述しない 

シーケンス

エスケープシーケンスの解釈が必要であるかを指定。 必要がある場合は ON、必要がない場合は OFF を指定 


注 –

「読み区切り」から「単語識別」の間にある文字と、「単語識別」から「単語区切り」の間ある文字は無視されます。「読み区切り」と「読み無効」に同じ文字を指定することはできません。「単語区切り」と「単語無効」、「単語識別」と「単語無効」、「単語識別」と「単語区切り」でも、同様に同じ文字を指定することはできません。


書式データの例 :

読み区切り=" "
読み区切り="\t"
読み区切り連続=OK

上記のように指定した場合、「空白文字」または「タブ文字」で、読みを区切ります。

図 5–1 に書式データと単語ファイルの対応例を示します。

図 5–1 書式データと単語ファイルの対応例

書式データと単語ファイルの対応例を示しています。

ATOK8、ATOK7、cs00、VJE-Delta、EGBRIDGE の各書式データの設定は次のとおりです。

表 5–3 各日本語入力システムの書式データ設定一覧

キーワード 

ATOK8 

ATOK7 (初期設定) 

cs00 

VJE-Delta 

EGBRIDGE 

コメント開始 

“!” 

“【” 

“#” 

指定なし 

“//” 

コメント終了 

指定なし 

“】” 

指定なし 

指定なし 

指定なし 

読み 

読み区切り 

“,” 

“,” 

“ ” 

「タブ文字」 

「タブ文字」 

読み区切り連続 

NG 

NG 

OK 

OK 

NG 

読み無効 

“ ” 

“” 

指定なし 

指定なし 

指定なし 

単語識別 

“\”” 

指定なし 

指定なし 

指定なし 

指定なし 

単語区切り 

“,” “、” 

“,” 

「タブ文字」 

「タブ文字」 

「タブ文字」 

単語区切り連続 

NG 

NG 

OK 

OK 

NG 

単語無効 

“” 

“” 

指定なし 

指定なし 

指定なし 

品詞区切り 

“,” 

“,” 

指定なし 

“,” 

「タブ文字」 

品詞無効 

“$” “*” 

指定なし 

指定なし 

“*” 

指定なし 

品詞つなぎ 

指定なし 

指定なし 

“:” 

指定なし 

“+” 

シーケンス 

OFF 

OFF 

OFF 

OFF 

OFF 

品詞

単語ファイルで指定した辞書の品詞と Wnn6 での辞書の品詞の対応を示します。

品詞対応の書式は次のとおりです。

入力辞書の品詞,

Wnn6 の品詞

入力辞書の品詞,

Wnn6 の品詞

入力辞書の品詞,

Wnn6 の品詞

単語ファイルの品詞名称に対応する Wnn6 の品詞名称を、ASCII 文字 “,” で指定します。

Wnn6 テキスト形式辞書

Wnn6 で使用できるテキスト形式辞書です。

Wnn6 テキスト形式辞書の書式は、次のとおりです。

\comment

     

\total

     

\hinsi

     

読み

単語

品詞

頻度

読み

単語

品詞

頻度

読み

単語

品詞

頻度

例 :

\comment

     

\total

     

\hinsi

     

単漢字

1

カ行五段

1

ワ行五段

1

ワ行五段

1

ワ行五段

1

単漢字

1

ログファイル

単語情報の変換に失敗した単語を記録します。

ログファイルの書式は、次のとおりです。

変換できない行

<-

エラー番号

変換できない行

<-

エラー番号

変換できない行

<-

エラー番号

「変換できない行」には、単語ファイル中の変換不可能な単語が存在する行が入ります。

エラー番号とその原因は表 5–4 のとおりです。

表 5–4 単語情報の変換 エラー番号と原因対応表

エラー番号 

原因 

「読み」の長さが 253 を超えている 

「読み」の長さが 0  

単語部分が識別できない。 

書式データ : 単語区切りなどを確認する  

「単語」の長さが 253 を超えている 

「単語」の長さが 0  

単語識別が書式データと不適合 

品詞部分が識別できない。 

書式データ : 品詞区切りなどを確認する  

品詞が不適切 

品詞定義の形式が不適合