日本語入力システムの概要とセットアップ

パート I 日本語入力の概要

第 1 章 概要

この章では、日本語入力システム全体の概要と、ATOK12、Wnn6、ATOK8、cs00 の各日本語入力システムの特徴を説明します。

日本語入力

Solaris 共通デスクトップ環境 (以降「Solaris CDE」とします) と日本語 OpenWindows 上では、日本語入力システムを利用することで日本語を入力することができます。日本語入力システムは、入力サーバー、かな漢字変換サーバー、かな漢字変換サーバー・インタフェースモジュールや辞書ファイルメンテナンスツールといったプログラムにより構成されています。Solaris 8 では日本語入力システムとして、ATOK12、Wnn6、ATOK8、cs00 [cs00 はかな漢字変換サーバーですが、便宜上「日本語入力システム」として記述します。] を提供しています。どの日本語入力システムを使用するかによって日本語の入力方法・変換方法が異なります。この節では、各日本語入力システムの概要と、日本語入力システムに共通な事柄について説明します。入力方法、機能など各日本語入力システムに固有な事柄については、この章の各日本語入力システムの概要と、『ATOK12 ユーザーズガイド』、『Wnn6 ユーザーズガイド』、『Wnn6 上級ユーザーおよびシステム管理者ガイド』、『ATOK8 ユーザーズガイド』、『cs00 ユーザーズガイド』を参照してください。

日本語入力システム

日本語を入力する場合、日本語入力システムが使われます。日本語入力システムの構成を図 1-1 で示します。

図 1-1 日本語入力システムの構成図

Graphic

入力サーバー

ウィンドウ環境で日本語を入力するには、入力サーバー htt または atok8 を使用します。

かな漢字変換サーバー・インタフェースモジュール

Solaris 8 のウィンドウ環境では、入力サーバー htt により、かな漢字変換サーバーである jserver (Wnn6) と cs00 が利用できます。かな漢字変換サーバー・インタフェースモジュール は、htt と変換サーバーとの間を仲介します。

jserver を使用する場合、xjsi をかな漢字変換サーバー・インタフェースモジュールとして使用します。cs00 を使用する場合は、xci [通常は、xci を利用します。] または cm が使用できます。これらのインタフェースモジュールは、htt によって動的に読み込まれ実行されます。また、キー割り当てなど各種カスタマイズの機能はこれらのインタフェースモジュールが提供します。

xjsi

入力サーバー htt から Wnn6 の変換サーバー jserver を利用するためのプログラム (かな漢字変換サーバー・インタフェース) です。個人環境を標準から変更していない場合は、入力サーバー htt が自動的に起動され、このプログラムが使用されます。詳細は、 xjsi(1) のマニュアルページを参照してください。

xci

入力サーバー htt から変換サーバー cs00 を利用するためのプログラム (かな漢字変換サーバー・インタフェース) です。日本語入力システムとして cs00 を利用するように個人環境を設定すると、このプログラムが使用されます。設定方法については、第 5 章「cs00 セットアップとファイル構成」を参照してください。xci の詳細は、 xci(7) のマニュアルページを参照してください。

cm

入力サーバー htt から libmle を通して変換サーバー cs00 を使用するためのプログラム (かな漢字変換サーバー・インタフェース) です。cm を使用した場合のカスタマイズ機能は libmle が提供します。cm では補助漢字が扱えないなどの制限があります。またカスタマイズ機能が優れている点からも xci を使用することをおすすめします。なお、cm は sparc を使用している場合にのみサポートされます。

libmle

libmle は、日本語を入力するためのアプリケーションプログラミングインタフェースを提供するライブラリです。これは、Solaris 1.x が提供する libmle の ENV-CM インタフェースを利用しているアプリケーションとの互換性を保つために提供されています。xci と同じくカスタマイズ機能を提供しますが、カスタマイズ機能に関して xci の方が優れています。

uum

ウィンドウ環境ではなく、漢字表示可能な端末上でかな漢字変換サーバー jserver を用いて日本語を入力するためのフロントエンドとなるコマンドです。詳細は uum(1) のマニュアルページを参照してください。

mle

ウィンドウ環境ではなく、漢字表示可能な端末上でかな漢字変換サーバー cs00 を用いて日本語を入力するためのフロントエンドとなるコマンドです。mle コマンドを使用する場合のカスタマイズ機能は libmle の場合と同じです。詳細は mle(1) のマニュアルページを参照してください。

atok12

入力サーバー htt から使用できる ATOK12 の変換サーバーモジュールです。詳細については、『ATOK12 ユーザーズガイド』を参照してください。

jserver

Wnn6 のかな漢字変換サーバーです。詳細は、『Wnn6 ユーザーズガイド』および『Wnn6 上級ユーザーおよびシステム管理者ガイド』を参照してください。

atok8

ATOK8 の入力サーバーであり、かな漢字変換サーバーでもあります。ATOK8 はウィンドウ環境のみで利用できます。詳細は、『ATOK8 ユーザーズガイド』を参照してください。

cs00

cs00 のかな漢字変換サーバーです。cs00 の起動方法、利用方法などについては、『cs00 ユーザーズガイド』を参照してください。

ATOK12 の概要

「それ」がわかる ATOK

文脈解析変換

入力してきた文章の分野を自動的に判断し、文脈情報に基づいた同音語処理を実現しています。

Graphic

指示詞の照応関係の解析

文脈解析変換をさらに強化し、文章中の指示詞 (これ、それ、あれ、この、その、あの、など) と、それらが指し示す言葉との関係を適切に判断して、同音語を正しく識別します。

Graphic

「それ」が「授業の問題」を指すことを認識し、「解いた」に正しく変換します。

Graphic

「その」が「大幅な減税」を指すことを認識し、「政策」に正しく変換します。

Graphic

「あの」が「姫路城」を指すことを認識し、「城」に正しく変換します。

快適な変換を実現する高度な日本語処理技術

格フレーム処理

文章の差異による同音語の違いを的確に判断して変換します。

Graphic

係り受け関係の解析

それぞれの文節が文章の中でどのような係り受け関係になっているかを解析し、高い変換効率を実現しています。

Graphic

「窓を」が「開けておきました」に、「夜が」が「明けるまでに」に係っているのを正しく認識します。

文節区切りの判断

構文意味解析により、判断しづらい文節の区切りも的確に判断します。

Graphic

「磨いた」、「訪ねた」の動詞の違いにより、文節の区切りを正しく判断しています。

ATOK12の日本語処理技術について

最先端技術の搭載だけでなく、地味に思われがちな処理も着実に強化して、より一層快適な変換を実現しています。

たとえば、ATOK12 では、数字交じりの文章もより正確に変換できます。

Graphic

リアルタイムに文書校正を支援

JUST MEDDLER2 (ジャストメドラー 2)

入力・変換する時点で文章をチェックし、正確な文章の表現をサポートする JUST MEDDLER2 を搭載しています。「ら抜き表現の使用」、「文体の統一」、「同一助詞の過剰な連続」、「修飾関係のあいまい性」、「わかりにくい否定表現」、「誤用」、「仮名遣い誤り」、「商標名」、「機種依存文字」をチェックし、メッセージで注意を促します。

入力をサポートする便利な機能

以前入力した文字列を短い読みで変換する

一度入力した文字列を短い読みで変換して、効率的に入力することができます。文字列を入力したとき、途中で変換した・しないにかかわらず、意味のまとまりのある候補から選択して入力できます。確定した候補は学習されるので、コンピュータを起動し直しても、引き続き短い読みで変換できます。

入力した文字列を履歴から繰り返し入力する

文字列を確定したあとに同じ文字列を未確定の状態で入力できます。ATOK12 では、直前に入力した文字列だけでなく、最近確定した文字列も履歴から選択して入力できます。

変換候補を並べ替えて目的の文字列をすばやく検索する

候補ウィンドウに表示される変換候補を、先頭の文字列または末尾の文字列が同じ単語で並べ替えることができます。人名など変換候補が多い場合に便利な機能です。

文字を半角または全角に統一する

文字の種類ごとに、半角・全角のどちらに変換するかを指定できます。入力中の文字や、後変換での表記を統一することもできます。

単語にコメントや置換候補を設定する

特定の語句が入力された場合に、メッセージが表示されるように設定しておくことができます。禁止用語や登録商標、常用漢字外などの入力の注意や、置換候補として電子メールの宛先を登録しておくなど、いろいろな応用が可能です。

わかりやすい漢字検索

部首、総画数、読みなどの検索条件をもとに、文字パレットを使いながら視覚的に漢字検索を行います。複数の検索条件を組み合わせて設定することも可能です。

入力ミスを自動的に修正する

ローマ字入力時のアルファベットの入力ミスや、カナ入力時の濁点・半濁点の入力ミスを自動的に修正し、正しいかな漢字変換を行います。

 入力文字列 変換後の文字列
 まっっちゃをのむ 抹茶を飲む
 ちゅごくりょこう 中国旅行
 こうえんおいす 公園のいす

 入力文字列 変換後の文字列
 らくか゜き 落書き
 らつきー ラッキー
 てがみわだす 手紙を出す

複数の辞書を同時に使用する

複数の辞書をまとめて、まるでひとつの辞書のような感覚で運用することができます。1 個のシステム辞書、1 個のユーザー辞書、そして 4 個までの補助辞書をセットで使うことが可能です。たとえば、補助辞書には医学用辞書や法律用辞書など分野別の辞書を組み込んでおくと便利です。これが 1 つの辞書セットで、辞書セットは最大 10 セットまで設定しておくことができます。

UTF-8 (Unicode) ロケールでの多言語文字入力に使用可能

入力中に他の言語用の入力システムと切り替えて使用することにより、日本語 ja_JP.UTF-8 ロケールなど、UTF-8 (Unicode) ロケールで多言語文字入力を行うことができます。それらのロケールでは、ATOK12 単独でも、文字パレットユーティリティの Unicode 表などを使用して各種の文字を入力することができます。

Java2 Swing アプリケーションからも使用可能

Motif アプリケーションなどの X ウィンドウシステムのアプリケーションからだけでなく、Swing インタフェースを使って作成された Java2 アプリケーションからも利用できます。

充実したヘルプ

ユーティリティの操作と機能に関してだけでなく、日本語入力・変換など全般にわたる情報をヘルプを使って参照することができます。

Wnn6 の概要

特徴

Wnn6 には次のような特徴があります。

高度な変換機能と学習機能

Wnn6 は、FI (Flexible Intelligence) 変換機能と FI 学習機能により、高水準のかな漢字変換効率を実現しています。

クライアント / サーバー方式

Wnn6 のシステム構成 は、クライアント / サーバー方式を採用しています。これにより、複数のクライアントからサーバー側にある同一の辞書を使用することができるので、どのクライアントからも同一の学習効果を得ることができます。

また、辞書の追加などのメンテナンス作業を効率良く行なったり、効果的なオフライン学習機能をサポートすることができます。

さらに、この方式を使用することにより、サーバーにアクセスできるクライアントを制限することもできます。

GUI ユーティリティ

辞書操作や環境設定には、GUI のツールが用意されています。 Wnn6 に対して特別な知識がなくても、すべての環境の設定を簡単に行うことができます。

入力スタイル

ユーザーの好みに合わせて、キーの割り当てを他の日本語入力システム (cs00, ATOK8 など) に合わせることができます。

辞書

辞書は、システム (固定形式) 辞書とユーザー (登録可能形式) 辞書に分類されます。辞書のエントリである変換文字列に対して、各ユーザーが個別の頻度情報を持つことにより、変換効率が向上します。

各辞書の特徴は次のとおりです。

単語登録、単語削除、単語検索などの辞書操作は、辞書ユーティリティを利用して簡単に行うことができます。また、他の日本語入力システム (cs00、ATOK7、ATOK8、 VJE-Delta、EGBRIDGE) で作成された辞書から、Wnn6 の辞書フォーマットへ変換する辞書コンバータもあります。これらを活用することにより、他の日本語入力システムから Wnn6 への移行がスムーズに行えます。

かな漢字変換機能

FI 変換

Wnn6 の FI 変換とは、FI 関係辞書 (文節間接続関係辞書) を用いて、変換文字列中の各文節間の接続度合いを調査し、接続度合いの高い候補を優先して変換する機能をいいます。これにより、高いかな漢字変換効率を実現しています。

FI 変換には次の変換機能があります。

表 1-1 Wnn6 の格係り受け変換

が格 

手が挙がる / 株が騰がる / てんぷらが揚がる 

を格 

身長を測る / 時間を計る / 暗殺を謀る 

に、には格 

宿に泊まる / 駅に停まる 

で格 

汽車で帰る / 貴社で会う 

へ格 

京へ向かった / 今日へ持ち越した 

より格 

車より速い / 予定より早い 

から格 

敵から奪回する / 会から脱会する 

まで格 

誤解まで招いた / 五階まで昇る 

表 1-2 Wnn6 の所有格変換

かいとう 

=> 

会頭の回答 

かいじょう 

=> 

会場の開場 

表 1-3 Wnn6 の受身変換

 

FI 接続関係 

変換可能文字列 

受身 

交通を − 規制する 

交通が規制される 

可能 

テレビを − 見る 

テレビが [を] 見られる 

自発 

故郷を − 偲ぶ 

故郷が偲ばれる 

尊敬 

社長が − 読む 

社長が読まれる 

表 1-4 Wnn6 の使役変換

 

FI 接続関係 

変換可能文字列 

使役 

彼が − 答える 

彼に答えさせる 

表 1-5 Wnn6 の合成語変換

複合語 

 =>

集団 − 登校 

会社 − 訪問 

人名 

 =>

福沢 − 諭吉 

夏目 − 漱石 

表 1-6 Wnn6 の修飾語変換

形容詞 

あつい△△△ 

熱い湯 / 厚い本 / 暑い夏 

形容動詞 

ていちょうな△△△ 

ふしんな△△△  

丁重な挨拶 / 低調な作品 

不審な人影 / 不振な成績 

副詞 

▲▲▲もる 

ぽたぽた漏る / こんもり盛る 

連体詞 

▲▲▲きのう 

小さな機能 / 楽しかった昨日 

表 1-7 Wnn6 の複文変換

▽  

▼ 

家が建ち 

人が立つ 

その他の変換

FI 変換以外には、次のような変換機能があります。

表 1-8 Wnn6 の揺らぎ処理

こおり / こうり => 氷 

表 1-9 Wnn6 の長音変換

うぃんどう / うぃんどー => ウィンドウ 

表 1-10 Wnn6 の送りがな基準処理

 

本則 

送る 

送らない 

おこなう => 

行う 

行なう 

行う 

表 1-11 Wnn6 の異形字処理

渡辺 <==> 渡邊 

表 1-12 Wnn6 の郵便番号変換

600 => 京都府京都市下京区 

表 1-13 Wnn6 の電話番号変換

075 => 京都府京都市 

表 1-14 Wnn6 の英単語日本語変換

COMPUTER => コンピュータ 

表 1-15 Wnn6 の濁音処理

べんきょうづくえ 

 => 勉強机

づくえ 

 => * 机

学習機能

FI 学習

Wnn6 には、FI 変換 (格係り受け変換、所有格変換、受身変換、使役変換、合成語変換、修飾語変換、複文変換) で、現在の FI 関係辞書に登録されていない文節間の関係をユーザーが確定した場合に、新しくユーザーごとの FI 関係辞書に登録する機能があります (FI 学習機能)。

FI 学習機能は、「する / しない / 一時的」の各設定に切り換えることができます。

頻度学習

単語の使用頻度をユーザーごとに管理して、使用頻度の高い単語を変換時に優先的に表示することができます。システム辞書内の単語と、FI 関係システム辞書内の単語を管理します。

学習レベルは、「じわじわ / 基準 / すぐ / 必ず / しない」の学習レベルで切り換えることができます。

その他の学習機能

Wnn6 の構成

Wnn6 は、 ユーザーの入力処理を行うクライアント (Wnn6/Htt) と、かな漢字変換を行うサーバー (jserver) からなるクライアント / サーバー方式で構成されています。jserver は、辞書引き専用サーバー (wnnds) と共に使用することができます。

クライアント / サーバー方式により、複数のクライアント (Wnn6/Htt など) からのかな漢字変換要求を、1 台のマシンで動いている jserver で処理することができます。

図 1-2 サーバー / クライアント方式の Wnn6

Graphic

jserver のかな漢字変換機能を使って日本語入力処理を行うには、ユーザーとのインタフェース部分でアプリケーションプログラムが必要になります。このアプリケーションプログラムがクライアントに相当します。Solaris では、アプリケーションプラグラムとして Wnn6/Htt と uum を提供しています。

Wnn6/Htt は X ウィンドウシステムで動く複数のクライアントに対して、日本語入力環境を提供します。Wnn6/Htt からは、Wnn6 辞書ユーティリティ、Wnn6 設定ユーティリティなどのユーティリティプログラムを起動することもできます。 uum は、漢字端末や X ウィンドウシステムの exterm などの個々のウィンドウ上で動作します。

辞書への単語登録と単語削除は、辞書ユーティリティ wnndictutil で簡単に操作できます。また、辞書コンバータ wnnotow を使って、ATOK8、ATOK7、cs00、VJE-delta、EGBRIDGE のユーザー辞書ファイルを、 Wnn6 でも活用することができます。

Wnn6/Htt から、キーの割り当ての設定や、かな漢字変換実行の環境 (辞書の指定、変換パラメータ値の設定など) のカスタマイズを行うことができます。その他の環境についても、Wnn6 設定ユーティリティ wnnenvutil を使って、カスタマイズを簡単に行うことができます。

Wnn6 のシステム構成の概略図を図 1-3 に示します。

図 1-3 Wnn6 のシステム構成

Graphic

ATOK8 の概要

ATOK8 は AI(Artificial Intelligence) 変換機能を採用した変換効率の高い日本語入力システムです。操作性・性能・拡張性にも優れており、快適な入力環境が実現されています。

AI 変換機能

ATOK8 では AI 変換機能により、入力した単語間のつながりから正しい語句が自動的に判別されます。

表 1-16  ATOK8 の AI 変換例と判別情報

AI 変換例 

判別情報 

「小鳥が鳴いた」、「子供が泣いた」 

名詞 + 用言 

「優先順位」、「有線放送」 

名詞 + 名詞 

「先生に尋ねた」、「先生を訪ねた」 

助詞情報による判別 

「読書の習慣」、「読書週間」 

助詞の有無による判別 

「家庭教育」、「教育課程」 

単語の順番による判別 

複数辞書引き機能

変換中に、変換に使用する複数の辞書を切り替えることができます。辞書は 10 個まで設定することができます。

固有名詞の分類機能

固有名詞を人名・地名・組織名・一般の 4 種類に分類してから、意味的な関係を判断して同音語処理を行います。

固有名詞の分類例 

「鈴木さん自身は」、「鈴木さんの自信は」 

「田中さん」、「アメリカ産」 

「吉田さんを訪ねる」、「吉田さんに尋ねる」 

変換時の単語削除機能

変換中に、不要な単語を辞書から簡単に削除することができます。

カラー表示のサポート

8 色を利用して入力文字列やメニュー類を表示できます。GUI ツールを使用して色をカスタマイズすることもできます。

カスタマイズ機能

ATOK8 が提供する各種ユーティリティによって、キー割り付け・表示色・ローマ字入力規則などを変更することができます。

辞書の登録内容

約 14 万語の単語が登録されています。また、約 50 万の AI 用例が登録されています。

その他の変換機能

学習機能

学習情報を辞書本体に登録して、一度登録した情報を保持します。登録できる項目には、後変換学習・未登録学習・複合語学習・文節区切り学習があります。使用するほど変換精度が向上します。

大文字・小文字の変換機能

「computer」 =>「 COMPUTER」 => 「Computer」のようにアルファベットの大文字・小文字を組み合わせて変換することができます。

未登録語のカタカナ変換機能

海外の地名や人名など、辞書にない単語を通常の変換操作でカタカナに変換することができます。

注目文節の移動

変換中に文節 (注目文節) を示す反転カーソルを未確定の状態で、修正したい別の文節に移動することができます。

ATOK7 との違い

辞書の統合

従来のシステム辞書 (読み取り専用) とユーザー辞書 (読み書き可能) を統合しました。

ヘルプメッセージの表示

ツールの各ウィンドウの「ヘルプ」ボタンをクリックして、簡単なヘルプメッセージを表示することができます。

入力サーバーと変換サーバーの一体化

一般ユーザーの権限で、変換サーバー部分を含めて動作させることができます。

cs00 の概要

かな漢字変換方式

連文節方式 (n 文節最大一致法) によるかな漢字変換方式を採用しています。

一度に変換できる文字列

文字列を最大 512 文字まで一度に変換することができます。

かな漢字変換辞書

あらかじめ単語が登録されているメイン辞書と、ユーザーが後から登録するユーザー辞書があります。メイン辞書には、5 万語以上が登録されています。

メイン辞書に単語を追加登録することもできます。GUI ベースのユーザー辞書単語登録ツールが Solaris CDE 用、日本語 OpenWindows 用ともに用意されています。

補助漢字対応

ja ロケールでは、補助漢字 (JIS X 0212) の入力および単語登録ができます。これにより、漢字第 1、2 水準 (JIS X 0208) の 6,355 文字に加え、5,801 文字の漢字を標準で扱うことができます。また、部首入力機能を使用して、補助漢字が簡単に入力できます。

クライアント / サーバー方式

cs00 は、クライアント / サーバー方式を採用しています。cs00 変換サーバー、クライアント間の通信には、RPC (Remote Procedure Call) を使用しています。