プログラミングの国際化

Solaris 7 製品での韓国語

1995 年 12 月、韓国政府は、ISO-10646-1/Unicode 2.0 に基づく標準韓国語コードセット KSC-5700 を発表しました。標準コードセットは、ISO-2022 に基づいていた KSC 5601 に代わるものです。

ISO-10646 文字セットは、2 バイト (UCS-2: Universal Character Set の 2 バイト形式) または 4 バイト (UCS-4) を使用して各文字を表します。

ISO-10646 文字セットは、直接 IBM-PC ベースのオペレーティングシステムで使用することはできません。たとえば、Solaris 環境のカーネルおよびその他の多くのモジュールは、文字列内の null 文字 (0x00) など、特定のバイトを制御命令として解釈します。ISO-10646 文字セットは、最初のバイトまたは後続のバイトで、任意のビットの組み合わせでエンコードできます。ISO-10646 文字は、上記の制限のため、Solaris システムで自由に転送することはできません。移行を容易にするために、ISO-10646 文字を、C0 制御文字 (0x00..0x1F)、C1 制御文字 (0x80..0x9F)、空白 (0x20)、DEL (0x7F) を使用せずに再コード化する、UCS Transformation Format (UTF) を定義しています。

ko.UTF-8 は、韓国語標準コードセット KSC-5700 をサポートする Solaris のロケールです。このロケールは、以前の KSC-5601 のすべての文字を含む 11,172 の韓国語の文字をサポートします。韓国語の UTF-8 は、韓国語関連の ISO-10646 文字およびフォントのみサポートします。ISO-10646 は世界中のすべての文字に対応しているので、すべての言語のすべての文字を入力および出力するために、さまざまな入力メソッドやフォントがすべて提供されています。Universal UTF/UCS が普及するまでは、韓国語 UTF-8 は韓国語の文字に関連する ISO-10646 コードのサブセットと、以前の韓国語標準コードセットおよび拡張 ASCII のすべての文字をサポートします。

表 3-6 に韓国語コードセットのリストを示します。

表 3-6 韓国語の ko、ko.UTF-8 でサポートされるコードセットの変換


コード	シンボル	ターゲットコード	シンボル
`UTF-8`	ko_KR-UTF-8	Wansung	ko_KR-euc
`UTF-8`	ko_KR-UTF-8	Johap	ko_KR-johap92
`UTF-8`	ko_KR-UTF-8	Packed	ko_KR-johap
`UTF-8`	ko_KR-UTF-8	ISO-2022-KR	ko_KR-iso2022-7
`Wansung`	ko_KR-euc	UTF-8	ko_KR-UTF-8
`Johap`	ko_KR-johap92	UTF-8	ko_KR-UTF-8
`Packed`	ko_KR-johap	UTF-8	ko_KR-UTF-8
`ISO-2022-KR`	ko_KR-iso2022-7	UTF-8	ko_KR-UTF-8
`Wansung`	ko_KR-euc	Johap	ko_KR-johap92
`Wansung`	ko_KR-euc	Packed	ko_KR-johap
`Wansung`	ko_KR-euc	N-Byte	ko_KR-nbyte
`Wansung`	ko_KR-euc	ISO-2022-KR	ko_KR-iso2022-7
`Johap`	ko_KR-johap92	Wansung	ko_KR-euc
`Packed`	ko_KR-johap	Wansung	ko_KR-euc
`N-Byte`	ko_KR-nbyte	Wansung	ko_KR-euc
`ISO-2022-KR`	ko_KR-iso2022-7	Wansung	ko_KR-euc