1995 年 12 月、韓国政府は、ISO-10646-1/Unicode 2.0 に基づく標準韓国語コードセット KSC-5700 を発表しました。標準コードセットは、ISO-2022 に基づいていた KSC 5601 に代わるものです。
ISO-10646 文字セットは、2 バイト (UCS-2: Universal Character Set の 2 バイト形式) または 4 バイト (UCS-4) を使用して各文字を表します。
ISO-10646 文字セットは、直接 IBM-PC ベースのオペレーティングシステムで使用することはできません。たとえば、Solaris 環境のカーネルおよびその他の多くのモジュールは、文字列内の null 文字 (0x00) など、特定のバイトを制御命令として解釈します。ISO-10646 文字セットは、最初のバイトまたは後続のバイトで、任意のビットの組み合わせでエンコードできます。ISO-10646 文字は、上記の制限のため、Solaris システムで自由に転送することはできません。移行を容易にするために、ISO-10646 文字を、C0 制御文字 (0x00..0x1F)、C1 制御文字 (0x80..0x9F)、空白 (0x20)、DEL (0x7F) を使用せずに再コード化する、UCS Transformation Format (UTF) を定義しています。
ko.UTF-8 は、韓国語標準コードセット KSC-5700 をサポートする Solaris のロケールです。このロケールは、以前の KSC-5601 のすべての文字を含む 11,172 の韓国語の文字をサポートします。韓国語の UTF-8 は、韓国語関連の ISO-10646 文字およびフォントのみサポートします。ISO-10646 は世界中のすべての文字に対応しているので、すべての言語のすべての文字を入力および出力するために、さまざまな入力メソッドやフォントがすべて提供されています。Universal UTF/UCS が普及するまでは、韓国語 UTF-8 は韓国語の文字に関連する ISO-10646 コードのサブセットと、以前の韓国語標準コードセットおよび拡張 ASCII のすべての文字をサポートします。
表 3-6 に韓国語コードセットのリストを示します。
表 3-6 韓国語の ko、ko.UTF-8 でサポートされるコードセットの変換
コード |
シンボル |
ターゲットコード |
シンボル |
---|---|---|---|
UTF-8 |
ko_KR-UTF-8 |
Wansung |
ko_KR-euc |
UTF-8 |
ko_KR-UTF-8 |
Johap |
ko_KR-johap92 |
UTF-8 |
ko_KR-UTF-8 |
Packed |
ko_KR-johap |
UTF-8 |
ko_KR-UTF-8 |
ISO-2022-KR |
ko_KR-iso2022-7 |
Wansung |
ko_KR-euc |
UTF-8 |
ko_KR-UTF-8 |
Johap |
ko_KR-johap92 |
UTF-8 |
ko_KR-UTF-8 |
Packed |
ko_KR-johap |
UTF-8 |
ko_KR-UTF-8 |
ISO-2022-KR |
ko_KR-iso2022-7 |
UTF-8 |
ko_KR-UTF-8 |
Wansung |
ko_KR-euc |
Johap |
ko_KR-johap92 |
Wansung |
ko_KR-euc |
Packed |
ko_KR-johap |
Wansung |
ko_KR-euc |
N-Byte |
ko_KR-nbyte |
Wansung |
ko_KR-euc |
ISO-2022-KR |
ko_KR-iso2022-7 |
Johap |
ko_KR-johap92 |
Wansung |
ko_KR-euc |
Packed |
ko_KR-johap |
Wansung |
ko_KR-euc |
N-Byte |
ko_KR-nbyte |
Wansung |
ko_KR-euc |
ISO-2022-KR |
ko_KR-iso2022-7 |
Wansung |
ko_KR-euc |