ISO EUC コード・セット (共通デスクトップ環境プログラマーズ・ガイド (国際化対応編))

共通デスクトップ環境プログラマーズ・ガイド (国際化対応編)

ISO EUC コード・セット

次のコード・セットは、ISO (国際標準化機構) により設定された定義に基づいています。

ISO646-IRV
ISO8859-1
ISO8859-x
eucJP
eucTW
eucKR

ISO646-IRV

ISO646-IRV コード・セットは、7 ビット・エンコーディングに基づく情報処理に使用されるコード・セットを定義します。このコード・セットに関連付けられた文字セットは ASCII 文字から得られます。

ISO8859-1

ISO8859-1 エンコーディングは、その他の ISO、ANSI (米国規格協会)、ECMA (欧州コンピュータ製造者協会) のコード拡張技術に基づき、それらと互換性のあるシングルバイトのエンコーディングです。ISO8859 エンコーディングは、各メンバが独自の文字セットを持つコード・セットのファミリを定義します。7 ビット ASCII コード・セットは、ISO8859 ファミリの各コード・セットの適切なサブセットです。

ISO8859-1 コード・セットは ISO Latin-1 コード・セットと呼ばれ、2 つの文字セットから成ります。

ISO646-IRV グラフィック・レフト、7 ビット ASCII 文字セット
ISO8859-1 グラフィック・ライト (ラテン) 文字セット

これらを組み合わせた文字セットには、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、アイスランド語、イタリア語、ノルウェー語、ポルトガル語、スペイン語、スウェーデン語などの西欧諸語に必要な文字が含まれます。

ASCII コード・セットが英語のアルファベット順に順序を定義する一方、GR (グラフィック・ライト) 文字は特定のどの言語によっても順序付けされません。言語固有の順序はロケールによって定義されます。

その他の ISO8859 コード・セット

この節ではその他の重要な ISO8859 コード・セットをリストします。各コード・セットには ASCII 文字とそのコード・セット独自の文字があります。

ISO8859-2

ラテン・アルファベット、No.2、東欧

アルバニア語
チェコスロヴァキア語
英語
ドイツ語
ハンガリー語
ポーランド語
ルーマニア語
セルビア-クロアチア語
スロヴァキア語
スロヴェニア語

ISO8859-5

ラテン / キリル・アルファベット

ブルガリア語
白ロシア (ベロルシア) 語
英語
マケドニア語
ロシア語
ウクライナ語

ISO8859-6

ラテン / アラビア語アルファベット

英語
アラビア語

ISO8859-7

ラテン / ギリシャ語アルファベット

英語
ギリシャ語

ISO8859-8

ラテン / ヘブライ語アルファベット

英語
ヘブライ語

ISO8859-9

ラテン / トルコ語アルファベット

デンマーク語
オランダ語
英語
フィンランド語
フランス語
ドイツ語
アイルランド語
イタリア語
ノルウェー語
ポルトガル語
スペイン語
スウェーデン語
トルコ語

eucJP

日本語用 EUC はシングルバイト文字とマルチバイト文字 (2 バイトと 3 バイト) から成ります。エンコーディングは ISO2022 に準拠し、JIS および EUC の定義に基づきます。

表 3-2 eucJP のエンコーディング


CS	エンコーディング		文字セット
cs0	0xxxxxxx		ASCII
cs1	1xxxxxxx	1xxxxxxx	JIS X0208-1990
cs2	0x8E	1xxxxxxx	JIS X0201-1976
cs3	0x8F	1xxxxxxx 1xxxxxxx	JIS X0212-1990

JIS X0208-1990

情報交換用の日本語のグラフィック文字セットのコード (1990 年版) です。この中には特殊文字が 147、数字が 10、ひらがな文字が 83、カタカナ文字が 86、ラテン文字が 52、ギリシャ文字が 48、キリル文字が 66、線描画要素が 32、漢字が 6355 含まれます。

JIS X0201

カタカナを 63 文字含む、情報変換用コードです。

JIS X0212-1990

情報変換用の日本語のグラフィック文字セットの補助コード (1990 年版) です。この中には、追加の特殊文字が 21、追加のギリシャ文字が 21、追加のキリル文字が 26、追加のラテン文字が 27、発音区別符号の付いたラテン文字が 171、追加の漢字が 5801 含まれます。

eucTW

繁体字用 EUC はシングルバイト文字とマルチバイト文字 (2 バイトと 4 バイト) を含む文字から成るエンコーディングです。EUC エンコーディングは、ISO2022 に準拠しており、中華人民共和国によって定義された CNS (Chinese National Standard) および EUC 定義に基づきます。表 3-3 を参照してください。

表 3-3 eucTW のエンコーディング


CS	エンコーディング			文字セット
cs0	0xxxxxxx			ASCII
cs1	1xxxxxxx	1xxxxxxx		CNS 11643.1992 - plane 1
cs2	0x8EA2	1xxxxxxx	1xxxxxxx	CNS 11643.1992 - plane 2
cs3	0x8EA3	1xxxxxxx	1xxxxxxx	CNS 11643.1992 - plane 3
	0x8EB0	1xxxxxxx	1xxxxxxx	CNS 11643.1992 - Plane 16

CNS 11643-1992 は、中国標準変換コード用に 16 の面を定義します。各面は、8836 文字 (94 * 94) までサポートできます。現在は、面 1〜7 のみ文字が割り当てられています。表 3-4 は、CNS 11643-1992 標準の 16 の各面を示しています。

表 3-4 CNS 11643-1992 標準の 16 面


面	定義	文字数	EUC エンコーディング
1	最も多く使用される	6085	A1A1-FDCB
2	2 番目に多く使用される	7650	8EA2 A1A1 - 8EA2 F2C4
3	Exec. Yuen EDP ¹センター	6148	8EA3 A1A1 - 8EA3 E2C6
4	RIS ²、ベンダ定義	7298	8EA4 A1A1 - 8EA4 EEDC
5	MOE はほとんど使用しない³	8603	8EA5 A1A1 - 8EA5 FCD1
6	MOE による変形文字セット 1	6388	8EA6 A1A1 - 8EA6 E4FA
7	MOE による変形文字セット 2	6539	8EA7 A1A1 - 8EA7 E6D5
8	未定義	0	8EA8 A1A1 - 8EA8 FEFE
9	未定義	0	8EA9 A1A1 - 8EA9 FEFE
10	未定義	0	8EAA A1A1 - 8EAA FEFE
11	未定義	0	8EAB A1A1 - 8EAB FEFE
12	ユーザ定義文字 (UDC)	0	8EAC A1A1 - 8EAC FEFE
13	UDC	0	8EAD A1A1 - 9EAD FEFE
14	UDC	0	8EAE A1A1 - 8EAE FEFE
15	UDC	0	8EAF A1A1 - 8EAF FEFE
16	UDC	0	8EB0 A1A1 - 8EB0 FEFE

EDP: 予算、会計、統計の中央理事会
RIS: 居住地情報システム
MOE: 文部省

eucKR

韓国語用 EUC は、シングルバイト文字とマルチバイト文字から成るエンコーディングです (表 3-5 参照)。エンコーディングは ISO2022 に準拠し、KSC (韓国語標準コード) セットと EUC 定義に基づきます。

表 3-5 eucKR のエンコーディング


CS	エンコーディング		文字セット
cs0	0xxxxxxx		ASCII
cs1	1xxxxxxx	1xxxxxxx	KS C 5601-1992
cs2			使用しない
cs3			使用しない

KSC 5601-1992 (1992 年度版情報変換用韓国語文字セットのコード) には、特殊文字が 432、アラビア数字およびローマ数字が 30、ハングル・アルファベットが 94、ローマ文字が 52、ギリシャ文字が 48、ラテン文字が 27、日本語の文字が 169、ロシア文字が 66、線描画要素が 68、あらかじめ作成されたハングルが 2344、ハンジャが 4888 含まれます。

1 つのハングル文字は子音と母音から成ります。ハングルのほとんどの単語はハンジャの単語でも表現できます。ハンジャは繁体字のセットであり、現在韓国語圏の人々に使用されています。各ハンジャには意味があるので、ほとんどの場合ハングルよりも明確です。