共通デスクトップ環境 プログラマーズ・ガイド (国際化対応編)

ISO EUC コード・セット

次のコード・セットは、ISO (国際標準化機構) により設定された定義に基づいています。

ISO646-IRV

ISO646-IRV コード・セットは、7 ビット・エンコーディングに基づく情報処理に使用されるコード・セットを定義します。このコード・セットに関連付けられた文字セットは ASCII 文字から得られます。

ISO8859-1

ISO8859-1 エンコーディングは、その他の ISO、ANSI (米国規格協会)、ECMA (欧州コンピュータ製造者協会) のコード拡張技術に基づき、それらと互換性のあるシングルバイトのエンコーディングです。ISO8859 エンコーディングは、各メンバが独自の文字セットを持つコード・セットのファミリを定義します。7 ビット ASCII コード・セットは、ISO8859 ファミリの各コード・セットの適切なサブセットです。

ISO8859-1 コード・セットは ISO Latin-1 コード・セットと呼ばれ、2 つの文字セットから成ります。

これらを組み合わせた文字セットには、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、アイスランド語、イタリア語、ノルウェー語、ポルトガル語、スペイン語、スウェーデン語などの西欧諸語に必要な文字が含まれます。

ASCII コード・セットが英語のアルファベット順に順序を定義する一方、GR (グラフィック・ライト) 文字は特定のどの言語によっても順序付けされません。言語固有の順序はロケールによって定義されます。

その他の ISO8859 コード・セット

この節ではその他の重要な ISO8859 コード・セットをリストします。各コード・セットには ASCII 文字とそのコード・セット独自の文字があります。

ISO8859-2

ラテン・アルファベット、No.2、東欧

ISO8859-5

ラテン / キリル・アルファベット

ISO8859-6

ラテン / アラビア語アルファベット

ISO8859-7

ラテン / ギリシャ語アルファベット

ISO8859-8

ラテン / ヘブライ語アルファベット

ISO8859-9

ラテン / トルコ語アルファベット

eucJP

日本語用 EUC はシングルバイト文字とマルチバイト文字 (2 バイトと 3 バイト) から成ります。エンコーディングは ISO2022 に準拠し、JIS および EUC の定義に基づきます。

表 3-2 eucJP のエンコーディング

CS 

エンコーディング 

 

文字セット 

cs0 

0xxxxxxx 

 

ASCII 

cs1 

1xxxxxxx 

1xxxxxxx 

JIS X0208-1990 

cs2 

0x8E 

1xxxxxxx 

JIS X0201-1976 

cs3 

0x8F 

1xxxxxxx 1xxxxxxx 

JIS X0212-1990 

JIS X0208-1990

情報交換用の日本語のグラフィック文字セットのコード (1990 年版) です。この中には特殊文字が 147、数字が 10、ひらがな文字が 83、カタカナ文字が 86、ラテン文字が 52、ギリシャ文字が 48、キリル文字が 66、線描画要素が 32、漢字が 6355 含まれます。

JIS X0201

カタカナを 63 文字含む、情報変換用コードです。

JIS X0212-1990

情報変換用の日本語のグラフィック文字セットの補助コード (1990 年版) です。この中には、追加の特殊文字が 21、追加のギリシャ文字が 21、追加のキリル文字が 26、追加のラテン文字が 27、発音区別符号の付いたラテン文字が 171、追加の漢字が 5801 含まれます。

eucTW

繁体字用 EUC はシングルバイト文字とマルチバイト文字 (2 バイトと 4 バイト) を含む文字から成るエンコーディングです。EUC エンコーディングは、ISO2022 に準拠しており、中華人民共和国によって定義された CNS (Chinese National Standard) および EUC 定義に基づきます。表 3-3 を参照してください。

表 3-3 eucTW のエンコーディング

CS 

エンコーディング 

 

 

文字セット 

cs0 

0xxxxxxx 

 

 

ASCII 

cs1 

1xxxxxxx 

1xxxxxxx 

 

CNS 11643.1992 - plane 1 

cs2 

0x8EA2 

1xxxxxxx 

1xxxxxxx 

CNS 11643.1992 - plane 2 

cs3 

0x8EA3 

1xxxxxxx 

1xxxxxxx 

CNS 11643.1992 - plane 3 

 

0x8EB0 

1xxxxxxx 

1xxxxxxx 

CNS 11643.1992 - Plane 16 

CNS 11643-1992 は、中国標準変換コード用に 16 の面を定義します。各面は、8836 文字 (94 * 94) までサポートできます。現在は、面 1〜7 のみ文字が割り当てられています。表 3-4 は、CNS 11643-1992 標準の 16 の各面を示しています。

表 3-4 CNS 11643-1992 標準の 16 面

面 

定義 

文字数 

EUC エンコーディング 

最も多く使用される 

6085 

A1A1-FDCB 

2 番目に多く使用される 

7650 

8EA2 A1A1 - 8EA2 F2C4 

Exec. Yuen EDP 1センター

6148 

8EA3 A1A1 - 8EA3 E2C6 

RIS 2、ベンダ定義

7298 

8EA4 A1A1 - 8EA4 EEDC 

MOE はほとんど使用しない3

8603 

8EA5 A1A1 - 8EA5 FCD1 

MOE による変形文字セット 1 

6388 

8EA6 A1A1 - 8EA6 E4FA 

MOE による変形文字セット 2 

6539 

8EA7 A1A1 - 8EA7 E6D5 

未定義 

8EA8 A1A1 - 8EA8 FEFE 

未定義 

8EA9 A1A1 - 8EA9 FEFE 

10 

未定義 

8EAA A1A1 - 8EAA FEFE 

11 

未定義 

8EAB A1A1 - 8EAB FEFE 

12 

ユーザ定義文字 (UDC) 

8EAC A1A1 - 8EAC FEFE 

13 

UDC 

8EAD A1A1 - 9EAD FEFE 

14 

UDC 

8EAE A1A1 - 8EAE FEFE 

15 

UDC 

8EAF A1A1 - 8EAF FEFE 

16 

UDC 

8EB0 A1A1 - 8EB0 FEFE 

  1. EDP: 予算、会計、統計の中央理事会

  2. RIS: 居住地情報システム

  3. MOE: 文部省

eucKR

韓国語用 EUC は、シングルバイト文字とマルチバイト文字から成るエンコーディングです (表 3-5 参照)。エンコーディングは ISO2022 に準拠し、KSC (韓国語標準コード) セットと EUC 定義に基づきます。

表 3-5 eucKR のエンコーディング

CS  

エンコーディング 

 

文字セット 

cs0 

0xxxxxxx 

 

ASCII 

cs1 

1xxxxxxx 

1xxxxxxx 

KS C 5601-1992 

cs2 

 

 

使用しない 

cs3 

 

 

使用しない 

KSC 5601-1992 (1992 年度版情報変換用韓国語文字セットのコード) には、特殊文字が 432、アラビア数字およびローマ数字が 30、ハングル・アルファベットが 94、ローマ文字が 52、ギリシャ文字が 48、ラテン文字が 27、日本語の文字が 169、ロシア文字が 66、線描画要素が 68、あらかじめ作成されたハングルが 2344、ハンジャが 4888 含まれます。

1 つのハングル文字は子音と母音から成ります。ハングルのほとんどの単語はハンジャの単語でも表現できます。ハンジャは繁体字のセットであり、現在韓国語圏の人々に使用されています。各ハンジャには意味があるので、ほとんどの場合ハングルよりも明確です。