次のコード・セットは、ISO (国際標準化機構) により設定された定義に基づいています。
ISO646-IRV
ISO8859-1
ISO8859-x
eucJP
eucTW
eucKR
ISO646-IRV コード・セットは、7 ビット・エンコーディングに基づく情報処理に使用されるコード・セットを定義します。このコード・セットに関連付けられた文字セットは ASCII 文字から得られます。
ISO8859-1 エンコーディングは、その他の ISO、ANSI (米国規格協会)、ECMA (欧州コンピュータ製造者協会) のコード拡張技術に基づき、それらと互換性のあるシングルバイトのエンコーディングです。ISO8859 エンコーディングは、各メンバが独自の文字セットを持つコード・セットのファミリを定義します。7 ビット ASCII コード・セットは、ISO8859 ファミリの各コード・セットの適切なサブセットです。
ISO8859-1 コード・セットは ISO Latin-1 コード・セットと呼ばれ、2 つの文字セットから成ります。
ISO646-IRV グラフィック・レフト、7 ビット ASCII 文字セット
ISO8859-1 グラフィック・ライト (ラテン) 文字セット
これらを組み合わせた文字セットには、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、アイスランド語、イタリア語、ノルウェー語、ポルトガル語、スペイン語、スウェーデン語などの西欧諸語に必要な文字が含まれます。
ASCII コード・セットが英語のアルファベット順に順序を定義する一方、GR (グラフィック・ライト) 文字は特定のどの言語によっても順序付けされません。言語固有の順序はロケールによって定義されます。
この節ではその他の重要な ISO8859 コード・セットをリストします。各コード・セットには ASCII 文字とそのコード・セット独自の文字があります。
ラテン・アルファベット、No.2、東欧
アルバニア語
チェコスロヴァキア語
英語
ドイツ語
ハンガリー語
ポーランド語
ルーマニア語
セルビア-クロアチア語
スロヴァキア語
スロヴェニア語
ラテン / キリル・アルファベット
ブルガリア語
白ロシア (ベロルシア) 語
英語
マケドニア語
ロシア語
ウクライナ語
ラテン / アラビア語アルファベット
英語
アラビア語
ラテン / ギリシャ語アルファベット
英語
ギリシャ語
ラテン / ヘブライ語アルファベット
英語
ヘブライ語
ラテン / トルコ語アルファベット
デンマーク語
オランダ語
英語
フィンランド語
フランス語
ドイツ語
アイルランド語
イタリア語
ノルウェー語
ポルトガル語
スペイン語
スウェーデン語
トルコ語
日本語用 EUC はシングルバイト文字とマルチバイト文字 (2 バイトと 3 バイト) から成ります。エンコーディングは ISO2022 に準拠し、JIS および EUC の定義に基づきます。
表 3-2 eucJP のエンコーディング
CS |
エンコーディング |
|
文字セット |
---|---|---|---|
cs0 |
0xxxxxxx |
|
ASCII |
cs1 |
1xxxxxxx |
1xxxxxxx |
JIS X0208-1990 |
cs2 |
0x8E |
1xxxxxxx |
JIS X0201-1976 |
cs3 |
0x8F |
1xxxxxxx 1xxxxxxx |
JIS X0212-1990 |
情報交換用の日本語のグラフィック文字セットのコード (1990 年版) です。この中には特殊文字が 147、数字が 10、ひらがな文字が 83、カタカナ文字が 86、ラテン文字が 52、ギリシャ文字が 48、キリル文字が 66、線描画要素が 32、漢字が 6355 含まれます。
カタカナを 63 文字含む、情報変換用コードです。
情報変換用の日本語のグラフィック文字セットの補助コード (1990 年版) です。この中には、追加の特殊文字が 21、追加のギリシャ文字が 21、追加のキリル文字が 26、追加のラテン文字が 27、発音区別符号の付いたラテン文字が 171、追加の漢字が 5801 含まれます。
繁体字用 EUC はシングルバイト文字とマルチバイト文字 (2 バイトと 4 バイト) を含む文字から成るエンコーディングです。EUC エンコーディングは、ISO2022 に準拠しており、中華人民共和国によって定義された CNS (Chinese National Standard) および EUC 定義に基づきます。表 3-3 を参照してください。
表 3-3 eucTW のエンコーディング
CS |
エンコーディング |
|
|
文字セット |
---|---|---|---|---|
cs0 |
0xxxxxxx |
|
|
ASCII |
cs1 |
1xxxxxxx |
1xxxxxxx |
|
CNS 11643.1992 - plane 1 |
cs2 |
0x8EA2 |
1xxxxxxx |
1xxxxxxx |
CNS 11643.1992 - plane 2 |
cs3 |
0x8EA3 |
1xxxxxxx |
1xxxxxxx |
CNS 11643.1992 - plane 3 |
|
0x8EB0 |
1xxxxxxx |
1xxxxxxx |
CNS 11643.1992 - Plane 16 |
CNS 11643-1992 は、中国標準変換コード用に 16 の面を定義します。各面は、8836 文字 (94 * 94) までサポートできます。現在は、面 1〜7 のみ文字が割り当てられています。表 3-4 は、CNS 11643-1992 標準の 16 の各面を示しています。
表 3-4 CNS 11643-1992 標準の 16 面
面 |
定義 |
文字数 |
EUC エンコーディング |
---|---|---|---|
1 |
最も多く使用される |
6085 |
A1A1-FDCB |
2 |
2 番目に多く使用される |
7650 |
8EA2 A1A1 - 8EA2 F2C4 |
3 |
Exec. Yuen EDP 1センター |
6148 |
8EA3 A1A1 - 8EA3 E2C6 |
4 |
RIS 2、ベンダ定義 |
7298 |
8EA4 A1A1 - 8EA4 EEDC |
5 |
MOE はほとんど使用しない3 |
8603 |
8EA5 A1A1 - 8EA5 FCD1 |
6 |
MOE による変形文字セット 1 |
6388 |
8EA6 A1A1 - 8EA6 E4FA |
7 |
MOE による変形文字セット 2 |
6539 |
8EA7 A1A1 - 8EA7 E6D5 |
8 |
未定義 |
0 |
8EA8 A1A1 - 8EA8 FEFE |
9 |
未定義 |
0 |
8EA9 A1A1 - 8EA9 FEFE |
10 |
未定義 |
0 |
8EAA A1A1 - 8EAA FEFE |
11 |
未定義 |
0 |
8EAB A1A1 - 8EAB FEFE |
12 |
ユーザ定義文字 (UDC) |
0 |
8EAC A1A1 - 8EAC FEFE |
13 |
UDC |
0 |
8EAD A1A1 - 9EAD FEFE |
14 |
UDC |
0 |
8EAE A1A1 - 8EAE FEFE |
15 |
UDC |
0 |
8EAF A1A1 - 8EAF FEFE |
16 |
UDC |
0 |
8EB0 A1A1 - 8EB0 FEFE |
EDP: 予算、会計、統計の中央理事会
RIS: 居住地情報システム
MOE: 文部省
韓国語用 EUC は、シングルバイト文字とマルチバイト文字から成るエンコーディングです (表 3-5 参照)。エンコーディングは ISO2022 に準拠し、KSC (韓国語標準コード) セットと EUC 定義に基づきます。
表 3-5 eucKR のエンコーディング
CS |
エンコーディング |
|
文字セット |
---|---|---|---|
cs0 |
0xxxxxxx |
|
ASCII |
cs1 |
1xxxxxxx |
1xxxxxxx |
KS C 5601-1992 |
cs2 |
|
|
使用しない |
cs3 |
|
|
使用しない |
KSC 5601-1992 (1992 年度版情報変換用韓国語文字セットのコード) には、特殊文字が 432、アラビア数字およびローマ数字が 30、ハングル・アルファベットが 94、ローマ文字が 52、ギリシャ文字が 48、ラテン文字が 27、日本語の文字が 169、ロシア文字が 66、線描画要素が 68、あらかじめ作成されたハングルが 2344、ハンジャが 4888 含まれます。
1 つのハングル文字は子音と母音から成ります。ハングルのほとんどの単語はハンジャの単語でも表現できます。ハンジャは繁体字のセットであり、現在韓国語圏の人々に使用されています。各ハンジャには意味があるので、ほとんどの場合ハングルよりも明確です。