日本語環境ユーザーズガイド

日本語 EUC と UTF-8 間の変換規則

(1) JIS X 0201 で規定されている文字

JIS X 0201:1997 で規定されている文字の名称と、Unicode で規定されている文字の名称との間で対応をとります。

例 :「A」の場合

表 3–1 変換規則

日本語 EUC 

JIS 名称 

Unicode 

Unicode 名称 

UTF-8 

0x41 

LATIN CAPITAL LETTER A 

U+0041 

LATIN CAPITAL LETTER A 

0x41 

ただし、JIS X 0208 と同時に使用する関係上 JIS X 0208:1997 附属書 5 表 1 で代替名称が規定されている文字についてはその代替名称をもとに変換します。

例 :「ア」の場合

表 3–2 変換規則

日本語 EUC 

JIS 名称 

JIS 代替名称 

Unicode 

Unicode 名称 

UTF-8 

0x8eb2 

KATAKANA LETTER A 

HALFWIDTH KATAKANA LETTER A 

U+FF71 

HALFWIDTH KATAKANA LETTER A 

0xefbdb1 

例外として、以下の 2 文字は文字の名称に関係なく同じコードを持つ文字に変換します。

表 3–3 変換規則

日本語 EUC 

JIS 名称 

Unicode 

Unicode 名称 

UTF-8 

0x5c 

YEN SIGN 

U+005c 

REVERSE SOLIDUS 

0x5c 

0x7f 

OVER LINE 

U+007f 

TILDE 

0x7f 

(2) JIS X 0208 で規定されている文字

JIS X 0208:1997 で規定されている文字の名称と、Unicode で規定されている文字の名称との間で対応をとります。

例 :「亜」の場合

表 3–4 変換規則

日本語 EUC 

JIS 区点 

JIS 名称 

Unicode 

Unicode 名称 

UTF-8 

0xb0a1 

16 区 1 点 

CJK UNIFIED IDEOGRAPH-4E9C 

U+4E9C 

CJK UNIFIED IDEOGRAPH-4E9C 

0xe4ba9c 

ただし、JIS X 0201 と同時に使用する関係上 JIS X 0208:1997 附属書 5 表 2 で代替名称が規定されている文字についてはその代替名称をもとに変換します。

例 :「A」の場合

表 3–5 変換規則

日本語 EUC 

JIS 区点 

JIS 名称 

JIS 代替名称 

Unicode 

Unicode 名称 

UTF-8 

0xa3c1 

3 区 33 点 

LATIN CAPITAL LETTER A 

FULLWIDTH LATIN CAPITAL LETTER A 

U+FF21 

FULLWIDTH LATIN CAPITAL LETTER A 

0xefbca1 

(3) JIS X 0212 で規定されている文字

特殊文字 (附属書 1 で規定されている文字) およびアルファベット (附属書 2 で規定されている文字) については、JIS X 0221:1995 の附属書 3 表 4 に基づき変換します。

例 :  

トノスアクセント付きの A を表示しています。

(トノスアクセント付きA) の場合 

表 3–6 変換規則

日本語 EUC 

JIS 区点 

JIS 名称 

Unicode 

Unicode 名称 

UTF-8 

0x8fa6e1 

6 区 65 点 

トノスアクセント付き大文字A (JIS X 0221 附属書3表4 での名称) 

U+0386 

GREEK CAPITAL LETTER A WITH TONOS 

0xe08e86 

例外として、以下の 1 文字は以下のように変換します。

表 3–7 変換規則

日本語 EUC 

JIS 区点 

JIS 名称 

Unicode 

Unicode 名称 

UTF-8 

0x8fa2b7 

2 区 23 点 

TILDE 

U+FF5E 

FULLWIDTH TILDE 

0xefbd9e 

漢字 (附属書 3 で規定されている文字) の中で、JIS X 0221:1995 の附属書 1 表 3 で規定されているものは、その名称をもとに、Unicode で同じ名称で規定されている文字に変換します。

例 :  

JIS X 0221:1995 の附属書 1 表 3 で規定されている文字を表示しています。

の場合 

表 3–8 変換規則

日本語 EUC 

JIS 区点 

JIS 名称 

Unicode 

Unicode 名称 

UTF-8 

0x8fb0a6 

16 区 6 点 

CJK UNIFIED IDEOGRAPH-4E1F 

U+4E1F 

CJK UNIFIED IDEOGRAPH-4E1F 

0xe4b89f 

JIS X 0221:1995 の附属書 1 表 3 で規定されていない文字は、Unicode データベースに記述されている JIS との対応情報にもとづき変換します。

例 :  

JIS X 0221:1995 の附属書 1 表 3 で規定されていない文字を表示しています。

の場合 

表 3–9 変換規則

日本語 EUC 

JIS 区点 

Unicode 

Unicode 名称 

UTF-8 

0x8fb0a1 

16 区 1 点 

U+4E02 

CJK UNIFIED IDEOGRAPH-4E02 

0xe4b882 

(4) ベンダー定義文字

特殊記号 (13 区記号) - 付録 A ベンダー定義文字の変換 を参照してください。

IBM 拡張文字 - 付録 A ベンダー定義文字の変換 を参照してください。

(5) ユーザー定義文字

Unicode 基本複数言語面 (BMP) の私用領域 (PUA) の先頭 (U+E000) から 1880 文字分を使用して以下のように対応させます。対応する領域の概念については、図 3–1 を参照してください。

表 3–10 変換規則

日本語 EUC 

Unicode 

UTF-8 

0xf5a1 ~ 0xf5fe 

U+E000 ~ U+E05D 

0xee8080 ~ 0xee819d 

0xf6a1 ~ 0xf6fe 

U+E05E ~ U+E0BB 

0xee819e ~ 0xee82bb 

... 

   

0xfea1 ~ 0xfefe 

U+E34E ~ U+E3AB 

0xee8d8e ~ 0xee8eab 

     

0x8ff5a1 ~ 0x8ff5fe 

U+E3AC ~ U+E409 

0xee8eac ~ 0xee9089 

0x8ff6a1 ~ 0x8ff6fe 

U+E40A ~ U+E467 

0xee908a ~ 0xee91a7 

... 

   

0x8ffea1 ~ 0x8ffefe 

U+E6FA ~ U+E757 

0xee9bba ~ 0xee9d97 

UTF-8 で使用できる 6400 文字のユーザー定義文字のうち、下記の文字については日本語 EUC 側に対応する領域がないため、置換文字に変換します。

Unicode : U+E758 ~ U+F8FF

UTF-8 : 0xee9d98 ~ 0xeea3bf

置換文字は「?」 (名称 : QUESTION MARK、日本語 EUC の値 : 0x3f) を使用します。