JFP ユーザーズガイド

日本語文字コード

日本語 EUC

日本語 EUC は、EUC (Extended UNIX Code : 拡張 UNIX コード) に、以下の日本語文字集合を割り当てた文字集合およびエンコーディングを提供します。これは、ja または ja_JP.EUC ロケールで日本語を表現する文字コード体系として使われています。

表 2-1 日本語 EUC の文字集合
 文字集合 (符号化文字集合) 文字コード
 JIS X 0201-1976 

    機能キャラクタ集合


    間隔文字


    ローマ文字用図形キャラクタ集合


    抹消文字


    0x00 - 0x19


    0x20


    0x21 - 0x7e


    0x7f


 ISO 6429 C1 制御文字 (0x8e、0x8f を除く) 0x80 - 0x9f
 JIS X 0201-1976 片仮名用図形キャラクタ集合 (文字未定義領域 E/0 - F/14 は含まない) 0x8ea1 - 0x8edf
 JIS X 0208-1990 (1 - 84 区) 0xa1a1 - 0xf4fe
 JIS X 0212-1990 (1 - 84 区) 0x8fa1a1 - 0x8ff4fe
 ユーザー定義文字 (1 - 20 区)

0xf5a1 - 0xfefe 

0x8ff5a1 - 0x8ffefe 

ただし、JIS で未定義となっている以下の領域には、ベンダー定義文字が割り当てられています。

 JIS X 0208 13 区 特殊記号
 JIS X 0212 83 区 - 84 区 JIS X 0212 に含まれない IBM 拡張文字

日本語 EUC の場合、ベンダー定義文字とは、JIS X 0208 13 区文字未定義領域に割り当てられた特殊記号、ならびに JIS X 0212 83 区 - 84 区文字未定義領域に割り当てられた JIS X 0208 と JIS X 0212 のどちらにも含まれない IBM 拡張文字を指します。

PC 漢字コード

PC 漢字コード (以降、PCK とします) は、一般に「シフト JIS (あるいは MS 漢字) コード」と呼ばれ、Microsoft が Windows 3.1 で規定したマイクロソフト標準キャラクタセットと同等の文字集合およびエンコーディングを提供するものです。ja_JP.PCK ロケールで日本語を表現する文字コード体系として使われています。

表 2-2 PCK の文字集合
 文字集合 (符号化文字集合) 文字コード
 JIS X 0201-1976 

   機能キャラクタ集合 

   間隔文字 

   ローマ文字用図形キャラクタ集合 

   抹消文字 

0x00 - 0x19 

0x20 

0x21 - 0x7e 

0x7f 

JIS X 0201-1976 片仮名用図形キャラクタ集合 

    (文字未定義領域 E/0 - F/14 は含まない) 

0xa1 - 0xdf 

JIS X 0208-1990 (1 - 84 区) 

0x8140 - 0x9ffc 

0xe040 - 0xeafc 

 NEC 選定 IBM 拡張文字 0xed40 - 0xeffc
 ユーザー定義文字 (1 - 20 区) 0xf040 - 0xf9fc
 IBM 拡張文字 0xfa40 - 0xfcfc

ただし、JIS で未定義となっている以下の領域には、ベンダー定義文字が割り当てられています。

 JIS X 0208 13 区 特殊記号

PCK の場合、ベンダー定義文字とは、JIS X 0208 13 区文字未定義領域に割り当てられた特殊記号、NEC 選定 IBM 拡張文字、ならびに IBM 拡張文字を指します。