UTF-8 は、Unicode のエンコーディングの1つであり、ASCII 部分 (0x00-0x7F) に関しては EUC または PCK と互換性をたもったまま、UCS-2 や UCS-4 の文字を使えるようにしたエンコーディングです。ja_JP.UTF-8 ロケールで文字を表現する文字コード体系として使われています。
表 2-3 UTF-8 の文字集合
文字集合 (符号化文字集合) |
文字コード |
---|---|
Unicode 2.1 |
0x00 - 0xefbfbf (U+0000 - U+FFFF) |
ユーザー定義文字領域は Unicode 2.1 で Private Use area に割り当てられている 0xee8080 - 0xefa3bf (U+E000 - U+F8FF) が該当します。日本語 EUC や PCK で表現できるすべての文字(ベンダー定義文字も含む)も Unicode 2.1 の中に含まれています。
U+XXXX の XXXX は Unicode 2.1 で表現しているコードを意味します。
Unicode 2.1 で定義された Surrogate Area (U+D800 - U+DFFF) はサポートされてません。
Solaris のフォントの制限で、日本語 UTF-8 で Unicode 2.1 で定義されたすべての文字が表示できるわけではありません。