Oracle® Solaris 11.2 国際化対応言語環境の利用ガイド

印刷ビューの終了

更新: 2014 年 7 月
 
 

UTF-8 の概要

UTF-8 は Unicode の可変長エンコーディング形式です。この形式は Oracle Solaris の Unicode ロケールで使用されます。

この形式の利点は、ASCII エンコーディングスキームと下位互換であり、エンディアンとバイト順序の混乱を避けられることです。Unicode コードポイントは、1 - 4 個の 8 ビットのバイトによって表される UTF-8 です。次の表は、UTF-8 のビット分布を規定し、1 バイト、2 バイト、3 バイト、および 4 バイトのシーケンスに対応する Unicode コードポイントの範囲を示します。

表 2-1  UTF-8 のビット分布
コードポイントの範囲
コードポイント (2 進)
第 1 バイト
第 2 バイト
第 3 バイト
第 4 バイト
U+0000..U+007F
0xxxxxxx
0xxxxxxx
U+0080..U+07FF
00000yyy yyxxxxxx
110yyyyy
10xxxxxx
U+0800..U+FFFF
zzzzyyyy yyxxxxxx
1110zzzz
10yyyyyy
10xxxxxx
U+010000..U+10FFFF
000uuuuu zzzzyyyy yyxxxxxx
11110uuu
10uuzzzz
10yyyyyy
10xxxxxx

UTF-8 エンコーディング形式の詳細は、次のソースを参照してください。