UTF-8 は Unicode の可変長エンコーディング形式です。この形式は Oracle Solaris の Unicode ロケールで使用されます。
この形式の利点は、ASCII エンコーディングスキームと下位互換であり、エンディアンとバイト順序の混乱を避けられることです。Unicode コードポイントは、1 - 4 個の 8 ビットのバイトによって表される UTF-8 です。次の表は、UTF-8 のビット分布を規定し、1 バイト、2 バイト、3 バイト、および 4 バイトのシーケンスに対応する Unicode コードポイントの範囲を示します。
|
UTF-8 エンコーディング形式の詳細は、次のソースを参照してください。
The Unicode Standard, Version 6.0, Chapter 3 (http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf), Section 3.9 “Unicode Encoding Forms”, pp. 93 - 94