Oracle® Solaris 11.2 国际语言环境指南

退出打印视图

更新时间: 2014 年 7 月
 
 

UTF-8 概述

UTF-8 是 Unicode 的一种可变长度编码形式。该形式用于 Oracle Solaris Unicode 语言环境。

该形式的优点在于它向下兼容 ASCII 编码方案,可避免字节存储顺序 (endianness) 和字节顺序复杂化。UTF-8 中的 Unicode 代码点使用一至四个 8 位字节表示。下表指定了 UTF-8 的位分布,并显示了 Unicode 代码点对应于第一字节、第二字节、第三字节和第四字节序列的范围。

表 2-1  UTF-8 的位分布
代码点范围
代码点(二进制)
第 1 字节
第 2 字节
第 3 字节
第 4 字节
U+0000..U+007F
0xxxxxxx
0xxxxxxx
U+0080..U+07FF
00000yyy yyxxxxxx
110yyyyy
10xxxxxx
U+0800..U+FFFF
zzzzyyyy yyxxxxxx
1110zzzz
10yyyyyy
10xxxxxx
U+010000..U+10FFFF
000uuuuu zzzzyyyy yyxxxxxx
11110uuu
10uuzzzz
10yyyyyy
10xxxxxx

有关 UTF-8 编码形式的更多详细信息,请参阅下列来源: