UTF-8 是 Unicode 的一种可变长度编码形式。该形式用于 Oracle Solaris Unicode 语言环境。
该形式的优点在于它向下兼容 ASCII 编码方案,可避免字节存储顺序 (endianness) 和字节顺序复杂化。UTF-8 中的 Unicode 代码点使用一至四个 8 位字节表示。下表指定了 UTF-8 的位分布,并显示了 Unicode 代码点对应于第一字节、第二字节、第三字节和第四字节序列的范围。
|
有关 UTF-8 编码形式的更多详细信息,请参阅下列来源:
《The Unicode Standard, Version 6.0》(《Unicode 标准,版本 6.0》)第 3 章 (http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf),第 93 - 94 页,第 3.9 节 “Unicode Encoding Forms”(“Unicode 编码形式”)
The Unicode Consortium web site(Unicode Consortium Web 站点)