跳过导航链接 | |
退出打印视图 | |
Oracle Solaris 11.1 国际语言环境指南 Oracle Solaris 11.1 Information Library (简体中文) |
Unicode 是通用字符编码标准,用于表示文本以供计算机处理。Unicode 提供了一种对多语种文本进行一致编码的方法,便于国际文本文件的交换。
多语种文本的编码标准是 ISO/IEC 10646。尽管 ISO/IEC 10646 与 Unicode 标准包含完全相同的字符和编码点,但 Unicode 标准可提供有关这些字符及其用途的其他信息。
Oracle Solaris 11 为 Unicode 标准版本 6.0 和 ISO/IEC 10646:2011 提供了系统级支持。
每个 Unicode 字符均映射到一个代码点,代码点是一个介于 0 和 1,114,111 之间的整数。Unicode 代码点使用 U+nnnn 形式的表示法来表示(其中 nnnn 是代码点的十六进制数),或使用描述代码点的文本字符串来表示。例如,小写字母 “a” 可以用 U+0061 或文本字符串 "LATIN SMALL LETTER A" 来表示。
代码点可以使用不同的字符编码方案进行编码。在 Oracle Solaris Unicode 语言环境中,使用的是 UTF-8 形式。UTF-8 是 Unicode 的一种可变长度编码形式,它透明地保留了 ASCII 字符代码值(请参见UTF-8 概述)。
有关 Unicode 标准和 ISO/IEC 10646 及其各种表示形式的更多详细信息,请参阅下列来源:
The Unicode Standard, Version 6.0 from the Unicode Consortium(Unicode Consortium 提供的《Unicode 标准,版本 6.0》)
ISO/IEC 10646:2011, Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane(ISO/IEC 10646:2011 信息技术-通用多重八位组字符集 (UCS)-第 1 部分:体系结构和基本多语种平面)
The Unicode Consortium web site(Unicode Consortium Web 站点)
UTF-8 是 Unicode 的一种可变长度编码形式。该形式用于 Oracle Solaris Unicode 语言环境。
该形式的优点在于它向下兼容 ASCII 编码方案,可避免字节存储顺序 (endianness) 和字节顺序复杂化。UTF-8 中的 Unicode 代码点使用一至四个 8 位字节表示。下表指定了 UTF-8 的位分布,并显示了 Unicode 代码点对应于第一字节、第二字节、第三字节和第四字节序列的范围。
表 2-1 UTF-8 的位分布
|
有关 UTF-8 编码形式的更多详细信息,请参阅下列来源:
《The Unicode Standard, Version 6.0》(《Unicode 标准,版本 6.0》)第 3 章 (http://www.unicode.org/versions/Unicode6.0.0/ch03.pdf),第 93 - 94 页,第 3.9 节 “Unicode Encoding Forms”(“Unicode 编码形式”)
The Unicode Consortium web site(Unicode Consortium Web 站点)