国际语言环境指南

Unicode 概述

Unicode 是通用字符编码标准,用于表示文本以供计算机处理。Unicode 与国际标准 ISO/IEC 10646-1:2000 和 ISO/IEC 10646-2:2001 完全兼容,并且与 ISO/IEC 10646 包含完全相同的字符和编码点。Unicode 标准提供有关相关字符及其用途的其他信息。符合 Unicode 的所有实现程序也同时符合 ISO/IEC 10646。

Unicode 提供了一种对多语种纯文本进行一致编码的方法,便于国际文本文件的交换。处理多语种文本的计算机用户 、商务人员、语言学家、研究人员、科学家等会发现 Unicode 标准可大大简化他们的工作。Unicode 标准对于经常使用数学符号和其他技术字符的数学家和技术人员也很有价值。

Unicode 能支持的最大可能代码点数是 1,114,112,位于 17 个 16 位平面中。每一个平面都可支持 65,536 个不同的代码点。

在 Unicode 可支持的一百多万个代码点中,版本 4.0 当前在平面 0、1、2 和 14 中定义 96382 个字符。平面 15 和 16 用于专用字符,这类字符也称为用户定义的字符。平面 15 和 16 总共可支持 131,068 个用户定义的字符。

Unicode 可以使用下列任意字符编码方案:

UTF-8 是 Unicode 的一种可变长度编码形式,它透明地保留了 ASCII 字符代码值。该形式在 Solaris Unicode 语言环境中用作文件代码。

UTF-16 是 Unicode 的一种 16 位编码形式。在 UTF-16 中,多达 65,535 个字符被编码为单个 16 位值。映射在 65,535 到 1,114,111 的字符被编码为成对的 16 位值(代理)。

UTF-32 是 Unicode 的一种固定长度的 21 位编码形式,通常用在 32 位容器或数据类型中。该形式在 Solaris Unicode 语言环境中用作进程代码(宽字符代码)。

有关 Unicode 标准和 ISO/IEC 10646 及其各种表示形式的详细信息,请参阅下列来源:

Unicode 语言环境:en_US.UTF-8 支持

Unicode/UTF-8 语言环境支持 Unicode 4.0。en_US.UTF-8 语言环境使用 UTF-8 作为其字符集来提供多脚本处理支持。该语言环境处理多个脚本中的输入和输出文本,是 Solaris 操作系统中第一个具有此功能的语言环境。其他 UTF-8 语言环境的功能与 en_us.UTF-8 的功能相似。后面对 en_US.UTF-8 的探讨同样适用于这些语言环境。


注意 –

UTF-8 是由 X/Open-Uniforum Joint Internationalization Working Group (XoJIG) 在 1992 年制定的 Unicode/ISO/IEC 10646-1 的文件系统安全通用字符集转换格式,并在 1996 年作为 ISO/IEC 10646-1:1993 的第二修正案被 ISO 和 IEC 批准。该标准已由 Unicode Consortium、国际标准化组织和国际电工技术委员会采用而成为 Unicode 4.0 和 ISO/IEC 10646-1 的一部分。


Solaris 环境中的 Unicode 语言环境支持对在 Unicode 4.0 与 ISO/IEC 10646-1 和 10646-2 中定义的每一个代码点值的处理。所支持的脚本不仅包括全欧洲语言和亚洲语言,还包括一些复杂的文本布局,如阿拉伯语、希伯来语、印度语和泰语。


注意 –

某些 Unicode 语言环境,特别是亚洲语言环境,包括更多的 Kanji 或 Hanzi 字型。


由于字体资源有限,当前 Solaris Unicode 语言环境仅包括来自下列字符集的字符字型。

如果您试图查看 en_US.UTF-8 语言环境中没有其相应字型的字符,则该语言环境将显示 no-glyph 字型,如下图所示:

上文介绍了此图形。

语言环境可以在安装时选择,并可指定为系统的缺省语言环境。

对于 64 位和 32 位的 Solaris 系统,提供了同一级别的 en_US.UTF-8 语言环境支持。


注意 –

Motif 和 CDE 桌面应用程序和库支持 en_US.UTF-8 语言环境。但 XView™ 和 OLIT 库 支持 en_US.UTF-8 语言环境。