Sun Studio 12:C 用户指南

6.7 多字节字符和宽字符

最初,ISO C 的国际化仅影响库函数。但是,国际化的最终阶段(多字节字符和宽字符)还影响语言。

6.7.1 亚洲语言需要多字节字符

亚洲语言计算机环境的主要难点在于,I/O 需要大量的表意字符。为了适用于通常的计算机体系结构约束,这些表意字符被编码为字节序列。相关的操作系统、应用程序和终端将这些字节序列理解为单个表意字符。此外,所有这些编码都允许将常规单字节字符与表意字符字节序列混杂在一起。识别不同表意字符的难度取决于使用的编码方案。

无论使用什么编码方案,ISO C 均将术语“多字节字符”定义为表示为表意字符编码的字节序列。所有多字节字符都是“扩展字符集”的成员。常规的单字节字符仅仅是多字节字符的特殊情形。对编码的唯一要求是多字节字符不能将空字符用作它的编码的一部分。

ISO C 指定程序注释、字符串文字、字符常量和头文件名均为多字节字符序列。

6.7.2 编码变种

编码方案分为两种。第一种方案是,每个多字节字符都是自标识的,即,可以在任何多字节字符对之间插入任何多字节字符。

第二种方案是,特殊的移位字节的存在会更改后续字节的解释。一个示例是,某些字符终端进入和退出行绘制模式所用的方法。对于使用与移位状态相关的编码以多字节字符编写的程序,ISO C 要求每个注释、字符串文字、字符常量和头文件名称都必须以未移位状态开始和结束。

6.7.3 宽字符

如果所有字符的字节数或位数都相同,则消除了处理多字节字符的一些不便之处。由于在这样的字符集中可能存在成千上万的表意字符,因此应使用 16 位或 32 位大小的整数值容纳所有成员。(整个中文字母表包含的表意字符超过 65,000 个!)ISO C 包括 typedef 名称 wchar_t,将其作为大得足以容纳扩展字符集的所有成员的实现定义整数类型。

对于每个宽字符,都存在对应的多字节字符,反之亦然;必须具有对应于常规单字节字符的宽字符,才能具有与其单字节值相同的值,包括空字符。但是,并不保证宏 EOF 的值可以存储在 wchar_t 中,因为 EOF 可能无法表示为 char

6.7.4 转换函数

1990 ISO/IEC C 标准提供了五个管理多字节字符和宽字符的库函数,1999 ISO/IEC C 标准提供了更多此类函数。

6.7.5 C 语言特征

为了给亚洲语言环境中的程序员带来更大的灵活性,ISO C 提供了宽字符常量和宽字符串文字。它们具有与其非宽版本相同的形式,但位置是紧邻字母 L 之后:

在常规版本和宽版本中,多字节字符均有效。生成表意字符 ¥ 所必需的字节序列与编码有关,但是如果它由多个字节组成,则字符常量 '¥' 的值是实现定义的,正如 'ab' 的值是实现定义的一样。除了换码序列之外,常规字符串文字包含引号之间指定的字节,包括每个指定的多字节字符的字节。

当编译系统遇到宽字符常量或宽字符串文字时,每个多字节字符都将转换为宽字符,如同调用了 mbtowc() 函数一样。因此,L'¥' 的类型为 wchar_tabc¥xyz 的类型为八位数组 wchar_t。正如常规字符串文字那样,每个宽字符串文字都附加有额外的零值元素,但是在这些情况下,它是值为零的 wchar_t

正如常规字符串文字可用作字符数组初始化的快捷方法,宽字符串文字可用于初始化 wchar_t 数组:


wchar_t *wp = L"a¥z";
wchar_t x[] = L"a¥z";
wchar_t y[] = {L’a’, L’¥’, L’z’, 0};
wchar_t z[] = {’a’, L’¥’, ’z’, ’\0’};

在以上示例中,xyz 这三个数组以及 wp 指向的数组具有相同长度。所有数组均使用相同的值进行初始化。

最后,正如常规字符串文字一样,并置相邻宽字符串文字。但是,对于 1990 ISO/IEC C 标准,相邻常规字符串文字和宽字符串文字会产生不确定的行为。而且,1990 ISO/IEC C 标准指定,如果编译器不接受这样的并置,则不需要使用编译器来产生错误。