简体中文 Solaris 用户指南

术语汇编

ANSI

美国国家标准协会 (American National Standards Institute) 的缩写。ANSI 提议不同计算语言的标准定义。由 ANSI C X3J11 委员会所准备的最新的 C 语言标准,包括了国际化过程所需的用于计算处理多字节字符的库函数以及可以处理四字节字符的新的数据类型 wchar_t。该标准尚未完成,因而被称为“建议的 ANSI C 标准”,或 ANSI C-X3J11。

ASCII

美国信息交换标准代码 (American Standard Code for Information Interchange) 的缩写。ASCII 是一个七位代码,包含英文大小写字母、标点符号、数字和控制代码。每个字节中的第八位在不同的应用程序中被用于奇偶校验、通信和信息传输协议、数据压缩或其他用途。打算进行国际化的应用程序无法使用该位,也无法使用多编码集或多字节字符以及用来处理多编码集或多字节字符的实用程序。

种类

在繁体中文 Solaris 文档集中,种类与本地化相关。种类是一个国家的语言表现形式和文化习惯的一部分。例如,日期在美国通常表示为,而在另一个国家可能表示为。日期和时间可以被看作是本地语言的一个种类。种类也指程序的种类、与种类相关的环境变量,以及每个种类的 ANSI 本地化表。

字符集

一组用于组织、控制或表示数据的元素。字符集可由字母 、表意文字或其他单元所组成。字符集可以包含其他字符集,这使界限不清楚。例如,CNS 11643 字符集除了包含中文偏旁部首和许多其他字符外,还包含英文、希腊文和中文字符集。

CNS

台湾的中文标准简称。此标准类似于 ASCII 的台湾标准。在此文档集中,CNS 指根据 CNS 11643 定义的编码集。它包含中文字符、语音符号和偏旁部首、控制代码、标点符号和西欧字符,包括罗马字符和希腊字符。每个字符都有两个字节长,每个字节的最高位或最高有效位设置为零。换而言之,CNS 使用每个字节的较低的 7 位。由于台湾中文字符集的大小,这些字符集被分为多个代码平面,缺省平面包含最常用的字符。ISO 2022 提供了将一种代码平面转换为另一种代码平面的机制。

在 1992 将其修订后,CNS 11643 定义了 48,000 个字符,这些字符分为代码平面 1-7,代码平面 8-16 是未定义的,但包含在编码集体系结构中。代码平面 1 和 2(常用字符和很少使用的字符)不受此修订的影响。在代码平面 14 中的字符是用户定义的临时平面,这些字符已标准化为代码平面 3,在代码平面 4 中存在溢出。

编码集

一组明确的规则,用于建立字符集,并在字符集中的每个字符和它的位表示之间建立一一对应关系。例如,英文字符集(包括标点和数字)可以按以下方式映射到 ASCII 编码集:每个字符对应唯一的一个位代码,且没有一个位代码对应于一个以上的字符。编码集还称为编码字符集。

提交

在预编辑区中输入的字符放入应用程序汇编的文本块中。

EUC

扩展 UNIX 代码 (Extended UNIX Code)。描述在 ISO-2022 中建模的四个编码集。每个编码集可以包含一个或多个不同的字符集,类似于 KS C 5601 中的朝鲜文和朝鲜文汉字字符集。这四个编码集被称为编码集 0、1、2 和 3。在本指南中,这些编码集有时简写为 cs0、cs1、cs2 和 cs3。其他国际化组织有时将这些编码集称为 g0、g1、g2 和 g3。编码集 0 还称为主编码集,编码集 1、2 和 3 称为补充编码集。在韩文和中文版的 EUC 代码实现中,主编码集 (cs0) 包含 ASCII 并且其最高有效位为零。

EUC-CNS

CNS 11643 的 EUC 表示。对于编码集 1,此标准是正常的 CNS 代码,每个字节的最高有效位为 1。换而言之,EUC-CNS 等于 CNS 加 0x8080。例如,CNS 字符 0x212A 变为 EUC-CNS 字符 0xA1AA。或者,以二进制表示就是,由 00100001 00101010 变为 10100001 10101010。对于编码集 2 和 3,字符还带有单一位移字节的前缀 SS2 和 SS3。另外,编码集 2 需要代码平面字节。编码集 2 字符的代码是 SS2 接代码平面字节再接 EUC-CNS。代码平面字节是 0xA0 后加平面编号。例如,平面 2 的代码平面字节是 0xA2。

ISO

国际标准化组织 (International Standards Organization) 的缩写。这一组织由许多专业协会和公司所组成,对于有关国际化的事项作出研究和建议。ISO 2022 提议并描述扩展 UNIX 代码。其他的 ISO 提议包括欧洲 8 位代码和国际化通信协议。

语言环境

一个语言环境描述一个语言或文化环境。其设置值影响语言相关功能的显示和操作。繁体中文 Solaris 软件提供了适用于美国语言环境的 C,为繁体中文扩展 UNIX 代码提供了 zh_TW,并为繁体中文 Big5 语言环境提供了 zh_TW.BIG5

POSIX

用于计算机环境的可移植式操作系统 (Portable Operating System for Computer Environments) 的缩写。一个由七个委员会组成的 IEEE 标准组,创建 UNIX 的标准化和国际化文档。POSIX 文档 1003.1 描述系统内核和系统调用。文档 1003.2 描述 C shell 和标准库。另外五个文档描述实时计算、通信和网络以及其他问题。

Unicode

Unicode Consortium 所开发的国际化字符集和编码方法。

宽字符代码 (WC)

一种定常宽度的四字节代码,在亚洲版 Solaris 文档中称为 WC,用于使用新的 ANSI-C 数据类型 wchar_t 的 EUC 代码的内部表示。尽管 EUC 并没有对补充编码集的大小作出限制(编码集 0 总是单字节),但 WC 将一个字符指定为四字节。如果环境主要是 ASCII,则四字节的标准化所占用的内存空间比所需的多,不过这种做法也加快了由混合字符组成的字符串的处理。第 1000 个字符总是开始于字节 4000(第 0 个字符开始于字节 0)。这种做法有助于应用程序使用任何类型的索引。

X/Open

X/Open 开始时是一个由欧洲、美国和亚洲的国际 UNIX 供应商组成的协会。现在,它与 POSIX 和 ANSI 一样,是主要的标准化组织之一,也是《X/Open 系统界面可移植性指南》的发起者。