简体中文 Solaris 用户指南

词汇表

ANSI

美国国家标准协会 (American National Standards Institute) 的缩写。ANSI 提议不同计算语言的标准定义。在由 ANSI C X3J11 委员会准备的最新 C 语言标准中,包括国际化过程所需的用于计算处理多字节字符的库功能,以及一个可以处理四字节字符的新数据类型 wchar_t。该标准尚未完成,因而被称为“建议的 ANSI C 标准”,或 ANSI C-X3J11。

ASCII

美国信息交换标准代码 (American Standard Code for Information Interchange) 的缩写。一个七位代码,包含英文大小写字母、标点符号、数字和控制代码。每个字节中的第八位在不同的应用程序中被用于奇偶校验、通讯和信息传输协议、数据压缩或其他用途。打算进行国际化的应用程序,如果它们将要使用多个编码集或多字节字符,或者将要使用处理多个编码集或多字节字符的公用程序,则它们无法利用此位。

种类

在简体中文 Solaris 文档集中,种类与本地化相关。一个种类是一个国家的语言表现形式和文化习惯的一部分。例如,日期在美国通常表示为月,日; 而在其他国家,日期可能是。日期和时间可以被看作是本地语言的一个种类。种类也指程序的种类、与种类相关的环境变量,以及每个种类的 ANSI 本地化表。

字符集

字符集被定义为一组用于组织、控制或表示数据的元素。字符集可由字母 、表意文字或其他单元组成。这看起来似乎有点没有限制,但字符集可包含其他字符集,这使界限不清楚。

编码集

也称编码字符集,这是一组明确的规则,用于建立字符集,并在字符集中的每个字符和它的位表示之间建立一一对应关系。例如,英文字符集(包括标点和数字)可以按以下方式映射到 ASCII 编码集:每个字符对应唯一的一个位代码,且没有一个位代码对应于一个以上的字符。

EUC

扩展 UNIX 代码 (Extended UNIX Code)。描述建立在 ISO-2022 之上的四个编码集。每个编码集可以包含一个或多个不同的字符集,如 KS C 5601 中的朝鲜文字和朝鲜文汉字字符集。四个编码集分别被称为编码集 0、编码集 1、编码集 2 和编码集 3。在本文中,有时将它们简称为 cs0、cs1、cs2 和 cs3。其他国际文献有时称这些集为 g0、g1、g2 和 g3。编码集 0 也称为主编码集,编码集 1、编码集 2 和编码集 3 称为补充编码集。在韩文和中文版的 EUC 代码中,主编码集 (cs0) 包含 ASCII 并且其最高位为零。

ISO

国际标准化组织 (International Standards Organization) 的缩写。该组织由许多专业协会和公司组成,它对国际化问题进行研究并提出建议。ISO 2022 提议并描述扩展 UNIX 代码。其他的 ISO 提议包括欧洲 8 位代码和国际化通讯协议。

语言环境

一个语言环境描述一个语言或文化环境。其设置值影响语言相关功能的显示和操作。简体中文 Solaris 软件为美国提供 C,为简体中文提供 zh

POSIX

用于计算机环境的可移植操作系统 (Portable Operating System for Computer Environments) 的缩写。一个由七个委员会组成的 IEEE 标准组,创建 UNIX 的标准化和国际化文档。POSIX 文档 1003.1 描述内核和系统调用。文档 1003.2 描述 C shell 和标准库。另外五个文档描述实时计算、通讯和网络以及其他问题。

Unicode

Unicode 协会开发的国际化字符集和编码方法。

宽字符代码 (WC)

一种定常宽度的四字节代码,在亚洲版 Solaris 文档中称为 WC,用于使用新的 ANSI-C 数据类型 wchar_t 的 EUC 代码的内部表示。尽管 EUC 并没有对补充编码集的大小作出限制(编码集 0 总是单字节),但 WC 将一个字符指定为四字节。如果环境主要是 ASCII,则四字节的标准化所占用的内存空间比所需的多,不过这也加快了由混合字符组成的字符串的处理。第 1000 个字符总是开始于字节 4000(第 0 个字符开始于字节 0)。这有助于应用程序使用任何类型的索引。

X/Open

X/Open 开始时是一个由欧洲、美国和亚洲的国际 UNIX 厂家组成的协会。现在它已成为像 POSIX 和 ANSI 一样的主要的标准化组织。是 X/Open System Interface Portability Guide (X/Open 系统界面可移植性指南) 的发起者。