跳过导航链接 | |
退出打印视图 | |
Oracle Solaris 11.1 国际语言环境指南 Oracle Solaris 11.1 Information Library (简体中文) |
本节介绍各种语言之间的重要差异。
在英文中,单词通常用空格字符分隔。但是,在中文、日文和泰文等语言中,单词之间通常没有分隔符。
特定字符的排序顺序并非在所有语言中都相同。例如,在德国,字符 “ö” 与普通的 “o” 一起排序,而在瑞典则单独进行排序,该字符在瑞典是字母表中的最后一个字母。在某些语言中,字符具有确定字符序列优先级的权值。例如,泰文词典通过权值不同的字符序列来定义排序。
字符集可能在字母表字符数和特殊字符数方面不同。英文字母表只包含 26 个字符,而某些语言却包含更多字符。例如,日文可以包含 20,000 多个字符,而中文包含的字符可能比这一数据还要多。
大多数西欧国家/地区的字母表类似于英文国家/地区使用的由 26 个字符组成的标准字母表。这些字母表通常还包含一些附加基本字符、一些带标记(或带重音)的字符和一些连字符。
日文文本由三种不同的书写体混合而成:
源自中文的日文汉字
平假名和片假名、两个语音书写体(或字音表)
尽管平假名中的每个字符在片假名中都有一个等效字符,但平假名是最常用的书写体,具有类似草书而不是块状的字母形式。日文汉字字符用于拼写词根。片假名最常用于表示“外来”词,即从日文以外的其他语言中引入的词。
日文汉字包含成千上万个字符,但其中常用字符数正在逐年持续减少。现在经常使用的字符只有 3500 个,而普通日本作家的日文汉字字符的词汇量大约为 2000 个。然而,按照日本工业标准 (Japan Industry Standard, JIS) 的要求,计算机系统必须支持 7000 个以上的字符。此外,还有大约 170 个平假名和片假名字符。平均来讲,日文文本中有 55% 是平假名,35% 是日文汉字,10% 是片假名。日文文本中也包含阿拉伯数字和罗马字母。
尽管可以完全避免使用日文汉字,但大多数日文读者发现不带任何日文汉字的文本很难理解。
韩文文本可使用称为朝鲜语文字的语音书写系统进行拼写。朝鲜语文字包含 11,000 个以上的字符,这些字符由称为“字母”的辅音和元音组成。韩文计算机系统中通常使用的字符大约有 3000 个,这些字符来自整个朝鲜语文字字符词汇。韩文还使用称为朝鲜语汉字的象形字,这些象形字基于中国发明的字符集。韩文文本需要 6000 多个朝鲜语汉字字符。当朝鲜语文字表意不太明确时,常使用朝鲜语汉字来避免混淆。朝鲜语文字字符由组合在一起的辅音和元音构成。两者组合在一起可构成一个音节,即朝鲜语文字字符。朝鲜语文字字符通常排列在一个方框中,以便形成的字符组与朝鲜语汉字字符占用相同的空间。韩文文本中还包含阿拉伯数字、罗马字母和特殊符号字符。
泰文字符可以定义为显示屏上包含四个显示单元的列位置。每个列位置最多可包含三个字符。显示单元的组成基于泰文字符的分类。某些泰文字符可由其他字符的分类组成。如果这两个字符组合在一起,则它们就位于同一单元中。否则,它们将分别位于不同的单元中。
中文通常全部由称为汉字的象形书写体中的字符组成。
在中华人民共和国,GB2312 (zh_CN.EUC 语言环境)中约包含 7000 个常用的汉字字符,GBK 字符集(zh_CN.GBK 语言环境)中包含 20,000 个以上的字符,GB18030-2000 字符集(zh_CN.GB18030 语言环境)中约包含 30,000 个字符,包括 Unicode 6.0 中定义的所有 CJK 统一表意扩展 A 字符。
在中国台湾,最常用的字符集是 CNS11643-1992(zh_TW.EUC 语言环境)和 Big5(zh_TW.BIG5 语言环境)。它们共同使用大约 13,000 个汉字字符。
在中国香港特别行政区,Big5 字符集中添加了 4702 个字符,从而形成 Big5-HKSCS 字符集(zh_HK.BIG5HK 语言环境)。
如果字符不是根字符,则它通常由两个或多个部分组成,而两个部分最为常见。在两部分字符中,一部分通常表示意义,另一部分表示发音。有时两部分都表示意义。偏旁部首是最重要的元素,并且字符传统上是按偏旁部首进行排列的,偏旁部首的数量有几百个。一个发音可用多个不同的字符表示,这些字符是不可交替使用的。一个字符可以有多个发音。
在给定上下文中使用某些字符比使用其他字符更为适合。适当的字符通过使用声调从语音上加以区分。与此相反,日文口语和韩文口语则没有声调。
多个语音系统表示中文。在中华人民共和国,最常用的是拼音(使用罗马字符),它在西方经常用于表示地点,如 Beijing。威托玛式系统是一种比较陈旧的语音系统,曾经用于表示地名(如 Peking)。在中国台湾,经常使用的则是注音(或注音符号),它是一种具有独特字母形式的语音字母表。
希伯来文文本用于拼写希伯来文和意第绪文书写体。希伯来文使用双向书写体。希伯来文字母是从右向左进行读写的,而数字则是从左向右读取的。嵌入到希伯来文文本中的所有英文文本也是从左向右读取的。
希伯来文使用 27 个字符的字母表,并使用标准拉丁文(或英文)字母表中的标点符号和数字。希伯来文文本还包含元音和发音标记。这些标记可以通过基本字符内部的点 (dagesh)、字符下的元音标记或字符左上角的重音等形式出现。这些标记通常只用于礼拜式文本中,而很少在日常生活中见到。希伯来文中没有大写字母。
印地文文本用称为天城书的书写体书写。印地文是一种语音语言,并通过一系列音节进行拼写。每个音节都由三种类型的字母片段(天城书字符)构成:辅音字母、独立元音和依赖元音符号。音节本身由辅音和元音核心组成,同时还包含一个可选的前缀辅音。与英文(从基准线开始)不同,天城书字符从写在字符顶部的水平线(称为头笔)悬垂向下书写。这些字符可根据它们的上下文进行组合或更改。同希伯来文一样,印地文文本不区分大小写字母。
美国键盘上的所有字符并非都在其他键盘中出现。同样,其他键盘经常包含许多在美国键盘上看不到的字符。
由于输入由 Oracle Solaris 操作系统 处理,因此可使用任何键盘输入任何语言环境中的字符。
在每个国家/地区中,经常使用几种纸张大小。通常情况下,其中的某个大小要比其他的大小更通用。大多数国家/地区都遵循 ISO 标准 216:“书写纸和某些种类的打印材质-缩减大小-A 和 B 大小系列。”
国际化应用程序不应对可以使用的页大小进行假设。Oracle Solaris 系统不支持对输出页大小进行跟踪。由应用程序负责跟踪输出页大小。下表显示了通用的国际页大小。
表 1-6 通用国际页大小
|