Oracle® Solaris 11.2 国际语言环境指南

退出打印视图

更新时间: 2014 年 7 月
 
 

字符集

字符集可能在字母表字符数和特殊字符数方面不同。英文字母表只包含 26 个字符,而某些语言却包含更多字符。例如,日文可以包含 20,000 多个字符,而中文包含的字符可能比这一数据还要多。

西欧字母表

大多数西欧国家/地区的字母表类似于英文国家/地区使用的由 26 个字符组成的标准字母表。这些字母表通常还包含一些附加基本字符、一些带标记(或带重音)的字符和一些连字符。

日文文本

日文文本由三种不同的书写体混合而成:

  • 源自中文的日文汉字

  • 平假名和片假名、两个语音书写体(或字音表)

尽管平假名中的每个字符在片假名中都有一个等效字符,但平假名是最常用的书写体,具有类似草书而不是块状的字母形式。日文汉字字符用于拼写词根。片假名最常用于表示“外来”词,即从日文以外的其他语言中引入的词。

日文汉字包含成千上万个字符,但其中常用字符数正在逐年持续减少。现在经常使用的字符只有 3500 个,而普通日本作家的日文汉字字符的词汇量大约为 2000 个。然而,按照日本工业标准 (Japan Industry Standard, JIS) 的要求,计算机系统必须支持 7000 个以上的字符。此外,还有大约 170 个平假名和片假名字符。平均来讲,日文文本中有 55% 是平假名,35% 是日文汉字,10% 是片假名。日文文本中也包含阿拉伯数字和罗马字母。

尽管可以完全避免使用日文汉字,但大多数日文读者发现不带任何日文汉字的文本很难理解。

韩文文本

韩文文本可使用称为朝鲜语文字的语音书写系统进行拼写。朝鲜语文字包含 11,000 个以上的字符,这些字符由称为“字母”的辅音和元音组成。韩文计算机系统中通常使用的字符大约有 3000 个,这些字符来自整个朝鲜语文字字符词汇。韩文还使用称为朝鲜语汉字的象形字,这些象形字基于中国发明的字符集。韩文文本需要 6000 多个朝鲜语汉字字符。当朝鲜语文字表意不太明确时,常使用朝鲜语汉字来避免混淆。朝鲜语文字字符由组合在一起的辅音和元音构成。两者组合在一起可构成一个音节,即朝鲜语文字字符。朝鲜语文字字符通常排列在一个方框中,以便形成的字符组与朝鲜语汉字字符占用相同的空间。韩文文本中还包含阿拉伯数字、罗马字母和特殊符号字符。

泰文文本

泰文字符可以定义为显示屏上包含四个显示单元的列位置。每个列位置最多可包含三个字符。显示单元的组成基于泰文字符的分类。某些泰文字符可由其他字符的分类组成。如果这两个字符组合在一起,则它们就位于同一单元中。否则,它们将分别位于不同的单元中。

中文文本

中文通常全部由称为汉字的象形书写体中的字符组成。

  • 在中华人民共和国,GB2312(zh_CN.EUC 语言环境)中约包含 7000 个常用的汉字字符,GBK 字符集(zh_CN.GBK 语言环境)中包含 20,000 个以上的字符,GB18030-2000 字符集(zh_CN.GB18030 语言环境)中约包含 30,000 个字符,包括 Unicode 6.0 中定义的所有 CJK 统一表意扩展 A 字符。

  • 在中国台湾,最常用的字符集是 CNS11643-1992(zh_TW.EUC 语言环境)和 Big5(zh_TW.BIG5 语言环境)。它们共同使用大约 13,000 个汉字字符。

  • 在中国香港特别行政区,Big5 字符集中添加了 4702 个字符,从而形成 Big5-HKSCS 字符集(zh_HK.BIG5HK 语言环境)。

如果字符不是根字符,则它通常由两个或多个部分组成,而两个部分最为常见。在两部分字符中,一部分通常表示意义,另一部分表示发音。有时两部分都表示意义。偏旁部首是最重要的元素,并且字符传统上是按偏旁部首进行排列的,偏旁部首的数量有几百个。一个发音可用多个不同的字符表示,这些字符是不可交替使用的。一个字符可以有多个发音。

在给定上下文中使用某些字符比使用其他字符更为适合。适当的字符通过使用声调从语音上加以区分。与此相反,日文口语和韩文口语则没有声调。

多个语音系统表示中文。在中华人民共和国,最常用的是拼音(使用罗马字符),它在西方经常用于表示地点,如 Beijing。威托玛式系统是一种比较陈旧的语音系统,曾经用于表示地名(如 Peking)。在中国台湾,经常使用的则是注音(或注音符号),它是一种具有独特字母形式的语音字母表。

希伯来文文本

希伯来文文本用于拼写希伯来文和意第绪文书写体。希伯来文使用双向书写体。希伯来文字母是从右向左进行读写的,而数字则是从左向右读取的。嵌入到希伯来文文本中的所有英文文本也是从左向右读取的。

希伯来文使用 27 个字符的字母表,并使用标准拉丁文(或英文)字母表中的标点符号和数字。希伯来文文本还包含元音和发音标记。这些标记可以通过基本字符内部的点 (dagesh)、字符下的元音标记或字符左上角的重音等形式出现。这些标记通常只用于礼拜式文本中,而很少在日常生活中见到。希伯来文中没有大写字母。

印地文文本

印地文文本用称为天城书的书写体书写。印地文是一种语音语言,并通过一系列音节进行拼写。每个音节都由三种类型的字母片段(天城书字符)构成:辅音字母、独立元音和依赖元音符号。音节本身由辅音和元音核心组成,同时还包含一个可选的前缀辅音。与英文(从基准线开始)不同,天城书字符从写在字符顶部的水平线(称为头笔)悬垂向下书写。这些字符可根据它们的上下文进行组合或更改。同希伯来文一样,印地文文本不区分大小写字母。