国际语言环境指南

字符集

各字符集在字母字符和特殊字符的数量上可能有所不同。英语字母表只包含 26 个字符,而某些语言却包含更多字符。例如,日语可包含 20000 多个字符,而中文可包含比这一数目还要多的字符。

西欧字母表

大多数西欧国家/地区的字母表类似于英语国家/地区使用的标准的 26 个字符的字母表,但往往还包含一些附加基本字符、一些带标记(或带重音)的字符和一些连字符。

日语文本

日语文本由三种不同的书写体混合而成: 源自中文的日语汉字和两种语音书写体(或音节),即平假名和片假名。

尽管平假名中的每个字符在片假名中都有一个等效字符,但平假名是最常用的书写体,具有类似草书而不是块状的字母形式。日语汉字字符用于拼写词根。片假名通常用于表示“外来”词,即从日语以外的其它语言中“引入”的词。

日语汉字包含成千上万个字符,但其中常用字符数正在逐年减少。现在经常使用的字符只有 3500 个,尽管普通日本作家的日语汉字字符的词汇量大约为 2000 个。然而,出于日本工业标准 (JIS) 的需要,计算机系统必须支持 7000 个以上的常用字符。此外,还有大约 170 个平假名和片假名字符。平均来讲,日语文本中有 55% 是平假名,35% 是日语汉字,10% 是片假名。日语文本中也包含阿拉伯数字和罗马字母。

尽管可以完全避免使用日语汉字,但大多数日语读者发现一篇不带任何日语汉字的文本很难理解。

朝鲜语文本

朝鲜语文本可使用称为“朝鲜语文字”的语音文字系统进行拼写。 朝鲜语文字包含 11000 多个字符,这些字符由称为“字母”的辅音和元音组成。 朝鲜语计算机系统中通常使用的字符大约有 3000 个,这些字符来自整个朝鲜语文字字符词汇。朝鲜语还使用名为“朝鲜语汉字”的象形字,这些象形字基于中国发明的字符集。朝鲜语文本需要 6000 多个朝鲜语汉字字符。 当朝鲜语文字表意不太明确时,常使用朝鲜语汉字来避免混淆。朝鲜语文字字符由组合在一起的辅音和元音构成。 两者组合在一起可构成音节,即朝鲜语文字字符。 朝鲜语文字字符通常排列在一个方框中,以便形成的字符组与朝鲜语汉字字符占用相同的空间。 朝鲜语文本中还包含阿拉伯数字、罗马字母和特殊符号字符。

泰语文本

一个泰语字符可在显示屏上定义为包含四个显示单元的列位置。 每个列位置最多可包含三个字符。 显示单元的组成基于泰语字符的分类。 某些泰语字符可由其它字符的分类组成。 如果可将它们组合在一起,则这两个字符将位于同一单元中。 否则,它们将分别位于不同的单元中。

中文文本

中文通常全部由称为汉字的象形书写体中的字符组成。

如果字符不是根字符,则它通常由两个或多个部分组成,而两个部分最为常见。 在两部分字符中,一部分通常表示意义,一部分则表示发音。 有时两部分都表示意义。 偏旁部首是最重要的元素,而字符传统上是按偏旁部首进行排列的,偏旁部首的数量有几百个。一个发音可用多个不同的字符表示,这些字符是不可交替使用的。 一个字符可以有多个发音。

在给定上下文中使用某些字符比使用其它字符更为适合 — 适当的字符通过使用声调从语音上加以区分。 与此相反,日语口语和朝鲜语口语则没有声调。

表示中文的语音系统有若干种。 在中国,最常用的是拼音(它使用罗马字符),它在西方经常用于表示地点,如 Beijing。 威托玛式系统是一种比较陈旧的语音系统,曾经用于表示地名(如 Peking)。 而在中国台湾地区,经常使用的则是注音(即 注音符号),它是一种具有独特字母形式的语音字母表。

希伯来语文本

希伯语文本用于拼写希伯来语和意第绪语书写体,它比英语早数千年。希伯来语是一种双向书写体,这是因为希伯来语字母是从右向左进行读写的,而数字则是从左向右读的。 嵌入到希伯来语文本中的所有英语文本也是从左向右读的。

希伯来语使用 27 个字符的字母表,并使用标准拉丁语(或英语)字母表中的标点符号和数字。 希伯来语文本还包含元音和发音标记。 这些标记可以通过基本字符内部的点 (Dagesh) 、字符下的元音标记或字符左上角的重音等形式出现。 这些标记通常只用于礼拜式文本中,而很少在日常生活中见到。 希伯来语中也没有大写字母。

印地语文本

印地语文本用称为“天城书”(意思是“神的手笔”)的书写体书写。印地语是一种语音语言,并通过一系列音节进行拼写。 每个音节都由三种类型的字母片段(天城书字符)构成: 辅音字母、独立元音和依赖元音符号。 音节本身由辅音和元音核心组成,同时还包含一个可选的前缀辅音。 与英语(从基准线开始)不同,天城书字符从写在字符顶部的水平线(称为头笔) 悬垂向下书写。 这些字符可根据它们的上下文进行组合或更改。 同希伯来语一样, 印地语文本不区分大小写字母。