在中国 (PRC),GB2312(zh 语言环境)中大约有 7000 个常用的汉字字符,GBK 字符集(zh.GBK 语言环境)中有 20,000 多个字符,GB18030-2000 字符集(zh_CN.GB18030 语言环境)中大约有 30,000 个字符,包括在 Unicode 3.0 中定义的所有 CJK 扩展 A 字符。
在中国台湾地区,最常用的字符集是 CNS11643-1992(zh_TW 语言环境)和 Big5(zh_TW.BIG5 语言环境)。它们共同使用大约 13,000 个汉字字符。
在香港特别行政区,Big5 字符集中添加了 4702 个字符,从而形成 Big5-HKSCS 字符集 (zh_HK.BIG5HK)。
如果字符不是根字符,则它通常由两个或多个部分组成,而两个部分最为常见。在两部分字符中,一部分通常表示意义,一部分则表示发音。有时两部分都表示意义。偏旁部首是最重要的元素,而字符传统上是按偏旁部首进行排列的,偏旁部首的数量有几百个。一个发音可用多个不同的字符表示,这些字符是不可交替使用的。一个字符可以有多个发音。
在给定上下文中使用某些字符比使用其他字符更为适合。适当的字符通过使用声调从语音上加以区分。与此相反,日语口语和朝鲜语口语则没有声调。
几种表示中文的语言系统。在中国,最常用的是拼音(使用罗马字符),它在西方经常用于表示地点,如 Beijing。威托玛式系统是一种比较陈旧的语音系统,曾经用于表示地名(如 Peking)。而在中国台湾地区,经常使用的则是注音(或汉语拼音字母),它是一种具有独特字母形式的语音字母表。