中文通常全部由称为汉字的象形书写体中的字符组成。
在中国 (PRC) ,GB2312(zh 语言环境)中大约有 7000 个常用的汉字字符,GBK 字符集(zh.GBK 语言环境)中有 20000 多个字符,GB18030-2000 字符集( zh_CN.GB18030 语言环境)中大约有 30000 个字符,包括在 Unicode 3.0 中定义的所有 CJK 扩展 A 字符。
在中国台湾地区,最常用的字符集是 CNS11643-1992(zh_TW 语言环境)和 Big5(zh_TW.BIG5 语言环境)。 它们共同使用大约 13000 个汉字字符。
在香港特别行政区,Big5 字符集中添加了 4702 个字符,从而形成 Big5-HKSCS 字符集(zh_HK.BIG5HK)。
如果字符不是根字符,则它通常由两个或多个部分组成,而两个部分最为常见。 在两部分字符中,一部分通常表示意义,一部分则表示发音。 有时两部分都表示意义。 偏旁部首是最重要的元素,而字符传统上是按偏旁部首进行排列的,偏旁部首的数量有几百个。一个发音可用多个不同的字符表示,这些字符是不可交替使用的。 一个字符可以有多个发音。
在给定上下文中使用某些字符比使用其它字符更为适合 — 适当的字符通过使用声调从语音上加以区分。 与此相反,日语口语和朝鲜语口语则没有声调。
表示中文的语音系统有若干种。 在中国,最常用的是拼音(它使用罗马字符),它在西方经常用于表示地点,如 Beijing。 威托玛式系统是一种比较陈旧的语音系统,曾经用于表示地名(如 Peking)。 而在中国台湾地区,经常使用的则是注音(即 注音符号),它是一种具有独特字母形式的语音字母表。