中文幾乎全由稱為漢字的表意字串所組成。
在中華人民共和國(PRC),通常在 GB2312 中(zh 語言環境)會使用約 7000 個漢字字元、在 GBK 字元集(zh.GBK 語言環境)中則使用超過 20,000 個字元,在 GB18030-2000 字元集( zh_CN.GB18030 語言環境)中則使用超過 30,000 個字元,其中包括了所有於 Unicode 3.0 定義的 CJK 延伸 A 字元。
在台灣,最常使用的字元集為 CNS11643-1992(zh_TW 語言環境)以及 Big5(zh_TW.BIG5 語言環境)。其共用大約 13,000 個漢字字元。
在香港,已新增 4702 字元至 Big5 字元集中以變成 Big5-HKSCS 字元集(zh_HK.BIG5HK)。
如果字元並不是根字元,則它通常是由兩個或更多部分所組成,兩個為最常見。在兩部分的字元中,其中一個部分是用來表意,而另一個則用來表音。 偶爾兩部份同時用來表意。部首為最重要的元素,而字元通常也是以部首來編排,部首的數量約為數百個。單一音調可以藉由許多不同的字元來表示,這些字元在用法上無法互相交換。單一字元可以擁有不同的音調。
在指定的上下文中某些字元比其他字元較為合適—藉由使用音調以便在發音上區分該合適的字元。相比之下,日文與韓文口語中並沒有音調。
有幾個語音的系統代表中文。在中華人民共和國中最普遍的是拼音,其使用羅馬字元並廣泛的在西方針對地名使用,例如 Beijing。威妥系統是較古老的語音系統,從前使用在地名上,像是 Peking。在台灣注音(或ㄅㄆㄇㄈ)通常使用唯一字母類型的語音字母表來替代。