中華人民共和国 (PRC) の場合、GB2312 (zh ロケール) には一般によく使用されている約 7,000 の漢字があり、GBK 文字セット (zh.GBK ロケール) には 20,000 以上の文字があり、GB18030-2000 文字セット (zh_CN.GB18030 ロケール) には約 30,000 の文字があります (Unicode 3.0 で定義されているすべての CJK 拡張 A 文字を含む)。
台湾では、CNS11643-1992 (zh_TW ロケール) と Big5 (zh_TW.BIG5 ロケール) 文字セットが最もよく使用されています。どちらのロケールにも約 13,000 の漢字が定義されています。
香港では、Big5 文字セットに 4702 文字が追加された Big5-HKSCS 文字セット (zh_HK.BIG5HK) が使用されています。
語幹文字でない限り、通常 1 つの文字は 2 つ以上の部分で形成されます。最も一般的なのは 2 つの部分で形成されるものです。2 つの部分で構成される文字では、1 つが意味を表し、もう 1 つは発音を表すのが普通です。しかし、両方とも意味を表すこともあります。漢字では部首が最も重要な要素です。漢字は伝統的に部首によって分類され、部首の数は数百にものぼります。異なる文字で同じ読み方をするものも多数ありますが、使用する際は明確に区別されます。同じ文字で異なる読み方をするものもあります。
中国語には四声と呼ばれる声調があり、文脈の中で適切な文字を音声によって区別します。一方、日本語と韓国語には声調はありません。
中国語の発音を表す表音体系にはいくつかの種類があります。中華人民共和国で最も普及しているのはピンイン方式です。これはローマ字を使用するもので、広く西部で採用されており、たとえば北京を Beijing と表します。ウェードガイル方式は旧式のもので、北京を Peking と表すなど地名の表現に以前は使用されていました。 台湾では、独特の字体を持った表音用のアルファベットである zhuyin (bopomofo) がよく使用されます。