國際語言環境指南

Unicode 概述

「Unicode 標準」係用來表示電腦處理文字的通用字元編碼標準。它與國際標準 ISO/IEC 10646-1:2000 和 ISO/IEC 10646–2:2001 完全相容,並包含了所有與 ISO/IEC 10646 相同的字元和編碼點。「Unicode 標準」提供了關於字元及其使用方法的附加資訊。 所有與 Unicode 相符的實施方法同樣符合 ISO/IEC 10646。

「Unicode 標準」提供了一致性的方法來進行多語一般文字的編碼,並有助於國際文字檔案的交換。處理多語文字的電腦使用者、商務人士、語言學家、研究員和科學家等都發現,「 Unicode 標準」能大幅簡化他們的工作。 經常使用數學符號和其他技術性字元的數學家和技術人員也發現「Unicode 標準」確實相當便利。

Unicode 透過 17 個 16 位元的平面最多可支援 1,114,112 個編碼點。每個平面可支援 65,536 個不同的編碼點。

在 Unicode 可支援的超過一百萬個編碼點中,3.1 版目前可在 0、1、2 和 14 平面上定義 94,140 個字元。15 和 16 平面,也就是使用者定義字元,則只供私人使用。15 和 16 平面可合併支援總計 131,068 個使用者定義字元。

可使用下列任何的字元編碼機制來進行 Unicode 的編碼:

UTF-8 是一種可變長度的 Unicode 編碼格式,能有效地保存 ASCII 字元編碼值。此格式的使用方法如同 Solaris Unicode 語言環境中的檔案碼一般。

UTF-16 為16 位元的 Unicode 編碼格式。在 UTF-16 中,達到 65,535 的字元將編碼為單一 16 位元值。對映超過 65,535 到 1,114,111 之間的字元則編碼為成對的 16 位元值 (代用值)。

UTF-32 為固定長度的 21 位元 Unicode 編碼格式,通常出現在 32 位元容器或資料類型中。此格式在 Solaris Unicode 語言環境中係做為程序碼 (寬字元碼) 使用。

若需要與「Unicode 標準」、ISO/IEC 10646 和其各種代表格式有關的詳細資訊,請參閱: