Unicode 是通用的字元編碼標準,用於顯示電腦處理的文字。Unicode 完全相容於國際標準 ISO/IEC 10646-1:2000 和 ISO/IEC 10646-2:2001,並且包含與 ISO/IEC 10646 相同的所有字元和編碼點。Unicode 標準提供其他關於字元和其用法的資訊。所有與 Unicode 相符的實施方法同樣符合 ISO/IEC 10646。
Unicode 提供了一致性的方法來進行多語一般文字的編碼,並有助於國際文字檔案的交換。處理多語文字的電腦使用者、商務人士、語言學家、研究員和科學家等都發現,「 Unicode 標準」能大幅簡化他們的工作。經常使用數學符號和其他技術性字元的數學家和技術人員也發現「Unicode 標準」確實相當便利。
Unicode 透過 17 個 16 位元的平面最多可支援 1,114,112 個字碼點。每個平面可支援 65,536 個不同的字碼點。
在 Unicode 可以支援的上百萬個字碼點之中,版本 4.0 目前在平面 0、1、2 和 14 定義了 96,382 個字元。平面 15 和 16 用於個人使用字元,也就是使用者自行定義的字元。15 和 16 平面可合併支援總計 131,068 個使用者自行定義字元。
下列任何一種字元編碼方案都可以用來對 Unicode 進行編碼:
UTF-8
UTF-16
UTF-32
UTF-8 是一種可變長度的 Unicode 編碼格式,能有效地保存 ASCII 字元編碼值。此格式的使用方法如同 Solaris Unicode 語言環境中的檔案碼一般。
UTF-16 為16 位元的 Unicode 編碼格式。在 UTF-16 中,達到 65,535 的字元將編碼為單一 16 位元值。對映超過 65,535 到 1,114,111 之間的字元則編碼為成對的 16 位元值 (代用值)。
UTF-32 為固定長度的 21 位元 Unicode 編碼格式,通常出現在 32 位元容器或資料類型中。此格式在 Solaris Unicode 語言環境中係做為程序碼 (寬字元碼) 使用。
如需關於「Unicode 標準」、ISO/IEC 10646 和其各種代表格式的詳細資訊,請參閱下列資源:
Unicode 協會的「The Unicode Standard, Version 4.0」
ISO/IEC 10646-1:2000,資訊技術通用的多重八位元組字元集 (UCS) - Part 1:架構和基本多語平面
ISO/IEC 10646-2:資訊技術通用的多重八位元組字元集 (UCS) - Part 2:字體和符號的輔助多語平面、CJK 表意文字的輔助平面、特殊目的平面
Unicode 協會的網站位於 http://www.unicode.org/。
Unicode/UTF-8 語言環境支援 Unicode 4.0。en_US.UTF-8 語言環境透過使用 UTF-8 做為其字碼集的方法,來提供多字體的處理支援。此語言環境負責處理多重字體中的輸入和輸出文字,其為 Solaris 作業系統中第一個擁有此能力的語言環境。其他 UTF-8 語言環境的功能與 en_us.UTF-8 的功能類似。以下關於 en_US.UTF-8 的討論也可以套用到這些語言環境中。
UTF-8 是 Unicode/ISO/IEC 10646-1 的檔案系統安全「通用字元集轉換格式」,由 X/Open-Uniforum Joint Internationalization Working Group (XoJIG) 於 1992 年制定,並在 1996 年由 ISO 和 IEC 認可做為 ISO/IEC 10646-1:1993 的第 2 修正案。Unicode 協會、國際標準組織 (ISO) 以及國際電子電機委員會 (IEC) 採用這個標準做為 Unicode 4.0 和 ISO/IEC 10646-1 的一部分。
Solaris 環境中的 Unicode 語言環境支援定義於 Unicode 4.0 以及 ISO/IEC 10646-1、10646-2 之中每一個字碼點值的處理方式。支援的字體包括泛歐字體和亞洲字體以及阿拉伯文、希伯來文、印度文和泰文等複合文字版面配置的字體。
部分 Unicode 語言環境包含額外的 Kanji 或 Hanzi 文字影像,特別是亞洲語言環境。
由於字型資源的限制,目前 Solaris Unicode 語言環境只包含下列字元集中的字元文字影像:
ISO 8859-1 (大部分西歐語言,例如英文、法文、西班牙文、德文)
ISO 8859-2 (大部分中歐語言,例如捷克文、波蘭文、匈牙利文)
ISO 8859-4 (斯堪的納維亞文和波羅的海文)
ISO 8859-5 (俄文)
ISO 8859-6 (阿拉伯文,包含許多表示格式的字元文字影像)
ISO 8859-7 (希臘文)
ISO 8859-8 (希伯來文)
ISO 8859-9 (土耳其文)
ISO 8859-15 (具有 euro 記號的西歐語系)
GB 2312-1980 (簡體中文)
JIS X 0201-1976,JIS X 0208-1990 (日文)
KSC 5601-1992 附錄 3 (韓文)
GB 18030 (簡體中文)
HKSCS (繁體中文,香港)
Big5 (繁體中文,台灣)
IS 13194.1991,亦為 ISCII (北印度文,包含許多表示格式的字元文字影像)
若您想檢視的字元在 en_US.UTF-8 語言環境中並沒有相對應的文字影像,則語言環境將會顯示 no-glyph 的文字影像,如以下圖例所示:
在安裝時該語言環境將為可選項,並指定為系統預設語言環境。
64 位元或 32 位元的 Solaris 系統都提供相同等級的 en_US.UTF-8 語言環境支援。
Motif 和 CDE 桌面應用程式及程式庫都支援 en_US.UTF-8 語言環境。不過,XView™ 和 OLIT 程式庫不支援 en_US.UTF-8 語言環境。