國際語言環境指南

Unicode 概述

Unicode 是通用的字元編碼標準,用於顯示電腦處理的文字。Unicode 完全相容於國際標準 ISO/IEC 10646-1:2000 和 ISO/IEC 10646-2:2001,並且包含與 ISO/IEC 10646 相同的所有字元和編碼點。Unicode 標準提供其他關於字元和其用法的資訊。所有與 Unicode 相符的實施方法同樣符合 ISO/IEC 10646。

Unicode 提供了一致性的方法來進行多語一般文字的編碼,並有助於國際文字檔案的交換。處理多語文字的電腦使用者、商務人士、語言學家、研究員和科學家等都發現,「 Unicode 標準」能大幅簡化他們的工作。經常使用數學符號和其他技術性字元的數學家和技術人員也發現「Unicode 標準」確實相當便利。

Unicode 透過 17 個 16 位元的平面最多可支援 1,114,112 個字碼點。每個平面可支援 65,536 個不同的字碼點。

在 Unicode 可以支援的上百萬個字碼點之中,版本 4.0 目前在平面 0、1、2 和 14 定義了 96,382 個字元。平面 15 和 16 用於個人使用字元,也就是使用者自行定義的字元。15 和 16 平面可合併支援總計 131,068 個使用者自行定義字元。

下列任何一種字元編碼方案都可以用來對 Unicode 進行編碼:

UTF-8 是一種可變長度的 Unicode 編碼格式,能有效地保存 ASCII 字元編碼值。此格式的使用方法如同 Solaris Unicode 語言環境中的檔案碼一般。

UTF-16 為16 位元的 Unicode 編碼格式。在 UTF-16 中,達到 65,535 的字元將編碼為單一 16 位元值。對映超過 65,535 到 1,114,111 之間的字元則編碼為成對的 16 位元值 (代用值)。

UTF-32 為固定長度的 21 位元 Unicode 編碼格式,通常出現在 32 位元容器或資料類型中。此格式在 Solaris Unicode 語言環境中係做為程序碼 (寬字元碼) 使用。

如需關於「Unicode 標準」、ISO/IEC 10646 和其各種代表格式的詳細資訊,請參閱下列資源:

Unicode 語言環境:en_US.UTF-8 支援

Unicode/UTF-8 語言環境支援 Unicode 4.0。en_US.UTF-8 語言環境透過使用 UTF-8 做為其字碼集的方法,來提供多字體的處理支援。此語言環境負責處理多重字體中的輸入和輸出文字,其為 Solaris 作業系統中第一個擁有此能力的語言環境。其他 UTF-8 語言環境的功能與 en_us.UTF-8 的功能類似。以下關於 en_US.UTF-8 的討論也可以套用到這些語言環境中。


注意 –

UTF-8 是 Unicode/ISO/IEC 10646-1 的檔案系統安全「通用字元集轉換格式」,由 X/Open-Uniforum Joint Internationalization Working Group (XoJIG) 於 1992 年制定,並在 1996 年由 ISO 和 IEC 認可做為 ISO/IEC 10646-1:1993 的第 2 修正案。Unicode 協會、國際標準組織 (ISO) 以及國際電子電機委員會 (IEC) 採用這個標準做為 Unicode 4.0 和 ISO/IEC 10646-1 的一部分。


Solaris 環境中的 Unicode 語言環境支援定義於 Unicode 4.0 以及 ISO/IEC 10646-1、10646-2 之中每一個字碼點值的處理方式。支援的字體包括泛歐字體和亞洲字體以及阿拉伯文、希伯來文、印度文和泰文等複合文字版面配置的字體。


注意 –

部分 Unicode 語言環境包含額外的 Kanji 或 Hanzi 文字影像,特別是亞洲語言環境。


由於字型資源的限制,目前 Solaris Unicode 語言環境只包含下列字元集中的字元文字影像:

若您想檢視的字元在 en_US.UTF-8 語言環境中並沒有相對應的文字影像,則語言環境將會顯示 no-glyph 的文字影像,如以下圖例所示:

前面的文字內容說明該圖形。

在安裝時該語言環境將為可選項,並指定為系統預設語言環境。

64 位元或 32 位元的 Solaris 系統都提供相同等級的 en_US.UTF-8 語言環境支援。


注意 –

Motif 和 CDE 桌面應用程式及程式庫都支援 en_US.UTF-8 語言環境。不過,XView™ 和 OLIT 程式庫支援 en_US.UTF-8 語言環境。