本章將說明 Solaris 國際化和本土化的新功能與關鍵概念。本章包含以下主題。
目前 Solaris 發行版本有許多新功能,包括 UTF-8 語言環境的 Unicode 4.0 支援、增強型鍵盤支援以及多項 mp 列印過濾器改良功能。
透過 Solaris 國際化架構,您可以輕鬆地開發、部署以及管理全球的應用程式和語言服務。此單一多國語言產品提供了 39 種語言和 162 個語言環境的支援。此外,可以支援泰文和北印度文字體所需的複雜文字版面配置。也有支援阿拉伯文和希伯來文等語言的雙向文字能力。
支援許多不同 Solaris 語言環境的輸入法、字元集、字碼集轉換以及其他與語言有關的功能。您可以使用下列標準 API,在多重語言環境中部署應用程式。您也可以在 Solaris 環境中自訂語言屬性、變更轉換器表格或增加新的輸入法編輯器。
Solaris X 全球化架構的原始碼,已在 2000 年秋天釋出到開放原始碼社群。此舉讓您得以遵循一個共同參考介面,來增強全球化應用程式的相容性與互通性。字碼集獨立的全球化方法,讓您在原生語言和 Unicode 語言環境中都可以作業。Solaris 架構提供擴展至各平台的能力。豐富的資料轉換集確保了多種編碼與不同協力廠商平台之間的互通性。
Solaris 平台也使得跨國公司將其伺服器管理擴展至世界各地。與其他相競爭的平台不同,Solaris 平台是透過以服務為基礎的方法來進行語言服務的管理。無論用戶端系統為何,伺服器管理者都可以透過全球網路以遠端方式啟用語言服務。此獨立於用戶端之外的方法,讓您無須變更用戶端應用程式即可進行系統升級。例如,使用者不必為了讀取從巴黎網咖寄來的阿拉伯文電子郵件,而變更本機的用戶端應用程式。
在目前 Solaris 發行版本中包含下列新功能:
自動編碼尋找程式
自動編碼尋找程式是用於處理全球字元的公用程式。透過一般用途介面,自動編碼尋找程式提供一種可輕鬆偵測特定檔案或字串編碼方法的途徑。編碼偵測可簡化對各種語言字元編碼的讀取程序。如需詳細資訊,請參閱「auto_ef(1) 線上說明手冊」或「libauto_ef(3LIB) 線上說明手冊」。
語言環境管理員
語言環境管理員可讓您透過指令行介面查詢與設定 Solaris 作業系統的語言環境。您可以使用 localeadm(1M) 工具,來顯示系統上已安裝的或是特定裝置或目錄上常駐之語言環境套裝軟體的資訊。您可以以區域為基礎,新增與移除目前系統中的語言環境。例如,您可以將「東歐」地區中的所有語言環境新增至目前的系統中。
在使用語言環境管理員之前,如果系統已安裝完成,則您必須新增/移除單獨的套裝軟體來變更機器上的語言環境。因為套裝軟體容易遺失或被忽略,使用單獨套裝軟體時經常會出現錯誤。
語言環境管理員是 Solaris 安裝程式中語言環境選擇邏輯的補充。安裝程式仍然是正確安裝 Solaris 語言環境的主要應用程式。
mp 增強功能
mp 列印過濾器首見於 Solaris 9 作業系統,用來取代目前 Solaris 發行版本中的 xutops 列印過濾器。此發行版本中的 mp 列印過濾器,透過下列主要改良功能而增強了。
如果在 mp.conf 檔案中找不到已設定的字型,mp 程式將會繼續執行,直到出現使用未認可字型的文字影像。
為了更快速列印,會適當地調整 mp 所使用的字典機制。
TrueType 引擎已增強,可以對所有各種寬度之空格字元進行處理。
Solaris 作業系統已不再支援 xutops 列印過濾器。xutops 列印過濾器以往是用來在 UTF-8 語言環境中列印國際化文字。取代了 xutops 的 mp 列印過濾器,也就是 xutops 列印過濾器受支援功能的超集合。如需詳細資訊,請參閱「mp(1) 線上說明手冊」。
全新歐洲鍵盤支援
Sun I/O 鍵盤可支援波蘭程式設計師 Type 5 鍵盤和 Sun RayTM USB Type 6 的俄文、愛沙尼亞文以及加拿大法文鍵盤。
目前還沒有可供全新歐洲鍵盤類型使用的硬體。若要使用全新鍵盤的軟體,請參閱新的 Solaris 鍵盤軟體支援中的程序。
Unicode 4.0 支援
下列 UTF-8 語言環境已更新為可支援全新 4.0 版本的 Unicode 標準:
ar_EG.UTF-8
de_DE.UTF-8
en_US.UTF-8
es_ES.UTF-8
fi_FI.UTF-8
fr_BE.UTF-8
fr_FR.UTF-8
he_IL.UTF-8
hi_IN.UTF-8
it_IT.UTF-8
ja_JP.UTF-8
ko_KR.UTF-8
pl_PL.UTF-8
pt_BR.UTF-8
ru_RU.UTF-8
sv_SE.UTF-8
th_TH.UTF-8
tr_TR.UTF-8
zh_CN.UTF-8
zh_HK.UTF-8
zh_TW.UTF-8
此標準的新版本加入了 1,226 個其他新字元,並且包含多種基準的變更和廣泛的變更。
Unicode 3.2 定義了更嚴謹的 UTF-8 位元組序列以做為「UTF-8 勘誤表」:
表 1–1 合法的 UTF-8 位元組序列
字碼點 |
第 1 位元組 |
第 2 位元組 |
第 3 位元組 |
第 4 位元組 |
---|---|---|---|---|
U+0000..U+007F |
00..7F | |||
U+0080..U+07FF |
C2..DF |
80..BF | ||
U+0800..U+0FFF |
E0 |
A0..BF |
80..BF | |
U+1000..U+CFFF |
E1..EC |
80..BF |
80..BF | |
U+D000..U+D7FF |
ED |
80..9F |
80..BF | |
U+D800..U+DFFF |
格式錯誤 | |||
U+E000..U+FFFF |
EE..EF |
80..BF |
80..BF | |
U+10000..U+3FFFF |
F0 |
90..BF |
80..BF |
80..BF |
U+40000..U+FFFFF |
F1..F3 |
80..BF |
80..BF |
80..BF |
U+100000..U+10FFFF |
F4 |
80..8F |
80..BF |
80..BF |
這些序列排除從 U+D800 到 U+DFFF 之間的代理字碼點。此序列也禁止任何其他非法的位元組值。為了遵循此新定義,Unicode 語言環境方法和 UTF-8 iconv 模組都已增強,可以對最新定義的 UTF-8 無效位元組序列進行偵測。
Kedmanee (TIS820-2531) 鍵盤配置。Kedmanee 配置是針對打字機設計的,不適用於電腦鍵盤。由於打字機鍵盤上的按鍵有限,因此這個配置無法使用部分泰文特殊字元。TIS820-2531 在電腦鍵盤上採用 Kedmanee 配置。
TIS820-2538 鍵盤配置。增強型 Kedmanee 配置是 TIS820-2531 配置的更新版本,其中包含原本無法在舊版 Kedmanee 配置中使用的部分泰文特殊字元。TIS820-2538 是目前唯一由泰國工業標準局發佈的泰文鍵盤配置標準。
Pattajoti 鍵盤配置。Pattajoti 配置也是針對打字機設計的,但具有較佳的手指受力分佈區域。Pattajoti 是由 Royal Irrigation Department 的官員所發明的,並且仍廣泛使用於該部門中。
可配置的鍵盤配置,使用者可自行定義泰文輸入法的鍵盤配置。
印度語言的輸入法支援
此發行版本包含一個與中文輸入法所用相類似的字碼表輸入法介面。以 IIIMF SDK 與 SunIM 語言介面為基礎的印度文輸入法,提供下列新功能:
以語音、字母轉譯為基礎的輸入法和鍵盤配置。受支援的鍵盤配置在 ISCII 標準中被定義為 INSCRIPT 鍵盤外觀。
標準輸入法切換。
印度文字體包括北印度文、坦米爾文、卡納達文、馬來亞拉姆文、特拉古文、古吉拉特文、旁遮普文和孟加拉文。您可以透過按下 F5 鍵來變更輸入字體的種類。
新鍵盤配置的 Plug-in 機制可在未來輕鬆達成擴充之效。語言引擎模組將會載入 Plug-in 設定檔。
國際化與本土化是不同的過程。國際化是使軟體可在各種語言或區域之間流通的程序,而本土化是針對特定語言或區域改寫軟體的程序。可使用依照特定文化需求修改執行時間程式行為的介面,來開發國際化的軟體。本土化牽涉到建立線上資訊以支援語言或區域,稱之為語言環境。
不像其他的軟體,必須經過完全重寫才能以不同地區的語言和慣例來作業,國際化的軟體並不需要重寫。國際化軟體不需經過變更就可從一種語言環境移入另一種語言環境。Solaris 為國際化的系統,可提供建立國際化軟體所需要的基礎架構和介面。
國際化應用程式的可執行影像可攜帶至各種語言和區域中。若要將軟體國際化:
使用本書所說明的介面,使用可藉由動態重新編譯而修改的環境來建立軟體。
將軟體分割為可執行程式碼與使用者可以見到的所有訊息。將訊息字串保留在訊息目錄中。
訊息字串已針對語言或區域進行翻譯。一個語言環境包括訊息字串與指定排序的方法。
若要使用產品的已本土化版本,使用者必須設定部分環境變數。該產品才能夠顯示已轉譯為該語言環境之語言的訊息。日期、時間、貨幣以及其他資訊都會根據特定語言環境的轉換來進行格式化與顯示。可提供不同層級的訊息翻譯和線上說明內容,如以下圖表所述。
OS (作業系統) 語言環境層提供了基本語言環境資料庫以及在應用程式執行時間插入至 OS 系統的功能。應用程式經由標準 API 存取這些作業系統語言環境模組。
該 X11 語言環境層提供 X 輸入方法與 X 輸出方法的介面,給 X11 應用程式用於本機文字輸入與顯示。字型可使應用程式顯示各種語言的字元。
CDE/Motif 內建於 X11 視窗系統的頂端。因此,CDE/Motif 可以透過 X11 API 來使用 X11 語言環境能力。為了讓桌上管理系統能在目標語言環境中正常運作,Solaris 本土化具備了 CDE 應用程式的各種特定語言環境配置。提供不同層級的訊息翻譯與線上說明內容。
應用程式的關鍵概念就是程式的語言環境。語言環境是原生語言環境的明確模組與定義。語言環境的概念是明確定義的,並包括在「ANSI C 語言」標準的程式庫定義中。
語言環境是由一些種類所組成,包括依賴於國家的格式或其他規格。程式的語言環境可定義自身的字碼集、資料和時間的格式慣例、幣制慣例、十進制的格式慣例以及分頁 (排序) 順序。
語言環境可由基礎語言、使用的國家 (地區)以及可選字碼集來組成。通常會假設字碼集。例如,德語為 de,為德國的縮寫,而瑞士德語為 de_CH,CH 為瑞士邦聯的縮寫。此轉換可容許國家間的特定差異,如貨幣單位記號。
超過一個以上的語言環境可與一種特定語言相關聯,且可容許區域性的差異。例如,一位在美國說英語的使用者可以選取 en_US 語言環境 (美式英語),而另一位在英國說英語的使用者可以選取 en_GB (英式英語)。
語言環境名稱通常是由 LANG 環境變數指定的。語言環境種類隸屬於 LANG,但是可以個別設定,如此即會置換 LANG。如果已設定 LC_ALL 運算元,它會置換 LANG 和所有個別的語言環境種類。
語言環境命名慣例為:
language[_territory][.codeset] [@modifier]
其中雙字母的 language 字碼是來自 ISO 639,雙字母的 territory 字碼是來自 ISO 3166,codeset 是使用在語言環境中的字碼集名稱,modifier 是區分沒有修飾元之語言環境的特性名稱。
所有 Solaris 產品的語言環境都以 US-ASCII 字碼值保存「可攜字元集」的字元。
如需「可攜字元集」的詳細資訊,請參閱「X/Open CAE Specification:System Interface Definitions, Issue 5」(ISBN 1–85912–186–1)。
單一語言環境可以擁有一個以上的語言環境名稱。例如,POSIX 是與 C 相同的語言環境。
C 語言環境也稱為 POSIX 語言環境,是所有 POSIX 相容系統的 POSIX 系統預設語言環境。Solaris 作業系統即是 POSIX 系統。「單一 UNIX 規格」第 3 版中定義了 C 語言環境。請前往下列網址註冊,以便閱讀和下載此規格:http://www.unix.org/version3/online.html。
您可以透過下列兩種方法其中之一,指定您的國際化程式執行於 C 語言環境:
取消設定所有語言環境的環境變數。
system% unsetenv LC_ALL LANG LC_CTYPE LC_COLLATE LC_NUMERIC \ LC_TIME LC_MONETARY LC_MESSAGES
取消設定所有語言環境的環境變數之後,便會以 C 語言環境來執行應用程式。
明確地設定語言環境為 C 或 POSIX。
system% setenv LC_ALL C system% setenv LANG C
部分應用程式會檢查 LANG 環境變數,而不實際呼叫 setlocale(3C) 來參閱目前的語言環境。在此情況下,setenv 會指定 LC_ALL and LANG 環境變數,以明確地設定 C 語言環境。如需瞭解語言環境的各個環境變數之間的優先順序關係,請參閱「setlocale(3C) 線上說明手冊」。
若要在終端機環境中檢查目前的語言環境設定,請執行 locale(1) 指令。
system% locale
完整的 Solaris 語言環境擁有所有列出的功能以及使用相關語言的本土化系統訊息。部份語言環境沒有安裝本土化的訊息。Solaris 環境中的所有語言環境都可顯示本土化訊息,可為已安裝的相關語言提供本土化訊息。例如,下列語言環境可以是部分或完整語言環境:
de_DE.ISO8859-1
de_DE.ISO8859-15
de_DE.UTF-8
de_AT.ISO8859-1
de_AT.ISO8859-15
de_CH.ISO8859-1
當您從 Languages CD 安裝德文訊息翻譯時,上述所有的語言環境都會變成完整語言環境,因為它們都可存取已完全翻譯的桌上管理系統。Languages CD 包含下列語言以及語言環境的訊息翻譯:
德文
法文
西班牙文
瑞典文
義大利文
日文
韓文
簡體中文語言環境
繁體中文語言環境
Software CD 提供了所有的部份語言環境。Language CD 提供了訊息翻譯。
所有英文語言環境也是完整的語言環境,並可自 Software CD 取得。
不同的文化通常使用不同的數字格式慣例,來填寫日期和時間、劃分字詞和片語或引用文章和演講資料。語言環境會決定如何處理不同區域的下列作業、檔案、格式和表示式:
文字資料的編碼與處理
語言識別和資源檔案的編碼
文字字串的描繪與版面配置
用戶端之間的文字交換
符合字碼集的輸入法選擇以及選定字體的處理需求
特定文化的字型與圖示檔案
動作與檔案類型
使用者介面定義 (UID) 檔案
日期與時間格式
數值格式
貨幣格式
排序順序
語言環境的特定正規表示式處理
資訊以及診斷訊息的格式,與互動回應
Solaris 環境會將和語言及文化相關的資訊與應用程式分隔開來,並將資訊儲存在應用程式之外。此方法將不再需要針對每個市場來翻譯、重寫或重新編譯應用程式。進入新市場的唯一需求就是將外部資訊本土化為當地的語言和慣例。
控制字元處理功能的行為。
指定日期和時間的格式,包括月份名稱、一星期的天數以及一般完整和縮寫的表示法。
指定幣制格式,包括語言環境的貨幣符號、以千計分隔符號、記號位置、分數數字等。
指定十進制分割元 (或基數字元)、以千計分隔符號以及群組化。
指定字元排序順序以及語言環境的常規表示式定義。
指定本土化訊息、語言環境的肯定與否定回應 (yes 和 no 字串和表示式) 所使用的語言。
指定提供關於語言描繪資訊的版面配置引擎。語言描繪 (或文字描繪) 取決於字體的外形和方向屬性。
在進行產品的本土化時,必須徵詢目標語言或地區的當地使用者。對於開發人員來說,某些資訊樣式和格式看來平淡無奇且經常使用。然而,對使用者來說,這些格式看來可能是棘手、錯誤,甚或是討厭的。下列章節說明在 Solaris 作業系統中,您可以根據產品本土化需求而自訂的元素。
下表顯示數種不同語言環境填寫 11:59 P.M. 的方式。
表 1–2 國際化時間格式
語言環境 |
格式 |
---|---|
加拿大 |
23:59 |
芬蘭文 |
23.59 |
德文 |
23.59 Uhr |
挪威文 |
23.59 |
泰文 |
23:59 |
英文 |
23:59 |
時間將同時以 12 小時時鐘以及 24 小時時鐘來表示。小時與分鐘的分隔符號可以是冒號 (:) 或句號 ( .)。
國家之間或國家之中有時區劃分。雖然可依據之前時數或之後時數、協調的格林威治標準時間,UTC (或「格林威治標準時間」,GMT) 來表示一個時區,但這個數字並不一定是整數。例如,紐芬蘭位於與鄰近時區相異半小時的時區中。
夏令時 (DST) 的起迄日期依各國情況而有所不同。許多國家根本不實施 DST。此外,同一時區中的夏令時也不盡相同。以美國為例,夏令時乃是依照州政府規定實施。
下表顯示全球使用的數種日期格式。同一個國家中可能存在多種日期格式。
表 1–3 國際日期格式
語言環境 |
慣例 |
範例 |
---|---|---|
加拿大 (英文) |
dd/mm/yy |
24/08/01 |
丹麥文 |
yyyy-mm-dd |
2001-08-24 |
芬蘭文 |
dd.mm.yyyy |
24.08.2001 |
法文 |
dd/mm/yyyy |
24/08/2001 |
德文 |
yyyy-mm-dd |
2001-08-24 |
義大利文 |
dd/mm/yy |
24/08/01 |
挪威文 |
dd-mm-yy |
24-08-01 |
西班牙文 |
dd-mm-yy |
24-08-01 |
瑞典文 |
yyyy-mm-dd |
2001-08-24 |
英國 |
dd/mm/yy |
24/08/01 |
美國 |
mm-dd-yy |
08-24-01 |
泰文 |
dd/mm/yyyy |
24/08/2001 |
英國與美國是全球少數兩個使用句號來指示小數點位置的國家。許多其他的國家使用逗號來替代。十進制分隔符號也稱做是基數字元。同樣的,當英國和美國使用逗號來分隔千位組時,許多其他的國家則使用句號來代替,一些國家則是使用狹窄空間來分隔千位組。
當傳輸包含特定語言環境格式的資料檔案至另一個使用不同語言環境的系統時,常常發生解譯錯誤的情形。例如,包含法文格式數字的檔案就不能用在特定的英文程式。
下表顯示一些常用的數值格式。
表 1–4 國際化數值慣例
語言環境 |
龐大數字 |
---|---|
加拿大 (英文) |
4,294,967.00 |
丹麥文 |
4.294 967.295,00 |
芬蘭文 |
4 294 967 295,00 |
法文 |
4 294 967 295,00 |
德文 |
4,294,967.00 |
義大利文 |
4.294.967,00 |
挪威文 |
4.294.967.295,00 |
西班牙文 |
4.294.967.295,00 |
瑞典文 |
4 294 967 295,00 |
英國 |
4,294,967,295.00 |
美國 |
4,294,967,295.00 |
泰文 |
4,294,967,295.00 |
並沒有哪一種特別的語言環境慣例會指定如何分隔清單中的數值。
全球的貨幣單位和表示方式具有極大差異。貨幣的本土與國際符號可能有所不同。下列表格顯示某些國家的貨幣格式。
表 1–5 國際幣制慣例
語言環境 |
貨幣型 |
範例 |
---|---|---|
加拿大 (英文) |
美元 ($) |
$1,234.56 |
加拿大 (法文) |
美元 ($) |
1 234,56$ |
丹麥文 |
克羅納 (kr) |
Kr 1.234,56 |
芬蘭文 |
歐元 () |
1 234,56 |
法文 |
歐元 () |
1,234 |
日文 |
日圓 (¥) |
¥ 1,234 |
挪威文 |
克羅納 (kr) |
kr 1.234,56 |
瑞典文 |
克朗 (Kr) |
1 234,56 Kr |
英國 |
英鎊 (£) |
£1,234.56 |
美國 |
美元 ($) |
$1,234.56 |
泰文 |
Baht |
2539 Baht |
歐元 |
歐元 () |
5,000 |
目前發行版本支援歐元貨幣。本土貨幣符號仍然可以使用以提供回溯相容性。
表 1–6 支援歐元貨幣的使用者語言環境
區域 |
語言環境名稱 |
ISO 字碼集 |
---|---|---|
奧地利 |
de_AT.ISO8859-15 |
8859-15 |
比利時 (法文) |
fr_BE.ISO8859-15 |
8859-15 |
比利時 (法蘭德斯語) |
nl_BE.ISO8859-15 |
8859-15 |
丹麥 |
da_DK.ISO8859-15 |
8859-15 |
愛沙尼亞 |
et_EE.ISO8859-15 |
8859-15 |
芬蘭 |
fi_FI.ISO8859-15 |
8859-15 |
法國 |
fr_FR.ISO8859-15 |
8859-15 |
德國 |
de_DE.ISO8859-15 |
8859-15 |
英國 |
en_GB.ISO8859-15 |
8859-15 |
愛爾蘭 |
en_IE.ISO8859-15 |
8859-15 |
義大利 |
it_IT.ISO8859-15 |
8859-15 |
荷蘭 |
nl_NL.ISO8859-15 |
8859-15 |
葡萄牙 |
pt_PT.ISO8859-15 |
8859-15 |
嘉泰羅尼亞西班牙文 |
ca_ES.ISO8859-15 |
8859-15 |
西班牙 |
es_ES.ISO8859-15 |
8859-15 |
瑞典 |
sv_SE.ISO8859-15 |
8859-15 |
美國 |
en_US.ISO8859-15 |
8859-15 |
歐元的語言環境是以 ISO8859-15 字碼集為基礎。
請注意,轉換後的貨幣數目所需要的空格數可能與原始空格數不同,例如,$1,000 可能變為1.307.000。
歐元地區語言環境的目前環境設定狀態是 locale 公用程式的 LC_MONETARY 運算元來表示。例如,下表顯示了德國的狀態。
表 1–7 德文語言環境以及相對應的 LC_MONETARY 運算元
語言環境 |
LC_MONETARY |
---|---|
de_DE.ISO8859-1 |
DM |
de_DE.ISO8859-15 |
歐元 |
de_DE.UTF-8 |
歐元 |
de_DE.ISO8859-15@euro |
歐元 |
de_DE.UTF-8@euro |
歐元 |
本節說明語言之間重要的差異。
以英文為例,文字通常是以空格字元來分隔的。不過,在中文、日文和泰文等語言中,文字之間通常沒有分隔。
所有語言中的特殊字元排序是不相同的。例如,在德文中,“?” 字元是以一般的 “o” 排序,但在瑞典則是分別排序,其中該字元為字母中的最後一個字。在某些語言中,字元有其重要性以決定字元序列的優先順序。例如,泰文字典中會根據不同的重要性來對字元的順序進行排序。
字元集的字母字元數和特殊字元數可以是不同的。當英文字母表只包含 26 個字元時,某些語言包含多出更多的字元。以日文為例,可能包含超過 20,000 個字元,而中文甚至可能包含更多的字元。
大部分西歐國家的字母類似於英語系國家所使用的標準 26 個字元字母。這些字母通常會包含某些額外基本字元、某些標記或重音字元以及連音字。
雖然每個平假名中的字元都有一個對等的片假名字元,但平假名仍是最常見的字體,它是一種草寫字母而不是區塊狀的字母格式。漢字字元用來撰寫字根。片假名通常用來表示「外來」文字,也就是從日文以外的語言所引進的文字。
漢字擁有數萬個字元,但是經常使用的數目正逐年穩定的減少當中。雖然一般的日本人平均擁有 2000 個漢字的能力,但現在仍經常使用的漢字大約只剩 3500 個。不過,為了符合日本業界標準 (JIS) 的需求,電腦系統必須支援超過 7000 個字元。另外,還有大約 170 個平假名和片假名字元。平均而言,55% 的日文文字為平假名,35% 是漢字以及 10% 為片假名。在日語文字中也會出現阿拉伯數字與羅馬字母。
雖然可以完全避免使用漢字,但大部分的日本人發現,文件若缺少漢字將變得難以理解。
可以使用語音書寫系統來寫出的韓文文字稱為 Hangul。Hangul 擁有超過 11,000 個字元,其是由稱為 jamos 的子音與母音所組成。全部的 Hangul 字彙中大約有 3000 字元為韓文電腦系統中所經常使用。韓國人也使用源自於中國文字的表意文字,稱為 Hanja。韓語文字需要超過 6000 個 Hanja 字元。當使用 Hangul 會造成語意不清時,大部份都是用 Hanja 來避免混淆。Hangul 字元是藉由合併子音與母音所形成。當這些字元合併之後,它們可以組合成一個音節,然後成為 Hangul 字元。Hangul 字元通常會呈現方塊狀,使其所佔的空間和 Hanja 字元相同。在韓語文字中也會出現阿拉伯數字、羅馬字母以及特殊符號字元。
泰文字元是以四個顯示格在顯示螢幕上定義為一個欄位位置 。每個欄位位置最多可以有三個字元。顯示格的構成是以泰文字元分類為基礎。某些泰文字元可能是由另一個字元分類所組成。若是兩種字元可以組合在一起,則兩種字元會位於同一個顯示格中。否則,其位於分隔的顯示格中。
在中華人民共和國 (PRC),大約有 7000 個常用漢字字元使用於 GB2312 (zh 語言環境),超過 20,000 個字元使用於 GBK 字元集 (zh.GBK 語言環境)以及大約 30,000 字元使用於 GB18030-2000 字元集 (zh_CN.GB18030 語言環境),包括 Unicode 3.0 中定義的所有 CJK 擴充 A 字元。
在台灣,最常使用的字元集為 CNS11643-1992 (zh_TW 語言環境) 和 Big5 (zh_TW.BIG5 語言環境)。它們共用大約 13,000 個漢字字元。
在香港,Big5-HKSCS 字元集 (zh_HK.BIG5HK) 是在 Big5 字元集中加入 4702 個字元而成的。
如果字元並不是根字元,則它通常是由兩個或更多部分所組成,兩個為最常見。在兩部分的字元中,其中一個部分是用來表意,而另一個則用來表音。偶爾兩部份同時用來表意。部首為最重要的元素,而字元通常也是以部首來編排,部首的數量約為數百個。單一音調可以藉由許多不同的字元來表示,這些字元在用法上無法互相交換。單一字元可以擁有不同的音調。
部分字元比其他字元更相稱於給定的文意。此相稱字元使用音調來作語音上的區別。相比之下,日文與韓文口語中並沒有音調。
有數種語音系統可用來表示中文。在中華人民共和國最普遍的是拼音,其使用羅馬字元,並廣泛的在西方針對地名使用,例如 Beijing (北京)。威妥系統是較古老的語音系統,從前使用在地名上,像是 Peking。在台灣則是使用注音 (或 ㄅㄆㄇㄈ),這種具有獨特文字形式的語音字母來取代拼音。
希伯來文文字是用來書寫希伯來文與意第緒文語言的字體。希伯來文使用雙向字體。希伯來文字母是從右向左書寫和閱讀,而數字是從左向右閱讀的。任何內嵌於希伯來語文字中的英語文字也是從左向右閱讀。
希伯來文使用 27 字元的字母,並採用標準拉丁文 (或英文) 字母中的發音標記和數字。希伯來文文字也包括母音與發音符號。這些標記是以基本字元中的點 (dagesh)、字元下的母音標記或字元左上角的重音來表示。這些符號一般只使用在禮拜儀式文字中,在日常使用中很少見。希伯來文沒有大寫字母。
北印度文文字是以梵文字母 (稱為 Devanagari) 書寫的,其意為「上帝的寫作」。北印度文是語音語言,並且撰寫為一連串的音節。每一個音節是由三種類型的字母片斷 (梵文字母字元) 所組成:子音字母、獨立的母音以及具依賴性的母音符號。音節本身是由一個子音和母音核所組成,並附帶一個選擇性的前置子音。不像英文是從基準線開始,Devanagari 字元是從寫在字元最上方的水平線 (稱為前筆畫) 垂下。這些字元可根據上下文來結合或變更外形。如同希伯來文,北印度文文字在大寫與小寫字母之間沒有區別。
美式鍵盤上的所有字元不會都出現在其他鍵盤上。同樣地,其他鍵盤通常包含許多在美式鍵盤上不會看到的字元。
您可以使用任何鍵盤從任何語言環境輸入字元,因為輸入是由 Solaris 作業系統所處理的。
在 SPARC® 機器上,Compose 鍵可用來在任何支援的 ISO8859 字元集中產生帶有區別符號的拉丁字元。Compose 鍵可以用在以 Latin 為基礎的語言環境,但是不能用在韓文、中文或日文語言環境,而 UTF-8 語言環境例外。
在每個國家中,普遍使用小號的紙張大小。通常只有一種紙張大小會比其他的大小較為普遍。大部份的國家都遵循 ISO 標準 216:「寫入紙張以及某些類別的列印事務-整齊的大小-A 與 B 系列。」
國際化應用程式不應假設可用的頁面大小。Solaris 系統並不提供追蹤輸出頁面大小的支援。追蹤輸出頁面大小是應用程式的責任。下表顯示一般國際頁面大小。
表 1–8 一般國際化頁面大小
紙張類型 |
大小 |
國家 |
---|---|---|
ISO A4 |
21.0 公分乘 29.7 公分 |
除了美國以外的所有地方 |
ISO A5 |
14.8 公分乘 21.0 公分 |
除了美國以外的所有地方 |
JIS B4 |
25.9 公分乘 36.65 公分 |
日本 |
JIS B5 |
18.36 公分乘 25.9 公分 |
日本 |
U.S. Letter |
8.5 英吋乘 11 英吋 |
美國和加拿大 |
U.S. Legal |
8.5 英吋乘 14 英吋 |
美國和加拿大 |