繁體中文Solaris使用者指南

詞彙

ANSI

美國國家標準局。ANSI提出標準定義供不同的計算語言使用。 ANSI C X3J11委員會為C語言制訂了最新的標準,內容包括用來計算多位元組字元供國際使用的程式庫功能,以及新的資料類型wchar_t,以便處理四位元組字元。這項標準還沒有完成,所以被稱為"ANSI C標準議案"或ANSI C-X3J11。

ASCII

美國資訊交換標準碼。七位元代碼,包含英文大小寫字母、標點符號、數字和控制碼。每個位元組的第八個位元被不同的應用程式用來做同位檢查、通訊和訊息傳輸通信協定、壓縮資料或其它用途。打算要國際化的應用程式,如果要使用多個字碼集或多位元組字元,以及處裡多個字碼集或多位元組字元的公用程式,就不能利用這個位元。

BIG5

台灣通用的字碼集。

CNS

台灣的中文國家標準,相當於台灣的ASCII。在這份文件中,這個名稱是指CNS 11643定義的字元集。其中有中文字元、注音符號和字根、控制碼、標點符號,以及包括希臘和羅馬字元在內的西方字母。每個字元的長度是兩個位元組,每個位元組中最高或最明顯的位元設定為零。換句話說,採用的是每個位元組中較低的七個位元。因為台灣的中文字元集很大,所以分成好幾個代碼字面(codeplanes),內定字面裡的是常用的字元。ISO 2022提供可以在代碼字面之間切換的機制。

EUC

擴充的UNIX代碼。指的是ISO-2022上制訂的四個字碼集。每個字碼集可以包含一個或多個不同的字元集,例如KS C 5601中的Hangul和Hanja字元集。這四個字碼集被稱為字碼集0、1、2和3,在本文中,有時候簡稱為cs0、cs1、cs2和cs3。在其它國際化工作中,有時候稱之為g0、g1、g2和g3。字碼集0又叫做主要字碼集,而字碼集1、2和3則被稱為補充字碼集。在韓文和中文對EUC碼的應用中,主要字碼集(cs0)含有ASCII,而且最明顯的位元是以零開始。

EUC-CNS

這是CNS 11643的EUC表示法。就字碼集1來說,則是正常的CNS碼在各個位元組的最明顯位元上有一個一。換句話說,EUC-CNS等於CNS加上0x8080。例如,CNS字元0x212A會變成EUC-CNS字元0xA1AA。以二進位表示,則是00100001 00101010變成10100001 10101010。至於字碼集2和3,字元前面還要加上一個移位位元組(shift bytes)SS2和SS3。除此之外,字碼集2還需要一個字碼字面位元組。字碼集-2字元的代碼是SS2,後面加上字碼字面位元組和EUC-CNS。字碼字面位元組是將字面編號加入0xA0中形成的,例如,字面2的字碼字面位元組是0xA2。

ISO

國際標準組織。由幾個專業協會和公司組成,組織研究國際化問題並提出建議。ISO 2022提出並描述UNIX代碼。其它的ISO提案包括歐洲的8位元碼及國際化的通信協定。

POSIX

電腦環境的可攜式作業系統。由七個委員會組成的IEEE標準團體,負責建立UNIX標準化和國際化的文件。POSIX文件1003.1討論的是核心和系統呼叫的問題。1003.2討論的是C-shell和標準程式庫。其它的五份文件分別討論即時計算、通訊與網路及其它問題。

Unicode

Unicode聯盟(Consortium)發展出來的國際字元集和編碼方式。

X/Open

X/Open開始時是歐美和亞洲地區國際UNIX廠商的聯盟,現在則是像POSIX和ANSI那樣的主要標準機構之一,是 X/Open System Interface Portability Guide(X/Open系統介面可攜性指南)的來源。

字元集

字元集的定義是,一套用來組織、控制或表示資料的元素。 構成字元集的可以是字母、表意文字或其它單元。這樣說可能不太周延,但是字元集裡可能包含其它字元集,因此界線就會變得不太明確。例如,CNS 11643字元集裡,除了中文字根和許多其它字元之外,還有英文、希臘文和中文字元集。

字碼集

也叫做編碼字元集,這是一套建立字元集的明確規則,可以在字元集中的每個字元及其代表位元之間建立起一對一的關係。例如,我們可以將包含標點符號和數字的英文字元集對應到ASCII字碼集,使每一個字元只對應於一個位元的代碼,而且沒有位元代碼會對應於一個以上的字元。

區域環境

區域環境描述的是語言或文化環境。其設定會影響到語言相依功能的顯示和處理。繁體中文Solaris軟體提供C供美國區域環境使用,提供zh_TW供繁體中文擴充UNIX代碼使用,而zh_TW.BIG5則供繁體中文Big5區域環境使用。

種類

在繁體中文Solaris文件集中,種類與本土化有關。一個種類是一個國家的語言表示和文化習慣用法的一部份。舉例來說,美國的日期表示方式是,而在其他國家則可能是。日期和時間可以看成是區域語言的一個種類。種類也可以是指程式的種類、與種類有關的環境變數,以及各個種類的ANSI本土化表格。

寬字元碼(WC)

寬度固定的四個位元組的代碼(在亞洲版的Solaris文件中,稱為WC),被用於在使用新的ANSI-C資料類型wchar_t的EUC碼中做內部表示。雖然EUC沒有指定補充字碼集的大小限制(字碼集0一定是一個位元組),WC還是將一個字元指定為四個位元組。如果作業環境以ASCII為主,用四個位元組作為標準會佔用較多的記憶體空間,但是也會增加處理混用不同字元的字串時的速度,第1000個字元一定是從位元組4000開始(而第0個字元一定是從位元組0開始)。這點對於應用程式中任何類型的索引工作都很有用