國際語言環境指南

第 2章一般國際化功能

本章節將討論 Solaris 9 環境所包含的一些國際化功能。

字碼集獨立的支援

EUC 是擴充式 UNIX 編碼 ( Extended UNIX Code) 的縮寫。Solaris 9 作業環境支援非 EUC 的編碼方式，例如日本的 PC-Kanji（較為人知的 Shift_JIS）、台灣的 Big5、以及中華人民共和國的 GBK。由於大部份的電腦市場要求支援非 EUC 字碼集，因此 Solaris 9 環境提供穩固的框架以便能同時支援 EUC 與非 EUC 的字碼集。此支援稱為字碼集獨立，或 CSI。

CSI 的目標是從 Solaris 作業環境程式庫與指令中移除對特定字碼集或編碼方式的相依性。CSI 架構允許 Solaris 作業環境支援任何 UNIX 檔案系統安全編碼方式。CSI 支援一些新的字碼集，例如 UTF-8、PC-Kanji、以及 Big5。

CSI 方法

字碼集獨立使得應用程式與平台軟體開發者能夠將其程式碼保持獨立於任何編碼方式，例如 UTF-8，並提供在不需修改原始程式碼的情況下採用任何新編碼方式的能力。此架構方法與 Java^TM 國際化不同之處，在於 Java 要求應用程式是 UTF-16– 相依。

許多現有國際化的應用程式（例如，Motif）自動從基礎系統繼承 CSI 支援。這些應用程式在不需修改的情況下即可在新的語言環境中使用。

CSI 自始即獨立於任何字碼集。然而，下列關於檔案程式碼編碼方式的假設（字碼集）仍然可適用於 Solaris 9 環境：

檔案程式碼為 ASCII 的超集合。
在支援空終止多位元組字串時，多位元組字元中並不會顯示NULL 位元組值（0x00）。
在支援 UNIX 路徑名稱時，多位元組字元中並不會顯示 ASCII Slash 字元位元組值（0x2f）。

啟用 CSI 的指令

本章節內容將列出 Solaris 9 環境中啟用 CSI 的指令。每個指令的線上援助頁都有屬性區段，指明指令是否已啟用 CSI 。

所有的指令都在/usr/bin目錄，除非另外說明。

/usr/lib/diffh
/usr/sbin/accept
/usr/sbin/reject
/usr/ucb/lpr
/usr/xpg4/bin/awk
/usr/xpg4/bin/cp
/usr/xpg4/bin/date
/usr/xpg4/bin/du
/usr/xpg4/bin/ed
/usr/xpg4/bin/edit
/usr/xpg4/bin/egrep
/usr/xpg4/bin/env
/usr/xpg4/bin/ex
/usr/xpg4/bin/expr
/usr/xpg4/bin/fgrep
/usr/xpg4/bin/lp
/usr/xpg4/bin/ls
/usr/xpg4/bin/more
/usr/xpg4/bin/mv
/usr/xpg4/bin/nice
/usr/xpg4/bin/nohup
/usr/xpg4/bin/od
/usr/xpg4/bin/pr
/usr/xpg4/bin/rm
/usr/xpg4/bin/sed
/usr/xpg4/bin/sort
/usr/xpg4/bin/tail
/usr/xpg4/bin/tr
/usr/xpg4/bin/vedit
/usr/xpg4/bin/vi
/usr/xpg4/bin/view
acctcom
apropos
batch
bdiff
cancel
cat
catman
chgrp
chmod
chown
cmp
col
comm
compress
cpio
csh
csplit
cut
diff
diff3
disable
echo
expand
file
find
fold
ftp
gencat
geteopt
getoptcvt
head
join
jsh
kill
ksh
lp
man
mkdir
msgfmt
news
nroff
pack
paste
pcat
pg
printf
priocntl
ps
pwd
rcp
red
remsh
rksh
rsmdir
rsh
script
sdiff
settime
sh
split
strconf
strings
sum
tabs
tar
tee
touch
tty
uncompress
unexpand
uniq
unpack
wc
whatis
write
xargs
zcat

Solaris 9 啟用 CSI 的程式庫

幾乎所有在libc (/usr/lib/libc.so ）中的函式都已啟用 CSI。然而，下列在 libc 中的函式並沒有啟用 CSI，因為它們是與 EUC 相依的函式：

csetcol(）
csetlen(）
euccol(）
euclen(）
eucscol(）
getwidth(）
csetno(）
wcsetno(）

在 Solaris 9 產品中，libgen /usr/ccs/lib/libgen.a 以及 libcurses /usr/ccs/lib/libcurses.a 皆已國際化但是沒有啟用 CSI。

語言環境資料庫

語言環境資料庫格式與結構是私有的 (Private)，在未來版本中將會有所變動。因此，請不要在開發國際化的應用程式時，直接存取語言環境資料庫。相反地，請使用 libc 中的國際化 API，這個部分將於libc 的國際化 API 中說明。

註解 –

請在於 Solaris 9 環境中作業時，使用已包含在 Solaris 9 產品中的語言環境資料庫。請不要使用上一個 Solaris 版本的語言環境。

程序碼格式

程序碼格式，也就是 Solaris 9 產品中的寬字元程式碼格式，是私有的 (Private) 並將在未來版本中所有變動。因此，在開發國際化的應用程式時，請不要假設程序碼格式是相同的。相反地，請 libc 中的國際化 API，這個部分將於libc 的國際化 API說明。

註解 –

所有 Unicode 語言環境的程序碼皆為 UTF-32 表示法。如需 UTF-32 的詳細資訊，請參閱「Unicode 標準附錄 #19： UTF 32」以及「Unicode 標準附錄 #27： Unicode 3.1」（摘自「Unicode 學術學會」或 http://www.unicode.org/ ）。

多位元組支援環境

多位元組字元為無法使用單一位元組儲存的字元，例如中文、日文或是韓文字元。這些字元需要 2、 3 或 4 個位元組的儲存空間。ISO/IEC 9899：1990 子條款 3.13 中記載了更精確的定義。

ANSI C 的一號修正案（即 ISO/IEC 9899：1990）中，增加了新的國際化功能，並統稱為多位元組支援環境（MSE）。一號修正案針對多位元組字碼集與較佳的寬字元處理支援，定義了附加的國際化 API 並隨附說明。

程式設計模型使得這些多位元組字元可以邏輯單位讀取，並如寬字元般儲存在內部。該程式可以用其合法的方式，以邏輯實體來處理這些寬字元。最後，可以經由適當轉譯，將這些寬字元以邏輯單位寫出。

這個程序類似讀取、處理單一位元組字元，並再次寫出的方法。MSE 使其能夠使用與單一位元組字元所用相同之程式設計模型，來撰寫可以處理多位元組字元的程式。

動態連結應用程式

Solaris 9 產品使用者可以使用動態連結或靜態連結，來選擇應用程式與系統程式庫（例如，libc ）的連結方式。任何需要系統程式庫中國際化功能的應用程式必須是動態連結。如果應用程式已經靜態連結，那麼想要使用setlocale 功能將語言環境設定為任何其他不是 C 和 POSIX 的作業將會失敗。靜態連結的應用程式只能夠在 C 以及 POSIX 語言環境中作業。

依預設值，連結程式會嘗試動態連結至應用程式。如果連結程式與編譯程式的指令行選項包含 -Bstatic 或 -dn 規格，那麼您的應用程式可能已靜態連結。您可以檢查現有的應用程式是否為使用 /usr/bin/ldd 指令完成動態連結。

例如，若是您鍵入：

% /usr/bin/ldd /sbin/sh

這個指令會表明 /sbin/sh指令不是動態連結的應用程式，如下列回應所示：

ldd: /sbin/sh: 檔案不是動態執行檔或共用物件

如果您鍵入：

% /usr/bin/ldd /usr/bin/ls

這個指令就會顯示下列訊息：

libc.so.1 => 	/usr/lib/libc.so.1

libdl.so.1 => /usr/lib/libdl.so.1

這段訊息表示 /usr/bin/ls 指令已動態連結至兩個程式庫， libc.so.1 和 libdl.so.1。

已變更介面

libw 和 libintl 已經移至 libc 並且不再置於 libw 和 libintl。

共用物件會確保現有應用程式的 runtime 相容性，並伴隨歸檔的使用提供建立應用程式編譯環境的相容性。然而，您不再需要針對 libw 或 libintl 來建立應用程式。

如需過濾器的詳細資訊，請參閱「 Linker and Libraries Guide」。

下列清單將顯示 libw 中的存根進入點。

fgetwc
fgetws
fputwc
fputws
getwc
getwchar
getws
isenglish
isideogram
isnumber
isphonogram
isspecial
iswalnum
iswalpha
iswcntrl
iswctype
iswdigit
iswgraph
iswlower
iswprint
iswpunct
iswspace
iswupper
iswxdigit
putwc
putwchar
putws
strtows
towlower
towupper
ungetwc
watoll
wcscat
wcschr
wcscmp
wcscoll
wcscpy
wcscspn
wcsftime
wcsclen
wscncat
wcsncmp
wcsncpy
wcspbrk
wcsrchr
wcsspn
wcstod
wcstok
wcstol
wcstoul
wcswcs
wcswidth
wcsxfrm
wctype
wcwidth
wscasecmp
wscat
wschr
wscmp
wscol
wscoll
wscpy
wscspn
wsdup
wslen
wsncasecmp
wsncat
wsncmp
wsncpy
wspbrk
wsprintf
wsrchr
wsscanf
wsspn
wstod
wstok
wstol
wstoll
wstostr
wsxfrm

這份較短的清單中包含 libintl 的存根進入點：

bindtextdomain
dcgettext
dgettext
gettext
textdomain

`ctype`巨集

字元分類以及字元變換巨集將定義在/usr/include/ctype.h 。Solaris 9 環境提供一組ctype巨集，其可支援 XPG4 所定義的字元分類和變換語義。所有 XPG4 和 XPG4.2 應用程式若是要自動地存取新巨集，其必須符合下列條件之一：

已定義 _XPG4_CHAR_CLASS。
已定義 _XOPEN_SOURCE 和 _XOPEN_VERSION=4 。
已定義 _XOPEN_SOURCE 和 _XOPEN_SOURCE_EXTENDED=1 。

由於 _XOPEN_SOURCE、_XOPEN_VERSION 和 _XOPEN_SOURCE_EXTENDED 引進除了新的 ctype 巨集以外的 XPG4 相關功能，因此非 XPG4 或 XPG4.2 應用程式就應該使用 __XPG4_CHAR_CLASS__。

同時存在相對應的 ctype 函式。Solaris 9 環境功能也支援 XPG4 語義。如需詳細資訊，請參閱 ctype(3C)線上援助頁。

`libc` 的國際化 API

Solaris 9 環境提供兩組 API：

多位元組（檔案程式碼）
寬字元（程序碼）

寬字元程式碼為固定寬度的邏輯實體單位。因此使用多位元組字元時，並不需要維護適當字元界限的記錄。

當程式從檔案中取得輸入時，您可以將檔案的多位元組資料直接用輸入函式轉換成寬字元程序碼，例如fscanf(3S) 和 fwscanf(3S)等函式，或在輸入之後藉由使用轉換函式轉換，例如 mbtowc(3C) 和 mbsrtowcs(3C)。若要將輸出資料從寬字元格式轉換為多位元組字元格式，使用像是fwprintf(3S) 以及fprintf(3S) 的輸出函式，或在輸出之前套用像是 wctomb(3S) 以及wcsrtombs(3S) 的轉換函式。

本章其餘表格將說明包含在 Solaris 9 產品中的國際化 API。

下列表格將說明 libc 的訊息傳送函式 API。

表 2–1 libc中的訊息傳送函式


程式庫常式	說明
`catclose()`	關閉訊息目錄
`catgets()`	讀取程式訊息
`catopen()`	開啟訊息目錄
`dgettext()`	從訊息目錄中取得指定網域的訊息
`dcgettext()`	從訊息目錄中取得指定網域與種類的訊息
`textdomain()`	設定與查詢目前的網域
`bindtextdomain()`	將路徑連結至訊息網域
`gettext(）`	從訊息資料庫取回文字串

下列表格將說明 libc 的程式碼轉換函式 API。

表 2–2 libc 的程式碼轉換


程式庫常式	說明
`iconv()`	轉換程式碼
`iconv_close()`	取消配置轉換描述元
`iconv_open()`	配置轉換描述元

下列表格將說明 libc 的正規表示式 API。

表 2–3 libc的正規表示式


程式庫常式	說明
`regcomp(）`	編譯正規表示式
`regexec(）`	執行正規表示式匹配
`regerror(）`	提供錯誤代碼與錯誤訊息的對映
`regfree(）`	釋放 `regcomp(）` 所配置的記憶體
`fnmatch(）`	符合的檔案或路徑名稱

下列表格將說明 libc 的寬字元函式 API。

表 2–4 libc 的寬字元類別


程式庫常式	說明
`wctype()`	定義字元類別
`wctrans(）`	定義字元對映

下列表格將列出 libc 的修改和查詢語言環境。

表 2–5 libc 的修改和查詢語言環境


程式庫常式	說明
`setlocale(）`	修改以及查詢程式的語言環境

下列表格將列出 libc 的查詢語言環境資料。

表 2–6 libc 的查詢語言環境資料


程式庫常式	說明
`nl_langinfo(）`	取得目前語言環境的語言與文化資訊
`localeconv(）`	取得目前語言環境的貨幣與數值格式資訊

下列表格將說明 libc中的字元分類函式 API。

表 2–7 libc 的字元分類和字譯


程式庫常式	說明
`isalpha()`	字元是否為字母？
`isupper()`	字元是否為大寫？
`islower()`	字元是否為小寫？
`isdigit()`	字元是否為數字？
`isxdigit()`	字元是否為十六進位數字？
`isalnum()`	字元為字母或數字？
`isspace()`	字元是否為空白？
`ispunct()`	字元是否為標點符號？
`isprint()`	字元是否可以列印？
`iscntrl()`	字元是否為控制字元？
`isascii()`	字元是否為 ASCII 字元？
`isgraph()`	字元是否為可視字元？
`isphonogram()`	寬字元是否為音標符號？
`isideogram()`	寬字元是否為表意文字？
`isenglish()`	寬字元是否在補充字碼集的英文字母表中？
`isnumber()`	寬字元是否為補充字碼集中的數字？
`isspecial()`	特殊寬字元是否源自補充字碼集？
`iswalpha()`	寬字元是否為字母？
`iswupper()`	寬字元是否為大寫？
`iswlower()`	寬字元是否為小寫？
`iswdigit()`	寬字元是否為數字？
`iswxdigit()`	寬字元是否為十六進位數字？
`iswalnum()`	寬字元是字母字元或數字？
`iswspace()`	寬字元是否為空格？
`iswpunct()`	寬字元是否為標點符號？
`iswprint()`	寬字元是否為可列印的字元？
`iswgraph()`	寬字元是否為可視字元？
`iswcntrl()`	寬字元是否為控制字元？
`iswascii()`	寬字元是否為 ASCII 字元？
`toupper()`	將小寫字元轉換為大寫。
`tolower()`	將大寫字元轉換為小寫。
`towupper()`	將小寫寬字元轉換為大寫。
`towlower()`	將大寫寬字元轉換為小寫。
`towctrans(）`	寬字元對映。

下列表格將說明 libc 的字元排序函式 API。

表 2–8 libc 的字元排序函式


程式庫常式	說明
`strcoll()`	排序字串
`strxfrm()`	變換字串以進行比較
`wcscoll()`	排序寬字元字串
`wcsxfrm()`	變換寬字元字串以進行比較

下列表格將說明 libc 的貨幣處理函式 API。

表 2–9 libc 的貨幣格式


程式庫常式	說明
`localeconv(）`	取得目前語言環境的貨幣格式資訊
`strfmon()`	將貨幣值轉換為字串表示式

下列表格將說明 libc 的日期與時間格式。

表 2–10 libc 的日期與時間格式


程式庫常式	說明
`getdate()`	轉換使用者格式日期與時間。
`strftime(）`	將日期與時間轉換為字串表示式。`%u`轉換函式符合「X/Open CAE 規格，系統介面與標頭，第 4 期，第 2 版」。這個含是可以將工作日以十進位數字〔1，7〕表示，其中 1 是表示星期一。
`strptime(）`	日期與時間轉換。

下列表格將說明 libc 的多位元組處理函式 API。

表 2–11 libc 的多位元組處理


程式庫常式	說明
`btowc()`	單一位元組至寬字元的轉換
`mbrlen()`	取得字元中的位元組數目（可重新開始計數）
`mbsinit()`	決定轉換物件的狀態
`mbrtowc()`	將字元轉換為寬字元程式碼（可重新開始計數）
`mbsrtowcs()`	將字串轉換為寬字元字串（可重新開始計數）
`mblen(）`	取得字元中的位元組數目
`mbtowc(）`	將字元轉換為寬字元程式碼。
`mbstowcs(）`	將字串轉換為寬字元字串

下列表格將說明 libc 的寬字元與字串處理。

表 2–12 libc 的寬字元與字串處理


程式庫常式	說明
`wcsncat()`	將寬字元字串串接至長度 `n`
`wsdup()`	複製寬字元字串
`wcscmp()`	比較寬字元字串
`wcsncmp(）`	比較寬字元字串至長度 `n`
`wcscpy(）`	複製寬字元字串
`wcsncpy(）`	將寬字元字串複製為長度 `n`
`wcschr(）`	尋找寬字元字串中的字元
`wcsrchr(）`	從右邊開始尋找寬字元字串中的字元
`wcslen(）`	取得寬字元字串的長度
`wscol(）`	傳回寬字元字串的顯示寬度
`wcsspn(）`	傳回出現在另一個寬字元字串的字串長度
`wcscspn(）`	傳回未出現在另一個寬字元字串的字串長度
`wcspbrk(）`	傳回出現在另一個寬字元字串的字元後的字串
`wcstok(）`	在寬字元字串之間移動記號
`wscwcs(）`	尋找寬字元字串中的字串
`wcstombs(）`	將寬字元字串轉換為多位元組字串
`wctomb(）`	將寬字元轉換為多位元組字元
`wcwidth(）`	決定寬字元的欄數位置
`wcswidth(）`	決定寬字元字串的欄數位置
`wctob(）`	寬字元至單一位元組的轉換
`wcrtomb()`	將寬字元程式碼轉換為字元（可重新開始計數）
`wcstol()`	將寬字元字串轉換為長整數
`wcstoul(）`	將寬字元字串轉換為無符號長整數
`wcstod()`	將寬字元字串轉換為雙精度
`wcsrtombs()`	將寬字元字串轉換為字串（可重新開始計數）
`wcscat(）`	串接寬字元字串

下列表格將說明 libc的格式化寬字元輸入與輸出。

表 2–13 libc 的格式化寬字元輸入與輸出


程式庫常式	說明

`wsprintf()`	根據格式產生寬字元字串
`wsscanf()`	格式化輸入轉換
`fwprintf()`	列印格式化寬字元輸出
`fwscanf()`	轉換格式化寬字元輸入
`wprintf()`	列印格式化寬字元輸出
`wscanf()`	轉換格式化寬字元輸入
`swprintf()`	列印格式化寬字元輸出
`swscanf()`	轉換格式化寬字元輸入
`vfwprintf()`	`stdarg`引數清單的的寬字元格式化輸出
`vswprintf()`	`stdarg`引數清單的的寬字元格式化輸出

這份表格將說明 libc 的寬字元字串函式 API。

表 2–14 寬字元字串libc


程式庫常式	說明
`wscasecmp()`	比較寬字元字串，忽略大小寫的差異
`wsncasecmp()`	程序碼字串作業
`wcsstr()`	尋找寬字元子字串
`wmemchr()`	在記憶體中尋找寬字元
`wmemcmp()`	比較記憶體中的寬字元
`wmemcpy()`	複製記憶體中的寬字元
`wmemmove()`	使用重疊區域複製記憶體中的寬字元
`wmemset()`	設定記憶體中的寬字元

下列表格將說明 libc 的寬字元輸入與輸出。

表 2–15 libc 的寬字元輸入與輸出


程式庫常式	說明
`fgetwc()`	從串流中取得多位元組字元，並轉換為寬字元
`getwchar()`	從`stdin`中取得多位元組字元，並轉換為寬字元
`fgetws()`	從串流中取得多位元組字串，並轉換為寬字元
`getws()`	從`stdin`中取得多位元組字串，並轉換為寬字元
`fputwc()`	將寬字元轉換為多位元組字元，並放入串流中
`fwide()`	設定串流方向
`putwchar()`	將寬字元轉換為多位元組字元，並放入`stdin`串流中
`fputws()`	將寬字元轉換為多位元組字串，並放入串流中
`putws(）`	將寬字元轉換為多位元組字串，並放入 `stdin` 串流中
`ungetwc(）`	將寬字元後推至輸入串流中。

`genmsg`公用程式

新的 genmsg 公用程式可以與 catgets(） 函式家族配合使用，以建立國際化來源訊息目錄。這個公用程式會檢查 catgets 中函式呼叫的來源程式檔案，並從尋獲的資訊建立來源訊息目錄。例如：

% cat example.c

	...

	/* NOTE: %s is a file name */

	printf（catgets（catd， 5， 1， "%s cannot be opened."））;

	/* NOTE: "Read" is a past participle， not a present

 

			tense verb */

	printf（catgets（catd， 5， 1， "Read"））;

	...

% genmsg -c NOTE example.c

The following file（s） have been created.

			new msg file = "example.c.msg"

% cat example.c.msg

$quote "

$set 5

1			"%s cannot be opened"

	/* NOTE: %s is a file name */

2			"Read"

	/* NOTE: "Read" is a past participle， not a present

			tense verb */

在上述的範例中，genmsg 會在來源檔案上執行example.c，並產生了名為 example.c.msg 的來源訊息目錄。-c 選項（包含引數　NOTE）會使得 genmsg 在目錄中包含註釋。若是來源程式中的註釋包含指定的字串，則下一個從 catgets呼叫中所擷取的字串之後的訊息目錄便會出現註釋。

您可以使用 genmsg，自動為訊息集合中的訊息計數。

如需詳細資訊，請參閱 genmsg(1)線上援助頁。

若要產生格式化的訊息目錄檔，使用 gencat (1) 公用程式。

若要獲得「可攜式訊息」檔案（.po檔案）的訊息擷取公用程式，以及如何從.po檔案產生訊息物件檔案（.mo檔案）的資訊，請分別參閱 xgettext(1)，以及 msgfmt(1) 線上援助頁。

使用者自行定義和使用者可擴充程式碼的轉換

Solaris 使用者可以藉由使用 geniconvtbl 公用程式，建立使用者自行定義的字碼集轉換器。

這個公用程式讓使用者自行定義與使用者可自訂的字碼集，可以使用標準的系統公用程式與介面，像是iconv(1) 以及iconv(3C) 來進行轉換。這個功能加強了應用程式處理不相容資料類型（特別是從專用及傳統應用程式所產生的資料）的功能。也支援對現存 Solaris 字碼集轉換的修改。

如需詳細資訊和說明範例，請參閱 geniconvtbl (1) 以及 geniconvtbl(4) 線上援助頁。您也可以從 /usr/lib/iconv/geniconvtbl/srcs/ 目錄中取得此公用程式的範例輸入來源檔，以供參考。

一旦您將準備好的使用者自行定義程式碼轉換放置在指定的geniconvtbl(1)線上援助頁中，使用者便可以使用 iconv(1) 公用程式的程式碼轉換，以及32 位元與 64 位元 Solaris 作業環境的 iconv(3C) 函式。

第 2章 一般國際化功能