Java Desktop System 是一个完全支持 Unicode 的多语言系统,它支持 Unicode UTF-8 编码的语言。Java Desktop System 还提供代码集转换,以支持旧语言编码。本章介绍在迁移到 Unicode 多语言计算时可能遇到的问题。
作为基础操作系统的一部分,Java Desktop System 在所有语言环境中都会作为默认桌面安装。但是,Sun Microsystems 在 Java Desktop System 中提供了对以下语言环境完全的全球化支持:
de_DE.UTF-8
fr_FR.UTF-8
es_ES.UTF-8
sv_SE.UTF-8
it_IT.UTF-8
ja_JP.UTF-8
ko_KR.UTF-8
zh_CN.UTF-8
zh_CN.GB18030
zh_TW.UTF-8
zh_TW.BIG5
Java Desktop System 中支持的所有语言(中文除外)都使用 Unicode UTF-8 语言环境。对于尚不能迁移到 Unicode UTF-8 的应用程序,您可以在面板中添加启动器,以便在非 UTF-8 语言环境中启动应用程序。
要为应用程序创建启动器,请执行以下步骤:
右击要创建启动器的面板。
选择“添加到面板”->“启动器”。
使用如下格式在创建启动器对话框的命令字段中键入条目:
env LANG=语言环境 LC_ALL=语言环境 应用程序名
例如,如果要在中文 Big5 语言环境中启动 /usr/bin 目录下的名为 ApplicationName
的应用程序,请在命令字段中使用下面的字符串:
env LANG=zh_TW.BIG5 LC_ALL=zh_TW.BIG5 /usr/bin/ApplicationName
单击“确定”在面板上创建启动器。
对于 Xview
应用程序,命令字段中的条目格式如下所示:
env LANG=语言环境 LC_ALL=语言环境 应用程序名 -lc_basiclocale 语言环境 -lc_displaylang 语言环境 -lc_inputlang语言环境 -lc_numeric语言环境 -lc_timeformat 语言环境
迁移到 Unicode 多语言计算会影响许多导入和导出数据的方法。
系统管理员必须为 FAT 和 VFAT 文件系统类型配置安装选项 codepage 和 iocharset,这些文件系统类型通常用于 Microsoft Windows 上的软盘、zip 驱动器和可移除硬盘。例如,如果您要从繁体中文版 Windows 导入,则必须按下表所示进行设置,以便能够正确地浏览繁体中文文件名。
装载选项 |
繁体中文设置 |
---|---|
codepage |
950 |
iocharset |
big5 |
“繁体中文”样例的 /etc/fstab 的样例条目如下所示:
/dev/fd0h1440 |
/media/fd0h1440 |
vfat noauto,iocharset=big5,codepage=950 |
/dev/sda1 |
/media/iee1394disk |
vfat noauto,iocharset=big5,codepage=950 |
系统管理员必须配置安装选项 codepage 和 iocharset 才能安装通过 CIFS 共享的远程 Microsoft Windows 文件系统,或者通过服务器消息块 (SMB) 从其他系统导出的文件系统。例如,如果要导入繁体中文版 Windows 上用 big5 编码的传统文件,则必须将 iocharset 参数设置为 big5,并且必须将 codepage 设置为 950,才能正确浏览繁体中文文件名。/etc/fstab 条目的样例如下所示:
server:/data /data smbfs iocharset=big5,codepage=950,username=foo,password=bar |
Java Desktop System 可以使用 SMB 远程访问 UNIX 和 Linux 系统上的文件系统。导出服务器必须运行 SMB 或等效应用程序才能导出远程文件系统。如果旧数据是以旧编码形式存储的,则客户端可以指定文件系统编码。系统会自动执行文件名的代码集转换。
Microsoft Office
文件以 Unicode 进行编码。StarSuite
应用程序可以读写 Unicode 编码的文件。
在 HTML 编辑器(例如 Mozilla Composer
)中创建的 HTML 文件或通过 Web 浏览器保存的 HTML 文件通常包含一个 charset 编码标记。在导出或导入之后,您可以根据 HTML 文件中的编码标记使用 Mozilla Navigator
Web 浏览器浏览此类 HTML 文件,或者使用 Mozilla Composer
编辑这些文件。
某些 HTML 文件可能会显示乱码字符。此问题通常是由下列原因造成的:
charset 编码标记不正确。
charset 编码标记丢失。
要在 HTML 文件中查找 charset 编码标记,请执行以下步骤:
在 Mozilla
中打开该文件。
选择“查看”->“页面信息”。
charset 信息位于常规选项卡的底部,例如:Content-Type text/html; charset=us-ascii
如果字符串 charset=us-ascii 与文件的实际编码不符,说明该文件可能已损坏。要编辑 HTML 文件的编码,请执行以下步骤:
在 Mozilla Composer
中打开该文件。
选择“文件”->“另存为字符集”。
选择正确的编码。Mozilla Compose
会根据需要自动转换编码和 charset 标记。
多数电子邮件消息都是用 MIME charset 标记进行标记的。Java Desktop System 的电子邮件应用程序电子邮件和日历
支持 MIME charset 标记。您不需要执行任何编码转换操作。
纯文本文件不包含 charset 标记。如果文件不是 UTF-8 编码,则需要进行编码转换。例如,要将繁体中文 big5 编码的纯文本文件转换为 UTF-8,请执行下面的命令:iconv -f big5 -t UTF-8 inputfilename > outputfilename