JavaScript is required to for searching.
跳过导航链接
退出打印视图
国际语言环境指南     Oracle Solaris 11 Information Library (简体中文)
PDF
search filter icon
search icon

文档信息

前言

1.  介绍

2.  Unicode 和 UTF-8 语言环境支持

Unicode 概述

UTF-8 概述

通用语言环境数据仓库

具有非 UTF-8 字符集的语言环境

从非 UTF-8 语言环境迁移到 UTF-8 语言环境

纯文本文件

文件名和目录名

ZFS

NFS

3.  使用语言和语言环境

4.  桌面键盘首选项和输入法

5.  配置字体

6.  高级主题

A.  可用语言环境

索引

Unicode 概述

Unicode 是通用字符编码标准,用于表示文本以供计算机处理。Unicode 提供了一种对多语种文本进行一致编码的方法,便于国际文本文件的交换。

多语种文本的编码标准是 ISO/IEC 10646。尽管 ISO/IEC 10646 与 Unicode 标准包含完全相同的字符和编码点,但 Unicode 标准可提供有关这些字符及其用途的其他信息。

Oracle Solaris 11 为 Unicode 标准版本 6.0 和 ISO/IEC 10646:2011 提供了系统级支持。

每个 Unicode 字符均映射到一个代码点,代码点是一个介于 0 和 1,114,111 之间的整数。Unicode 代码点使用 U+nnnn 形式的表示法来表示(其中 nnnn 是代码点的十六进制数),或使用描述代码点的文本字符串来表示。例如,小写字母 “a” 可以用 U+0061 或文本字符串 "LATIN SMALL LETTER A" 来表示。

代码点可以使用不同的字符编码方案进行编码。在 Oracle Solaris Unicode 语言环境中,使用的是 UTF-8 形式。UTF-8 是 Unicode 的一种可变长度编码形式,它透明地保留了 ASCII 字符代码值(请参见UTF-8 概述)。

有关 Unicode 标准和 ISO/IEC 10646 及其各种表示形式的更多详细信息,请参阅下列来源:

UTF-8 概述

UTF-8 是 Unicode 的一种可变长度编码形式。该形式用于 Oracle Solaris Unicode 语言环境。

该形式的优点在于它向下兼容 ASCII 编码方案,可避免字节存储顺序 (endianness) 和字节顺序复杂化。UTF-8 中的 Unicode 代码点使用一至四个 8 位字节表示。下表指定了 UTF-8 的位分布,并显示了 Unicode 代码点对应于第一字节、第二字节、第三字节和第四字节序列的范围。

表 2-1 UTF-8 的位分布

代码点范围
代码点(二进制)
第 1 字节
第 2 字节
第 3 字节
第 4 字节
U+0000..U+007F
0xxxxxxx
0xxxxxxx
U+0080..U+07FF
00000yyy yyxxxxxx
110yyyyy
10xxxxxx
U+0800..U+FFFF
zzzzyyyy yyxxxxxx
1110zzzz
10yyyyyy
10xxxxxx
U+010000..U+10FFFF
000uuuuu zzzzyyyy yyxxxxxx
11110uuu
10uuzzzz
10yyyyyy
10xxxxxx

有关 UTF-8 编码形式的更多详细信息,请参阅下列来源: