JavaScript is required to for searching.
跳过导航链接
退出打印视图
Oracle Solaris 11.1 国际语言环境指南     Oracle Solaris 11.1 Information Library (简体中文)
PDF
为本文档评分
search filter icon
search icon

文档信息

前言

1.  介绍

2.  Unicode 和 UTF-8 语言环境支持

Unicode 概述

UTF-8 概述

通用语言环境数据仓库

具有非 UTF-8 字符集的语言环境

从非 UTF-8 语言环境迁移到 UTF-8 语言环境

纯文本文件

文件名和目录名

ZFS

NFS

3.  使用语言和语言环境

4.  桌面键盘首选项和输入法

5.  配置字体

6.  高级主题

A.  可用语言环境

索引

请告诉我们如何提高我们的文档:
过于简略
不易阅读或难以理解
重要信息缺失
错误的内容
需要翻译的版本
其他
Your rating has been updated
感谢您的反馈!

您的反馈将非常有助于我们提供更好的文档。 您是否愿意参与我们的内容改进并提供进一步的意见?

Unicode 概述

Unicode 是通用字符编码标准,用于表示文本以供计算机处理。Unicode 提供了一种对多语种文本进行一致编码的方法,便于国际文本文件的交换。

多语种文本的编码标准是 ISO/IEC 10646。尽管 ISO/IEC 10646 与 Unicode 标准包含完全相同的字符和编码点,但 Unicode 标准可提供有关这些字符及其用途的其他信息。

Oracle Solaris 11 为 Unicode 标准版本 6.0 和 ISO/IEC 10646:2011 提供了系统级支持。

每个 Unicode 字符均映射到一个代码点,代码点是一个介于 0 和 1,114,111 之间的整数。Unicode 代码点使用 U+nnnn 形式的表示法来表示(其中 nnnn 是代码点的十六进制数),或使用描述代码点的文本字符串来表示。例如,小写字母 “a” 可以用 U+0061 或文本字符串 "LATIN SMALL LETTER A" 来表示。

代码点可以使用不同的字符编码方案进行编码。在 Oracle Solaris Unicode 语言环境中,使用的是 UTF-8 形式。UTF-8 是 Unicode 的一种可变长度编码形式,它透明地保留了 ASCII 字符代码值(请参见UTF-8 概述)。

有关 Unicode 标准和 ISO/IEC 10646 及其各种表示形式的更多详细信息,请参阅下列来源:

UTF-8 概述

UTF-8 是 Unicode 的一种可变长度编码形式。该形式用于 Oracle Solaris Unicode 语言环境。

该形式的优点在于它向下兼容 ASCII 编码方案,可避免字节存储顺序 (endianness) 和字节顺序复杂化。UTF-8 中的 Unicode 代码点使用一至四个 8 位字节表示。下表指定了 UTF-8 的位分布,并显示了 Unicode 代码点对应于第一字节、第二字节、第三字节和第四字节序列的范围。

表 2-1 UTF-8 的位分布

代码点范围
代码点(二进制)
第 1 字节
第 2 字节
第 3 字节
第 4 字节
U+0000..U+007F
0xxxxxxx
0xxxxxxx
U+0080..U+07FF
00000yyy yyxxxxxx
110yyyyy
10xxxxxx
U+0800..U+FFFF
zzzzyyyy yyxxxxxx
1110zzzz
10yyyyyy
10xxxxxx
U+010000..U+10FFFF
000uuuuu zzzzyyyy yyxxxxxx
11110uuu
10uuzzzz
10yyyyyy
10xxxxxx

有关 UTF-8 编码形式的更多详细信息,请参阅下列来源: