国际语言环境指南

Unicode 概述

Unicode 标准是用于表示文本以供计算机进行处理的通用字符编码标准。 它与国际标准 ISO/IEC 10646-1:2000 和 ISO/IEC 10646–2:2001 完全兼容,并包含与 ISO/IEC 10646 相同的全部字符和编码点。Unicode 标准提供有关各字符及其用法的附加信息。符合 Unicode 的所有执行程序也同时符合 ISO/IEC 10646。

Unicode 标准提供了一种对多语种纯文本进行一致编码的方法,便于国际文本文件的交换。处理多语种文本的计算机用户 、商务人员、语言学家、研究人员、科学家等会发现 Unicode 标准可大大简化他们的工作。Unicode 标准对于经常使用数学符号和其它技术字符的数学家和技术人员也很有价值。

Unicode 能支持的最大可能代码数据点数是 1,114,112,位于 17 个 16 位平面中。每一个平面都可支持 65,536 个不同的代码数据点。

在 Unicode 可支持的一百多万个代码数据点中,3.1 版目前定义了 94,140 个字符,它们位于平面 0、1、2 和 14 中。 平面 15 和 16 供个人使用,也称为用户定义的字符。平面 15 和 16 总共可支持 131,068 个用户定义的字符。

Unicode 可使用下列任何一种字符编码方案来编码:

UTF-8 是 Unicode 的一种可变长度编码形式,它透明地保留了 ASCII 字符代码值。该形式在 Solaris Unicode 语言环境中用作文件代码。

UTF-16 是 Unicode 的一种 16 位编码形式。在 UTF-16 中,多达 65,535 个字符被编码为单个 16 位值。映射在 65,535 到 1,114,111 的字符被编码为成对的 16 位值(代理)。

UTF-32 是 Unicode 的一种固定长度的 21 位编码形式,通常用在 32 位容器或数据类型中。该形式在 Solaris Unicode 语言环境中用作进程代码(宽字符代码)。

有关 Unicode 标准和 ISO/IEC 10646 及其各种表示形式的详细信息,请参考: