Oracle® Solaris 11.2 国际语言环境指南

退出打印视图

更新时间: 2014 年 7 月
 
 

Unicode 概述

Unicode 是通用字符编码标准,用于表示文本以供计算机处理。Unicode 提供了一种对多语种文本进行一致编码的方法,便于国际文本文件的交换。

多语种文本的编码标准是 ISO/IEC 10646。尽管 ISO/IEC 10646 与 Unicode 标准包含完全相同的字符和编码点,但 Unicode 标准可提供有关这些字符及其用途的其他信息。

Oracle Solaris 11 为 Unicode 标准版本 6.0 和 ISO/IEC 10646:2011 提供了系统级支持。

每个 Unicode 字符均映射到一个代码点,代码点是一个介于 0 和 1,114,111 之间的整数。Unicode 代码点使用 U+nnnn 形式的表示法来表示(其中 nnnn 是代码点的十六进制数),或使用描述代码点的文本字符串来表示。例如,小写字母 "a" 可以用 U+0061 或文本字符串 "LATIN SMALL LETTER A" 来表示。

代码点可以使用不同的字符编码方案进行编码。在 Oracle Solaris Unicode 语言环境中,使用的是 UTF-8 形式。UTF-8 是 Unicode 的一种可变长度编码形式,它透明地保留了 ASCII 字符代码值(请参见UTF-8 Overview)。

有关 Unicode 标准和 ISO/IEC 10646 及其各种表示形式的更多详细信息,请参阅下列来源:

  • The Unicode Standard, Version 6.0 from the Unicode Consortium(Unicode Consortium 提供的《Unicode 标准,版本 6.0》)

  • ISO/IEC 10646:2011, Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane(ISO/IEC 10646:2011 信息技术-通用多重八位组字符集 (UCS)-第 1 部分:体系结构和基本多语种平面)

  • The Unicode Consortium web site(Unicode Consortium Web 站点)