Unicode 規格は、コンピュータ処理用のテキスト表現に使用される汎用文字コード化規格です。Unicode 規格は、国際規格 ISO/IEC 10646-1:2000 および ISO/IEC 10646–2:2001 と完全な互換性があり、ISO/IEC 10646 とまったく同じ文字とエンコーディングポイントを含んでいます。この Unicode 規格によって、文字とその使い方に関する追加情報が提供されます。また、Unicode に準拠した実装は、ISO/IEC 10646 にも準拠します。
Unicode 規格では、多言語のプレーンテキストのエンコーディングが一貫性をもち、国際的なテキストファイルの交換が容易になります。多言語のテキストを取り扱うコンピュータユーザー、オフィスワーカー、言語学者、研究員、科学者などにとっては、Unicode 規格によって仕事が非常に単純化されることがわかります。また、数学記号やその他の技術文字を常に使用する数学者と技術者にとっても、Unicode 規格は価値があります。
Unicode では、17 個の 16 ビットプレーンによって最大 1,114,112 のコードポイントがサポートされます。したがって、各プレーンでは、65,536 のコードポイントがサポートされます。
Unicode がサポートする 100 万以上のコードポイントのうち、バージョン 3.1 では、現在、プレーン 0、1、2、14 を使って 94,140 文字が定義されています。プレーン 15 と 16 は、ユーザー定義文字用に予約されています。プレーン 15 と 16 では、合わせて 131,068 ユーザー定義文字がサポートされます。
Unicode は、次の文字エンコーディングスキームの 1 つを使ってエンコードされます。
UTF-8
UTF-16
UTF-32
UTF-8 は、ASCII 文字コードの値を透過的に保存する可変長の Unicode エンコーディング形式です。Solaris Unicode ロケールのファイルコードには、この形式が使用されています。
UTF-16 は 16 ビットの Unicode エンコーディング形式です。UTF-16 では、最大で 65,535 文字が 1 つの 16 ビット値としてエンコードされます。65,535 から 1,114,111 の文字は 2 つの 16 ビット値としてエンコードされます (サロゲート)。
UTF-32 は、一般に 32 ビットのコンテナまたはデータタイプとして表される固定長 21 ビットの Unicode エンコーディング形式です。この形式は、Solaris Unicode ロケールの中でプロセスコード (ワイド文字コード) として使用されます。
Unicode 規格や ISO/IEC 10646、およびその表現形式については、次の資料を参照してください。
Unicode Consortium が提供する The Unicode Standard, Version 3.0、 The Unicode Standard Annex #19: UFT-32 および The Unicode Standard Annex #27: Version 3.1
ISO/IEC 10646-1:2000, Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
ISO/IEC 10646-2: Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 2: Secondary Multilingual Plane for Scripts and Symbols, Supplementary Plane for CJK Ideographs, Special Purpose Plane
Unicode Consortium の Web サイト http://www.unicode.org/.