Unicode は、コンピュータ処理用のテキスト表現に使用される汎用文字コード化規格です。Unicode は、国際規格 ISO/IEC 10646-1:2000 および ISO/IEC 10646–2:2001 と完全な互換性があり、ISO/IEC 10646 とまったく同じ文字とエンコーディングポイントを含んでいます。この Unicode 規格によって、文字とその使い方に関する追加情報が提供されます。また、Unicode に準拠した実装は、ISO/IEC 10646 にも準拠します。
Unicode では、多言語のプレーンテキストのエンコーディングが一貫性をもち、国際的なテキストファイルの交換が容易になります。多言語のテキストを取り扱うコンピュータユーザー、オフィスワーカー、言語学者、研究員、科学者などにとっては、Unicode 規格によって仕事が非常に単純化されることがわかります。また、数学記号やその他の技術文字を常に使用する数学者と技術者にとっても、Unicode 規格は価値があります。
Unicode では、17 個の 16 ビットプレーンによって最大 1,114,112 のコードポイントがサポートされます。したがって、各プレーンでは、65,536 のコードポイントがサポートされます。
Unicode がサポートする 100 万以上のコードポイントのうち、バージョン 4.0 では、現在、プレーン 0、1、2、14 を使って 96,382 文字が定義されています。プレーン 15 と16 は、ユーザー定義文字用に予約されています。プレーン 15 と 16 では、合わせて 131,068 ユーザー定義文字がサポートされます。
Unicode は、次の文字エンコーディングスキーマの 1 つを使ってエンコードされます。
UTF-8
UTF-16
UTF-32
UTF-8 は、ASCII 文字コードの値を透過的に保存する可変長の Unicode エンコーディング形式です。Solaris Unicode ロケールのファイルコードには、この形式が使用されています。
UTF-16 は 16 ビットの Unicode エンコーディング形式です。UTF-16 では、最大で 65,535 文字が 1 つの 16 ビット値としてエンコードされます。65,535 から 1,114,111 の文字は 2 つの 16 ビット値としてエンコードされます (サロゲート)。
UTF-32 は、一般に 32 ビットのコンテナまたはデータタイプとして表される固定長 21 ビットの Unicode エンコーディング形式です。この形式は、Solaris Unicode ロケールの中でプロセスコード (ワイド文字コード) として使用されます。
Unicode 規格や ISO/IEC 10646、およびその表現形式については、次の資料を参照してください。
Unicode Consortium が提供する The Unicode Standard, Version 4.0
ISO/IEC 10646-1:2000, Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane
ISO/IEC 10646-2: Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 2: Secondary Multilingual Plane for Scripts and Symbols, Supplementary Plane for CJK Ideographs, Special Purpose Plane
Unicode Consortium の Web サイト http://www.unicode.org/
Unicode/UTF-8 ロケールは Unicode 4.0 をサポートします。en_US.UTF-8 ロケールは、UTF-8 をコードセットとして使用することによってマルチスクリプト処理をサポートします。このロケールは、複数のスクリプトでテキストを入出力できます。これは、Solaris OS で最初にこの機能を持ったロケールです。他の UTF-8 ロケールの機能も en_us.UTF-8 の機能と似ています。en_US.UTF-8 に関する以下の説明はこれらのロケールにも当てはまります。
UTF-8 は、1992 年の X/Open-Uniform Joint Internationalization Working Group (XoJIG) によって公式化され、1996 年に ISO と IEC によって ISO/IEC 10646-1:1993 の修正第 2 条として承認された Unicode/ISO/IEC 10646-1 のファイルシステム安全汎用文字セット変換形式です。この規格は、Unicode Consortium、ISO (国際標準化機構)、IEC (国際電気標準会議) によって、Unicode 4.0 および ISO/IEC 10646-1 として採用されました。
Solaris 環境の Unicode ロケールは、Unicode 4.0 や ISO/IEC 10646-1 および 10646-2 に定義されているすべてのコードポイント値の処理をサポートしています。サポートされるスクリプトには、全ヨーロッパやアジアのスクリプトだけでなく、アラビア語、ヘブライ語、ヒンディー語、タイ語などの複雑なテキストレイアウトのスクリプトも含まれます。
一部の Unicode ロケール、特にアジアロケールは、追加の漢字および Hanzi グリフを含みます。
使用できるフォントに制限があるため、最新の Solaris には次の文字セットの文字グリフのみ含まれています。
ISO 8859-1 (英語、フランス語、スペイン語、ドイツ語など、ほとんどの西ヨーロッパ諸国の言語)
ISO 8859-2 (チェコ語、ポーランド語、ハンガリー語など、ほとんどの中央ヨーロッパ諸国の言語)
ISO 8859-4 (スカンジナビアおよびバルト諸国の言語)
ISO 8859-5 (ロシア語)
ISO 8859-6 (さらに多くの表示形式の文字グリフを含むアラビア語)
ISO 8859–7 (ギリシャ語)
ISO 8859–8 (ヘブライ語)
ISO 8859-9 (トルコ語)
ISO 8859–15 (ユーロ記号を含む多くの西ヨーロッパ言語)
GB 2312–1980 (簡体字中国語)
JIS X 0201–1976、JIS X 0208–1990 (日本語)
KSC 5601–1992 Annex 3 (韓国語)
GB 18030 (簡体字中国語)
HKSCS (繁体字中国語、香港)
Big5 (繁体字中国語、台湾)
IS 13194.1991 (ISCII ともいう) (ヒンディー語、さらに多くの表示形式の文字グリフを含む)
対応するグリフが en_US.UTF-8 ロケールに含まれていない文字をユーザーが表示させると、ロケールが、代わりに no-glyph というグリフを以下の例のように表示します。
インストール時にこのロケールをシステムのデフォルトロケールとして選択することができます。
同じレベルの en_US.UTF-8 ロケールのサポートが、64 ビットと 32 ビットの Solaris システムの両方に用意されています。
Motif および Solaris CDE のデスクトップアプリケーションとライブラリは、en_US.UTF-8 ロケールをサポートしています。ただし、 XView™ と OLIT ライブラリでは en_US.UTF-8 ロケールをサポートしていません。