国際化対応言語環境の利用ガイド

Unicode の概要

Unicode 規格は、コンピュータ処理用のテキスト表現に使用される汎用文字コード化規格です。Unicode 規格は、国際規格 ISO/IEC 10646-1:1999 と完全に互換性があり、ISO/IEC 10646 と同一の文字とエンコーディングポイントを含んでいます。この Unicode 規格によって、文字とその使い方に関する追加情報が提供されます。また、Unicode に準拠した実装は、ISO/IEC 10646 にも準拠します。

Unicode によって、多言語のプレーンテキストを矛盾なくコード化でき、国際的にテキストファイルの交換が困難であった問題に秩序をもたらします。多言語のテキストを取り扱うコンピュータユーザー、オフィスワーカー、言語学者、研究員、科学者などにとっては、Unicode 規格によって仕事が非常に単純化されることがわかります。また、数学記号やその他の技術文字を常に使用する数学者と技術者にとっても、Unicode 規格は価値があります。

Unicode の設計は ASCII の単純さと整合性に基づいていますが、ラテンアルファベットしかコード化できない ASCII の限界を超えています。Unicode 規格によって、世界の文字言語で使用されているすべての文字をコード化できます。Unicode 規格は、 65,000 文字以上のコードポイントを提供する 16 ビットのコード化を使用しています。文字コーディングを単純で効果的なものにしておくため、Unicode 規格は各文字に一意の 16 ビット値を割り当て、複雑なモードやエスケープコードを使いません。65,000 文字は、世界の主要な言語で使用されている数千の文字の多くをコード化するのに十分なものですが、Unicode 規格と ISO 10646 には、エスケープコードを使わずに 100 万文字以上をコード化できる UTF-16 と呼ばれる拡張機構が用意されています。これは、世界の歴史上のすべての筆記文字も含めて、既知のすべての文字をコード化できることになります。UTF-16 によって、ちょうど 16 x 65536 の追加コードポイントが可能となり、さらに文字を表すために 2 バイトの構成要素を使用します。しかし、これらの 16 x 65536 文字には、1 文字ごとに 2 個の 2 バイトの構成要素 (合計 4 バイト) が必要となります。UTF-16 の詳細については、Unicode Consortium から出ている「The Unicode Standard, Version 2.0」の section C.3 か、または「ISO/IEC 10646-1:1999, Information Technology-Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane」の Annex C を参照してください。