Unicode は、コンピュータ処理のためのテキストの表現に使用される汎用の文字エンコーディング規格です。Unicode は、多言語テキストをエンコードする一貫した方法を提供し、国際化対応テキストファイルの交換を容易にします。
多言語テキストをコード化するための規格は ISO/IEC 10646 です。ISO/IEC 10646 および Unicode 規格には、まったく同じ文字およびエンコーディングポイントが含まれていますが、Unicode 規格は文字とその使用法についての追加情報を提供します。
Oracle Solaris 11 は、Unicode 規格バージョン 6.0 および ISO/IEC 10646:2011 をシステムレベルでサポートします。
個々の Unicode 文字は、0 - 1,114,111 の範囲の整数であるコードポイントにマップされます。Unicode コードポイントは、U+nnnn 形式 (nnnn はコードポイントの 16 進数) の表記法を使用して、またはコードポイントを記述するテキスト文字列によって参照されます。たとえば、小文字の「a」は U+0061 またはテキスト文字列「LATIN SMALL LETTER A」によって表すことができます。
コードポイントはさまざまな文字エンコーディングスキームを使用してエンコードできます。Oracle Solaris の Unicode ロケールでは、UTF-8 形式が使用されます。UTF-8 は Unicode の可変長エンコーディング形式であり、ASCII 文字コード値を透過的に保持します (UTF-8 Overviewを参照)。
Unicode 規格と ISO/IEC 10646、およびこれらの規格の各種表現形式については、次のソースを参照してください。
ISO/IEC 10646:2011, Information Technology-Universal Multiple-Octet Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane