19.1 コード変換のカテゴリ

コード変換は、処理する文字符号化の特性によって、次のように分けることができます。

固定サイズの変換
複数バイト変換。これは、さらに次のカテゴリに分かれます。

非状態依存の変換
状態依存の変換

固定サイズの変換は、すべて同じサイズの文字で構成された文字符号化同士の変換です。このような文字符号化には、すべてがシングル文字の符号化や、すべてがワイド文字の符号化などがあります。文字ごとに情報を持ち、コンテキストとは無関係に認識や変換を行うことができます。固定サイズの変換例としては、ASCII と EBCDIC や、Unicode と ISO10646 間の変換があります。

複数バイト変換は、複数バイトの符号化に使用します。複数バイトの符号化には、さまざまな文字のサイズを使用します。複数のバイトからなる複数バイト文字がある一方で、1 バイトだけの複数バイト文字の場合もあります。

状態依存の文字を含む符号化のコード変換と、非状態依存の符号化同士のコード変換はまったく異なります (2.3 節を参照)。

状態依存の複数バイト変換では、状態依存の文字符号化を扱います。状態依存の文字符号化では、現在のコンテキストによって文字シーケンスの意味が異なることがあります。状態依存の符号化には、一般に、モードとエスケープシーケンスがあり、これでモードを切り替えます。状態依存の文字変換の例としては、日本語の状態依存の JIS 符号化と Unicode のワイド文字符号化の間の変換があります。

非状態依存の複数バイト変換にはモードがありません。文字シーケンスは、そのコンテキストに関係なく、いつでも割り込むことができます。非状態依存の複数バイト変換の例としては、非状態依存の複数バイト符号化である EUC と Unicode の間の変換があります。

OEM リリース, 1998 年 6 月