コード変換は、処理する文字符号化の特性によって、次のように分けることができます。
固定サイズの変換は、すべて同じサイズの文字で構成された文字符号化同士の変換です。このような文字符号化には、すべてがシングル文字の符号化や、すべてがワイド文字の符号化などがあります。文字ごとに情報を持ち、コンテキストとは無関係に認識や変換を行うことができます。固定サイズの変換例としては、ASCII と EBCDIC や、Unicode と ISO10646 間の変換があります。
複数バイト変換は、複数バイトの符号化に使用します。複数バイトの符号化には、さまざまな文字のサイズを使用します。複数のバイトからなる複数バイト文字がある一方で、1 バイトだけの複数バイト文字の場合もあります。
状態依存の文字を含む符号化のコード変換と、非状態依存の符号化同士のコード変換はまったく異なります (2.3 節を参照)。
状態依存の複数バイト変換では、状態依存の文字符号化を扱います。状態依存の文字符号化では、現在のコンテキストによって文字シーケンスの意味が異なることがあります。状態依存の符号化には、一般に、モードとエスケープシーケンスがあり、これでモードを切り替えます。状態依存の文字変換の例としては、日本語の状態依存の JIS 符号化と Unicode のワイド文字符号化の間の変換があります。
非状態依存の複数バイト変換にはモードがありません。文字シーケンスは、そのコンテキストに関係なく、いつでも割り込むことができます。非状態依存の複数バイト変換の例としては、非状態依存の複数バイト符号化である EUC と Unicode の間の変換があります。
Copyright (c) 1998, Rogue Wave Software, Inc.
このマニュアルに関する誤りのご指摘やご質問は、電子メールにてお送りください。
OEM リリース, 1998 年 6 月