Go to main content

マニュアルページ セクション 7: 標準、環境、マクロ、文字セット、その他

印刷ビューの終了

更新: 2022年7月27日
 
 

iconv_ja(7)

名前

iconv_ja - 日本語エンコーディング用のコードセット変換

説明

Iconv および cconv は幅広い範囲のコードセットからの変換およびコードセットへの変換をサポートします。

次のリストに、サポートされている日本語コードセットに関する基本情報を示します。他のコードセットの情報については、iconv_unicode(7)iconv_extra(7)iconv_ko(7)iconv_zh(7)iconv_zh_TW(7)、および iconv_zh_HK(7) を参照してください。

iconv および cconv に使用される日本語コードセット名の説明を、括弧内の別名 (該当する場合) とともに次に示します。

コードセット
説明
eucJP (EUC-JP)
eucJP-S11 (EUC-JP-S11)
日本語 EUC。詳細は、eucJP(7) を参照してください。Unicode からのおよび Unicode への変換は Windows との互換性があります。eucJP-S11eucJP の変化形で、Solaris 11 以前のリリースの eucJP と互換性があります。
PCK (Shift_JIS)
PCK-S11
PC 漢字。詳細は PCK(7) を参照してください。Unicode から、および Unicode への変換は、Windows との互換性があります。PCK-S11PCK の変化形で、Solaris 11 以前のリリースの PCK と互換性があります。
ISO-2022-JP (JIS7)
ISO/IEC 2022 および UI-OSF Application Platform Profile for Japanese Environment Version 1.1 によって指定された G0 への指定シーケンスを使用した文字セット ISO 646 IRV または JIS X 0201 (ローマ字およびカタカナの両方)、JIS X 0208、および JIS X 0212 のコード表現。
ISO-2022-JP.RFC1468
RFC 1468によって指定された G0 への指定シーケンスを使用した文字セット ISO 646 IRV または JIS X 0201 (ローマ字のみ) および JIS X 0208 のコード表現。
JIS
JLEJFP 2.4、および以前のリリースで使用されていた JIS 7 ビットコード。
IBM-930IBM-931IBM-939IBM-5026IBM-5035
EBCDIC に基づいた IBM コードセット。IBM CCSID には "IBM-" の接頭辞が付きます。たとえば、"IBM-930"IBM CCSID 930 コードセットを表します。
IBMJIBMJ-EBCDIK
EBCDIC に基づいた IBM コードセット。IBMJ および IBMJ-EBCDIK は SBCS (シングルバイト文字セット) では異なります。"IBMJ"SBCSRFC 1345 IBM038 (EBCDIC-INT)、"IBMJ-EBCDIK" の SBCS は RFC 1345 IBM290 (EBCDIC-JP-kana) であり、これは EBCDIK としても知られています。日本語半角カタカナが含まれますが、アルファベット小文字は含まれません。両方のコードセットの DBCS は IBM コードページ (CPGID) 300 です。
FujitsuJEF-ascii-codeFujitsuJEF-ascii-faceFujitsuJEF-kana-codeFujitsuJEF-kana-face
富士通 JEF コード。SBCS および JIS C 6226JIS X 0208 の間で異なる方法でマッピングされた文字を変換するための 4 つの変化形があります。"-ascii" の変化形では、EBCDIC(ASCII) が SBCS に使用され、"-kana" の変化形では EBCDIC(Kana) が SBCS に使用されます。"-code" の変化形では JIS C 6226 文字はコード値によって変換され、"-face" ではこれらの文字は字形によって変換されます。
HitachiKEIS83HitachiKEIS90
日立 KEIS83 および KEIS90。Solaris の iconv 実装では、このコードセットの SBCS は、IBM のコードページ 290、日本語 (カタカナ) 拡張と同等です。
NECJIPS
NEC JIPS(J).Solaris の iconv 実装では、このコードセットの SBCS は、IBM コード 290、日本語 (カタカナ) 拡張と同等です。
EUC-JIS-2004
JIS X 0213 をサポートする拡張 eucJP コードセット。これは、eucJP を含みますが、JIS X 0212 を含みません。
Shift_JIS-2004
JIS X 0213 をサポートする拡張 PCK コードセット。PCK 内のすべての文字が Shift_JIS-2004 に含まれます。
ISO-2022-JP.2004
JIS X 0213 をサポートする拡張 ISO-2022-JPJIS X 0213 文字を指定するため 2 つの指示子が追加されます。
UTF-8-CP932
CP932 から変換された UTF-8 エンコード済みの Unicode。
UTF-8-Java
UTF-8 エンコード済みの Unicode、Java 実装。ユーザー定義文字およびベンダー定義文字はこのコードセットにマッピングされません。これらは、変換時に置換文字に置き換えられます。置換文字については、「注意事項」のセクションを参照してください。

現在のシステムで使用可能な iconv および cconv 変換は、iconv(1) のマニュアルページで説明されているように 'iconv -l' を実行して取得できます。

標準名と、オプションの変化形レベルでサポートされている別名との間のマッピングの追加情報については、alias(5) マニュアルページおよび /usr/lib/iconv/alias ファイルを参照してください。

ファイル

/usr/lib/iconv/*.so

iconv 変換モジュール

/usr/lib/iconv/*.bt

iconv(1)cconv(3C)、および iconv(3C) 用の cconv コード変換バイナリテーブル

/usr/lib/iconv/geniconvtbl/binarytables/*.bt

geniconvtbl 変換バイナリテーブル

/usr/lib/iconv/alias

コードセット名の別名テーブルファイル

関連項目

geniconvtbl(1)iconv(1)cconv(3C)cconv_close(3C)cconv_open(3C)cconvctl(3C)iconv(3C)iconvctl(3C)alias(5)geniconvtbl(5)geniconvtbl-cconv(5)attributes(7)environ(7)iconv_extra(7)iconv_ko(7)iconv_unicode(7)iconv_zh(7)iconv_zh_HK(7)iconv_zh_TW(7)

Murai, J.、M.Crispin、および E. van der Poel、『Japanese Character Encoding for Internet Messages』、RFC 1468、Keio University、Panda Programming、1993 年 6 月。

Ohta, M.、『Character Sets ISO-10646 and ISO-10646-J-1』、RFC 1815、Tokyo Institute of Technology、1995 年 7 月。

Ohta, M.、および K.Handa、『ISO-2022-JP-2: Multilingual Exten- sion of ISO-2022-JP』、RFC 1554、Tokyo Institute of Technology、1993 年 12 月。

Simonson, K.、『Character Mnemonics & Character Sets』、RFC 1345、Rationel Almen Planlaegning、1992 年 6 月。

UI-OSF Japanese Localization Group、UI-OSF Application Platform Profile for Japanese Environment Version 1.1、1993 年 5 月。

ISO/IEC 2022:1994 Information technology -- 『Character code structure and extension techniques』、1994 年。

ユーザー定義文字は、ターゲットコードセットの対応する値に順次マッピングされます。コードセットが UTF-8 などの Unicode エンコーディングのときには、Private Use Area の値にマップされます (U+E000 から U+F8FF)。ターゲットコードセットにユーザー定義の文字がない場合、置換文字にマッピングされます。ソースコードセットにターゲットコードセットよりも大きいユーザー定義文字の領域がある場合、オーバーフローした文字が置換文字にマッピングされます。

ベンダー定義文字はターゲットコードセットの対応するコード値にマッピングされます。ターゲットのコードセットにその値がない場合は、置換文字で置き換えられます。

ベンダー定義文字に重複文字が含まれているコードセットがあります。JIS X 0208 などの標準文字と重複する文字については、これらの標準文字にマッピングされます。PCK および CP932 コードセットでは、NEC 特殊文字と IBM 拡張文字との間に重複文字があり、これらの文字は NEC 特殊文字にマッピングされます。

置換文字はコードセットごとに異なります。ターゲットコードセットが Unicode エンコーディングのときの Unicode 置換文字 (U+FFFD) の表現です。これはターゲットコードセットが ASCII 互換または EBCDIC 互換のときの疑問符 '?' です。