auto_ef - エンコーディングの自動検出
/usr/bin/auto_ef [-e encoding_list] [-a] [-l level] [file ...]
/usr/bin/auto_ef -h
auto_ef ユーティリティーは、指定されたファイルのエンコーディングを識別します。このユーティリティーは、iconv コード変換を使用して特定のコード変換がファイルで成功したかどうかを判別し、またファイルに出現する文字シーケンスの頻度分析を実行して、エンコーディングを判断します。
文字列がバイナリ、文字テーブル、ローカライズ済みの桁リスト、またはクロノグラムの場合か、文字列またはファイルのサイズが非常に小さい場合 (100 バイト未満など)、auto_ef ユーティリティーが予期しない出力を生成する可能性があります。
JIS
日本語 EUC
日本語 PC 漢字コード、CP932、シフト JIS
韓国語 EUC
統合型ハングル
ISO-2022 韓国語
ISO-2022 CN/CN-EXT
簡体字中国語 EUC、GB2312
簡体字中国語 GB18030/GBK
BIG5
繁体字中国語 EUC
香港 BIG5
西ヨーロッパなど
東ヨーロッパなど
キリル文字など
アラビア語
ギリシャ語
ヘブライ語
windows-1250、ISO-8859-2 に対応
windows-1251、ISO-8859-5 に対応
windows-1252、ISO-8859-1 に対応
windows-1253、ISO-8859-7 に対応
windows-1255、ISO-8859-8 に対応
iso-8859-5 に対応
デフォルトでは、auto_ef は、指定されたファイル内のテキストに対するもっとも可能性の高い 1 つのエンコーディングを返します。このファイルについて可能性のあるすべてのエンコーディングを取得するには、–a オプションを使用します。
また、デフォルトでは、auto_ef はもっとも高速な処理を使用してファイルを検査します。より正確な結果を得るには、–l オプションを使用します。
限定されたエンコーディングセットを使用してデータを検査するには、–e オプションを使用します。
サポートしているオプションは、次のとおりです。
可能性のあるすべてのエンコーディングを、可能性の高い順に 0.0 - 1.0 の範囲のスコアを付けて表示します。スコアが高いほど可能性も高くなります。たとえば、
example% auto_ef -a test_file eucJP 0.89 zh_CN.euc 0.04 ko_KR.euc 0.01
このオプションを指定しない場合は、もっとも高いスコアを持つ 1 つのエンコーディングだけが表示されます。
指定したエンコーディングだけを使ってデータを検査します。たとえば、encoding_list が「ko_KR.euc:ko_KR.cp949」に指定されている場合、auto_ef は CP949 と ko_KR.euc だけを使用してテキストを検査します。このオプションを指定しない場合、auto_ef はすべてのエンコーディングでテキストを検査します。エンコーディングをコロン (:) で区切って、複数のエンコーディングを指定できます。
使用方法に関するメッセージを表示します。
判断のレベルを指定します。level の値は、0、1、2、または 3 にできます。レベルを 3 にすると最善の結果が得られますが、時間のかかる場合があります。レベル 0 はもっとも高速ですが、高いレベルに比べて結果の正確性が低くなる場合があります。デフォルトのレベルは 0 です。
次のオペランドがサポートされています。
検査対象のファイル名。
example% auto_ef file_name使用例 2 ファイルのエンコーディングをレベル 2 で検査する
example% auto_ef -l 2 file_name使用例 3 eucJP または ko_KR.euc のみでファイルのエンコーディングを検査する
example% auto_ef -e "eucJP:ko_KR.euc" file_name
次の終了ステータスが返されます。
正常終了
エラーが発生しました。
属性についての詳細は、マニュアルページの attributes(7) を参照してください。
|