auto_ef - マニュアルページセクション 1: ユーザーコマンド

言語:

auto_ef(1)

名前

auto_ef - エンコーディングの自動検出

形式

/usr/bin/auto_ef [-e encoding_list] [-a] [-l level] 
     [file ...]

/usr/bin/auto_ef -h

説明

auto_ef ユーティリティーは、指定されたファイルのエンコーディングを識別します。このユーティリティーは、iconv コード変換を使用して特定のコード変換がファイルで成功したかどうかを判別し、またファイルに出現する文字シーケンスの頻度分析を実行して、エンコーディングを判断します。

文字列がバイナリ、文字テーブル、ローカライズ済みの桁リスト、またはクロノグラムの場合か、文字列またはファイルのサイズが非常に小さい場合 (100 バイト未満など)、auto_ef ユーティリティーが予期しない出力を生成する可能性があります。

ASCII
ISO-2022-JP: JIS
eucJP: 日本語 EUC
PCK: 日本語 PC 漢字コード、CP932、シフト JIS
UTF-8
ko_KR.euc: 韓国語 EUC
ko_KR.cp949: 統合型ハングル
ISO-2022-KR: ISO-2022 韓国語
zh_CN.iso2022-CN: ISO-2022 CN/CN-EXT
zh_CN.euc: 簡体字中国語 EUC、GB2312
GB18030: 簡体字中国語 GB18030/GBK
zh_TW-big5: BIG5
zh_TW-euc: 繁体字中国語 EUC
zh_HK.hkscs: 香港 BIG5
iso-8859-1: 西ヨーロッパなど
iso-8859-2: 東ヨーロッパなど
iso-8859-5: キリル文字など
iso-8859-6: アラビア語
iso-8859-7: ギリシャ語
iso-8859-8: ヘブライ語
CP1250: windows-1250、ISO-8859-2 に対応
CP1251: windows-1251、ISO-8859-5 に対応
CP1252: windows-1252、ISO-8859-1 に対応
CP1253: windows-1253、ISO-8859-7 に対応
CP1255: windows-1255、ISO-8859-8 に対応
koi8-r: iso-8859-5 に対応

デフォルトでは、auto_ef は、指定されたファイル内のテキストに対するもっとも可能性の高い 1 つのエンコーディングを返します。このファイルについて可能性のあるすべてのエンコーディングを取得するには、–a オプションを使用します。

また、デフォルトでは、auto_ef はもっとも高速な処理を使用してファイルを検査します。より正確な結果を得るには、–l オプションを使用します。

限定されたエンコーディングセットを使用してデータを検査するには、–e オプションを使用します。

オプション

サポートしているオプションは、次のとおりです。

–a

可能性のあるすべてのエンコーディングを、可能性の高い順に 0.0 - 1.0 の範囲のスコアを付けて表示します。スコアが高いほど可能性も高くなります。たとえば、

example% auto_ef -a test_file
eucJP           0.89
zh_CN.euc       0.04
ko_KR.euc       0.01

このオプションを指定しない場合は、もっとも高いスコアを持つ 1 つのエンコーディングだけが表示されます。

–e encoding_list

指定したエンコーディングだけを使ってデータを検査します。たとえば、encoding_list が「ko_KR.euc:ko_KR.cp949」に指定されている場合、auto_ef は CP949 と ko_KR.euc だけを使用してテキストを検査します。このオプションを指定しない場合、auto_ef はすべてのエンコーディングでテキストを検査します。エンコーディングをコロン (:) で区切って、複数のエンコーディングを指定できます。

–h

使用方法に関するメッセージを表示します。

–l level

判断のレベルを指定します。level の値は、0、1、2、または 3 にできます。レベルを 3 にすると最善の結果が得られますが、時間のかかる場合があります。レベル 0 はもっとも高速ですが、高いレベルに比べて結果の正確性が低くなる場合があります。デフォルトのレベルは 0 です。

オペランド

次のオペランドがサポートされています。

file: 検査対象のファイル名。

例

使用例 1 ファイルのエンコードを検査する

example% auto_ef file_name

使用例 2 ファイルのエンコーディングをレベル 2 で検査する

example% auto_ef -l 2 file_name

使用例 3 eucJP または ko_KR.euc のみでファイルのエンコーディングを検査する

example% auto_ef -e "eucJP:ko_KR.euc" file_name

終了ステータス

次の終了ステータスが返されます。

0: 正常終了
1: エラーが発生しました。

属性

属性についての詳細は、マニュアルページの attributes(7) を参照してください。

属性タイプ	属性値
使用条件	text/auto_ef
インタフェースの安定性	確実

マニュアルページ セクション 1: ユーザーコマンド

auto_ef(1)

名前

形式

説明

オプション

オペランド

例

終了ステータス

属性

関連項目

マニュアルページセクション 1: ユーザーコマンド