手册页部分 1: 用户命令

退出打印视图

更新时间: 2014 年 7 月
 
 

auto_ef(1)

名称

auto_ef - 自动编码查找器

用法概要

/usr/bin/auto_ef [-e encoding_list] [-a] [-l level] 
     [file ...]
/usr/bin/auto_ef -h

描述

auto_ef 实用程序可识别给定文件的编码。该实用程序通过以下方法判断编码:使用 iconv 代码转换、确定对文件的特定代码转换是否成功,以及对文件中出现的字符序列执行频率分析。

如果字符串是二进制、字符表、本地化数字列表或计时图,或者如果字符串或文件很小(例如,小于 100 字节),auto_ef 实用程序可能会生成意外的输出。

ASCII
ISO-2022-JP

JIS

eucJP

日文 EUC

PCK

日文 PC 汉字、CP932、Shift JIS

UTF-8
ko_KR.euc

韩文 EUC

ko_KR.cp949

统一朝鲜文

ISO-2022-KR

ISO-2022 韩文

zh_CN.iso2022-CN

ISO-2022 CN/CN-EXT

zh_CN.euc

简体中文 EUC、GB2312

GB18030

简体中文 GB18030/GBK

zh_TW-big5

BIG5

zh_TW-euc

繁体中文 EUC

zh_HK.hkscs

香港 BIG5

iso-8859-1

西欧文及类似语言

iso-8859-2

东欧文及类似语言

iso-8859-5

西里尔文及类似语言

iso-8859-6

阿拉伯文

iso-8859-7

希腊文

iso-8859-8

希伯来文

CP1250

windows-1250,对应于 ISO-8859-2

CP1251

windows-1251,对应于 ISO-8859-5

CP1252

windows-1252,对应于 ISO-8859-1

CP1253

windows-1253,对应于 ISO-8859-7

CP1255

windows-1255,对应于 ISO-8859-8

koi8-r

对应于 iso-8859-5

缺省情况下,auto_ef 会为指定文件中的文本返回一个最有可能的编码。要获取该文件的所有可能的编码,请使用 –a 选项。

此外,缺省情况下,auto_ef 会使用最快的过程来检查文件。要获取更为准确的结果,请使用 –l 选项。

要使用一组限定的编码检查数据,请使用 –e 选项。

选项

支持以下选项:

–a

按可能性顺序显示所有可能的编码(评分在 0.01.0 范围内)。评分较高表示可能性较大。例如,

example% auto_ef -a test_file
eucJP           0.89
zh_CN.euc       0.04
ko_KR.euc       0.01

若不使用此选项,则仅会显示具有最高评分的那个编码。

–e encoding_list

仅使用指定编码检查数据。例如,当 encoding_list 指定为 "ko_KR.euc:ko_KR.cp949" 时,auto_ef 会仅使用 CP949ko_KR.euc 检查文本。若不使用此选项,auto_ef 会使用所有编码检查文本。可以通过使用冒号 (:) 分隔编码指定多个编码。

–h

显示用法消息。

–l level

指定判断级别。level 的值可以是 0123。级别 3 可生成最佳结果,但速度可能很慢。级别 0 速度最快,但结果的准确性可能要比高级别的结果差。缺省值为级别 0

操作数

支持下列操作数:

file

要检查的文件名。

示例

示例 1 检查文件的编码
example% auto_ef file_name
示例 2 以级别 2 检查文件的编码。
example% auto_ef -l 2 file_name
示例 3 仅使用 eucJP 或 ko_KR.euc 检查文件的编码
example% auto_ef -e "eucJP:ko_KR.euc" file_name

退出状态

将返回以下退出值:

0

成功完成

1

出现错误。

属性

有关下列属性的说明,请参见 attributes(5)

属性类型
属性值
可用性
text/auto_ef
接口稳定性
Committed(已确定)

另请参见

auto_ef(3EXT)libauto_ef(3LIB)attributes(5)

Oracle Solaris 11.2 国际语言环境指南