跳过导航链接 | |
退出打印视图 | |
手册页第 1 部分:用户命令 Oracle Solaris 11.1 Information Library (简体中文) |
- 自动编码查找器
/usr/bin/auto_ef [-e encoding_list] [-a] [-l level] [file ...]
/usr/bin/auto_ef -h
auto_ef 实用程序可识别给定文件的编码。该实用程序通过以下方法判断编码:使用 iconv 代码转换、确定对文件的特定代码转换是否成功,以及对文件中出现的字符序列执行频率分析。
如果字符串是二进制、字符表、本地化数字列表或计时图,或者如果字符串或文件很小(例如,小于 100 字节),auto_ef 实用程序可能会生成意外的输出。
JIS
日文 EUC
日文 PC 汉字、CP932、Shift JIS
韩文 EUC
统一朝鲜文
ISO-2022 韩文
ISO-2022 CN/CN-EXT
简体中文 EUC、GB2312
简体中文 GB18030/GBK
BIG5
繁体中文 EUC
香港 BIG5
西欧文及类似语言
东欧文及类似语言
西里尔文及类似语言
阿拉伯文
希腊文
希伯来文
windows-1250,对应于 ISO-8859-2
windows-1251,对应于 ISO-8859-5
windows-1252,对应于 ISO-8859-1
windows-1253,对应于 ISO-8859-7
windows-1255,对应于 ISO-8859-8
对应于 iso-8859-5
缺省情况下,auto_ef 会为指定文件中的文本返回一个最有可能的编码。要获取该文件的所有可能的编码,请使用 -a 选项。
此外,缺省情况下,auto_ef 会使用最快的过程来检查文件。要获取更为准确的结果,请使用 -l 选项。
要使用一组限定的编码检查数据,请使用 -e 选项。
支持以下选项:
按可能性顺序显示所有可能的编码(评分在 0.0 到 1.0 范围内)。评分较高表示可能性较大。例如,
example% auto_ef -a test_file eucJP 0.89 zh_CN.euc 0.04 ko_KR.euc 0.01
若不使用此选项,则仅会显示具有最高评分的那个编码。
仅使用指定编码检查数据。例如,当 encoding_list 指定为 "ko_KR.euc:ko_KR.cp949" 时,auto_ef 会仅使用 CP949 和 ko_KR.euc 检查文本。若不使用此选项,auto_ef 会使用所有编码检查文本。可以通过使用冒号 (:) 分隔编码指定多个编码。
显示用法消息。
指定判断级别。level 的值可以是 0、1、2 或 3。级别 3 可生成最佳结果,但速度可能很慢。级别 0 速度最快,但结果的准确性可能要比高级别的结果差。缺省值为级别 0。
支持下列操作数:
要检查的文件名。
示例 1 检查文件的编码
example% auto_ef file_name
示例 2 以级别 2 检查文件的编码。
example% auto_ef -l 2 file_name
示例 3 仅使用 eucJP 或 ko_KR.euc 检查文件的编码
example% auto_ef -e "eucJP:ko_KR.euc" file_name
将返回以下退出值:
成功完成
出现错误。
有关下列属性的说明,请参见 attributes(5):
|