吴振天身高:Linux下iconv转换字符集

来源:百度文库 编辑:偶看新闻 时间:2024/04/29 17:37:20
Linux下iconv转换字符集 2011-04-24 15:32:36 标签:linux windows 中文  转自:http://samyubw.blog.51cto.com/978243/552467

在windows下编辑好了SQL执行脚本,但是传到linux上执行时报错,显示有不识别的字符。这需要进行字符集的转换。我一般是用iconv进行字符的边编码转换。但是这次执行时报出如下错误:iconv: 未知 2 处的非法输入序列

上网找到如下说明资料:

编码转换的时候,如果你的源格式设定为 GB2312 的话,而且在转换成 UTF-8 的时候,发现程序会报“illegal input sequence at position xxxx”的错误。这是由于你之前的做的假定有问题。GB2312 是国标里面一个最小也是最早的中文编码标准。其中,只涵盖了 6,763 个汉字。所以你需要转换的文件的原始的格式可能并不是 GB2312 编码。这个时候,你可以用 GB18030 做为源格式来进行转换。GB18030 是最新的国家标准,包含了 27,564 个汉字,而且向下兼容 GB2312 和 GBK。

假定的字符集指定,上述情况还可以在iconv中加入 -c 选项,忽略无效的字符,也可转换成功。

附iconv的用法:

iconv命令用于转换指定文件的编码,默认输出到标准输出设备,亦可指定输出文件。

用法:iconv [选项...] [文件...]

有如下选项可用:

输入/输出格式规范:

-f, --from-code=名称 原始文本编码

-t, --to-code=名称 输出编码

信息:

-l, --list 列举所有已知的字符集

输出控制:

-c 从输出中忽略无效的字符

-o, --output=FILE 输出文件

-s, --silent 关闭警告

--verbose 打印进度信息

--help 给出该系统求助列表

--usage 给出简要的用法信息

-V, --version 打印程序版本号

例子:

iconv -f utf-8 -t gb2312 aaa.txt >bbb.txt

这个命令读取aaa.txt文件,从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。