修复/恢复文件的错误编码

修复/恢复文件的错误编码

客户定期向我发送包含调试信息的 ISO-8859 编码文本文件。
最近,这些文件开始以 ASCII 编码的形式出现在我的收件箱中,文件中有一些额外的字符,导致我为这些文件编写的解析器崩溃。
我将其缩小到客户使用的电子邮件客户端更改了编码。

是否有可能恢复这种错误的编码更改?
因为我正在使用 Linux,所以我赞成针对 Linux 的解决方案,但我也对针对其他操作系统的解决方案感兴趣。

以下是一些供参考和参考的输出:

$ file /tmp/{wrong,right}_enc.txt
/tmp/wrong_enc.txt: ASCII text
/tmp/right_enc.txt: ISO-8859 text, with very long lines, with CRLF line terminators

$ file -bi /tmp/{wrong,right}_enc.txt
text/plain; charset=us-ascii
text/plain; charset=iso-8859-1

内容示例(信息不同,结构应该相同,但 error_enc.txt 在 '=' 后面和 EOL 处有附加字符(例如):

$ head /tmp/{wrong,right}_enc.txt
==> /tmp/wrong_enc.txt <==
Tue Jun 11 15:51:54 2019=0D
=0D
=0D
###Eth-eth0-driver =3D igb=0D
###Eth-eth0-ipaddr =3D 192.168.99.100=0D
###Eth-eth0-link =3D yes=0D
###Eth-eth1-driver =3D e1000e=0D
###Eth-eth1-ipaddr =3D =0D
###Eth-eth1-link =3D no=0D

==> /tmp/right_enc.txt <==
Wed Apr 17 16:47:21 2019


###Eth-eth0-driver = e1000e
###Eth-eth0-ipaddr = 192.168.178.35
###Eth-eth0-link = yes
###Eth-ethnames = eth0
###Eth-ethtool-eth0 =

答案1

显示的编码是可打印的引用,如果您正在查看“原始”电子邮件源文本,这是完全正常的 - 大多数非 ASCII 消息和文本附件,甚至一些纯 ASCII 消息和文本附件,都是使用 QP(甚至 Base64)进行编码的。

如果发送邮件客户端在内容传输编码标头,则接收邮件客户端会自动将 QP 解码为普通文本。(如果 MIME 标头正确,但您的邮件客户端不执行此解码,则问题出在您的邮件客户端,而不是客户的邮件客户端。)

如果您需要自己执行解码,则有各种库可供使用:

ruby -e 'print STDIN.read.unpack("M")[0]' < wrong.txt > fixed.txt
perl -0777 -ne 'use MIME::QuotedPrint; print decode_qp($_)' < wrong.txt > fixed.txt

当你应该利用现有的模块,直接解码QP比较简单:

perl -0777 -pe 's/=\n//gs; s/=([0-9A-F]{2})/pack("C", hex($1))/gse' < wrong.txt > fixed.txt
  1. =随后删除换行符(将行连接在一起);
  2. =后面跟着两个十六进制数字,替换为相应的字节。

相关内容