CMD/Python:猜测你的 .docx 或 .txt 文件的编码

CMD/Python:猜测你的 .docx 或 .txt 文件的编码

好的,我想知道我拥有的文件的编码类型。我尝试使用 encoding='UTF-8' 读取文件,但失败了,这表明该文档不是 utf8 编码的。当然,我可以尝试其他编码,例如“ascii”或“latin-1”或“cp1252”。我还可以安装 chardet 模块并使用它来检测文件的编码。

我可以在终端中尝试以下操作/cmd 工具猜测文件的编码

输出:

python -m chardet.cli.chardetect FILENAME

对于 Python。例如,我有一个名为“ham”的文件,下面是使用此命令的输出

输出:

λ python -m chardet.cli.chardetect ham
ham: ascii with confidence 1.0

是否有人有更好的解决方案来找出我的.docx 文件采用什么编码?

有人知道如何使用chardet 模块检测我的文件的编码?代码完全正确,因为我找不到该库的任何好的和完整的代码。

答案1

Word 生成的 docx 文件是包含 UTF-8 XML 文件的 ZIP 文件。

每个 XML 文件的编码都在 XML 标头中。通常<?xml version="1.0" encoding="UTF-8"…

那么您无法直接将 docx 文件作为 UTF-8 文本文件打开。

相关内容