好的,我想知道我拥有的文件的编码类型。我尝试使用 encoding='UTF-8' 读取文件,但失败了,这表明该文档不是 utf8 编码的。当然,我可以尝试其他编码,例如“ascii”或“latin-1”或“cp1252”。我还可以安装 chardet 模块并使用它来检测文件的编码。
我可以在终端中尝试以下操作/cmd 工具猜测文件的编码
输出:
python -m chardet.cli.chardetect FILENAME
对于 Python。例如,我有一个名为“ham”的文件,下面是使用此命令的输出
输出:
λ python -m chardet.cli.chardetect ham
ham: ascii with confidence 1.0
是否有人有更好的解决方案来找出我的.docx 文件采用什么编码?
有人知道如何使用chardet 模块检测我的文件的编码?代码完全正确,因为我找不到该库的任何好的和完整的代码。
答案1
Word 生成的 docx 文件是包含 UTF-8 XML 文件的 ZIP 文件。
每个 XML 文件的编码都在 XML 标头中。通常<?xml version="1.0" encoding="UTF-8"…
。
那么您无法直接将 docx 文件作为 UTF-8 文本文件打开。