CMD/Python：猜测你的 .docx 或 .txt 文件的编码

2024-11-7 • tag-icon

好的，我想知道我拥有的文件的编码类型。我尝试使用 encoding='UTF-8' 读取文件，但失败了，这表明该文档不是 utf8 编码的。当然，我可以尝试其他编码，例如“ascii”或“latin-1”或“cp1252”。我还可以安装 chardet 模块并使用它来检测文件的编码。

我可以在终端中尝试以下操作/cmd 工具猜测文件的编码

输出：

python -m chardet.cli.chardetect FILENAME

对于 Python。例如，我有一个名为“ham”的文件，下面是使用此命令的输出

输出：

λ python -m chardet.cli.chardetect ham
ham: ascii with confidence 1.0

是否有人有更好的解决方案来找出我的.docx 文件采用什么编码？

有人知道如何使用chardet 模块检测我的文件的编码？代码完全正确，因为我找不到该库的任何好的和完整的代码。

Word 生成的 docx 文件是包含 UTF-8 XML 文件的 ZIP 文件。

每个 XML 文件的编码都在 XML 标头中。通常<?xml version="1.0" encoding="UTF-8"…。

那么您无法直接将 docx 文件作为 UTF-8 文本文件打开。

相关内容