如何将 .doc 转换为 .txt,且不使 txt 文件中出现一堆垃圾?

如何将 .doc 转换为 .txt,且不使 txt 文件中出现一堆垃圾?

所以……我正尝试使用批处理将一堆 word 文档(约 80 个)重命名为 .txt 文件,这样我就可以在所有文档中搜索我需要的字符串(我已经弄清楚了这个批处理文件)。我只需要帮助将我的 .doc 文件转换为 .txt 文件,而不会在 .txt 文件中产生一堆垃圾。当我使用时会发生什么:

任*.doc*.txt

转换后的 .txt 文件中有很多垃圾。当我单独将 word 文档“另存为”为“纯文本”文件时,它会打开“编码为”屏幕,然后另存为默认窗口。这个文件中没有垃圾,但我不想单独使用“另存为”来编码此文件夹中的 ~80 个文档。我尝试使用:

chcp 1252 任 *.doc *.txt

我也没有运气。任何帮助都非常好!

答案1

我怎样才能转换.doc.txt

您可以使用类似 docx2txt 的工具:

Docx2txt 是一款基于 Perl 的命令行实用程序,用于将 Microsoft docx 文档(甚至是损坏的)转换为格式合理的文本文件,并进行适当的字符转换。除了 Perl 之外,它还需要一个命令行解压缩程序,如 unzip/7z/pkzipc/wzunzip。

特征

  • 由(核心)Perl 和(包装器)Unix/Windows shell 脚本以及配置文件组成,用于维护单独的系统范围配置文件和单独的用户级配置文件。
  • Perl 脚本还可以用于输入/输出重定向,并且可用于直接使用 vim、emacs 等编辑器和 mc(midnight commander)等文件浏览器查看 docx 文件内容。
  • 在许多情况下可以从损坏的 docx 文档中恢复文本。
  • 短行对齐,显示超链接和许多字符转换(MS 文本转换中缺失)。
  • 处理(项目符号、小数点、字母、罗马数字)列表以及缩进。
  • 通过 Makefile 和 Windows 批处理文件安装。在非 Windows 系统上,脚本和配置文件可以安装在单独的目录中。
  • 可以方便地用于构建基于Web的docx文档转换服务。

来源docx转txt

相关内容