从 MS Word 文档中提取特定字体的所有文本?

从 MS Word 文档中提取特定字体的所有文本?

我将 PDF 文档转换为 Word 格式。PDF 是一期杂志。我需要所有特定字体的文本,字体大小为 9.5 或 10 点。这些是文章的内容,我想对其进行文本挖掘(仅限词频)。如果用其他方式删除大量其他内容,将非常繁琐。

右键单击文本区域并选择“选择具有类似格式的文本”不起作用。(这是我计划做的)。它只选择当前段落。我尝试“全选”,然后将所有段落格式设置为相同,但这没有效果。

答案1

在文档的副本中(如果您想保留所有文本),您可以通过执行 3 次查找和替换来删除所有不是特定字体和大小的文本(前两个将突出显示您要保留的文本,第三个将删除剩余的纯文本)。

(注意:确保“查找内容”和“替换为”文本框为空,并且不要在“替换为”中意外包含空格)

  1. 查找字体为 9.5 点的所有文本,并用突出显示替换(它将保留文本,但以您最后使用的荧光笔颜色突出显示 - 您可能希望在开始时突出显示一个单词,以便选择一种颜色)。 在此处输入图片描述
  2. 执行相同的查找和替换,但这次用高亮替换 10 点字体。

上述步骤 1 和 2 意味着,任何非您想要的字体样式为 9.5 或 10 点的文本都不会被突出显示。

  1. 进行查找和替换,其中查找只是不突出显示(要获得不突出显示作为格式选项,您必须从屏幕截图左下方的格式按钮中选择它两次)。
    在此处输入图片描述

这将删除所有未突出显示的文本,仅留下您想要保留的文本。

相关内容