我将 PDF 文档转换为 Word 格式。PDF 是一期杂志。我需要所有特定字体的文本,字体大小为 9.5 或 10 点。这些是文章的内容,我想对其进行文本挖掘(仅限词频)。如果用其他方式删除大量其他内容,将非常繁琐。
右键单击文本区域并选择“选择具有类似格式的文本”不起作用。(这是我计划做的)。它只选择当前段落。我尝试“全选”,然后将所有段落格式设置为相同,但这没有效果。
答案1
在文档的副本中(如果您想保留所有文本),您可以通过执行 3 次查找和替换来删除所有不是特定字体和大小的文本(前两个将突出显示您要保留的文本,第三个将删除剩余的纯文本)。
(注意:确保“查找内容”和“替换为”文本框为空,并且不要在“替换为”中意外包含空格)
- 查找字体为 9.5 点的所有文本,并用突出显示替换(它将保留文本,但以您最后使用的荧光笔颜色突出显示 - 您可能希望在开始时突出显示一个单词,以便选择一种颜色)。
- 执行相同的查找和替换,但这次用高亮替换 10 点字体。
上述步骤 1 和 2 意味着,任何非您想要的字体样式为 9.5 或 10 点的文本都不会被突出显示。
这将删除所有未突出显示的文本,仅留下您想要保留的文本。