如何在 Latex 中列出所有单词?

如何在 Latex 中列出所有单词?

有没有办法列出 Latex 文档中使用的所有单词?或者,如果有人知道另一种方法,那也可能会有帮助,例如使用 Python、网站或其他东西

下面是我想要的一个例子:

\documentclass{article}
\begin{document}
I have a dog and a cat.
The dog and the cat are named Bob and John.
\end{document} % Should maybe be after the list


list:
I 
have
a 
dog 
and 
cat
the 
are 
named 
bob 
john

列表中单词的顺序无关紧要。如果您能提供帮助,我们将不胜感激。

答案1

对于“单词”和“正在使用”的某些定义,您可以从 PDF 中提取文本并处理成列表。

pdflatex file1
pdftotext file1.pdf

将产生file1.txt

I have a dog and a cat. The dog and the cat are named Bob and John.

1

你可以使用它来处理(如果需要,标准 Linux 实用程序也可以在 Windows 上使用,实际上我在 Windows 上使用的是 cygwin 版本)

然后

cat file1.txt | tr '[:space:][,.]' '[\n*]' | tr '[:upper:]' '[:lower:]' | sort | uniq

生成列表:

1
a
and
are
bob
cat
dog
have
i
john
named
the

长命令管道在每个步骤中执行:

  • 用换行符替换空格和标点符号
  • 将结果单词小写
  • 按字母顺序排序
  • 删除重复项。

相关内容