有没有办法列出 Latex 文档中使用的所有单词?或者,如果有人知道另一种方法,那也可能会有帮助,例如使用 Python、网站或其他东西
下面是我想要的一个例子:
\documentclass{article}
\begin{document}
I have a dog and a cat.
The dog and the cat are named Bob and John.
\end{document} % Should maybe be after the list
list:
I
have
a
dog
and
cat
the
are
named
bob
john
列表中单词的顺序无关紧要。如果您能提供帮助,我们将不胜感激。
答案1
对于“单词”和“正在使用”的某些定义,您可以从 PDF 中提取文本并处理成列表。
pdflatex file1
pdftotext file1.pdf
将产生file1.txt
I have a dog and a cat. The dog and the cat are named Bob and John.
1
你可以使用它来处理(如果需要,标准 Linux 实用程序也可以在 Windows 上使用,实际上我在 Windows 上使用的是 cygwin 版本)
然后
cat file1.txt | tr '[:space:][,.]' '[\n*]' | tr '[:upper:]' '[:lower:]' | sort | uniq
生成列表:
1
a
and
are
bob
cat
dog
have
i
john
named
the
长命令管道在每个步骤中执行:
- 用换行符替换空格和标点符号
- 将结果单词小写
- 按字母顺序排序
- 删除重复项。