处理用 TeX 编写的数学论文以生成摘要

处理用 TeX 编写的数学论文以生成摘要

我有兴趣编写一个程序,可以自动处理用 TeX 编写的数学论文以生成摘要。我已经部分完成了一个用 Python 编写的程序,但它似乎运行得不太好,因为人们对定理、引理等使用不同的名称,以至于它们无法简单地被捕获\begin{theorem}。我认为问题的一部分是 Python 无法真正原生地处理 LaTeX 语言。请问是否有任何方法可以让 TeX 有选择地不处理某些文本?

以下是我想在摘要中保留的内容:

  1. 标题、作者、摘要。

  2. 新命令和其他设置。

  3. 章节、小节和小小节。

  4. 定理、引理、定义、推论、猜想、符号、例子、练习和介词,都以 开头\begin{something}和结尾\end{something}

  5. 参考书目。

基本上,大多数文本都需要以某种方式忽略。我目前的方法是让用 Python 编写的词法分析器和解析器找出需要保留的内容。

答案1

我觉得我有点短Python 脚本使用 TexSoup 编写的,至少可以实现 4 个。现在我很满意。下一步是将 tex 中的数学论文转换为纯文本,可以表示相同的数学信息,但不能表示与数学无关的排版信息。

相关内容