我打字速度很快,所以大多数情况下打字都不麻烦,但我有一大堆旧的课程笔记,想用 LaTeX 格式,但又很害怕翻看。所以,我想知道目前最好的手写 -> LaTeX 解决方案是什么,如果有的话。
答案1
所以,我只是想知道到目前为止手写 -> LaTeX 的最佳解决方案是什么(如果有的话)。
没有,如果有的话,可能还要几年甚至几十年。我知道有人目前正在努力识别布局文档,即识别出一张纸代表一封信件等。
效果还不错,但还处于研究阶段,从识别布局到使用 LaTeX 复制布局是一个不明显的重大进步。我们甚至还没有讨论文本识别本身。
如今,仅文本识别(即忽略任何布局问题)效果相当好,但仅适用于纯文本,而不适用于任何格式。
这就是说, 有JMathNotes它能识别基本公式并生成 LaTeX 输出。这是一个非常好且非常强大的概念证明。
但重要的是要认识到,尽管存在许多单独的构建块,但拼凑出一个可行的解决方案却很困难。
答案2
答案3
Mathpix 应用程序(仅适用于 iOS,Android 即将推出)实际上是通过相机在您的手机上完成所有这些操作。
只需拍照,即可导出为 Latex、PDF,或者获取 Overleaf 链接(他们有一个非常好用的基于浏览器的编辑器)。iOS 链接是:
https://itunes.apple.com/us/app/mathpix/id1075870730?ls=1&mt=8
主网站只是http://mathpix.com/。
免责声明:我是 Mathpix 的创始人。我作为斯坦福大学应用数学专业的研究生开始从事这项工作,我讨厌将我的笔记/作业集数字化所花费的时间。无论如何,Mathpix 希望让每个人都摆脱 Latex 的痛苦,我希望这能有所帮助!
答案4
作为作者write-math.com,我想我可以对这个问题进行更新。
首先,手写识别有两种类型:在线和离线。在线识别意味着您可以使用符号的书写方式信息,而在离线识别中,您只有一个像素图(又称“图像”)。将在线识别想象成一部电影,您可以获得笔尖所在的准确信息,而在离线识别中,您只能获得最终结果。这意味着在线识别比离线识别更简单,因为您始终可以生成最终结果。
我正在做在线识别的研究。
有一个名为 ICDAR(国际文档分析与识别会议)的在线手写识别国际会议和一个名为克罗姆。在这次比赛中,你会得到一个非常好的数据(意思是:写得很清楚,输入中没有错误,因为在现实生活中经常会出现这种情况),你的分类器必须识别录音。录音也非常简单:符号写在一行上(没有\begin{align}\end{align}
,但可以有多个分数),一组非常简单的 75 个允许符号(0-9、ae、ik、n、xz、A、B、C、X、Y - 你可以看到这个列表被设计得非常精简,没有像 0、O、o 或 \pi 和 \prod 这样的复杂组合),没有矩阵,没有延迟笔画(例如,你写下a < b
然后决定将其更正为a \leq b
)。而且仍然是 2013 年最好的系统(由 VisionObjects 提供,请参阅网络演示) 的正确率只有 60.36%。
有三个任务需要解决:
- 单个符号识别(相当简单):仅给出一个手写符号,找到它的 LaTeX 代码
- 分割(更难):给定一个手写方程,找出哪些笔画属于哪个符号(不对符号进行分类,而只说“这是符号 a,这是另一个符号 b,...”)
- 结构分析:给定一个符号列表
a
和b
,判断它是否ab
或a^b
或a_b
。(我现在还没有尝试过,但我认为这相对容易)
为何分割如此困难?分割的可能性数量令人难以置信。假设你有n=3
中风。那么你可以进行以下分割:
- 1:[[0,1,2]]
- 2:[[0,1],[2]]
- 3:[[0,2],[1]]
- 4:[[0],[1,2]]
- 5:[[0],[1],[2]]
可能性 3 是让它变得如此复杂的原因。我使用 write-math.com 收集了大量录音,并手动对它们进行了分段。大约 10% 的多符号录音都有这样的延迟笔划(见上文)。可能性的数量在https://oeis.org/A000110 但即使没有延迟笔画,您仍然有 2^{n-1} 种可能的方法来分割 n 个笔画。
您可以在这里看到我在这个主题上的进展:https://github.com/MartinThoma/hwrt/issues/21
我的所有材料(论文、演示文稿、工具)都在这里:http://martin-thoma.com/write-math/
总结
如果你有一些不平凡的事情,你仍然必须自己写。但我会努力改变这一点 :-)