前言

前言

前言

我目前从事语音识别和同声传译领域的工作。本质上,有一位讲德语的演讲者(讲师)和许多不懂德语的学生。演讲者可以在讲完几秒后获得他们所说内容的口译,翻译语言可以是任何他们喜欢的语言。

因此该过程涉及:

  1. 将德语语音转换成德语文本;以及
  2. 将德语文本转换成外语文本;以及
  3. 为外语文本合成语音。

这个系统已经建立,并且运行得非常好——它远非完美,但是已经足够让你了解讲座的内容了。

此系统的一个示例就在本视频的开头:

视频:同步机器翻译(德语)

但该系统目前真正糟糕的是数学。例如,当你说这样的话:

The sum from n equals 1 to infinity of 1 over n squared goes to infinity.

它会认识到这一点。但我认为它应该认识到

$\sum_{n=1}^\infty \frac{1}{n^2} \rightarrow \infty$

或类似的东西。是的,我知道即使是人类也无法总是分辨出语音(尤其是没有上下文的情况下)如何毫无歧义地翻译成 LaTeX。但即使提供几种替代方案也会是一个很大的进步。

我的问题

有没有论文讨论“数学语音转文本”或“数学语音转(La)TeX”或“数学语音转 MathML”的问题?

我看到一个问题询问LaTeX 到 MathML 到语音但反之则不然。

我还发现metroplexvoice.com,但这不是自然语言。它们会给系统带来不自然的长时间停顿,并且会说“换行”之类的话。

我所知道的论文摘要

当对同一主题感兴趣的人阅读这个问题时,他们不必阅读整篇论文就能大致了解其内容。所以我将尝试总结我读过的文章

我们怎样才能讲数学?

本文的第一部分是关于文本转语音(或者更确切地说是数学转语音)的。它解释了数学语音的歧义,并推荐了一种多模态方法(语音和文本)用于在线识别数学。

答案1

你正在处理一个非常困难的问题,在我看来,在你的语境中这个问题是无法解决的。当人们谈论数学时,他们经常会含糊其辞。一个简单的例子是“b 加 c 除以 d”。即使你能 100% 地识别语言的标记(这对于单字母标记来说是一个挑战),也无法知道这是 \frac{b+c}{d} 还是 b+\frac{c}{d}。

当计算机为盲人讲数学时,它们需要添加一些不自然的分隔符,例如“分数...除以...结束分数”,以使语音清晰。Fateman 的论文讨论了这种需求,并提出了一种讲二维表达式的方法。因为你可能不想强迫说话者以某种方式说话,所以我认为翻译单词并让听众在脑海中拼凑表达式比尝试用 TeX 或 MathML 创建数学符号并经常出错要好。

除了含糊不清的言语之外,您将面临的另一个巨大挑战是,说同一种符号有很多种方法。有些是简单的变体(“循环积分”和“计数积分”)。然而,其他的有很多变化,甚至同一个说话者使用的方式也不一致。例如,有人可能会在一次说带括号的数量时停顿并改变速率,另一次说“数量”或“全部”或其他短语,或者甚至可能在另一个时间以几种方式之一说括号(开/闭)。

如果你愿意训练说话者以某种特定的方式讲数学,以消除歧义并简化你需要处理的变化数量,那么我认为这个问题是可以解决的。但即使有了这些简化,它仍然是一个非常困难的问题,因为你需要通过一些巧妙的上下文识别来降低识别问题,而这可能需要大量的样本方程式。

答案2

这篇 2012 年的论文“模糊数学在语音转文本中通过消除副语言内容的应用”,可能会有帮助。

摘要指出:

在过去的几十年里,人们一直在尝试创造一种能够像人一样说话和反应的智能计算机。创建一个可以像人一样说话的系统是自动语音识别的主要目标。各种语音识别技术已经在理论上得到了发展,并已在实践中得到应用。本文讨论了在开发语音识别过程中遇到的问题、用于自动化任务的技术,以及使用模糊数学对当今语音识别的核心问题的表示。(Lakra 等人 1)


参考:

Lakra、Sachin 等人。“通过消除副语言内容将模糊数学应用于语音到文本的转换。”arXiv:1209.4535 [cs](2012): n.页arXiv.org。网络。 2014 年 1 月 9 日。

答案3

你说“我认为它应该用公式来识别文本”……我对此表示质疑。

老师讲解黑板上数学知识的语言不是大声读公式,那样太枯燥了。

有几项研究表明,挥手可以提高数学教学的效果,事实上,所有正常的数学讲师在写字时都会挥手(见这里例如)。

同样,据我所知,没有一位讲师实际上只阅读他在黑板上写的文字……

因此,我建议你只翻译单词,但要努力使演示与翻译同步。我认为,甚至在现场翻译中加入视频也会有所帮助。

相关内容