我正在做一个软件项目,正在研究要使用的文本转语音产品。有人知道目前最先进的文本转语音系统是什么吗?理想情况下,语音应该与美国本土人或英语人士的语音没有区别。我正在寻找带有 SDK 或 API 的产品,以便我可以轻松使用。
只是为了澄清和重复我的问题 - 我并不是在寻找像微软的免费文本到语音合成程序这样的东西,而是在寻找高质量的专业产品。
答案1
到目前为止,我听过的品牌文本转语音的最佳声音。Acapela
Voices http://www.acapela-group.com/text-to-speech-interactive-demo.html
倒谱http://cepstral.com/demos/
ATT 天然http://www2.research.att.com/~ttsweb/tts/demo.php
Nuance RealSpeak 语音 http://www.nuance.com/vocalizer5/flash/index.html
微软的 L&H 和 True voice 版本
处于最低水平,除非他们最近对其进行了改进。
(不确定放在哪里) Cereprochttp://www.cereproc.com/support/live_demo
我发现,从我这个美国人的角度来看,“英国”式的英语声音听起来比“美国”声音“更好”。要么是口音掩盖了更多的问题,要么是我对英国的语调和细微差别了解不够,无法批评它。
所有这些都将在 Windows 系统上运行,使用 SAPI 4 和 5。
声音并不是唯一需要的,但为了获得完美的声音,如果你想要听起来更像真人,一个带有词典、发音编辑和针对特定单词的常规声音调整的优秀程序是必需的。
此位置http://www.nextup.com/TextAloud/SpeechEngine/voices.html有很多你可以听到声音的样本。这是不同声音的一个很好的汇编。
他们说的最好的声音(我还没听过)不是单独用系统就能起作用的,它们只能通过单独的声音程序起作用。程序和声音是需要一起起作用的。我还没找到。
答案2
我不是语音合成器专家,但我认为最佳解决方案可能取决于多种因素。例如:
- 您正在寻找硬件或软件解决方案吗?
- 内存占用或资源密集度是否有限制?是否需要考虑带宽?
- 您需要定制集成吗?
- 您如何定义质量?自然度、清晰度或一致性哪个更重要?例如,拼接合成通常能产生最自然/最人性化的声音,因为它是由真实人声的短录音片段制成的。然而,它也会产生非常明显的故障,即不同的录音被拼接在一起,而完全合成的声音则没有这种故障。
- 您在寻找什么类型的声音?大多数语音合成程序似乎都具有比女性更逼真的男声。此外,作为美国人,带有外国(例如奥地利或英国)口音的声音对我来说听起来比普通的美国声音更自然。
- 类似地,一些语音引擎可以在一系列配置中产生自然的语音,而其他语音引擎可能整体质量较低,但可以在特定配置下产生极其逼真的语音。
- 另一个特定于应用程序的考虑因素是您期望收到的输入文本的多样性。因为特定领域的语音合成程序可能是最真实的,因为它们是从整个单词或短语的实际预录中生成的。但这只能在输入文本来自可以轻松实现的特定领域时使用(例如,读取电影时间或公交车时刻表的系统等)。如果输入域足够小,最好聘请配音演员来录制所需的所有不同短语和句子。
- 您想为该应用程序克隆特定个人的声音吗?CereProc 是一家专门从事此类语音合成的公司,他们取得了一些非常令人难以置信的成果,真正捕捉到了目标个人的个性。
- 虽然所有前面的考虑主要与输出语音有关,但文本解析也是语音合成的主要组成部分,因为许多语音合成器很难处理不同类型的标点符号和数字表示(分数、百分数、货币、指数等)。因此,您还应该考虑所选语音引擎如何处理棘手的标记。
如果您有那么多钱可花,我会考虑几个顶级品牌,例如 Acapela、Cepestral、AT&T、CereProc、RealSpeak 等,让他们了解您确切的项目需求,并让他们向您推销,或者至少在项目主要利益相关者面前使用最终应用程序需要处理的一些实际输入文本演示每一个品牌。