我正在寻找一个离线适用于 Linux 的语音识别软件还可以处理德语,并且易于使用和配置。
我已经尝试过 CMU Sphinx 和其他几个,但它们都有一个共同点:它们的安装/使用太复杂,主要是因为缺乏良好的手册,也因为一个非常粗糙的概念(我尝试以避免在这种情况下使用“可用性”一词)。
那么...是否有一种语音识别软件可以在有限的时间内设置和配置,能够根据识别的命令执行脚本并且完全离线工作,意味着不需要云服务或远程服务器来分析语音字?我也愿意花钱购买可行且可用的解决方案!
欢迎每一个提示和想法!
谢谢!
PS:我知道这个话题Linux下有什么好用的语音识别软件吗?- 但那里给出的答案并不指向离线解决方案!
答案1
值得关注迈克尔·谢尔顿正在做的事情: http://blog.mikeasoft.com/2017/12/30/speech-recognition-mozillas-deepspeech-gstreamer-and-ibus/
警告:在我看来,它还没有任何实际用途。但是......经过一番努力配置之后,我最终能够识别口语单词(英语......我不知道德语)。
Mike Sheldon 使用的是 Mozilla 的 DeepSpeech 模型,听起来不错。
该页面上的评论(我的第 100 条评论是当我设法获得一些语音识别时)似乎在 2018 年 7 月停止了。我不知道他是否仍在努力。
答案2
答案3
我最近创建的一篇文章对其中一些信息进行了更详细的回答(下面的一些信息归功于 geb 和 adabru),这可能有助于阅读、添加书签和检查更新:Linux 上的视线跟踪与头部跟踪解决方案
根据阿达布鲁的说法,这是一种更高效、更容易设置的选项,https://handsfreecoding.org/以及我在网上遇到的许多其他人:https://talonvoice.com
似乎可以离线工作以分析口语(请参阅 7. 隐私):https://talonvoice.com/EULA.txt
如果您在撰写本文时每月支付 25 美元的 Beta 版本,则可以使用 Talon 中的 Vosk 引擎来获得德语支持(请参阅 Vosk 和 Talon 社区 wiki 了解支持的语言):
https://talon.wiki/speech_engines/
https://talon.wiki/faq/#are-languages-other-than-english-supported
Talon 还有一个免费版本,但请记住,Talon 并不都是开源代码。
我会仔细观察 Numen。它是使用 Vosk 的免费开源软件,支持德语。如果您主要使用以键盘为中心的程序(链接中列出了一些程序),那么看起来是一个非常好的选择:https://git.sr.ht/%7Egeb/numen
可能还有其他适合您需求的 Vosk 项目:https://alphacephei.com/vosk/integrations
您可以将 Dragon 与 Talon 一起使用,但 Dragon 是 Windows 原生的。据我所知,您可能需要在 Windows 中使用 Linux 虚拟机,或者必须在 Windows 中使用 Cygwin(请参阅https://handsfreecoding.org/using-dragon-with-linux)。可能不是你要找的东西,但 Dragon 支持德语,我想我记得 Nuance 告诉我 Dragon 可以离线工作来分析口语单词(我会仔细检查这一点)。您还可以使用 Dragon 和 Dragonfly,这在https://handsfreecoding.org/。 Dragon 将花费你大约 300-500 美元(参见https://talon.wiki/speech_engines/)并且它是专有的。根据我的经验,我个人不会推荐 Dragon,它也不会是我的首要考虑因素。