我知道我可以通过语音控制 Windows 10,也可以创建“语音转文本”(口述)。有没有办法将扬声器的声音(在本例中是我的西班牙语老师在说话)简单地显示为文本?
它的工作方式有点像 YouTube 的“自动字幕”,只是将所说的一切显示为西班牙语文本。
- Dictate 基于 MIC 输入工作,我宁愿使用扬声器输出作为源。
- 口述停止,我需要永久的语音到文本的翻译
有什么方法可以配置 Windows 来实现这一点吗?或者其他解决方案?
答案1
目前似乎没有 Windows 内置程序可以做到这一点,但未来可以期待这一点,特别是如果 Windows 助手 Cortana 已经存在,并且语音转文本应用程序已经在小范围内可用的话。
然而,目前我们需要的是“其他解决方案”:
您需要搜索 ASR(=STT)模型,即“自动语音识别”(=语音转文本)模型
一个很好的关于 ASR 的理论概述是https://maelfabien.github.io/machinelearning/speech_reco/#。
由于这个问题涉及它的实际方面:
- 你要么需要购买一个语音转文本程序——我曾经买过龙自然说话市场领导者“Nuance”与飞利浦语音追踪器。这并非宣传任何东西,这只是我获得第一个语音转文本程序的方式。我从未测试过它,尽管这样做仍然在我的计划中 :)。
- 或者你需要自己寻找预先训练的模型/训练模型。
我会告诉如何我搜索了一下,这是主要答案,而不是确切的链接。StackExchange 并不是要删除一些产品或链接,这被认为是相当离题的。我没有测试任何东西,也不是专业用户。
在搜索 ASR 模型时,我在“Hugging Face”上找到了三个预训练模型,这是一个提供看似最相关的模型选择的 AI 社区,如果我只想首先找到少量但相关的结果,这很有用:https://huggingface.co/models?pipeline_tag=automatic-speech-recognition。然后我仔细查看了它们,发现它们是在 GitHub 上公开提供的模型上进行训练的:
- 其中两个基于 ESPnet。请注意,ESPnet2 即将推出。演示版可在https://github.com/espnet/espnet#asr-demo。
- Facebook 模型基于 wav2vec 模型https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20。
然后我们在这里看到,一切都始于 GitHub,也终于 GitHub,这并不奇怪。在 GitHub 上,你可能想搜索 ASR、STT、自动语音识别、语音转文本,也许只是“语音”,就像我做的那样,按星级对结果进行排序,发现“Mozilla DeepSpeech”是最有前途的项目:https://github.com/mozilla/DeepSpeech#project-deepspeech。
对于 Chrome,有语音发短信器它支持西班牙语的所有各种方言。
你应该尝试免费版本Google 语音转文本。
此外,如果你使用正确的关键字进行搜索并添加你的语言,你将会找到用你所需的语言预先训练过的模型,例如
- “西班牙语演讲”导致https://github.com/luchovelez/SpeechRecognition
- “deepspeech spanish” 显示 6 个结果,几乎没有或根本没有星号(这并不是说它们不起作用):https://github.com/search?q=deepspeech+spanish&type=Repositories
如果你继续这样搜索,你会发现更多的项目。你通常不需要任何编程技能,演示更像是复制和粘贴的工作。唯一需要的是手头有合适的编程框架。
请注意,某些型号或程序需要选定的采样率作为输入,例如 16 KHz。有时您需要重新格式化音频文件或音频输入。
答案2
以下是我目前正在使用的:
- 我使用了一个软件(在我的情况下是 VOICEMEETER),它允许我将声音输出重定向到 2 个设备。使用外部软件是因为在我的情况下没有 Windows Mixer 选项(Windows 混音器“不与耳机混音”,但与另一个输出设备混音。为什么?)。
- VOICEMEETER 允许我将输出声音路由回(虚拟)输入设备。所以我现在有一个虚拟输入设备可以读回输出声音。
- 接下来,我将 Google Chrome 中的麦克风设置为虚拟输入设备
- 因此我可以使用谷歌翻译来创建转录文本。这适用于任何声音,因此我也可以播放音乐或视频。。
一点总结:
- 我的用例是,我想查看我的西班牙语老师的演讲记录
- 我现在可以轻松实现这一点,进入“Google 翻译”,然后按下 MIC 按钮
- 我甚至可以同时看到西班牙语和英语文本
- 我需要 VOICEMEETER,因为我仍然需要听到我的老师(Zoom 会议)并同时重定向输出
- Windows 混音器对我来说不起作用,请参阅链接的帖子
- 我尝试过其他应用程序,例如 Firefox 或 Word 听写。这里的问题是,我无法更改 MIC(它使用默认输入设备),而我需要 MIC 本身才能与老师交谈。请参阅仅为 Word/Outlook Dictate 更改麦克风(Win10)?
- 我与 VOICEMEETER 没有任何关系,无论如何,还是要向那些人表示敬意 - 用户界面和工具都很棒。
缺点:
- 谷歌翻译有字数/时长限制——对我来说这无关紧要,但对其他用例来说可能很重要
- 目前的解决方案是基于浏览器的
合法 FOO:
- 确保满足所在国家/地区的法律要求,检查创建会议/音频/视频通话记录是否合法
- 还请检查 Google 等的条款/条件,以验证是否涵盖此方法