Windows 10 扬声器声音(语音)转为文本?

Windows 10 扬声器声音(语音)转为文本?

我知道我可以通过语音控制 Windows 10,也可以创建“语音转文本”(口述)。有没有办法将扬声器的声音(在本例中是我的西班牙语老师在说话)简单地显示为文本?

它的工作方式有点像 YouTube 的“自动字幕”,只是将所说的一切显示为西班牙语文本。

  1. Dictate 基于 MIC 输入工作,我宁愿使用扬声器输出作为源。
  2. 口述停止,我需要永久的语音到文本的翻译

有什么方法可以配置 Windows 来实现这一点吗?或者其他解决方案?

答案1

目前似乎没有 Windows 内置程序可以做到这一点,但未来可以期待这一点,特别是如果 Windows 助手 Cortana 已经存在,并且语音转文本应用程序已经在小范围内可用的话。

然而,目前我们需要的是“其他解决方案”:

您需要搜索 ASR(=STT)模型,即“自动语音识别”(=语音转文本)模型

一个很好的关于 ASR 的理论概述是https://maelfabien.github.io/machinelearning/speech_reco/#

由于这个问题涉及它的实际方面:

  • 你要么需要购买一个语音转文本程序——我曾经买过龙自然说话市场领导者“Nuance”与飞利浦语音追踪器。这并非宣传任何东西,这只是我获得第一个语音转文本程序的方式。我从未测试过它,尽管这样做仍然在我的计划中 :)。
  • 或者你需要自己寻找预先训练的模型/训练模型。

我会告诉如何我搜索了一下,这是主要答案,而不是确切的链接。StackExchange 并不是要删除一些产品或链接,这被认为是相当离题的。我没有测试任何东西,也不是专业用户。

在搜索 ASR 模型时,我在“Hugging Face”上找到了三个预训练模型,这是一个提供看似最相关的模型选择的 AI 社区,如果我只想首先找到少量但相关的结果,这很有用:https://huggingface.co/models?pipeline_tag=automatic-speech-recognition。然后我仔细查看了它们,发现它们是在 GitHub 上公开提供的模型上进行训练的:

然后我们在这里看到,一切都始于 GitHub,也终于 GitHub,这并不奇怪。在 GitHub 上,你可能想搜索 ASR、STT、自动语音识别、语音转文本,也许只是“语音”,就像我做的那样,按星级对结果进行排序,发现“Mozilla DeepSpeech”是最有前途的项目:https://github.com/mozilla/DeepSpeech#project-deepspeech

对于 Chrome,有语音发短信器它支持西班牙语的所有各种方言。

你应该尝试免费版本Google 语音转文本

此外,如果你使用正确的关键字进行搜索并添加你的语言,你将会找到用你所需的语言预先训练过的模型,例如

如果你继续这样搜索,你会发现更多的项目。你通常不需要任何编程技能,演示更像是复制和粘贴的工作。唯一需要的是手头有合适的编程框架。

请注意,某些型号或程序需要选定的采样率作为输入,例如 16 KHz。有时您需要重新格式化音频文件或音频输入。

答案2

以下是我目前正在使用的:

  1. 我使用了一个软件(在我的情况下是 VOICEMEETER),它允许我将声音输出重定向到 2 个设备。使用外部软件是因为在我的情况下没有 Windows Mixer 选项(Windows 混音器“不与耳机混音”,但与另一个输出设备混音。为什么?)。
  2. VOICEMEETER 允许我将输出声音路由回(虚拟)输入设备。所以我现在有一个虚拟输入设备可以读回输出声音。
  3. 接下来,我将 Google Chrome 中的麦克风设置为虚拟输入设备镀铬麦克风
  4. 因此我可以使用谷歌翻译来创建转录文本。这适用于任何声音,因此我也可以播放音乐或视频。谷歌翻译显示抄本

一点总结:

  • 我的用例是,我想查看我的西班牙语老师的演讲记录
  • 我现在可以轻松实现这一点,进入“Google 翻译”,然后按下 MIC 按钮
  • 我甚至可以同时看到西班牙语和英语文本
  • 我需要 VOICEMEETER,因为我仍然需要听到我的老师(Zoom 会议)并同时重定向输出
  • Windows 混音器对我来说不起作用,请参阅链接的帖子
  • 我尝试过其他应用程序,例如 Firefox 或 Word 听写。这里的问题是,我无法更改 MIC(它使用默认输入设备),而我需要 MIC 本身才能与老师交谈。请参阅仅为 Word/Outlook Dictate 更改麦克风(Win10)?
  • 我与 VOICEMEETER 没有任何关系,无论如何,还是要向那些人表示敬意 - 用户界面和工具都很棒。

缺点:

  • 谷歌翻译有字数/时长限制——对我来说这无关紧要,但对其他用例来说可能很重要
  • 目前的解决方案是基于浏览器的

合法 FOO:

  • 确保满足所在国家/地区的法律要求,检查创建会议/音频/视频通话记录是否合法
  • 还请检查 Google 等的条款/条件,以验证是否涵盖此方法

相关内容