Windows 10 扬声器声音（语音）转为文本？

Question 1

目前似乎没有 Windows 内置程序可以做到这一点，但未来可以期待这一点，特别是如果 Windows 助手 Cortana 已经存在，并且语音转文本应用程序已经在小范围内可用的话。

然而，目前我们需要的是“其他解决方案”：

您需要搜索 ASR（=STT）模型，即“自动语音识别”（=语音转文本）模型

一个很好的关于 ASR 的理论概述是https://maelfabien.github.io/machinelearning/speech_reco/#。

由于这个问题涉及它的实际方面：

你要么需要购买一个语音转文本程序——我曾经买过龙自然说话市场领导者“Nuance”与飞利浦语音追踪器。这并非宣传任何东西，这只是我获得第一个语音转文本程序的方式。我从未测试过它，尽管这样做仍然在我的计划中 :)。
或者你需要自己寻找预先训练的模型/训练模型。

我会告诉如何我搜索了一下，这是主要答案，而不是确切的链接。StackExchange 并不是要删除一些产品或链接，这被认为是相当离题的。我没有测试任何东西，也不是专业用户。

在搜索 ASR 模型时，我在“Hugging Face”上找到了三个预训练模型，这是一个提供看似最相关的模型选择的 AI 社区，如果我只想首先找到少量但相关的结果，这很有用：https://huggingface.co/models?pipeline_tag=automatic-speech-recognition。然后我仔细查看了它们，发现它们是在 GitHub 上公开提供的模型上进行训练的：

其中两个基于 ESPnet。请注意，ESPnet2 即将推出。演示版可在https://github.com/espnet/espnet#asr-demo。
Facebook 模型基于 wav2vec 模型https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20。

然后我们在这里看到，一切都始于 GitHub，也终于 GitHub，这并不奇怪。在 GitHub 上，你可能想搜索 ASR、STT、自动语音识别、语音转文本，也许只是“语音”，就像我做的那样，按星级对结果进行排序，发现“Mozilla DeepSpeech”是最有前途的项目：https://github.com/mozilla/DeepSpeech#project-deepspeech。

对于 Chrome，有语音发短信器它支持西班牙语的所有各种方言。

你应该尝试免费版本Google 语音转文本。

此外，如果你使用正确的关键字进行搜索并添加你的语言，你将会找到用你所需的语言预先训练过的模型，例如

“西班牙语演讲”导致https://github.com/luchovelez/SpeechRecognition
“deepspeech spanish” 显示 6 个结果，几乎没有或根本没有星号（这并不是说它们不起作用）：https://github.com/search?q=deepspeech+spanish&type=Repositories

如果你继续这样搜索，你会发现更多的项目。你通常不需要任何编程技能，演示更像是复制和粘贴的工作。唯一需要的是手头有合适的编程框架。

请注意，某些型号或程序需要选定的采样率作为输入，例如 16 KHz。有时您需要重新格式化音频文件或音频输入。

Answer

目前似乎没有 Windows 内置程序可以做到这一点，但未来可以期待这一点，特别是如果 Windows 助手 Cortana 已经存在，并且语音转文本应用程序已经在小范围内可用的话。