如何在不将视频上传到 YouTube 的情况下使用 Google 的 YouTube 语音识别？

Question 1

谷歌实施了网络语音 API（用于语音识别和合成）放入 Chrome，如果您是开发人员，可以使用它。YouTube 就是用它来为一些视频生成隐藏式字幕。也许您会找到与之交互的代码。

数据流可能是：

视频文件 => 提取并转换音频 => 将其发送到 Google API => 获取文本 => 写入 SRT。

编辑：除了 W3C 规范之外，似乎没有官方 API 页面。因此这里有更多链接：

这些示例是关于在 Chrome 内部使用 API，但您可以直接查询 Google 的在线语音识别引擎。例如，碧玉是一款适用于 Raspberry Pi 的语音识别个人助理，可让您选择谷歌作为语音识别引擎。

Answer

谷歌实施了网络语音 API（用于语音识别和合成）放入 Chrome，如果您是开发人员，可以使用它。YouTube 就是用它来为一些视频生成隐藏式字幕。也许您会找到与之交互的代码。

数据流可能是：

视频文件 => 提取并转换音频 => 将其发送到 Google API => 获取文本 => 写入 SRT。

编辑：除了 W3C 规范之外，似乎没有官方 API 页面。因此这里有更多链接：

这些示例是关于在 Chrome 内部使用 API，但您可以直接查询 Google 的在线语音识别引擎。例如，碧玉是一款适用于 Raspberry Pi 的语音识别个人助理，可让您选择谷歌作为语音识别引擎。

Question 2

有一个名为“autosub”的工具（请参阅 github 上的 agermanidis/autosub）可以做到这一点，尽管它使用的是较旧的 Google 语音 API。该工具使用 ffmpeg 将音频剥离为 FLAC 文件，然后将 FLAC 文件发送给 Google 进行转录。它会生成 SRT 或 VTT 文件。

准确率较低，部分原因是 Google API 较旧。有一个较新的 API（“Cloud Speech REST API”，网址为https://cloud.google.com/speech/docs/apis）。这个 API 非常简单，在某些时候，我打算 fork autosub 来使用它。

另一种方法是上传到 YouTube，并在字幕制作完成后下载 VTT 文件。这种方法的麻烦之处在于 YouTube 生成的字幕非常精细（例如几个单词），而不是一个句子。这使得在手动扫描时检查字幕变得更加困难。

Answer

有一个名为“autosub”的工具（请参阅 github 上的 agermanidis/autosub）可以做到这一点，尽管它使用的是较旧的 Google 语音 API。该工具使用 ffmpeg 将音频剥离为 FLAC 文件，然后将 FLAC 文件发送给 Google 进行转录。它会生成 SRT 或 VTT 文件。

准确率较低，部分原因是 Google API 较旧。有一个较新的 API（“Cloud Speech REST API”，网址为https://cloud.google.com/speech/docs/apis）。这个 API 非常简单，在某些时候，我打算 fork autosub 来使用它。

另一种方法是上传到 YouTube，并在字幕制作完成后下载 VTT 文件。这种方法的麻烦之处在于 YouTube 生成的字幕非常精细（例如几个单词），而不是一个句子。这使得在手动扫描时检查字幕变得更加困难。

Question 3

最简单的方法是：转到 Google 文档，打开一个新文本文档并从工具中选择“语音输入”，然后播放录音。是的。就是这么简单！（并支持多种语言）

否则，您可以使用带有 HTML5 的本地网页，如下所示： https://www.labnol.org/software/add-speech-recognition-to-website/19989/

Answer

最简单的方法是：转到 Google 文档，打开一个新文本文档并从工具中选择“语音输入”，然后播放录音。是的。就是这么简单！（并支持多种语言）

否则，您可以使用带有 HTML5 的本地网页，如下所示： https://www.labnol.org/software/add-speech-recognition-to-website/19989/

如何在不将视频上传到 YouTube 的情况下使用 Google 的 YouTube 语音识别？

答案1

答案2

答案3

相关内容