用 TTS 生成的语音替换视频录制中我的声音

Question

您说得完全正确，从语音转文本再到文本转语音会太慢。即使在最强大的计算机上，您也无法获得低于 400 毫秒的延迟。这主要是因为 STT 组件无法将口语单词转换为文本表示，直到您说完单词，而 TTS 组件无法将书面文本转换为英语声音的半准确表示，直到前几个音节到位。再加上许多软件包在等待语句背后的上下文时所需的时间，您很快就会达到半秒。对于日语等语言来说，这要容易得多，因为日语中的每个字符都有自己的声音，并且不会根据周围的字符而改变（暂时不考虑ゃ、ゅ和ょ）。

但是，如果您的目标是实时替换您的声音，而不会让您的 CPU 出现问题，您可能需要考虑语音调制器。这些通常被描述为黑客或不法分子使用的工具，但它们确实非常擅长为人们提供不同的声音。琴鸟是一个非常可靠的工具，但还有许多其他工具可以与流媒体应用程序集成，从而简化您的流程。

Answer 1

您说得完全正确，从语音转文本再到文本转语音会太慢。即使在最强大的计算机上，您也无法获得低于 400 毫秒的延迟。这主要是因为 STT 组件无法将口语单词转换为文本表示，直到您说完单词，而 TTS 组件无法将书面文本转换为英语声音的半准确表示，直到前几个音节到位。再加上许多软件包在等待语句背后的上下文时所需的时间，您很快就会达到半秒。对于日语等语言来说，这要容易得多，因为日语中的每个字符都有自己的声音，并且不会根据周围的字符而改变（暂时不考虑ゃ、ゅ和ょ）。

但是，如果您的目标是实时替换您的声音，而不会让您的 CPU 出现问题，您可能需要考虑语音调制器。这些通常被描述为黑客或不法分子使用的工具，但它们确实非常擅长为人们提供不同的声音。琴鸟是一个非常可靠的工具，但还有许多其他工具可以与流媒体应用程序集成，从而简化您的流程。

用 TTS 生成的语音替换视频录制中我的声音

答案1

相关内容