我有一个 WAV 文件,里面是人类朗读简单句子(“hello world”)。如何通过自动识别单词之间的静音间隙,将 WAV 文件拆分为多个 WAV 文件,每个文件包含一个单词(“hello”和“world”)?
我正在寻找一个可以完成这项工作的工具,但如果我没有选择,我可以用 C 或 C# 或 Java 编写
答案1
一个普遍适用的解决方案是不可能的,因为有很多情况是无法做到的。
这是一个比你想象的更难的问题,因为自然语音并不总是用静音来分隔单词。
例如,短语“Look out”通常用喉塞音发音,听起来更像“loo kout”
翻译自然语音的程序通常将语音分解为可分离的声音位,即音素,然后尝试将音素模式与单词进行匹配。
因此,虽然您可以根据静音将 WAV 文件分成多个片段,但可能不会以单词为界。您最终会得到类似这样的结果(使用反例),一个 WAV 包含“loo”,另一个 WAV 包含“kout”