如何在检测到说话者变化时分割视频文件?(即不同的说话者有不同的文件)

如何在检测到说话者变化时分割视频文件?(即不同的说话者有不同的文件)

我有一个音频文件,里面有两个说话者。音频文件里有他们之间的对话。我想把这个文件分成两部分。一部分应该有 A 人的对话,另一部分应该有 B 人的对话。

我尝试过在静音状态下拆分,但没有成功。我尝试使用以下命令。

“ffmpeg -i 输入.wav -af silentdetect=noise=-30dB:d=0.2 -f null - 2> vol.txt”

但我的音频文件也有一些随机停顿。所以这个解决方案不起作用。我需要区分扬声器。有什么建议可以做到这一点吗?

相关内容