如何压缩、标准化或调平音频录音?

如何压缩、标准化或调平音频录音?

我有一个电话录音,其中一个人的声音比另一个人大得多,因为它只在电话的一侧录制。我收到的原始音频是 mp3 格式,只有耳机左侧有声音(虽然它有 2 个声道)。我使用将 mp3 文件保存为单声道 wav 文件pydub

我读过关于音频压缩、标准化(峰值和响度)和音量调节的文章。但是,我仍然不知道应该选择哪种方式。

实际上我已经尝试过在 pydub 中实现的规范化这里,也尝试了 ffmpegloudnorm以及dynaudnorm(虽然我没有添加任何参数)。但产生的音频听起来与原始音频没有太大区别。我应该手动分割扬声器转弯然后应用标准化吗?但话又说回来,我应该应用规范还是均衡或压缩?我猜它介于规范和均衡之间。我也不想改变音频的特性,因为这里的目的是为下游机器学习建模预处理音频。

有人有什么建议吗?谢谢。

答案1

标准化应用增益(或负增益)来提高(或降低)平均水平。压缩会减少响亮的时刻并放大安静的时刻以减少水平差异,这似乎更适合您的情况。

使用它大胆(适用于所有三大操作系统的开源声音应用程序),加载音频,然后选择整个音轨,或者如果要将效果限制在特定段落,则只选择部分音轨。选择效果, 然后压缩机

压缩机对话框

出现“压缩机”对话框后,F1按 以了解可用选项的作用,或点击这里阅读。我绝对建议打开基于峰值的压缩,但其他设置将根据原始录音的特性而有所不同。

您可以在该对话框中尝试不同的值以获得最不坏的最终结果;您永远不会获得完美的录音,但几乎肯定会有所改善。

如果电话录音中的某个特定频率有噪音或其他干扰音频(这种情况经常发生),那么过滤掉该频率也可能会有所帮助。

相关内容