自适应增益归一化

自适应增益归一化

我怎样才能无损地标准化(语音)音频 mp3 或 aac 文件,尽可能地提高增益(使用压缩器减轻失真),以便在长时间的谈话中,说话声音较轻的人可以获得更多的增益,而说话声音较大的人可以获得较少的增益?

答案1

标准化只会将音频提升到无失真的程度。您可能希望使用动态音频压缩来“压缩”音频,然后增加增益。压缩并不是真正无损的,因为您改变了音频并最终改变了动态。

压缩器是一种在特定音频电平阈值下启动的工具。当音频超过阈值(例如 -12dB)时,它会按比例(例如 2:1)降低较大声音的电平。2:1 表示如果音频比阈值高出 2dB,则输出将比阈值高出 1dB。您通常可以表示启动和释放值,这些值指定音频电平在指定时间值内变化的速度。

请注意,我描述的压缩是向下压缩。还有其他类型。

由于峰值被压低,因此整体音频电平会降低,因此您可以将音频增益向上推以产生更大的声音。压缩器是一种有用但容易被滥用的工具(想想过去 10 年发行的流行音乐......)。您必须进行大量实验才能使其听起来正确。

通过绘制音量包络线来增加特定较安静部分的音量(或降低较响亮部分的音量)也可能是一个有效的选择。由于这只是语音音频,我不确定是否有特定的“需要”来增加整体音量,而只是让音频保持一定的一致性。如果你有一个人能够在一个单词的开头嘟囔,而在结尾大喊大叫,那么压缩可能是更好的选择。

我不确定您有哪些可用的工具/操作系统,因此这个答案与工具无关。

相关内容