为什么音频要存储这么多音频样本?我的意思是,理论上每秒 1 个样本应该与每秒 48,000 个样本的音频文件保存相同数量的音频,我不明白,虽然我知道位大小,即 16/24 位,但这不是我要问的。
答案1
大多数人类的听觉范围是 20Hz 至 20,000Hz。
声音是由某物来回振荡,使空气振动而产生的,然后您的耳朵便能接收到它作为声音。
如果我们有一个系统,其中的设备可以从文件中获取 8 位字节,将其转换为控制扬声器的模拟电压,以重现可能的最高频率,则需要两个字节,一个是最小值 (0),一个是最大值。 (以这种方式编码称为 PCM - 我们假设为 8 位 PCM。)
因此,如果您的文件由 255、0、255、0、255、0 组成,它将使扬声器尽可能快地振动。您需要一些值差异才能真正移动扬声器并产生声音(即“振荡”)。如果您的文件只有 255、255、255、255,扬声器将停留在一个位置并且不会产生任何声音。
如果您想要输出整个人体频率响应范围,您的输出设备需要能够每秒移动该扬声器至少 20,000 次,因此每秒至少 40,000 字节。
我不知道为什么选择 44,100 作为 40,000Hz 以上 CD 的标准。选择 48,000Hz(通常实际上是 49,152Hz)可能是因为它很容易被 2 的幂整除,而且更容易被数字电路处理。
每秒 1 个样本只能记录最大 0.5Hz 的声音 - 不是很有用。
答案2
其依据是奈奎斯特-香农采样定理。它表示采样率必须是信号频谱的两倍。这意味着,假设最低频率从 0Hz 开始,那么以 48,000 个样本/秒的速度,您可以采样高达 24kHz 的音频信号。