为什么音频中有这么多样本？

Question 1

大多数人类的听觉范围是 20Hz 至 20,000Hz。

声音是由某物来回振荡，使空气振动而产生的，然后您的耳朵便能接收到它作为声音。

如果我们有一个系统，其中的设备可以从文件中获取 8 位字节，将其转换为控制扬声器的模拟电压，以重现可能的最高频率，则需要两个字节，一个是最小值 (0)，一个是最大值。 (以这种方式编码称为 PCM - 我们假设为 8 位 PCM。)

因此，如果您的文件由 255、0、255、0、255、0 组成，它将使扬声器尽可能快地振动。您需要一些值差异才能真正移动扬声器并产生声音（即“振荡”）。如果您的文件只有 255、255、255、255，扬声器将停留在一个位置并且不会产生任何声音。

如果您想要输出整个人体频率响应范围，您的输出设备需要能够每秒移动该扬声器至少 20,000 次，因此每秒至少 40,000 字节。

我不知道为什么选择 44,100 作为 40,000Hz 以上 CD 的标准。选择 48,000Hz（通常实际上是 49,152Hz）可能是因为它很容易被 2 的幂整除，而且更容易被数字电路处理。

每秒 1 个样本只能记录最大 0.5Hz 的声音 - 不是很有用。

Answer