从许多音频文件中删除音频片段

从许多音频文件中删除音频片段

我有很多音频文件 (.mp3),这些音频文件都包含不同时间戳上的特定音频片段。我怎样才能在所有音频文件中自动删除这些片段?

答案1

只能手动逐个文件地删除 - 如果有的话。删除的难易程度很大程度上取决于你到底想删除什么。

如果片段两端都有清晰可听的静音段,您只需在音频编辑器(如 Audacity、Ocenaudio 等)中打开文件即可,注意在零交叉处进行剪切,以避免出现可听见的咔嗒声。将截断波形的两端合并在一起并保存新文件。

如果没有清晰的静音,事情就会变得困难。这是因为音频波形是一种非常复杂的东西,仅在零交叉处切割通常是不够的。我过去经常尝试这样做;匹配音频而不发出可听见的咔嗒声和爆音几乎是不可能的。

如果“片段”是覆盖在样本上的录制水印(例如“由 ACME 制作”),则无法不破坏原始音频。

即使在专业音频制作中,这种工具也没什么用处;除非或许在电影后期处理方面我并不熟悉。即使存在这样的自动化工具,它也一定会非常昂贵,考虑到降噪等专业工具集要花费数千美元。

编辑以澄清“为什么”。

首先,计算机不是处理音频,而是处理数据块。比特和字节,而且只处理比特和字节。而且计算机非常愚蠢的。

ASCII 编码的单词“hello”由字符 104、101、108、108、111 组成。它是一串明确的字节,不会改变。因此,在大量文本文件中删除或替换单个单词是一项简单的任务。单词“Hello”、“hEllo”或“HelLo”不再相同,因此您需要指示计算机分别处理它们。

录下自己说“你好”三次,方式完全相同。人类可能听不出任何区别,但你将要产生了三种独特的波形,计算机将看到三串独特的位和字节。

用手机录下“你好”,播放三次,并用电脑录下。任何情况的差异——将手机向任何方向移动一毫米,其中一个录音稍微响一点,开始播放时相差百分之一秒——将再次产生三个独特的波形,即独特的位和字节串。

再次,您需要指示计算机分别删除每个唯一的位和字节串。

这里的问题与人脸识别非常相似。正如@Tetsujin 已经暗示的那样,这需要人工智能。

消除绝对、完美的静音是另一项简单的任务,因为它始终是相同的零字节字符串。消除背景噪音(几乎完美的静音)就没那么简单了;你必须首先教会系统什么是“噪音”;并选择适当的参数来消除只是只影响噪音,其他什么都不影响。而且只有噪音持续时它才有效...如果空调开始吹得更高,则背景噪音已经改变,您需要调整参数。

然后还有另一个实际的方面......

工具是为了执行任务而创建的。任务越常见,可用的工具就越多,价格也越便宜。均衡或压缩就是一个例子——我们一直在做这件事,所以有大量的工具,从免费到中等价格不等。有需求,人们就会购买;即使有好的免费选项可用。

修复剪辑、去除划痕等任务仍是工作的一部分,但比日常混音少得多。因此,这些工具的市场规模要小得多,价格也更高。用于此目的的专业工具套装售价数千美元,但因为有需求,人们会购买。

从大量音频文件中删除单个单词或句子绝对不是一项常见任务。即使我们确实删除并重新排列音频,这也始终是每条音轨的一次性工作,永远不会像您所说的那样大规模。因此,如果有人创建这样的工具,市场规模将非常小,这将导致成本过高。

说实话,我甚至无法想象它有什么合法用途;除了可能删除 F-bombs。但由于价格原因,让音效师手动操作仍然更具成本效益,更不用说可靠性和准确性了。

我希望这能澄清这一点。没有“神奇”的应用程序——只有满足需求的工具,这些工具与所述需求成比例,由市场驱动。没有需求,没有市场,没有工具。

相关内容