在音频文件中搜索模式?

在音频文件中搜索模式?

我想在某些点分割一个非常大的音频文件。在某些点,广播员会说“deux radio”之类的话,而且听起来总是一模一样(这是一个录制的片段)。我怎样才能在整个 MP3 中找到那段重复的音频?如果我能在那一点分割就好了,但即使它吐出了时间,我也可以用另一个程序分割它。

答案1

理论上 - 你必须编写自己的应用程序来执行此操作 - 你需要执行以下操作:

  1. 通过语音识别引擎运行 WAV 文件Sphinx 语音识别是一个免费的开源引擎。

  2. 让您的语音识别引擎在内存中实时输出文本,并跟踪样本长度位置。每次发现字符串“deux radio”时,将样本位置输出到文件中splitlog.txt。由于这是实时的,因此您可以获得样本位置的近似值。

  3. 编写您自己的 wav 分割器应用程序:收集所有样本位置点splitlog.txt并相应地分割 WAV。

答案2

有一个程序叫audiogrep它使用语音到文本转换功能转录文本,然后根据文本搜索创建音频剪辑。

我还没有看到任何输出时间戳而不是音频片段的选项,你可能需要稍微修改一下源(或者联系作者并询问他)。我也不知道它对法语(或你的播音员使用的任何语言)的处理效果如何。

答案3

您可以尝试:

  • 塔佩斯特雷亚:实验软件,描述如下:

    TAPESTREA(或 taps)是一个统一的框架,用于交互式分析、转换和合成复杂的声音。给定一个或多个录音,它提供了明确定义的方法:

    • 识别声音中的兴趣点并将其提取到可重复使用的模板中
    • 独立于背景和/或其他事件转换声音成分
    • 以令人信服的方式不断重新合成背景纹理
    • 使用新颖的图形用户界面和/或用 ChucK 音频编程语言编写的脚本,可控制地将事件模板放置在背景上
  • 语音转换器:共享软件(29.95 美元,无时间限制的试用版),该工具可以:

    音高编辑器、共振峰变换、颤音、嘶哑音、气息音、音高范围缩放、音高平滑、时间拉伸……

答案4

应该可以按照 Mehper 的说法使用 Audacity。为此,您可以选择要删除的音频并从中创建“噪音配置文件”(从效果区域中的“删除噪音”选项执行此操作),然后选择整个音轨并使用“删除噪音”功能。

相关内容