在音频文件中搜索模式？

Question 1

理论上 - 你必须编写自己的应用程序来执行此操作 - 你需要执行以下操作：

通过语音识别引擎运行 WAV 文件Sphinx 语音识别是一个免费的开源引擎。
让您的语音识别引擎在内存中实时输出文本，并跟踪样本长度位置。每次发现字符串“deux radio”时，将样本位置输出到文件中splitlog.txt。由于这是实时的，因此您可以获得样本位置的近似值。
编写您自己的 wav 分割器应用程序：收集所有样本位置点splitlog.txt并相应地分割 WAV。

Answer

理论上 - 你必须编写自己的应用程序来执行此操作 - 你需要执行以下操作：

通过语音识别引擎运行 WAV 文件Sphinx 语音识别是一个免费的开源引擎。
让您的语音识别引擎在内存中实时输出文本，并跟踪样本长度位置。每次发现字符串“deux radio”时，将样本位置输出到文件中splitlog.txt。由于这是实时的，因此您可以获得样本位置的近似值。
编写您自己的 wav 分割器应用程序：收集所有样本位置点splitlog.txt并相应地分割 WAV。

Question 2

有一个程序叫audiogrep它使用语音到文本转换功能转录文本，然后根据文本搜索创建音频剪辑。

我还没有看到任何输出时间戳而不是音频片段的选项，你可能需要稍微修改一下源（或者联系作者并询问他）。我也不知道它对法语（或你的播音员使用的任何语言）的处理效果如何。

Answer

有一个程序叫audiogrep它使用语音到文本转换功能转录文本，然后根据文本搜索创建音频剪辑。

我还没有看到任何输出时间戳而不是音频片段的选项，你可能需要稍微修改一下源（或者联系作者并询问他）。我也不知道它对法语（或你的播音员使用的任何语言）的处理效果如何。

Question 3

您可以尝试：

塔佩斯特雷亚：实验软件，描述如下：
TAPESTREA（或 taps）是一个统一的框架，用于交互式分析、转换和合成复杂的声音。给定一个或多个录音，它提供了明确定义的方法：
- 识别声音中的兴趣点并将其提取到可重复使用的模板中
- 独立于背景和/或其他事件转换声音成分
- 以令人信服的方式不断重新合成背景纹理
- 使用新颖的图形用户界面和/或用 ChucK 音频编程语言编写的脚本，可控制地将事件模板放置在背景上
语音转换器：共享软件（29.95 美元，无时间限制的试用版），该工具可以：

音高编辑器、共振峰变换、颤音、嘶哑音、气息音、音高范围缩放、音高平滑、时间拉伸……

Answer

您可以尝试：

塔佩斯特雷亚：实验软件，描述如下：
TAPESTREA（或 taps）是一个统一的框架，用于交互式分析、转换和合成复杂的声音。给定一个或多个录音，它提供了明确定义的方法：
- 识别声音中的兴趣点并将其提取到可重复使用的模板中
- 独立于背景和/或其他事件转换声音成分
- 以令人信服的方式不断重新合成背景纹理
- 使用新颖的图形用户界面和/或用 ChucK 音频编程语言编写的脚本，可控制地将事件模板放置在背景上
语音转换器：共享软件（29.95 美元，无时间限制的试用版），该工具可以：

音高编辑器、共振峰变换、颤音、嘶哑音、气息音、音高范围缩放、音高平滑、时间拉伸……

Question 4

你应该可以按照 Mehper 的说法使用 Audacity。为此，您可以选择要删除的音频并从中创建“噪音配置文件”（从效果区域中的“删除噪音”选项执行此操作），然后选择整个音轨并使用“删除噪音”功能。

Answer

你应该可以按照 Mehper 的说法使用 Audacity。为此，您可以选择要删除的音频并从中创建“噪音配置文件”（从效果区域中的“删除噪音”选项执行此操作），然后选择整个音轨并使用“删除噪音”功能。

相关内容