使用 sox 或 ffmpeg 根据文本文件中的时间戳将音频分割为多个片段

使用 sox 或 ffmpeg 根据文本文件中的时间戳将音频分割为多个片段

我查看了以下链接:使用开始和停止时间修剪音频文件

但这并不能完全回答我的问题。我的问题是:我有一个音频文件,例如abc.mp3abc.wav.我还有一个包含开始和结束时间戳的文本文件:

0.0 1.0 silence  
1.0 5.0 music  
6.0 8.0 speech    

sox我想使用 Python 和/将音频分成三个部分ffmpeg,从而产生三个单独的音频文件。

如何使用soxor来实现此目的ffmpeg

后来我想计算微流控催化裂化对应于使用 的那些部分librosa

我在 Ubuntu Linux 16.04 安装上安装了Python 2.7ffmpeg、 和。sox

答案1

我刚刚快速浏览了一下,几乎没有进行测试,所以也许会有帮助。下面依赖ffmpeg python,但无论如何,用它来写作并不是一个挑战subprocess

目前,时间输入文件仅被视为时间对、开始和结束,然后是输出名称。缺失的名字被替换为linecount.wav

import ffmpeg
from sys import argv

""" split_wav `audio file` `time listing`

    `audio file` is any file known by local FFmpeg
    `time listing` is a file containing multiple lines of format:
        `start time` `end time` output name 

    times can be either MM:SS or S*
"""

_in_file = argv[1]

def make_time(elem):
    # allow user to enter times on CLI
    t = elem.split(':')
    try:
        # will fail if no ':' in time, otherwise add together for total seconds
        return int(t[0]) * 60 + float(t[1])
    except IndexError:
        return float(t[0])

def collect_from_file():
    """user can save times in a file, with start and end time on a line"""

    time_pairs = []
    with open(argv[2]) as in_times:
        for l, line in enumerate(in_times):
            tp = line.split()
            tp[0] = make_time(tp[0])
            tp[1] = make_time(tp[1]) - tp[0]
            # if no name given, append line count
            if len(tp) < 3:
                tp.append(str(l) + '.wav')
            time_pairs.append(tp)
    return time_pairs

def main():
    for i, tp in enumerate(collect_from_file()):
        # open a file, from `ss`, for duration `t`
        stream = ffmpeg.input(_in_file, ss=tp[0], t=tp[1])
        # output to named file
        stream = ffmpeg.output(stream, tp[2])
        # this was to make trial and error easier
        stream = ffmpeg.overwrite_output(stream)

        # and actually run
        ffmpeg.run(stream)

if __name__ == '__main__':
    main()

相关内容