将语音(mp3 音频文件)转换为文本

将语音(mp3 音频文件)转换为文本

我正在寻找简单的 mp3 到 txt 转换器。我试过,但没有成功:julius、CMU Sphinx……在过去的 4 个小时里,我没有找到如何使用它们(或正确安装它们)的方法。

我正在寻找类似的东西:

$ converterapp -infile myspeech.mp3 -outfile myspeech.txt

我对 GUI 应用程序也很满意,因为我只需要转换几个文件并且可以点击。

编辑:在这个答案的帮助下语音识别应用程序可以将 MP3 转换为文本吗?我设法让它工作了,但它没有产生任何输出。实际上,它产生了几行空白行(没有检测到任何单词)...

答案1

pocketsphinx 会将现有音频文件中的语音转换为文本。根据 mp3 的初始格式,您可能需要两个单独的命令。

首先将现有的音频文件转换为强制输入格式:

    ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

运行 pocketsphinx

    pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > myspeech.txt

创建的文件 myspeech.txt 将包含您要查找的内容。


如果您是 Ubuntu 新手,则需要使用以下命令安装上述程序:

    sudo apt install pocketsphinx pocketsphinx-en-us ffmpeg

答案2

OpenAI 的 Whisper(链接到新闻稿) 是一个相对较新的免费开源替代品,在多种语言中都有着相当不错的表现。

有几种方法可以安装它,你可以通过pippython 的包管理器进行安装:pip install -U openai-whisper

$ whisper audio.mp3 --model medium

下面的一条评论指出,建议使用 Python“虚拟环境”。这是 Pythonpip在子目录中安装软件的一种方式,因此不会影响系统的其余部分:

$ # Creates a new environment called "newenv" (also creates a subfolder with the same name)
$ python -m venv newenv
$ # Activate the new environment by sourcing the bin/activate script from the new folder
$ source ./newenv/bin/activate
(newenv)$ # pip will now install modules in the venv, and python will use modules from there
(newenv)$ pip install -U openai-whisper
(newenv)$ whisper audio.mp3 --model medium
(newenv)$ deactivate  # exit the venv (once you are done)
$

答案3

Mozilla SpeechDeep开源语音转文本工具就可以了。您需要在 Linux 桌面上安装该应用程序。或者您可以尝试转录基于浏览器的语音转文本工具不需要安装,但您需要在线连接才能将录音上传到服务器。

相关内容