我正在寻找简单的 mp3 到 txt 转换器。我试过,但没有成功:julius、CMU Sphinx……在过去的 4 个小时里,我没有找到如何使用它们(或正确安装它们)的方法。
我正在寻找类似的东西:
$ converterapp -infile myspeech.mp3 -outfile myspeech.txt
我对 GUI 应用程序也很满意,因为我只需要转换几个文件并且可以点击。
编辑:在这个答案的帮助下语音识别应用程序可以将 MP3 转换为文本吗?我设法让它工作了,但它没有产生任何输出。实际上,它产生了几行空白行(没有检测到任何单词)...
答案1
pocketsphinx 会将现有音频文件中的语音转换为文本。根据 mp3 的初始格式,您可能需要两个单独的命令。
首先将现有的音频文件转换为强制输入格式:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
运行 pocketsphinx
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > myspeech.txt
创建的文件 myspeech.txt 将包含您要查找的内容。
如果您是 Ubuntu 新手,则需要使用以下命令安装上述程序:
sudo apt install pocketsphinx pocketsphinx-en-us ffmpeg
答案2
OpenAI 的 Whisper(链接到新闻稿) 是一个相对较新的免费开源替代品,在多种语言中都有着相当不错的表现。
有几种方法可以安装它,你可以通过pip
python 的包管理器进行安装:pip install -U openai-whisper
$ whisper audio.mp3 --model medium
下面的一条评论指出,建议使用 Python“虚拟环境”。这是 Pythonpip
在子目录中安装软件的一种方式,因此不会影响系统的其余部分:
$ # Creates a new environment called "newenv" (also creates a subfolder with the same name)
$ python -m venv newenv
$ # Activate the new environment by sourcing the bin/activate script from the new folder
$ source ./newenv/bin/activate
(newenv)$ # pip will now install modules in the venv, and python will use modules from there
(newenv)$ pip install -U openai-whisper
(newenv)$ whisper audio.mp3 --model medium
(newenv)$ deactivate # exit the venv (once you are done)
$
答案3
Mozilla SpeechDeep开源语音转文本工具就可以了。您需要在 Linux 桌面上安装该应用程序。或者您可以尝试转录基于浏览器的语音转文本工具不需要安装,但您需要在线连接才能将录音上传到服务器。