寻找将音频文件转录为文本的方法

寻找将音频文件转录为文本的方法

我使用 Android 智能手机录制语音,记录了很多备忘录。录音可以是简短的笔记,也可以是长篇口述,因此大小差异很大。根据我使用的应用程序,音频可以保存为 WAV 或 MP3 文件。

我想要做的是将这些语音备忘录和听写转换为文本文件。

我发现此方法理论上,它使用 pavucontrol 将音频播放传输到 Google Chrome 的语音转文本 API,但我无法让它工作。我按照说明操作,没有出现任何错误,只是没有看到 Chrome 界面上出现任何文本。无论如何,它并不比将手机放在笔记本电脑麦克风前好多少。我希望在音频转换为文本时不必听到音频,因为我可能会在咖啡店或其他地方用笔记本电脑这样做。

理想情况下,应该有一个软件可以让我加载一批声音文件,然后它会输出一批文本文件,每个音频文件一个。

Ubuntu 上是否存在任何可实现此目的的软件或方法?

答案1

尝试Mozilla DeepSpeech。它是用于自动转录的开源工具。但您需要训练该工具。您可以下载 Mozilla 的预训练模型,或者使用Mozilla 的语音数据集创建自己的模型,你可以用它来录制英文。对于非常清晰的录音,准确率相对较好。但对于我的转录项目,它仍然不够,因为录音有很多背景噪音,质量不好,我使用了转录相反,它是基于网络的编辑器,允许自动转录,但您需要在线连接才能将录音上传到 Transcribebear 服务器。

答案2

您可以使用OpenAI Whisper

一位名叫 Gael LeGoff 的志愿者打包了OpenAI Whisper 为 Snap 提供支持。要使用 Snap 安装 OpenAI Whisper,请运行:

sudo snap install whisper-gael

现在,要将名​​为文本的音频文件转换audio.mp3为文本,请运行:

whisper-gael.whisper --model small --output_format txt --task transcribe audio.mp3

为了获得更好的结果,您可以使用更大的模型。可供选择的模型有:tiny、、、、、以及、、、和。basesmallmediumlargetiny.enbase.ensmall.enmedium.en

答案3

自动订阅是一个开源 Python 脚本,可使用 Mozilla DeepSpeech 或 Coqui STT 为任何视频文件生成字幕文件(.srt、.vtt 和 .txt 转录)。他们使用开源模型对音频片段进行推理,并使用 pyAudioAnalysis 将初始音频拆分为静音片段,从而生成多个较小的文件(使推理变得容易)。

主要开发人员还发表了一篇关于其工作的文章,名为:使用 Mozilla DeepSpeech 为任何视频文件生成字幕

答案4

您可以使用演讲提要

使用语音转文本、文本转语音和机器翻译来记录、阅读和翻译

Speech Note 可让您用多种语言记录、阅读和翻译笔记。它使用语音转文本、文本转语音和机器翻译来实现这些功能。文本和语音处理完全离线进行,在您的计算机上本地进行,无需使用网络连接。您的隐私始终受到尊重。不会将任何数据发送到互联网。

截屏

安装

在 Ubuntu 上安装它的最简单方法可能是从 Flathub 获取它:

在 Flathub 上下载

相关内容