我正在寻找某个功能。在我所在的大学,教授正在录制他的讲座,并将视频上传到他的网站。在网站上,他有某种软件可以实时将他说的话转换成文字记录。他明确表示,文字记录不是他写的,而是软件分析了声音,并根据他说的话构建了文字记录。
这位教授创建了自己的定制网站,并配备了此功能。其他教授只录制他们的讲座并将其上传到大学的云服务器,无需进行任何额外处理。然后我必须从服务器下载他们的讲座,并在本地电脑上观看视频。所以其他教授不使用这样的软件,可能也不知道如何设置它。
我发现,如果有文字记录,我的学习效果会好得多,因为英语是我的第二语言。有时很难听懂,尤其是当人们说话很快并且带有非标准(非洲黑人)口音时。我必须多次倒放视频才能听懂他们在说什么。而在这里,我只需观看视频,如果任何口语不清楚,文字记录就会显示出来,或者如果文字记录有误,我可以根据上下文做出有根据的猜测。
我将其他教授的讲座从大学云服务器下载到我的电脑上。我正在寻找一种可以在本地输入视频文件(mp3)并生成完整成绩单的软件。该软件应该只在 PC 本地运行,它不应该将数据发送到某个服务器进行处理。它应该只在没有互联网连接的 PC 上运行。它可能有点慢,比如 30 分钟的讲座要 10 分钟,但这没关系,因为我只获得一次成绩单。最重要的是,它应该是免费或开源软件。
答案1
桌面转录软件确实存在,但很多都是付费的,而且大多数都需要网络连接。即使你能找到一些软件,在我看来,由于数据集较少,它的准确性也不会那么高。
如果必须这样做,我会使用 ffmpeg 将原始视频转换为带有空白屏幕的视频(这将大大减少视频的大小并加快处理速度),然后将其上传到 youtube,让它自动转录,然后下载字幕。(显然我有一个程序可以自动完成所有这些操作)。但这会违背您仅本地处理的做法。
另外,我有一台 Pixel 设备,它的转录效果非常好,而且准确,并且可以离线工作。您可能可以使用 Android 模拟器来实现这一点。我刚刚在谷歌上搜索了一下,录音机应用程序可以在某些制造商的非 Pixel 设备上使用。
编辑: 对于第一种方法,你可以使用Youtube 的 API上传视频并获取字幕文件pytube。我不知道 Youtube 需要花多少时间来处理视频并生成字幕。所以你必须进行实验才能知道。
还有一件事,请确保您上传的视频是私人的。
对于第二种方法,使用 ffmpeg 将视频转换为音频(我不经常使用它,所以我不记得确切的输入,但你可以谷歌一下,那里有很多答案),然后使用 adb 将其推送到 Google Recorder 保存其录音的目录。然后手动打开录音机应用程序并导出转录本(你可能可以自动执行,但设置它需要大量时间)。我不确定这是否会起作用,因为转录可能在录制过程中进行。