我使用 Ubuntu 12.04。
我想充分利用 Linux 的文本转语音功能,将文本创建音频文件。
我尝试过 Festival,但是找到好的声音并安装它们过于复杂,所以我使用它的默认声音。
我也尝试了 Pico2Wave。
节日文本转语音完全是机械的,不自然而且它不适合长时间聆听。背景中有“嗡嗡”声,但尽管如此,你还是可以清晰地听到单词,但同样,语音方面机械且质量差。
Pico2Wave 非常自然,可与 Apple 的文本转语音功能相媲美就措辞和类似人类的言语而言,但声音本身的质量很糟糕。听起来就像是在一个空荡荡的房间里录制的,回声很大。听起来很“闷”,浑浊,粗犷,低音太多。低音太多,导致扬声器发出嘎嘎声,有时很难听清,除非你戴上耳机。声音一点也不刺耳。我也怀疑声音“剪辑”,但我不是音频专家。
我的问题是:
我如何才能改善生成的音频文件的音质?我不是音频专家,所以我不知道该摆弄什么(增益?低音?降低噪音?到什么程度?等等)。请注意,我不是在寻求推荐工具,而是要解释音频到底出了什么问题,以及我应该在选择的音频编辑/改进应用程序中摆弄哪些品质。
笔记:示例文本是《最后的莫希干人》的第一段:
北美殖民战争的一个特点是,在敌对双方相遇之前,必须先经历荒野的艰辛和危险。一条宽阔而看似无法逾越的森林边界将法国和英国的敌对省份分开。勇敢的殖民者和与他们并肩作战的训练有素的欧洲人经常花费数月时间与湍急的溪流作斗争,或翻越崎岖的山口,以期在更激烈的战斗中展现自己的勇气。但是,他们模仿训练有素的土著战士的耐心和自我克制,学会了克服一切困难;而且,随着时间的推移,似乎没有任何森林深处如此黑暗,也没有任何秘密地点如此美丽,可以免于那些发誓要用鲜血来满足他们的复仇或支持遥远的欧洲君主的冷酷和自私政策的人的侵袭。
答案1
我刚刚遇到了同样的问题,目前我得到的结果是
pico2wave -l $LANGUAGE -w $WAV "$*" && play -qV0 $WAV treble 24 gain -l 6
听起来更加“清脆”。
答案2
在 Audacity 中查看波形,峰值水平非常高 - 虽然波形看起来没有被剪切,但它可能导致播放时被剪切 - 使用 VLC 播放时听起来很糟糕。使用 Audacity 的“放大”效果,我将峰值幅度设置为 -3.0,播放效果很好很干净 - 我尝试了这个,导出回 wav,然后在 VLC 中播放效果很好很干净。毫无疑问,这可以在命令行或使用 SoX 或类似程序的脚本中完成。