macOS 14(Sonoma)引入了个人语音功能,即可以创建个人语音模型,以便与实时语音辅助功能(文本到语音合成)配合使用。
训练包括录制自己说的 150 个句子,然后软件会花大约六个小时来处理这些句子,以生成一个人的声音模型。然后可以像使用内置声音(Alex 等)进行实时语音一样使用它。
该功能具有导出功能,可写入一个包含.caf
150 个口语句子文件和.json
元数据文件的文件夹。
但是,没有相应的导入功能,导致导出目前毫无用处。
这显然是一项正在进行的工作,但如果有人熟悉其内部结构,我将非常感激:
- 如何将导出的数据导入到新的声音中并告诉Mac创建语音模型?
- 如何导出和导入语音模型?
答案1
好吧,我遇到了同样的问题,我想知道如何处理这个导出。首先我想说的是,它说它会在您的 iCloud 设备上共享语音,这让我放心了一些。
- 我在我的 Mac 上录制了一些短语,然后打开对话框并告诉它导出录音。
- 我打开了 zip 文件并得到了文件名。
- 我进行了搜索,发现两个文件都具有该文件名,一个在我的导出中,一个在此处的文件系统中:
~/Library/Group Containers/group.com.apple.accessibility.voicebanking/TTSVoiceBanking/Voices/<uuid>/*
- 因此,我从手机录制时导出的所有文件复制下来,并将 *.caf 文件粘贴到上面的文件夹中。
- 我关闭了个人语音窗口并再次打开它,它显示“录音完成”
- 我现在正在尝试创建声音,但不确定它会如何进行...我在附近目录中找到的 SQL Lite 数据库没有直接的线索。
即使这不是一个解决方案,也希望能够提供一些启示。
答案2
(我不知道只回答我自己的问题但不接受它是否合法,但我还是想说一下)
从 MacOS 14.1.1 (Sonoma) 开始,个人语音功能明显缺少一些功能,而且现有的功能相当脆弱。我发现这个程序很有效:
要导入已导出的 .caf 样本集:
使用系统设置 > 辅助功能 > 个人语音界面,点击创造个人声音。
按照以下对话框操作:(a) 命名新声音、(b) 检查声音质量(忽略任何有关背景噪音的投诉)和 (c) 录制至少一个示例句子。单击“完成”暂停录制会话。这将创建一个新目录:
~/Library/Group Containers/group.com.apple.accessibility.voicebanking/TTSVoiceBanking/Recordings/<uuid>/
。将 150.咖啡馆导出的文件。您无需复制.json文件。
返回 Personal Voice 界面并继续进行,就像恢复录音会话一样。界面应该注意到所有 150 个样本现在都存在,并开始构建其模型。对我来说,这花了六个小时。
完成后,新的声音应该可以在 Live Speech 中使用。
say
要从命令行使用个人语音(例如终端),你需要向你的终端应用授予权限。Apple 尚未在其个人语音用户界面中提供此功能,因此你需要使用此相对简单的黑客攻击这样做。