答案1
我认为,二值化仅限于两方。来自 MS 关于 V2T 批量转录的文档:
diarizationEnabled - 可选,默认为 false。指定应对输入进行二值化分析,输入应为单声道包含两个声音。需要将 wordLevelTimestampsEnabled 设置为 true。[强调添加]
来源: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/batch-transcription
Cog 服务现在支持说话人识别,它可以验证已知帐户持有者的声纹,并且可能适用于 n>2 向对话,但这仅适用于具有个人资料的已知帐户持有者。
答案2
使用 API v3.1
更新弗兰克的回答,现在 3.1 版中可以通过以下属性实现 2 个以上说话者无需说话者识别diarization
:
diarization - [..] 当您预计有三个或更多说话者时,您需要使用此属性。对于两个说话者,将 diarizationEnabled 属性设置为 true 就足够了。[..] diarization 的最大说话者数量必须小于 36 且大于或等于 minSpeakers 属性。
如上所述,较旧的方法diarizationEnabled
仍然适用于最多 2 个扬声器。