使用 Azure 为 3 名以上发言者进行发言者分类

使用 Azure 为 3 名以上发言者进行发言者分类

Azure 的批量转录是否支持 2 个以上说话者的说话者日记分类?

我检查了他们的休息 API文档,没有找到任何相关信息。

还有其他方法可以使用 Azure 认知服务来实现这一点吗?

答案1

我认为,二值化仅限于两方。来自 MS 关于 V2T 批量转录的文档:

diarizationEnabled - 可选,默认为 false。指定应对输入进行二值化分析,输入应为单声道包含两个声音。需要将 wordLevelTimestampsEnabled 设置为 true。[强调添加]

来源: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/batch-transcription

Cog 服务现在支持说话人识别,它可以验证已知帐户持有者的声纹,并且可能适用于 n>2 向对话,但这仅适用于具有个人资料的已知帐户持有者。

答案2

使用 API v3.1

更新弗兰克的回答,现在 3.1 版中可以通过以下属性实现 2 个以上说话者无需说话者识别diarization

diarization - [..] 当您预计有三个或更多说话者时,您需要使用此属性。对于两个说话者,将 diarizationEnabled 属性设置为 true 就足够了。[..] diarization 的最大说话者数量必须小于 36 且大于或等于 minSpeakers 属性。

https://learn.microsoft.com/en-us/azure/ai-services/speech-service/batch-transcription-create?pivots=rest-api#request-configuration-options

如上所述,较旧的方法diarizationEnabled仍然适用于最多 2 个扬声器。

相关内容