使用 Azure 为 3 名以上发言者进行发言者分类

Question 1

我认为，二值化仅限于两方。来自 MS 关于 V2T 批量转录的文档：

diarizationEnabled - 可选，默认为 false。指定应对输入进行二值化分析，输入应为单声道包含两个声音。需要将 wordLevelTimestampsEnabled 设置为 true。[强调添加]

Cog 服务现在支持说话人识别，它可以验证已知帐户持有者的声纹，并且可能适用于 n>2 向对话，但这仅适用于具有个人资料的已知帐户持有者。

Answer

我认为，二值化仅限于两方。来自 MS 关于 V2T 批量转录的文档：

diarizationEnabled - 可选，默认为 false。指定应对输入进行二值化分析，输入应为单声道包含两个声音。需要将 wordLevelTimestampsEnabled 设置为 true。[强调添加]

Cog 服务现在支持说话人识别，它可以验证已知帐户持有者的声纹，并且可能适用于 n>2 向对话，但这仅适用于具有个人资料的已知帐户持有者。

Question 2

使用 API v3.1

更新弗兰克的回答，现在 3.1 版中可以通过以下属性实现 2 个以上说话者无需说话者识别diarization：

diarization - [..] 当您预计有三个或更多说话者时，您需要使用此属性。对于两个说话者，将 diarizationEnabled 属性设置为 true 就足够了。[..] diarization 的最大说话者数量必须小于 36 且大于或等于 minSpeakers 属性。

如上所述，较旧的方法diarizationEnabled仍然适用于最多 2 个扬声器。

Answer

更新弗兰克的回答，现在 3.1 版中可以通过以下属性实现 2 个以上说话者无需说话者识别diarization：

diarization - [..] 当您预计有三个或更多说话者时，您需要使用此属性。对于两个说话者，将 diarizationEnabled 属性设置为 true 就足够了。[..] diarization 的最大说话者数量必须小于 36 且大于或等于 minSpeakers 属性。

如上所述，较旧的方法diarizationEnabled仍然适用于最多 2 个扬声器。