使用 openai 通过 Node js 进行说话人分类
我正在使用 openai API 在 node js 中开发 whisper 转录。我能够使用 ffmpeg 库获取分块文件的转录。我在使用 node js 进行说话人分类方面遇到了困难。如果能得到任何指导就太好了。 ...
我正在使用 openai API 在 node js 中开发 whisper 转录。我能够使用 ffmpeg 库获取分块文件的转录。我在使用 node js 进行说话人分类方面遇到了困难。如果能得到任何指导就太好了。 ...
所以我最近发现了 Windows 11 语音输入功能(Win + H)并开始使用它。据称它支持“正确单词”或“选择单词”等命令,但对我来说不起作用。对我有用的是“换行”。“逗号”有时才有效,但很多时候它会写出单词“逗号”。为什么会这样,我该如何修复它? ...
我用文本预测功能在 Windows 10 中: 它似乎阻止了 Dragon Professional Individual 15.6 将我的讲话转录到当前字段中。 如何将 Dragon Professional Individual 与 Windows 10 的文本预测功能一起使用? ...
我想在 Windows 11 中切换两种语言的语音识别(语音转文本以在文本框中使用)。到目前为止,我尝试过: 在时间和语言/语言和地区设置中切换语言优先级ms-settings:regionlanguage(我安装了两种语言) 在时间和语言/语音设置中切换语音语言ms-settings:speech 在控制面板中更改语音识别设置control /name Microsoft.SpeechRecognition 到目前为止,似乎什么都没起作用,它试图选择同一种语言(在我的情况下是英语)。使用this is a test在另一种语言(德语)中发音相似的...
Azure 的批量转录是否支持 2 个以上说话者的说话者日记分类? 我检查了他们的休息 API文档,没有找到任何相关信息。 还有其他方法可以使用 Azure 认知服务来实现这一点吗? ...
从https://beebom.com/what-is-voice-access-windows-11-how-use/: 语音访问是 Windows 11 的一项新辅助功能,让您可以更轻松地仅使用语音控制 Windows 11 PC。 可以在 Microsoft Windows 11 的语音访问中定义自己的单词和短语吗?(即在字典中添加单词或短语,例如“Stack Exchange”) ...
我正在寻找某个功能。在我所在的大学,教授正在录制他的讲座,并将视频上传到他的网站。在网站上,他有某种软件可以实时将他说的话转换成文字记录。他明确表示,文字记录不是他写的,而是软件分析了声音,并根据他说的话构建了文字记录。 这位教授创建了自己的定制网站,并配备了此功能。其他教授只录制他们的讲座并将其上传到大学的云服务器,无需进行任何额外处理。然后我必须从服务器下载他们的讲座,并在本地电脑上观看视频。所以其他教授不使用这样的软件,可能也不知道如何设置它。 我发现,如果有文字记录,我的学习效果会好得多,因为英语是我的第二语言。有时很难听懂,尤其是当人们说话很快并...
Google Chrome 推出了可将任何视频的语音转为文字的新功能。(仅限英文) 有什么方法可以编辑或选择此框中的文本吗?我尝试了一些方法,但是。它不是 dom 元素。我无法编辑或访问此框。我需要访问此文本进行复制。但框中的文本无法编辑或复制。 如果有任何配置可以管理这个盒子,我可以尝试。 https://blog.google/products/chrome/live-caption-chrome/ 实时字幕框示例(不可复制) ...
我一直在寻找为 mp4 文件自动生成字幕的方法,然后我偶然发现了 Chrome 的实时字幕实验功能。但是我也想以 1.5 倍速播放 mp4 文件。我该如何使用 Chrome 来实现,或者有什么方法可以实现实时字幕和快速播放? ...
我不太确定这个网站是否适合提出这个问题。如果不是,请将问题迁移到适当的 SE 网站。 在2018 年 6 月 15 日 BBC 国际服务周末正在播放一个节目,我正在尝试获取或创建文本记录。媒体播放器不提供隐藏式字幕功能。 我特别感兴趣的是创建从 8:50 开始到 11:30 结束的广播的文本记录。 鉴于使用SpeechRecognitionWeb Speech APIChromium 浏览器涉及将录制的音频发送到远程服务器,宁愿避免这种选择。 有哪些可行的方法可以获取或创建上述音频媒体的文本记录? ...
我正在研究语音识别,其中我会不断地聆听用户输入。我已经创建了一个循环,通过它可以不断地聆听。 每当识别器开始聆听时,它就会播放一个音频文件。播放音频很烦人,我不需要它。我想删除该文件以便它不会再播放该文件。 ...
我正在尝试使用语音识别工具(Windows 语音识别、Google 语音输入或任何其他免费软件)来概述我的教科书。 我尚未能够使用语音识别获得完整的大纲功能。我希望能够: 开始项目符号列表(在谷歌中通过“创建项目符号列表”起作用,在微软中通过“按 ctrl+shift+L”起作用,但这也会使麦克风静音) 制作子点(在谷歌中通过“tab”键起作用。MS 现在已静音,因此“按 tab”键不起作用)我想要多少就多少 然后创建另一个要点(通常使用 shift+tab 完成,但“shift+tab”在谷歌中不起作用) ...
当我打开 Dragon NaturallySpeaking 11 时,我无法选择 DragonBar 中的项目。例如,我单击“工具”,但“转录录音”等项目不起作用。你能帮助我吗? ...
我是一个重度语音识别用户,因为我的手部问题导致了很多疼痛。我一直在尝试为 Dragon 编写一个命令,以便在当前活动的 Windows 资源管理器窗口中启动命令提示符,但似乎无法正确完成。 我拥有 Dragon 的 v14 Pro 版本,还安装了 Vocola / Natlink 和 Unimacro。 到目前为止,我尝试过创建一个自定义的分步命令,该命令启动命令提示符,并将起始位置设置为 %~dp0 但是,这似乎只是使用我的桌面目录启动了 cmd,我不确定那里发生了什么。 我对 VBScripting 领域不太了解,所以我没有尝试过,现在我确定如何...