手机版    二维码   标签云  厨具企业大全

谷歌开源ai能区分声音 准确率达92%

2024-06-23 18:55 来源: 作者/编辑: 浏览次数:7652 手机访问 使用手机“扫一扫”以下二维码,即可分享本文到“朋友圈”中。

据venturebeat报道,在语音嘈杂的环境中,要想分辨出有几个人讲话、在什么时间讲话,对于机器来说非常困难。但谷歌人工智能(ai)研究部门在语音识别方面取得了新进展,能以92%的准确率识别出每个人声音的专属模式。

谷歌ai研究部门在最新名为《fullysupervisedspeakerdiarization》的论文和相关博客文章中,研究人员描述了一种新的ai系统,它“能以一种更有效的方式识别声音”。

这套系统涉及到speakerdiarization任务,即需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。强大的ai系统必须能够将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

这篇论文的作者声称,核心算法已经可在github上的开源软件中可用,它实现了一个在线二值化错误率(der),在nistsre2000callhome基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法der为8.8%。

谷歌研究人员的新方法是通过递归神经网络(rnn)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的rnn实例开始,该实例不断更新给定新嵌入的rnn状态,使系统能够学习发言者共享的高级知识。

研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”

在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少der。研究人员还希望能够直接对声学特征进行建模,这样整个speakerdiarization系统就可以进行端到端训练。

转载:中国机器人网(原始来源:评论:0)

以上是网络信息转载,信息真实性自行斟酌。

 
本文标题:谷歌开源ai能区分声音 准确率达92%
本文网址:
版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

文本助手 资讯搜索 分享好友 打印本文 关闭窗口
  • 手机浏览本文

    手机应用中扫描本文二维码,即可浏览本文或分享到您的社交网络中。

  • 微信公众号

    扫描二维码,关注中华厨具网微信公众号,实时了解行业最新动态。

今日热点文章更多
品牌聚焦更多
推荐品牌更多
热门频道
关闭广告
合作伙伴:
中华厨具网 鲁ICP备2021046805号         鲁公网安备 37162502000363号 (c)2018-2026SYSTEM All Rights Reserved 投资有风险 加盟需谨慎
关闭广告
关闭广告