手机版    二维码   标签云  厨具企业大全

像人一样说话,google 的 ai又点亮新技能

2024-06-12 12:42 来源: 作者/编辑: 浏览次数:1658 手机访问 使用手机“扫一扫”以下二维码,即可分享本文到“朋友圈”中。

除了下棋、设计衣服,google 家的 ai 最近又点亮了一门新技能——说人话。会说话的机器人并不稀奇,苹果的 siri,微软的小娜,都是我们所熟悉的语音助手。但 google 家的 wavenet ,却是能模仿真实人类声音的 ai,并且还精通多国语言、各种乐器,可以说是高配的洛天依。

wavenet 的前世今生

让人们使用自然语言与机器进行交流,是人类长久以来的梦想。一直以来,计算机生成声音主要依靠文本-语音转换系统,即 tts( text-to-speech):计算机从朗读者的声音片段组成庞大的数据库中,将文本与声音进行对应,将声音片段组合形成完整的语音输出。

然而,这种方法有一个缺陷,就是声音修改非常困难,比如换成一个声音、改变重读部分或者朗读者的感情等。这就要求参数 tts 存储大量的模型数据、语音内容和声音特点等。除此之外,使用 tts 转换而来的声音总是显得过于生硬,衔接也不够自然。

因此,也就有了 wavenet 项目的诞生。wavenet 是一个能生成原始声波的深度神经网络系统,是 google 旗下的人工智能公司 deepmind 开发的项目之一。9 月 12 日,deepmind 在其官方博客上宣布,wavenet 已经能够发出高仿真的人类声音。

与 tts 不同的是,wavenet 使用的是真实的声波而不仅仅是语言。简单来讲,就是将自然人声输入到系统中,由第一层券积层先进行处理,再反馈至第二层,为下一步的生成提供预测。

每一步都会生成新的样本,并且都会受到此前样本结果的影响,也即每一步的结果都将影响下一步的样本预测,并帮助生成下一步的样本。经过层层处理后,最终输出的声音非常逼真。

pk,wavenet 效果拔群

在对比测试中,deepmind 请了英语和汉语的测试人员用各自的母语进行录音,与 google 目前最优秀的 tts 系统 concatenative 和 parametric 以及 wavenet 进行对比。

测试结果表明,wavenet 生成的声音要比 google 的 tts 系统更为自然,但与真实的人声仍有差距。

这一结果令研究人员兴奋不已,deepmind 在其博客上表示:

“这种方法能在所有 16 千赫兹的音频上奏效已经足够让人惊喜,更何况还击败了美国最先进的 tts 系统。”

太贵,wavenet 暂无法实现商用

除了人类声音,理论上 wavenet 能模仿任何声音,比如喘息的声音,甚至是音乐,比如钢琴声等。有兴趣的小伙伴可以前往 deepmind 博客试听。

deepmind 表示:“wavenet 为 tts、音乐和音频建模开启了许多可能性。”

事实上,研发人员通常会避免使用 wavenet 进行建模,因为它每秒钟需要分析 16000 个样本,速度惊人,但也意味着极其高昂的成本,就连 deepmind 也承认“这是一个巨大的挑战”。

根据彭博社的分析,考虑到成本问题,wavenet 在短期内无法实现商用。

转载:中国机器人网(原始来源:评论:0)

以上是网络信息转载,信息真实性自行斟酌。

 
本文标题:像人一样说话,google 的 ai又点亮新技能
本文网址:
版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

文本助手 资讯搜索 分享好友 打印本文 关闭窗口
  • 手机浏览本文

    手机应用中扫描本文二维码,即可浏览本文或分享到您的社交网络中。

  • 微信公众号

    扫描二维码,关注中华厨具网微信公众号,实时了解行业最新动态。

今日热点文章更多
品牌聚焦更多
推荐品牌更多
热门频道
关闭广告
合作伙伴:
中华厨具网 鲁ICP备2021046805号         鲁公网安备 37162502000363号 (c)2018-2026SYSTEM All Rights Reserved 投资有风险 加盟需谨慎
关闭广告
关闭广告