手机版    二维码   标签云  厨具企业大全

中国团队在视觉常识推理领域获新突破

2024-06-09 15:14 来源: 作者/编辑: 浏览次数:7666 手机访问 使用手机“扫一扫”以下二维码,即可分享本文到“朋友圈”中。

视觉常识推理vcr (visual commonsense reasoning )是人工智能领域的前沿热点问题,从处理类型单一的数据到跨媒体认知、学习和推理的“跨媒体智能”被认为是五大智能方向。

近日,腾讯微视视频理解团队在多模态理解领域最权威排行榜之一vcr任务中荣登榜首。该团队提出的blender(bimodal encoder)模型超越多家研究机构的模型效果,一举成为单、多模型的三项指标第一,值得注意的是,blender仅凭单模型效果便超越了此前榜单上的多模型最好效果,赋予了机器更强大的理解和认知能力,并深度应用到短视频领域。

visualcommonsense reasoning (vcr)任务于2018年由华盛顿大学的研究人员首次提出,任务旨在将图像和自然语言理解二者结合,验证多模态模型高阶认知和常识推理的能力,让机器拥有“看图说话”的能力,例如vcr能够通过图片中人物的行为,进一步推理出其动机、情绪等信息。vcr榜单是多模态理解领域最权威的排行榜之一,也是当前图像理解和多模态领域层次最深、门槛最高的任务之一,吸引了微软、谷歌、facebook、百度、ucla等国内外公司和研究机构纷纷参与。

据相关负责人介绍,blender模型赋予了平台更强大的认知能力,使得包含文本、音频、视频等多种媒体信息在内的短视频内容,能够更好的做到分类和识别,更加精准理解和挖掘这些海量的跨媒体信息。

在blender模型中,第一阶段以nlp中的bert模型为起点,结合海量数据中抽取得到的数百万张图片和对应描述文本作为blender的输入进行多模态训练;第二阶段,在视觉常识推理数据集上学习电影中的场景和情节,使模型在新数据上获得更好的迁移能力;第三阶段,引入最终问答任务,让blender利用已有的知识和常识对现有问题进行人物-人物、人物-场景之间关系的挖掘和关联进行推理,得到最终的答案。

未来,人工智能将具备更加多元、深度的交流学习能力,而技术的创新和精进将进一步推动ai技术在短视频业务中智能交互场景的落地。(记者 张铭阳)

来源:央广网

以上是网络信息转载,信息真实性自行斟酌。

 
本文标题:中国团队在视觉常识推理领域获新突破
本文网址:
版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

文本助手 资讯搜索 分享好友 打印本文 关闭窗口
  • 手机浏览本文

    手机应用中扫描本文二维码,即可浏览本文或分享到您的社交网络中。

  • 微信公众号

    扫描二维码,关注中华厨具网微信公众号,实时了解行业最新动态。

今日热点文章更多
品牌聚焦更多
推荐品牌更多
热门频道
关闭广告
合作伙伴:
中华厨具网 鲁ICP备2021046805号         鲁公网安备 37162502000363号 (c)2018-2026SYSTEM All Rights Reserved 投资有风险 加盟需谨慎
关闭广告
关闭广告