手机版    二维码   标签云  厨具企业大全

不止 google vs. nvidia:深度学习引领ai芯片大战

2024-06-19 18:32 来源: 作者/编辑: 浏览次数:3542 手机访问 使用手机“扫一扫”以下二维码,即可分享本文到“朋友圈”中。

ai 前线导读:“2017 年,ai 芯片是半导体产业的亮点,而它受到的关注又远远超出半导体的圈子。这一年,从科技巨头到初创公司,新老角色轮番登场,为我们上演了精彩好戏。若干年后,当我们再回头来看,一定可以把 2017 年作为 ai 芯片元年。”

goole vs nvidia 巨头之间的“错位战争”

四月初,google 公布了一篇即将在 isca2017 上发表的论文:“in-datacenterperformance analysis of a tensor processing unit”。可以说正是这件“小事”,揭开了一部年度大戏的序幕,而它产生的深远影响甚至可能会持续到很多年之后。其实,在 2016 年 6 月的时候 google 就透露了自己研发了一款在云端使用的专用 ai 芯片,tpu(tensor processing unit)。google 做 ai 芯片当然是吸引眼球的新闻,但苦于一直没有公布细节,大家也只能猜测和等待。因此,这篇普通的学术论文,得到了媒体的极大关注。我也在第一时间写了一篇评论文章:“google tpu 揭秘”,也是我的公众号阅读量最大的文章之一。对 tpu 高度关注的当然不只我们这些吃瓜群众,还有 ai 芯片领域绝对的统治者 nvidia。后面就发生了黄教主和 google 间关于 tpu 的 benchmark 结果是否合理的口水战。而早在 2016 年 google 透露 tpu 的时候,nvidia 就多次表示它对 gpu 在 ai 运算上的统治地位没有什么威胁。

5 月 11 日,nvidia gtc2017 大会,黄教主在 keynote 上抛出了最新的 gpu volta(gv100)。nvidia 股票应声大涨,媒体也是大肆报道。ai 芯片的焦点似乎又回到了 nvidia 这一边。

除了公布了重量级的 volta,gtc 上还有一个“小事件”,nvidia 宣布开源它的 deeplearning accelerator(dla),9 月正式公开。这个发布,在黄教主的 keynote 中是一句话带过,但在业界引起的震动却一点也不小。“nvidia 为什么要搞开源?会开源什么东西?这个开源会不会影响众多初创公司的前景?”对这些问题的讨论一直延续到 nvdla 真正开源之后。

没过多久,5 月 17 日,在 google i/o 大会上,google 公布了第二代 tpu,用媒体的话说“…stole nvidia’s recent volta gpu thunder…”。虽然 tpu2 的细节公布的并不多,但指标确实看起来很不错,而且具有非常好的可扩展性。唯一的遗憾就是它并不对外销售,只能以 tpu cloud 的方式供大家使用。

9 月下旬,jeff dean 这位 google 的软件大神参加了 hotchip 这个芯片界的重要会议,并在 keynote “recent advances in artificial intelligence via machine learning and the implications for computer system design”也亲自介绍了 tpu 和 tpu2 的情况,把它们作为新的计算生态中重要的一环。

9 月底,nvdla 在承诺的最后期限之前开源了 nvdla 的部分硬件代码,同时公布了未来开源更多硬件和软件的路线图。这之后,大家对 nvdla 也做了各种分析和讨论,试图把它玩起来。从目前来看,nvdla 的开源好像并没有影响众多初创公司的融资。这个话题我们后面再说。至于 nvidia 开源 dla 的原因,官方的说法是让更多人可以更容易的实现 inference,促进 ai 的推广,特别是在众多嵌入式设备上的应用。但从整个开源的过程来看,这个开源的决定似乎是比较仓促的。dla 来自 nvidia 自动驾驶 soc 中的一个 module,最初并不是以开源 ip 为目的而设计的。而且 9 月的开源也只公开了一部分硬件代码和相应的验证环境,离真正能用起来也还是有较大差距。我们不好判断这个开源的决定是否和 google tpu(在 inference 上有比较大的优势)的强势亮相有关系。但基本的推测是,在 deep learning 中 nvidia 的核心利益应该在于 training(目前 gpu 还是 training 的最好平台)。让 inference 门槛更低,渗透到更多应用,特别是 edge 端,从而进一步促进 training 的需求,应该是符合它的最大利益的。而且 nvdla 的软件环境还是使用 nvidia 的 cuda/tensorrt,还是由 nvidia 掌控的。

这场从一篇论文开始,几乎贯穿了 2017 年全年的 google 和 nvidia 的明争暗斗,对业界的影响可能要远远超过这两家公司本身。我之所以把它称为“错位”的战争,是因为它发生在 google 这样的传统的软件巨头和 nvidia 这样的芯片巨头之间。如果换成 intel vs nvidia,似乎是再正常不过的。google 的参战,也许是开启了新的时代。我们可以看到,不仅是 tpu,google 在 10 月又公布了他们在“google pixel 2”手机中使用的定制 soc ipu(image processing unit)。和 apple 越来越多的自己定制芯片一样,google 这样的科技巨头同样有应用(明确知道自己要什么),技术(对相关技术的多年积累),资源(不缺钱,不缺人)上的优势,定制自己的硬件,甚至芯片会变得常态化。同时我们也看到,google tpu 的示范效应已经显现,更多的科技巨头加入 ai 加速硬件的竞争。tesla 宣布自己定制自动驾驶芯片;amazon,microsoft,以及国内的 bat,华为都在 cloud 中提供专门的 fpga 加速的支持;据称 big five 中还有在自己开发芯片的;bat 也都在组建芯片设计的团队,等等。虽然大家具体的架构和实现方式不同,但都反映出对 ai 专用硬件的极大兴趣。相信未来这一趋势会越来越明显。

同时,传统的芯片巨头当然不会坐视这个巨大的市场被 nvidia 主宰或者被 google 们瓜分。intel 连续收购了 nervana(云),movidius(端),mobileye(自动驾驶),altera(fpga),又把 amd 的 rajakudori(gpu)招至帐下,甚至还搞了 loihi(nueromorphic),可以说拿了一手好牌;虽然动作没有大家想象的那么快,但后面的发力还是值得期待的。amd 也在努力追赶,毕竟他们的 cpu+gpu 有自己绝活,而整个公司也已经逐渐走出了低谷。而且,不管 tesla 和 amd 合作自动驾驶芯片的消息到底是真是假,芯片公司这种输出芯片设计能力的模式也是一种不错(或者无奈)的选择。

“以 deep learning 为代表的新型计算模式将引领未来芯片的发展方向”,这一观点基本已经是大家的一个共识。越来越多的玩家会关注能够支持新型计算的芯片,其中很多可能之前完全不在半导体这个圈子,也完全不了解芯片是怎么回事。2017 年我们不时能看到一些对比 cpu,gpu,fpga 和 asic 架构的科普文章,甚至有 10w+ 的阅读量,不难看出大家的热情。

初创公司 长长的 list

2017 的 ai 芯片大戏中,主角不仅是巨头,初创公司也都粉墨登场,戏份一点儿都不逊色。更重要的,在初创公司的“表演”中,中国公司不仅毫不怯场,而且非常出彩。我从 8 月份开始在 github 上维护一个 ai 芯片的列表,既包括大公司的产品,又包括初创公司的情况。到 12 月,这个列表中的信息越来越多,世界范围内的初创公司有 30 多家。而且这个列表还只包含了公开信息,还有很多公司处在 stealth 状态并没有收录。我也听到一个说法,在 ai 芯片领域的初创公司可能超过了 100 家,在 tsmc 排队投片也有 30 家。

不管在什么领域,初创公司都会面临很多风险和不确定性,也可能在成长过程中不断调整和变化。ai 芯片当然也不例外。我们看到,在这一年中,很多公司在不断成长,逐渐明确自己的方向和定位,走的越来越坚实。另一方面,从今年初创公司融资的情况来看,这个领域(也包括更大范围的 ai 概念)也明显出现一些泡沫。有些公司,在没有任何实际东西的情况下,就可以实现“ppt 融资”或者“paper 融资”。有些公司,重心放在了 pr 上面,功夫都是做给 vc 看的,人称“2vc”公司。面对 ai 这个趋势性机会,有泡沫当然也是正常现象,只是希望这些泡沫不要伤害整个市场的发展。

抛开各种烟雾和泡沫,我们逐渐在这个领域初创公司也看到一些“龙头企业”。比如国内的寒武纪、地平线、深鉴科技和比特大陆,都在 2017 年发布了自己的产品;美国的 cerebras、wave computing、graphcore 和 groq(前 googletpu 主要设计者创立),或有雄厚的实力,或有自己特色的技术和比较清晰的产品。在 2017 年,国内也出现一些依托应用开发芯片的 ai 初创公司,这些公司大多以应用牵头研发芯片。我也预期在 2018 年会看到更多这样的情况。当然,很多初创公司并没有公开自己的信息,不排除正在憋大招的可能性。

熟悉半导体产业的朋友可能比较清楚,半导体领域初创公司获得 vc 投资在之前是非常困难的。主要原因是这个产业风险大,门槛高,周期长。但 2017 年,ai 芯片的初创企业却受到了资金追捧。我们可以看看今年的一些公开的融资数据。寒武纪:1 亿美金(估值近 10 亿美金);深鉴科技:4000 万美金;地平线:近亿美金;;cerabras:6000 万美金(估值 8.6 亿美金);graphcore:5000 万美金。在前面我也提到,当 nvidia 宣布要开源 dla 的时候,大家感觉会对初创公司的融资和估值有一定影响。但从结果来看,这种情况并没有出现。在 9 月之后,我们又看到很多初创公司成功融资。而投资者的热情似乎一点都没有减弱,只要有一个新的公司出现,立刻会有很多投资机构蜂拥而至。

为什么传统上不愿意碰半导体产业的投资者现在却对 ai 芯片趋之若鹜呢?这是一个有趣的问题。具体的原因可能有很多方面,整个 ai 领域的投资热潮应该是一个主要原因。如果观察这些投资背后的资本,可以看到很多本身就是 ai 领域很活跃的投资者,甚至本身就是把 ai 作为未来重点的科技巨头,比如 bat。而传统的投资半导体领域的资金倒是比较谨慎一些。从这个角度来说,这些没有太多半导体背景的资本大量进入芯片领域,是会给大家带来新的机会和视野,还是带来风险和不确定性,还是有待观察的。另外,现在所说的 ai 芯片,一般是指 deep learning 加速芯片,相对来说,关键算法简单清晰,优化目标非常明确,很多技术(比如矩阵运算的硬件加速)已有多年的研究基础。而对这种硬件加速器的验证,测试和调试也相对容易。如果不进行精细的优化,硬件部分可以由一个较小团队在较短时间完成。这些技术上的特征比较适合初创公司快速尝试。当然,做一个加速芯片(或者 ip)的硬件只是第一步。要真正做出能被市场接受的产品,则需要很多扎实的工作,产品定义,硬件效能,软件工具,系统测试,现场支持等等,一个短板也不能有。虽然大家都很关心投片的时间,但样片出来之后,脏活累活还多着呢。

2018 关注什么

对于 2018,我还是非常期待的。作为一名多年从事芯片架构设计多年的工程师,我首先期待看到一些技术上的创新。2017 年我写了不少分析 ai 芯片相关技术的文章,到年末几乎有点审美疲劳了(相信读者也是一样),似乎新鲜东西越来越少。在 2017 年底,有一个叫 vathys 的初创公司,一下子开了好几个脑洞,全定制的 asynchronous logic,等效的时钟可以到 12ghz(28nm 工艺);high-densitysram(1t-sram),片上存储容量可以达到 1.5gb(28nm);wireless 3d stacking,10,000gbit/s @ ~8 fj/bit。这几项技术要么是目前还停留在学术研究阶段,要么是曾经昙花一现。一个初创公司一下就祭出这几个大招,又是这么高的指标,真有可能实现吗?所以,当 vathys 的老板发邮件说应该把他们公司加到我做的 ai 芯片 list 里的时候,我开始是婉拒的。不过,换一个角度来看,即使是他们完全在忽悠,也算是击中了 deep learning 处理器的痛点。而且这几项技术目前也都有人在研究,在 ai 的热潮和巨大的资金支持下也许真能搞出来也说不定。所以,我还是希望看到他们或者是其它团队能够在这几项技术上取得突破,让我们真正激动一把。说到技术的突破,我们未来(可能要比 2018 年更远)还可以期待看到在存储技术上的突破,以及由新的存储技术带动的架构上的创新,包括 neuromorphic 这条技术路线。

接下来,当然是巨头们的下一步动作。google 的 tpu 是否会卖给自己之外的用户,直接和 nvidia 展开竞争?目前 onnx 阵营已经形成和 google 的对峙,google 作为生态最完整的厂商,推广 tpu 对巩固自己的领先地位很有意义。big five 和 bat 哪个会学习 google 榜样直接自研芯片?阿里达摩院的芯片研究会不会从 ai 开始?intel 能不能如大家所期待的全面爆发?nvidia 会如何应对来自各方的挑战,是否会做更专用的加速芯片,而不是仅仅在 gpu 中加个 tensor core?高通什么时候在手机芯片中加上硬件加速器?arm 下一步会怎么走,会不会横扫嵌入端?……随便想想就会有很多值得期待的看点。最近我们也看到,为了对抗 nvidia,amd 和 intel 竟然很罕见的宣布合作。而 ibm 在 power9 上和 nvidia 深度合作。2018 年也许我们还能看到业界巨头间更多的合纵连横。

初创公司的命运也是 2018 年最大的看点。我在之前的一篇文章中说过“对于 ai 芯片的 startup 来说,2018 年就算不是毕业大考,也至少到了学期末考试了…”。2018 年,大部分初创公司都将会交出第一次测验的结果(芯片),也会开始小批量的试用。相信到时会有比较公平的 benchmarking 结果出现,“理论上”的指标会被实际的“跑分”结果取代。虽然对于初创公司来说,犯错误是可以容忍的,第一代芯片也不能完全代表公司未来的前景。但是,做芯片需要巨大资源的持续支持,这个阶段掉队可能非常危险。当然,第一次的淘汰对于真正优秀的企业也是最好的机会。我非常期待看到能够在考试中脱颖而出,并跨上新的台阶(或者直接毕业)的同学;或者,会有我们不认识的面孔,突然惊艳出场。另外,2018 年,在 edge 端会有更多的传统芯片厂商加入竞争,三星,高通,mtk,展讯等等;而在嵌入端 ip 上有绝对优势的 arm 应该也会有更大的动作,这些都可能会对初创公司的命运产生重大影响。

最后,是变局的可能。从整体上来讲,ai 整体上在 2018 年会怎么发展是一个大家都非常关注的问题。继续高速增长,还是平稳发展,又或者会遇到问题高开低走?不管是哪种情况,ai 芯片必然会受到大势的影响。比较特殊的是,芯片研发的周期大约在 9 到 18 个月左右,这比软件应用的开发和更新周期要长的多。再加上一些滞后效应,芯片的发展很难和算法和应用的发展节奏同步。芯片开发中一个比较可怕的问题就是未来的不确定性。相对来说,一个可预期的平稳增长的环境是最有利于芯片研发的,可以让芯片设计者能够更好的规划产品和协调资源。

另一种变局情况是,算法层面发生巨大的变化,也就是技术上的不确定性。这几年最成功的 ai 算法就是基于神经网络的深度学习。这正是目前 ai 芯片在需求上的基础,也决定了现在大部分 ai 芯片都是以加速这一类算法为目标的。如果基本算法需求发生变化,会对 ai 芯片的设计产生很大的影响。比如,目前已经有一定应用基础的低精度网络,也就是在 inference 中使用非常低的精度,甚至直接使用二值网络。如果这种 inference 得到广泛应用,现在的芯片架构则可能得要重新考虑。再比如,如果 hinton 大神的 capsule networks 得到实用,也可能会需要新的芯片架构来支持。毕竟 ai 领域现在发展很快,所以大家也都必须要时刻盯着应用和算法层面最新的进展。我们也要随时问自己下面的问题(来自 jeff dean 在 nips2017 的演讲)。

总结

2017 年马上就要过去,在这几年相对“平淡”的半导体领域,ai 芯片让我们小激动了一下。其实可聊的事情很多,以上文字基本上是想到哪写到哪,也都是个人一点点感想,准确的地方,还请各位多多指正,多多包含。

祝各位读者 2018 年万事如意!更要祝各位奋战在 ai 芯片第一线的各位同仁获得成功!

转载:中国机器人网(原始来源:评论:0)

以上是网络信息转载,信息真实性自行斟酌。

 
本文标题:不止 google vs. nvidia:深度学习引领ai芯片大战
本文网址:
版权/免责声明:
一、本文图片及内容来自网络,不代表本站的观点和立场,如涉及各类版权问题请联系及时删除。
二、凡注明稿件来源的内容均为转载稿或由企业用户注册发布,本网转载出于传递更多信息的目的;如转载稿涉及版权问题,请作者联系我们,同时对于用户评论等信息,本网并不意味着赞同其观点或证实其内容的真实性。
三、转载本站原创文章请注明来源:中华厨具网

文本助手 资讯搜索 分享好友 打印本文 关闭窗口
  • 手机浏览本文

    手机应用中扫描本文二维码,即可浏览本文或分享到您的社交网络中。

  • 微信公众号

    扫描二维码,关注中华厨具网微信公众号,实时了解行业最新动态。

今日热点文章更多
品牌聚焦更多
推荐品牌更多
热门频道
关闭广告
合作伙伴:
中华厨具网 鲁ICP备2021046805号         鲁公网安备 37162502000363号 (c)2018-2026SYSTEM All Rights Reserved 投资有风险 加盟需谨慎
关闭广告
关闭广告