基于视觉的机器人通用抓取,一直是学界和业界的关注重点,也是机器人智能领域亟待解决的问题之一。
针对物体抓取,业界通常需要先对物体进行三维建模,然后训练网络,在实际中先进行位姿检测,再进行抓取:
此前对于简单场景简单物体的抓取,学术界也有研究涉猎。但是机器人日常面对的都是大量堆叠的、复杂的、没有见过的物体,同时场景呈现极度的杂乱性,还没有相关研究可直接面对任意复杂场景进行抓取。
我们能否期待一个通用算法,能像人类一样具备面向任意场景、任意物体的抓取能力?
譬如,当杯子被敲碎,每个碎片都是未曾出现过的,机器人可以将这些从未见过、更未被建模的碎片一片片捡起来:
搭载anygrasp的机器人首秀
同时,它还要能适应更多的不确定性。比如一堆来自新疆戈壁滩的玛瑙石,细小且局部复杂:
再比如在日常场景经常会遇到的会随机形变的柔性袋装零食或者布娃娃:
以及各种玩具、五金件、日常用品:
甚至人造的形状复杂的对抗样本 [1]:
更极端的,如果光照情况不好,同时有探照灯的干扰,桌面还会变化,机器人能不能稳定地抓取?
在这些方面,尚且没有研究能达到稳定的抓取效果,甚至没有前期可论证的 demo。此前来自 ucb 的研究团队发表于《science robotics》的成果 dexnet4.0 [2],也只局限于低自由度的垂直抓取,同时需要搭配价值数万元的工业级高精度深度相机,计算一次耗时数十秒。
近日,上海交大-非夕科技联合实验室在 icra 大会上展示了最新研究成果「anygrasp」,基于二指夹爪的通用物体抓取。这是第一次机器人对于任意场景的任意物体,有了比肩人类抓取的能力,无需物体 cad 模型与检测的过程,对硬件构型、相机也没有限制。
仅需要一台 1500 元的 realsense 深度相机,anygrasp 即可在数十毫秒的时间内,得到其观测视野内整个场景的数千个抓取姿态,且均为六自由度,以及一个额外的宽度预测。在五小时复杂堆叠场景的抓取中,单臂 mpph(mean pick per hour, 单位小时内平均抓取次数)可达到 850+,为 dexnet4.0 的三倍多,这是该指标第一次在复杂场景抓取上接近人类水平(900-1200 mpph)。
来源:机智网
以上是网络信息转载,信息真实性自行斟酌。











)







