进取的机器人学习对象操纵的基础

2020-07-11 15:18:38
来源:

  【摘要】   麻省理工学院的研究人员已经编译了一个数据集,该数据集捕获了物理上推动数百个不同对象的机器人系统的详细行为。使用数据集-同类中最

  麻省理工学院的研究人员已经编译了一个数据集,该数据集捕获了物理上推动数百个不同对象的机器人系统的详细行为。使用数据集-同类中最大,最多样化的数据集-研究人员可以训练机器人学习推动动力学,这对于许多复杂的对象操纵任务都是至关重要的,包括重新定向和检查对象以及整洁的场景。

  为了捕获数据,研究人员设计了一个自动化系统,该系统包括具有精确控制的工业机械手,3D运动跟踪系统,深度和传统相机以及将所有东西缝合在一起的软件。手臂推着模块化的物体,可以调整其重量,形状和质量分布。对于每次推动,系统都会捕获这些特征如何影响机器人的推动。

  

  名为 Omnipush的数据集包含250个对象的250次不同的推送,总共大约有62,500次唯一推送。例如,研究人员已经在使用它来建立模型,以帮助机器人预测物体在被推动时会降落在何处。

  机械工程系(MechE)的研究生,第一篇描述Omnipush的论文的作者Maria Bauza说:我们需要大量丰富的数据来确保我们的机器人能够学习。智能机器人和系统。在这里,我们正在从真实的机器人系统中收集数据,并且[对象]足够多以捕获丰富的推动现象。这对于帮助机器人理解推动的工作原理并将该信息转换为其他类似信息非常重要。现实世界中的物体。

  加入Bauza的论文有:Ferran Alet和Lin Yen-Chen Lin,计算机科学与人工智能实验室和电气工程与计算机科学系(EECS)的研究生;工程学院卓越教学教授Tomas Lozano-Perez;Leslie P。 Kaelbling,松下计算机科学与工程系教授;EECS助理教授Phillip Isola;和MechE副教授Alberto Rodriguez。

  多样化的数据

  为什么要专注于推动行为?Rodriguez解释说,建模涉及物体和表面之间摩擦的推动动力学,对于更高级别的机器人任务至关重要。考虑一下可以玩Jenga的视觉和技术上令人印象深刻的机器人,这是Rodriguez最近合作设计的。罗德里格斯说:机器人正在执行一项复杂的任务,但驱动该任务的机制的核心仍然是推动受例如块之间的摩擦影响的物体。

  Omnipush建立在Rodriguez,Bauza和其他研究人员在操纵与机制实验室(MCube)中建立的类似数据集的基础上,该数据集仅捕获了10个对象上的推入数据。在2016年将数据集公开后,他们收集了研究人员的反馈。一个抱怨是缺乏对象多样性:在数据集上受过训练的机器人努力地将信息推广到新的对象上。也没有视频,这对于计算机视觉,视频预测和其他任务很重要。

  对于他们的新数据集,研究人员利用工业机器人手臂精确控制推进器(基本上是垂直钢棒)的速度和位置。当手臂推动物体时,将在电影,虚拟现实和研究中使用的 Vicon运动跟踪系统跟随物体。还有一个RGB-D摄像机,可将深度信息添加到捕获的视频中。

  关键是构建模块化对象。由铝制成的均匀的中央部件看起来像四角星,重约100克。每个中心部分的中心和点都包含标记,因此Vicon系统可以在1毫米内检测到其姿势。

  可以将四个形状较小的零件(凹形,三角形,矩形和圆形)磁性连接到中央零件的任何一侧。每块重量在31到94克之间,但是额外的重量(从60到150克不等)可以掉入这些块的小孔中。所有类似拼图的物体在水平和垂直方向都对齐,这有助于模拟形状和质量分布相同的单个物体的摩擦力。不同侧面,重量和质量分布的所有组合增加了250个唯一对象。

  每次推动时,手臂会自动移动到距对象几厘米的随机位置。然后,它选择一个随机方向并将对象推一秒钟。从停止的地方开始,然后选择另一个随机方向并重复此过程250次。每次推送都会记录对象和RGB-D视频的姿势,这些姿势可用于各种视频预测目的。每天花费12个小时来收集数据,耗时两个星期,总计超过150个小时。仅在手动重新配置对象时才需要人工干预。

  这些对象并没有专门模仿任何现实生活中的物品。取而代之的是,它们旨在捕获现实世界对象期望的运动学和质量非对称性的多样性,从而对现实世界对象的运动进行建模。然后,机器人可以将质量分布不均匀的Omnipush对象的物理模型外推到重量分布不均相似的任何现实世界对象。

  想象一下用四只腿推动桌子,其中最大的重量超过了一只腿。当您推动桌子时,您会看到它在沉重的腿上旋转,必须重新调整。了解这种质量分布及其对结果的影响推动力是机器人可以用这组对象学习的东西。 Rodriguez说。

  推动新研究

  在一个实验中,研究人员使用Omnipush训练了一个模型,以预测被推物体的最终姿势,只给出推入的初始姿势和描述。他们在150个Omnipush对象上训练了该模型,并在对象的伸出部分上对其进行了测试。结果表明,经Omnipush训练的模型的准确度是在一些相似数据集上训练的模型的两倍。在他们的论文中,研究人员还记录了其他研究人员可以用来比较的准确性基准。

  由于Omnipush会捕获推送的视频,因此一种潜在的应用是视频预测。例如,一个合作者现在正在使用数据集来训练机器人以实质上想象在两点之间的推动物体。在Omnipush上进行训练后,将为机器人提供两个视频帧作为输入,以显示其开始位置和结束位置的对象。机器人使用起始位置预测所有未来的视频帧,以确保对象到达其结束位置。然后,它以与每个预测视频帧匹配的方式推动对象,直到到达具有结束位置的帧。

  机器人问,';如果我做这个动作,物体将在这个框架中的什么位置?';然后,它选择使物体处于所需位置的可能性最大化的动作。 Bauza说。它通过首先想象一下图像中的像素在推动后将如何变化来决定如何移动对象。