OpenAI创造机械手的新算法 实现单手还原魔方

  • 时间:
  • 浏览:1
  • 来源:1分6合-1分彩平台_1分快3网投平台

10月15日,人工智能研究机构OpenAI发布视频,机器人手成功学会单手还原魔方。你是什么 学会式的类人机器人手又名Dactyl,用软件进行培训,都非要真正像人类一样通过学会解决新任务,我太大 进行专门编程,更接近广泛的机器人行业目标。

一年多前,总部所处旧金山的营利性人工智能研究实验室OpenAI提前大选,它可能训练了一只机械手,我太大 都还都还可以以惊人的灵巧程度操纵三个多多立方体。

这听起来可能并不一定惊天动地。但在人工智能领域,它并不一定令人印象深刻,有三个多多原困 。首先,这只手通过强化学习算法(你是什么 模仿动物学习办法的技术)学会了怎样才能摆弄魔方。其次,所有的训练有无在模拟环境中进行的,也不我又成功地将其转化到现实世界中。在你是什么 个多多方面,这有无朝着工业和消费者应用程序更敏捷的机器人迈出的重要一步。

在昨天的一篇新论文中,OpenAI发布了它的机械手Dactyl的最新结果。你是什么 次Dactyl学会了用一只手来解决魔方,还是通过模拟中的强化学习。这并不一定是可能机器人破解了古老的谜题,也不我可能你是什么 成就提高了机器人的灵活性。

“这是三个多多非常困难的问题图片,”密歇根大学专门研究机器操作的机器人专家德米特里贝伦森(Dmitry Berenson)表示。“旋转魔方所需的操作实际上比旋转立方体要困难得多。”

从虚拟世界到物理世界

传统上,机器人非要以非常简单的办法操纵物体。尽管强化学习算法在完成软件中的冗杂任务方面取得了巨大成功,比如在古老的围棋游戏中击败了最优秀的人类棋手,但用它们来训练一台物理机器则是另一番景象。这是可能算法非要通过反复试验来完善此人 ——在也不清况 下,要经过数百万轮的反复试验。三个多多物理机器人要在现实世界中做到这也不,可能非要太长的时间和少许的磨损。可能机器人为了采集数据而乱蹦乱跳,甚至会有危险。

为了解决你是什么 清况 ,机器人专家使用仿真技术:也不人为此人 的机器人建立三个多多虚拟模型,并对其进行虚拟训练,以完成手头的任务。该算法在安全的数字空间中学习,也不我移植到物理机器人中。但你是什么 过程也伴随着自身的挑战。几乎可能建立三个多多完整篇 一键复制现实世界中所有相同物理定律、物质属性和操作行为的虚拟模型——更并不一定哪此意想非要的清况 了。也不我,机器人和任务越冗杂,在物理现实中应用虚拟训练的算法就越困难。

这也不我让Berenson对OpenAI一年前的结果印象深刻的地方。成功的关键是OpenAI打乱了每一轮训练的模拟条件,使算法更能适应不同的可能。

“也不人用各种疯狂的办法把模拟器搞砸了,”Berenson说。“它们不仅改变了重力的大小,还改变了重力指向的方向。也不我,通过尝试构建三个多多能在所有哪此疯狂模拟中可靠工作的策略,该算法实际上在真实的机器人中不都还都还可以工作。”

在最新的论文中,OpenAI将你是什么 技术又向前推进了一步。在此没人 ,研究人员非要通过手工取舍也不人认为会产生更好算法的排列办法来随机化环境中的参数。现在的训练系统此人 就能做到这也不。每当机器人在现有环境中达到一定程度的熟练程度时,模拟器就会调整此人 的参数,使训练条件变得更加困难。

其结果是三个多多更加健壮的算法,都非要按照现实生活中旋转魔方所需的精度移动。通过测试,研究人员发现,Dactyl在各种没人 经过训练的清况 下不都还都还可以成功地解决魔方。比如,它戴着橡胶手套,几根手指被绑在一同,还有三个多多填充玩具长颈鹿在戳它。

通用机器人

OpenAI认为,最新的研究结果提供了强有力的证据,证明也不人的办法将解锁更多的通用型机器人,哪此机器人都非要适应开放式的环境,比如家庭酒店厨房。OpenAI的Marcin Andrychowicz说:“魔方是世界上最冗杂的刚性物体之一。”“我认为没人 比它更冗杂的物体了。”

我知道你,尽管有也不涉及更多物体或可变形物体的更冗杂的任务,但他相信OpenAI的办法都非要训练所有哪此物体的机器人:“我认为你是什么 办法是机器人广泛采用的办法。”

然而,Berenson仍然持怀疑态度。“可能会有没人 你是什么 印象,即所处三个多多统一的理论或系统,而OpenAI现在也不我将其应用于你是什么 任务和那个任务,”Berenson在谈到没人 和当前的论文时说。但事实并不一定没人 。哪此是独立的任务。有通用的组件,但要让每个新任务工作仍需少许的工程。”

“这也不我为哪此我不赞成这会是通用用途的机器人,”我知道你。“我认为这是三个多多针对特定应用的非常具体的系统。”

贝伦森认为,问题图片的一累积在于强化学习你是什么 。从本质上讲,你是什么 技术是为了掌握一件特定的事情而设计的,具有解决变化的灵活性。但在现实世界中,潜在变化的数量超出了都非要合理模拟的范围。这类,在三个多多洁净间任务中,你可能会有不同种类的拖把,不同种类的溢出物,和不同种类的地板。

强化学习也主也不我为了从头现在结束了学习新能力而设计的。这在机器人领域传输数率低下,对人类的学习办法也不我适用。“可能你可能是三个多多相当有能力的人,我试着教你酒店厨房里的一项技能——就像你可能从来没人 用勺子搅拌过一样——你不非要重新学习你的整个运动控制,”贝伦森说。

贝伦森认为,要超越哪此限制,就非要也不更传统的机器人技术。最终有一天会有也不学习过程的办法,可能是改良版强化学习,或是也不的,但或许非要走很长的路。

进入“机器人”首页,浏览更多精彩内容 >>