首个GPT-4驱动人形机器人!动作诡异吓到技术专家

文章来源:行业新闻 2024-03-12

  这不,要求机器人表演“在昏暗电影院里狂炫爆米花,却猛地发现吃的是隔壁陌生人的

  GPT-4略思考一番,开始操控机器人活动一番手指、随后疯狂甩头,好像是有点摇滚内味儿。

  但仔细一看,甩头的时候,手指就完全不动了

  相比波士顿动力人形机器人,一举一动均由人为程序精细操纵,这个GPT-4直接操控的机器人,表情狰狞,动作诡异,但一切行为又符合prompt的要求。

  这一连串GPT-4操控机器人的视频po到网上后,不少网友直呼“恐怖谷效应犯了”:

  但也有网友认为,人形机器人能通过GPT-4来操纵,已经是很不可思议的事情了。

  原来,这是首个由GPT-4驱动人形机器人的研究,来自东京大学和日本Alternative Machine公司。

  依靠这项研究,用户无需事先给机器人编程,只需语言输入、也就是动动嘴皮和GPT-4聊上一会儿,就能让机器人根据指令完成行动。

  不编程,也不训练,拿GPT-4当脑子,这个人形机器人Alter3,还能做出哪些令人皱眉却又合理的动作?

  但不知道为什么,微张的双唇和空洞的眼神,让人感觉它更像林正英都要直呼内行的僵尸:

  就是不知道是被原相机里的自己丑到,他的表情并不享受,反而痛苦似的将自己眼睛闭了起来:

  你说它频频点头是在追随节拍,一定没错;但你要说它是毕恭毕敬站在面前,说“啊对对对对对”,似乎也贴切极了(手动狗头):

  在所有放出的视频demo中,“喝茶”这个行为最不奇葩怪异,甚至像是在演我:

  上班上到生无可恋的时候,喝茶就是这么要死不活的。要咱说,送到嘴边了才张口,这茶不喝也罢。

  作为人形机器人,Alter3做出人类行为有点子搞笑,那不如试试别的?

  看到了吗,没那么柔韧,但确实在尽它所能扭动躯干了,能够说是一条蛇的发癫版本.gif。

  这么看下来,直接把人形机器人和GPT-4集成这件事,可以干,但美观性属实不太够啊

  其实回顾一下,让大模型和机器人结合这事儿,科学家研究者们今年已经忙活了一整年。

  不过,通常做法是做更多的训练,然后尝试将图像语言大模型的能力和知识迁移到机器人领域。

  其中,轰动一时的谷歌RT(Robot Transformer)系列效果贼棒,但谷歌训练它就花了17个月,并收集13台机器人的13万条机器人专属数据一般团队很难有这个资金和精力。

  年中,李飞飞团队的具身智能成果,则百尺竿头更进一步,通过将LLM(大语言模型)+VLM(视觉语言模型)结合在一起,机器人与环境进行交互的能力进一步提升。

  但是李飞飞团队给出demo里的硬件,本体还只是一个机械臂,今天我们介绍的研究中,实验对象则是大模型界最强的GPT-4,以及作为“身体”的Alter3。

  无论是OpenAI开发的GPT-4,还是东京大学和日本“机器人之父”黑石浩联合开发的人形机器人Alter3,都是已有的研究成果。

  这项研究的真正目的,是探索如何在不编程的情况下,用像GPT-4这样的大模型控制人形机器人完成各种动作,以验证GPT-4生成动作的能力、降低人机交互的复杂度。

  依靠这一系列成果,Alter3才能完成上面看到的各种各样复杂动作(咱们先抛开完成度和观赏性不提)。

  还有一件事,那就是研究人员在集成Alter3和GPT-4时发现,即使给Alter3下同一个指令,Alter3反馈的动作也不会每次都一样。

  经过一番分析后,他们都以为,这与大语言模型本身的特点有关,即相同输入可能对应不同的输出,但并不意味着GPT-4无法很好地控制人形机器人。

  例如,要求机器人“吃饭”,它可能前后两次就会分别做出拿筷子吃饭和拿刀叉吃饭的不同动作。

  其实在接入GPT-4之前,Alter3就是带脑子(AI神经网络)的,身上还带着各种传感器。

  此前,Alter3的行为主要靠其内置的一颗CPG(CentralPattern Generator,中枢模式发生器)来对传感器传来的数据做出分析,然后按一定顺序驱动体内的43个气动装置,完成相应动作。

  But!现在一切都不一样了,研究团队称GPT-4的集成让他们“解脱了”。

  依托这两项技术,对Alter3的控制不再完全依赖硬件本身,而是能够用GPT-4直接将自然语言转换成机器人可理解并执行的动作。

  好了,现在来具体讲讲把GPT-4和Alter3集成到一起,是怎么来实现的。

  首先,先用prompt描述一下,想要Alter3能完成什么行为或者动作,比如“咱来张吧”“的时候胳膊再举高一点”。

  接收到输入的GPT-4会生成一系列的思考步骤,这些步骤详细地阐述了要完成这一个动作,需要先后完成些啥。

  这个过程被研究团队称为CoT的一部分,即将一个复杂任务分解为一串更简单的思考步骤。

  然后,研究者们再祭出另一个prompt,把分解后的详细步骤转化为Alter3可以听懂的动作指令。

  简单理解就是把人们的指令描述转化为Python代码,这些代码可以直接用来控制Alter3的各个身体部位的具体运动参数。

  研究团队把这第二步也看成CoT的一部分,因为它完成的是“把一个抽象描述转化为具体操作”。

  团队表示,CoT让GPT-4能够有效控制Alter3,命令它做各种复杂动作,且不用额外的训练或者微调。

  多说两句,除了上述的两个Prompt搞定机器人控制外,研究团队还顺手完成了一些其它研究。

  比如掰开了看Alter3在对话中的行为,主要是针对其对话轨迹和语义时间演化。

  针对对话轨迹,研究团队使用了一种叫UMAP(Uniform Manifold Approximation and Projection)的方法。团队把对话内容嵌入二维空间,从而方便观察这个简化版的对话发展过程。

  他们发现,当对话顺序固定时,对话轨迹会呈现循环模式,也就是老在重复同样的话题。

  贼有趣的一点,研究之后发现GPT-4聊久了过后,会倾向于反复说“再见”。如果你不来点儿人为干预,它就会沉迷于想办法跟你说再见。

  他们发现,对话初期的一些关键词,比如“艺术”或者“学习”啥的,会聊着聊着就被GPT-4忘了,取而代之的是诸如“文化”“人类”“抑制”之类的词。

  当然,如果你开始跟GPT-4说“再见”,它就几乎一心一意只想跟你说byebye~(doge)

  这项火爆全网的研究,来自东京大学和日本Alternative Machine公司。

  最后,不得不提到本次研究内容的主人公Alter3,它的幕后研究者也来自东京大学,由东京大学AI研究学者池上高志和日本“机器人之父”黑石浩联袂打造。

  据了解,Alter系列的两次迭代都是在歌剧演唱中完成的。第3代的初亮相就是在东京新国立剧场指挥管弦乐队并参加其他现场表演。

  CPG对数据的分析灵敏到什么程度呢?就是如果Alter3呆的房间里如果温度骤降,Alter3会因此打个冷颤,表明了自己有被冷到。

  这或许也为现在接入GPT-4当脑子后的它,能够活灵活现做表情、完成动作提供了一些基础吧。

  说起人形机器人的一手消息,一定要提老马家特斯拉擎天柱Optimus的最新动态:

  就在刚刚,马斯克突然在推特发布了Optimus的视频,表示Optimus第二代机器人(Gen 2)将在本月发布。

...
分享到
微信扫一扫
分享到朋友圈