人形机器人是当前最炙手可热的方向之一。谈到人形机器人的最终局,清华交叉信息研究院助理教授、星动纪元创始人陈建宇说到,在未来人形机器人很可能成为人类的化身,代替人去完成各种各样纷繁复杂的任务。

本科毕设阶段,他就开始研究双足机器人的步态规划。而在加州大学伯克利分校攻读博士期间,他的研究领域包括自动驾驶和机器人技术。当时尚处于商业无人驾驶行业的早期,大多数无人车的决策规划系统使用的是基于人为规则的方法,而陈建宇研究的方法能够自动地对无人车这种非线性系统实时规划出安全的轨迹。“我第一次体会到,坐在搭载自己算法的车上面是什么感受,车子一边乱晃,我要一边去调试找出原因,非常刺激。”

无人车和机器人在算法层面相通。凭借着无人车和双足机器人研究时期的技术积累,陈建宇于2023年创立了星动纪元,专注人形机器人的研发,如今的小星已经可以走出自己稳定又敏捷的步伐。未来,解决特定任务,倒咖啡或炒菜,想要追求真正的“神似”,而非表面的“形似”还要克服很多技术难题。可以想象,有朝一日,拥有一台真正的人形机器人会像人手一台智能手机一样。“而在那个走进千家万户的理想之前,ToB场景会先逐步启动。”


以下为访谈实录(本文进行了不改变原意的删减)

陈建宇 清华大学交叉信息研究院助理教授 星动纪元创始人,于清华大学取得学士学位,在加州大学伯克利分校取得博士学位,师从美国国家工程院院士、机电控制学科先驱Masayoshi Tomizuka教授。他近年来在机器人与人工智能的交叉领域从事前沿研究。他的研究目标是构建出具备高性能、高智能的高端机器人软硬件系统。他在机器人、人工智能、控制、交通等领域的国际顶级会议和期刊上发表了五十余篇论文,部分论文入围L4DC 2022、IEEE IV 2021、IFAC MECC 2021等国际会议优秀论文奖。个人荣誉:福布斯中国30位30岁以下精英(科学榜,2021年)


01

从婴儿走路姿态出发

研究双足机器人

你是从何时开始入门科研的?听说 8 岁时已经去了妈妈大学的物理实验室?

我妈妈就在大学里面,经常带着我参观实验室,所以小时候有一些零星的记忆碎片。作为男生本身也对科幻的东西很感兴趣,包括《三体》这种科幻书籍、有名的科幻电影都会去看。因此冥冥之中专业选择上也往理工类、科技类的去靠,一直觉得做这种比较高端智能的机器人有科幻感,比较酷,是自己想做的事情。

求学经历上,从清华到UC Berkley,有哪些mentor对你影响比较深远,引领你走上科研的道路?

这也隐隐地为我现在做双足人形机器人,埋下了伏笔。我从本科毕设开始接触双足机器人,当时在清华精密仪器系付成龙老师课题组。清华精密仪器系是国内最早从事双足人形机器人研究的单位之一,之前做出过非常好的机器人。付老师治学严谨,善于从生活现象出发科研,印象中他研究机器人行走,会去看他刚出生的小孩是如何走路的。这也隐隐地为我现在做双足人形机器人,埋下了伏笔。

那时的机器人已经初具人形吗?

我们当时做的还不是完全人形,它有下半身,两条腿,上半身还没加上,不像现在全身一体协同去做工作。当时最主要的难点还在研究双足相对稳定的行走。当时AI这个领域还没有起来,算法都是纯计算类算法,而且那个时候连波士顿动力都还没有实现跑、跳等操作,能走起来就已经很牛了。当时的算法相对老一点,有更多人为的规则或者一些Heuristics(启发式算法)。而现在,不管是数据驱动,还是基于优化理论的方法,它都更加自动化,也更加通用。


02

做有用的研究

而非纯数学游戏

Massayoshi 教授的技术思路是?对你的主要影响是?

我博士课题在Massayoshi 教授组里,他是机电控制领域的鼻祖,可以认为现在的机器人系统就是机电控制系统的延伸。在博士阶段,技术上,对于硬件本体,以及如何去控制真的机器人的硬件系统,有了更深刻的了解和学习。这非常重要,智能的系统一定要和本体相结合,真的去控制这个机器人,像人一样去做各种各样的事情。

另外从思想上,我的导师带给我的启发是要做有用的科研。毕竟机器人属于工程学科,之前博士阶段有阵子我就钻到纯理论去了,有时候在工程学科,如果没有很好的一个 sense 来判断我们做的东西最终是否有用,可能就会变成一个纯数学游戏。自己当时觉得,我能推各种数学公式,好像很酷、很高端,但是可能最后花了很长时间,不一定真的有用,因为可能你研究的问题就是一个大家不重视、不重要或者是未来无用的问题。

怎么去定义有用,你们的研究组认为什么是有用的研究?

我们的lab非常重视和产业界的沟通和合作,包括无人车项目。研究问题来自于产业应用中看到的难点和需求,再提炼成通用的科研问题,再利用通用方法去求解。很多问题我们就可以从产业界中来,就不是我们自己关在实验室里面去空想。时间精力有限,要放在真正有用,能够创造价值的这些问题上面。

无人车和后来的人形机器人研究是相通的? 

实际上无人车就是一种机器人,在数学层面建模起来之后,公式都是一样的。只不过机器人确实更复杂,所以也会花更多的功夫,对求解精确性、算力的要求、复杂性会更高。技术角度,有非常多共通的东西,可以建模成同样的形式,优化的方法是通用的。但人形机器人自由度非常高,也比较复杂,它也涉及到跟地面接触等等dynamics。


03

人为什么这样走路?

万年进化,只为节能

创立星动纪元是怎样的过程?

最开始以课题组科研课题为核心,前期经过几个月的摸索,包括路径、软硬件技术路线,再逐步招募团队。大概是去年开始有这样的想法,进行一些筹备、技术路线探索,后来逐渐形成成立公司的想法。其中很大的motivation,也是希望能够通过技术驱动,进一步推动人形机器人产业的发展。

小星最大的优势是什么?小星近期的优化目标是什么?

目前我们正在做的工作,包括行走的柔顺性、高动态性以及稳定性的兼顾,已经在真机上展示出来,它同时能够做到类似非常精准的单腿瑜伽平衡的动作,也可以走得比较柔顺,比较快,同时还能在崎岖路面保持平衡稳定。研究方面,我们也提出了一些新的手腿协调的工作,以及把大语言模型和视觉语言模型,与强化学习控制等相结合,提升泛化性的工作。未来希望往更高的动态发展,让它“跑起来”,更高的智能性,以及增强工业设计和算法上的“拟人化”。“拟人”实际上也和节能相耦合。

人的步态为什么好看?为什么人走路是这个样子?如果仔细去观察,人走路时腿部有一段时间是直的,触地的时间是打直的,抬腿的时候又是弯曲的。千万年来人直立行走进化出来这样的一个步态是非常节能的。

读本科期间,我就在研究步态,那段时间passive walking是比较火的方向,有好几篇《nature》、《science》的论文,论文中就提出,人之所以这样的步态是因为优化能量,当时我还去复现了这篇论文里的点,在程序里写了一个优化器,将节能作为走路的指标,在仿真中模拟出了非常类似人的步态,我们后续也会想办法在真机上去实现。

机器人硬件的本体也是自己去做的吗,涉及非常复杂的硬件?

我们都是自己去设计,从底层零部件,包括电机、减速器、驱动器等等,以及整机的硬件结构,都是自主去设计,然后加工是找供应商代工。团队中各类人才都齐备,学机械设计、电子,包括软件算法等等,包括加工工艺都有相关的人才,都需要有经验的、聪明的人。

创立公司时,你心中有一个雏形吗?要做的机器人产品是什么样子的?它符合哪些人类的需求,当时有一个完整的途径吗?

我们最终的愿景还是希望他能走进千家万户,这样的机器人目前暂时还没有。但是说未来到技术达到的时候,它一定会走进我们的千家万户,帮我们做各类事情,比如做保姆,或者餐厅服务员、工厂里的工人,这就有非常大的想象空间。


04

解决特定任务,倒咖啡还是炒菜

追求“形似且神似”

解决比如倒咖啡或者是陪伴这种需求,需要攻克哪些关键的技术难题? 

目前可以做出来“倒咖啡”的动作,但可能只能针对倒咖啡这个任务,或者一些特定种类的杯子或咖啡机,泛化性不够。以人为例,随便到一个环境,即使不知道有没有咖啡机,你会自主地去寻找,对咖啡机有概念,即使是不同形状的,也知道是按哪里出水,该怎么做。但当机器人进入一个家庭,泛化性是非常难的。

要实现真正的泛化性,还有大量科学问题需要进一步去解决。大模型的出现带来了非常大的转机。去年之前还没有在任何一个领域里看到泛化性这样好的AI Agent的效果。现在大模型在语言以及视觉领域展示出了非常强的泛化性,带来强大的技术变量。

如果通俗一点去解释,可以理解成把大模型这个模块植入到机器人中,他就能做更多的事情?

畅想最终的话,不光是植入,你得改变,我们得造一个对机器人的大模型。你光植入现在的大模型可以有一些提升,可以去调用现有机器人上面的程序和技能,组合起来去完成比较复杂的任务,这是目前可以去做的。在之前的机器人领域,叫做task and motion planning,也是机器人里面比较重要的领域,之前是基于计算的方法,通用性、泛化性都相对不足,但现在大模型去做,就可以把这些任务解决的非常好。比如问ChatGPT,你告诉他假设自己是个机器人,叫他去客厅里倒一杯水,他会把这个任务拆解得很好。

较理想的状况是可以定制化它的任务吗?比如我需要机器人白天的时候去逗猫,看护宠物,如何应对这样的场景?

如果走我们现在通用路线的话,希望能够解决一些非常通用的问题。当然涉及到猫和狗等活的物体和其他物体不同,还涉及模型本身与自主的agent进行交互,倒咖啡毕竟接触的是静态的物体,只是被动遵循物理规则。猫和狗,甚至人,对方有一定自主性。我们首先得要解决passive的物体(没有自主的agent),被动物理环境的话,通过足够的数据,比如苹果向地下掉落,你可以把这个学出来。但如果需要去预测另外一个人(活物)的动作,那就更难,需要的数据更多,算法也需要进一步改进。

拿做菜为例,可行性如何?如何去教机器人做菜,离这个目标还远吗?

现在的机器人只能做到形似,就是把动作做出来,技术上完全可以复制炒菜这个动作。但是人炒不是去重复这个动作,是对铲子和锅中间接触的交互,包括这些菜如何去动的dynamics,人会基于物理过程进行深刻的理解。比如对“炒菜”这个任务,我们是想要把它炒熟,需要把所有菜的各个面,能够跟锅底接触。这当中要求很高,需要底层物理常识。涉及不同菜的形状,以及不同的锅和产品,实现真正的泛化很难,现在还没有 agent 可以做到这样一点。

但从产业化落地的角度,并非形似就完全没用,比如有的任务做到形似已经解决很多问题。包括现在工厂里面的工业机械臂,那些加工完全就是形似的方法。比如简单的抓取任务,程序上,识别在哪,移动到哪,移到这个位置,判断差多少,然后再抓再定,再做一个计算,进行plan,虽然没有去真正理解背后的内核,但如果这个任务不算特别复杂,依然可以实现逆向的工程化,拆解步骤,包括无人车上路,背后的很多逻辑不是基于人类的常识去推理出来的,很多也是逆向工程,把它program出来,但最终还是希望能做到真正的理解。


05

百家争鸣

从“遥不可及”到“触手可及”

最近也有一些公司发布人形机器人,包括小鹏PX5、特斯拉Optimus等等。如何评估最近的热潮?各有什么优缺点?

特斯拉的产品,手眼协调就做的很好,是端到端的,指尖的动作非常的细腻,纯基于视觉。波士顿动力就不用多说了,后空翻这样的高难度高动态动作,只有他才能够去做到,运动控制层面做到了极致。包括Agility Robotics对商业化的探索,前阵子已经开始在亚马逊的那个物流仓库里面去探索。国内也每家都有各自的一些亮点,有的可能走路比较稳,有的手比较精巧,各有所长。

今年是机器人落地元年,近年人工智能、电子工程、运动控制等突破性进展,让人形机器人从“遥不可及”变得“触手可得”。大众是否高估了这一领域的短期发展?面对如此热潮,对量产落地如何预判?

看如何定义触手可及,说明年就走进千家万户,那是不太可能的,还需要有几年你去逐步打磨和积累。任何一个新类的一个产品,特别这种硬件的这个产品,很难说是突然有一个爆款出来,全世界好多亿人这个用户就铺开了。

此前觉得实现走进千家万户的机器人遥不可及是因为大模型出现之前确实没看到什么技术路线。但现在大模型的出现让它不再是遥不可及。触手可及可能有点夸张,准确点说应该是努力之后可以达到,还要攻克一些技术难点和关键点。大模型已经在语言和视觉领域取得了非常大的成功。我们完全有理由相信它可以继续拓展到机器人领域,也能带来质的改变。

从最开始初代Transformer提出到现在五六年的时间,到ChatGPT出来,时间很快。近些年,机器人硬件本体和小脑控制等算法的提升,以及大模型出现带来的技术量变肯定能带来新产品的类别,在到达机器人走进千家万户的终局之前,中间过程也能做出各种B端场景的开拓。

去畅想最终的图景会是什么样?再过10年、20年,会实现某一个科幻电影或者影视作品里的场景吗? 

我觉得也不能太aggressive,当然可以去畅想和人一样完全拥有自主意识,甚至比人还聪明,但现在语言大模型都没有达到这种自主思维的能力,更多还是辅助人去做事情。

我们可以去预想的是机器人达到ChatGPT的智能水平(agent),可能不能完全自主地完成非常复杂的任务,但在你的培训和教导下,给他一些prompt和示例,能很快地适应,去熟练做相应的任务。比如最后在家庭里面做饭,可能一开始还做得不是特别好,你要试着去教他,去提醒他,那么逐步地去熟练,把任务完成。新的任务需要教育和引导。


06

人形机器人终局:替身使者

有没有更有想象力的场景,在终局中他还能做什么呢?

在终局里面,你可以想到最终那个时候,你可以雇佣一批机器人,他们变成你的化身,帮你处理各种各样的事情。因为到技术到那一步,它可能不仅仅说到他家里去帮你干活,这有可能对整个世界的经济结构、运作方式都带来比较大的改变。包括马斯克送人类上火星的殖民梦想,这些都会有更广阔和宏伟的空间。

如果想从事人形机器人研究,需要哪方面能力或者素质的培养?(社区提问)

我认为首先要对人形机器人、通用AI充满热情,其次可以培养一下机器人控制和AI领域的一些知识和技能,以及对于机器人控制一些实操的经验。

大概什么时候可以进行量产落地?

我们明年就会出初代的产品,并跟合作方一起,在各种应用场景里面去进行打磨产品。

从长远来看的话,最终比如说也有可能走向 ToC 端,去做大家像买手机一样去购买的那种机器人? 

最终的目标,希望是能达到这样。

最后,请对人形机器人的终局进行预测。

终局的话,我希望 5 到 10 年这个区间去把它逐步的去做好。终局是走进千家万户,也就是C端产品。目标是ToB的话就会快一点,那其实并不是一个非常遥远的未来,是可以想见的,并且肯定能带来一批新场景的落地。这个终局也并非遥不可及了。

我们最终的目标就是希望和大家一起去共同推动人形机器人、通用机器人和具身智能领域的技术和产业。希望我们能够在不远的将来真正看到机器人走进千家万户,融入万家灯火。