现实与梦想：聊聊人形机器人+大模型

编辑:我爱机器人发布于:机器人资讯2023-07-285869

一、大模型+机器人发展到了什么阶段？如何看待未来的趋势？

嘉宾A：首先，大模型+机器人还处于非常早的技术探索期，一个很明显的特征就是技术路线还没开始收敛。

比如深度学习，2012年它刚登场时，和今天大模型一样惊艳，直接把图像识别准确率提升到了90%多，2015年又出现了Alpha GO，直到2018、19年，深度学习才逐渐收敛，最直观反应就是高引论文开始没那么多了。

因为早期大家还在尝试不同路线，到后面慢慢形成共识，彼此的东西越做越像，模型结构上也就不会再有大的质变。目前大模型还远没到这个阶段，微软谷歌英伟达，彼此之间甚至连任务定义还都不一样。

第二是算力算法的进步速度。举个例子，2012年时，你用电脑跑一个5亿参数的模型（在今天看起来都属于小模型），动辄也要跑半个小时；但现在你用最常见的因特尔CPU，跑5亿参数只需要零点几秒，甚至不需要挂AI芯片，也几乎没有成本。

所以，我们今天看大模型创业，需要多少个GPU，一算账要好多钱，就觉得这件事干不了，但10年之后再看，这些可能都不是问题。现在英伟达等巨头都在算力方面发力，对此我还是比较有信心的。

第三是大模型+机器人还远未形成固定的产品形态。

我们看人类历史，机械的进步=控制力的进步：比如第一次工业革命，诞生了气缸这样的基础组件；到第二次工业革命，有了基础控制和自动化，人类开始能够通过机械操控机械；到计算机革命时代，有了PLC（可编程控制器），开始用电脑控制机械，再后来，我们用3D视觉AI控制机械，到现在用大模型控制机械。

可以看到，每个时代之间不是替代关系，而是补充关系：不是说有了计算机，机械控制就没用了，而是通过计算机对机械控制赋能，让机械有了更强的能力，由此诞生出了更多的产品形态。

大模型也是一样，机器人进化和人类进化很类似：首先，机器人要能站得稳，能走直线，不会摔倒——对应到人脑，就是小脑部分要解决的问题；后来慢慢发展出了语音识别、图像识别，这时已经对应到了大脑中某个特定区域；到现在大模型出来之后，相当于进化到了前额叶的部分，AI也开始能具备一些“基本智力”。

所以，未来我们比较看好AI的三个方向：

1、根据常识处理异常：比如说自动驾驶，现在AI已经可以做到识别障碍物，但是如果路边有人举个牌，说前方桥断请绕行，AI能不能明白这些字的含义？再比如路上看到交警向你打手势，AI能不能根据常识，知道自己要靠边停车？

2、高层次抽象任务：比如说我和机器人说，“请把这个房间收拾一下”，再比如在仓库场景中说，“请按清单打包发货”，这些都属于高层次抽象任务——它不是一个单独的指令，而是要向下拆解成很多子任务和子指令。

3、主动感知：比如我让AI从冰箱里拿瓶水，打开冰箱后如果没看见水，机器就会停在这一步，但如果是人就知道再翻一下，看看水是不是放在最里面了？

以上种种这些，过去的AI还都做不到，但大模型很可能会实现。举个例子，现在微软使用GPT的技术，已经可以做到简单的抽象任务，比如你和机器人说“把饭热一下”，它知道要去找微波炉。

换句话说，现在已经可以通过语言模型，让机器人在热饭和微波炉之间建立联系——AI知道要找到微波炉，打开，把饭放进去。

包括谷歌、英伟达也都开始尝试，在大语言模型上加入跨模态和机器人操作，这方面网上的视频资料很多，也非常震撼，大家感兴趣可以找来看看。

二、大模型为机器人带来了哪些通用能力？有什么是值得我们憧憬的？

险峰：过去机器人更像一种专用设备，各种能力要依赖于工程师写代码，但大模型出现后，AI出现了泛化能力，GPT已经成功颠覆传统软件行业，那我们该如何憧憬大模型对机器人带来的影响？

嘉宾B：机器人虽然带了个“人”字，但它依然还是一个效率提升的工具，既然是工具就要分场景、分功能，比如天上用的和地下用的，室内用的和室外用的机器人肯定不一样。

所以，我认为很难出现一个可供所有机器人使用的统一大模型。更可能是不同专业公司，根据不同场景，搭建出一个个垂直大模型，再与机器人做深入的结合。

嘉宾C：我觉得带来的改变主要有三个方向：

第一是效率提升，比如高空擦玻璃，这个行业过去三五年最大的变化，是慢慢把高空工人替换成了机器人，因此效率提高了3-6倍，同时还收集了大量工艺参数，但这些参数还是要靠人做数据分析，如果可以通过大模型进行泛化，效率还会进一步提升。

第二是场景感知。举个例子，一块玻璃有没有洗干净，过去很难判断，因为户外场景下，光线环境非常复杂，不管是雷达、超声都不好使，只能靠人为判定，如果大模型可以让机器有了人的感知能力，自主判断一块玻璃是否达到了物业验收标准，就能进一步提效。

第三是产品设计。过去要做一款机器人产品，第一步先要访谈大量客户，梳理需求，形成产品洞见，一个产品成败50%取决于产品定义的方向选择，大家如果创过业应该都知道，写PRMID非常耗时，但现在可以借助大模型实现创新，比如把一部分工作交给GPT去解决。

嘉宾D：我们是做2C服务类机器人的，其实站在客户的视角，他不管你具体做的什么机器人，他的认知就你这东西能不能替代我一个人工？能不能够减员增效？但坦白讲现在的机器人很难实现1对1替代。

机器人拆开就四件事：感知、决策、控制、交互，现在这四件事机器都没办法做得像人，核心原因还是智能化水平不够。一年前我们还认为，没有任何方法能解决这些问题，但突然GPT出现了，现在我们也在尝试用它开发新的产品线。

但我认为至少5年内，还很难出现人形的大模型机器人，从我掌握的知识背景来看，挑战有点过大，如果大家对大模型机器人的憧憬是变形金刚或者高达，那可能还需要等很多年。

嘉宾E：大模型首先要有大数据，比如训练ChatGPT，用的是网上的文本文字，但是训练机器人，往往要用3D数据，网上没有现成的，只能靠人工采集，效率很低，所以之前我们看到一些机器人公司，采了半年的数据，训练的模型还是只能在局部环境里使用。

未来，大模型可能会不一样，比如可以在虚拟环境里训练AI，然后再更高效的匹配真实世界；或者直接利用2D数据训练3D机器人，比如刚才主持人提到的，给机器人看人类搬东西的视频，慢慢机器人也学会了搬东西，这两种方法未来都有可能成功。

对于通用大模型机器人，我还是比较乐观的。我们说最简单的智能机器人其实是无人机，能跟随你拍照，但和周围环境还没有太多互动；后面出现了自动驾驶，AI开始和地面环境做交互；再后来有了机械臂，开始和真实世界直接物理接触。

整个过程中，难度其实是不断上升的，所以我觉得等自动驾驶完全成熟以后，通用性机器人就会慢慢出现，因为整条技术路线是相通的，可以慢慢迁移过去。

三、大模型给机器人交互方式带来哪些变化？

险峰：刚才大家谈了机器人如何感知、理解和执行任务，如果有一天大模型机器人具备了很超前的智力，在交互方式上会怎么变化？

嘉宾F：用户对于家用机器人可能会有期待，希望交互更顺畅、更智能，但我们做工业机器人的还没有迫切需求。工业场景中，语音交互一直也不是主流，大家还是更习惯用操作杆和摇控器；所以未来，VR+手势可能会是比较好的方向。

嘉宾G：我们做服务机器人的，交互方案已经很结构化了，就是给客户提供一个用起来很爽的pad——但我们也发现，客户仍然会不满足，因为服务行业普遍教育程度不是很高，他们不希望有任何学习成本，所以我认为，基于自然语言交互的服务型机器人一定会有需求。

嘉宾H：交互可以分成两类，一是机器与人的交互，二是机器与环境的交互。

人的交互，其实不只是和机器人，应该叫智能硬件+大模型，比如小爱或者小度，你告诉它把房间灯关了，有时不一定能真的关上，但有了大模型，它可以通过光线感知到灯到底有没有关。

另一个是多语言能力，比如之前只能和它用中文交流，现在可以多种语言切换，直接卖给海外客户，也不需要重建新的数据集。

还有就是陪伴和情感需求，特别是海外用户，比如英国一家做人形机器人的公司叫AMECA，大家可以搜搜它们的产品，已经有点恐怖谷效应了，未来机器人接入大模型后，对于需要情感陪伴的人可能是个好消息，尤其是老年人。

（图：AMECA机器人）

至于机器与环境的交互，我觉得核心竞争力还是要收集到每个细分场景的小模型。

举个例子，特斯拉要用人形机器人造车，就先要收集每个工艺环节的数据，比要把一块挡风玻璃安在车身上，机器人具体需要调动哪些“关节”和“肌肉”，如何判断安装的位置在哪，这是一整套非常专精的小模型。

现在国内也有公司在做类似的事情，用大模型底座调度生成自己的小模型，目前这条路看起来是走得通的。

嘉宾J：我认为人机交互方式越简单越好，以前我也用过很多智能家居，但是用到最后我宁愿不用，还是普通开关更方便。

其实最好的交互就是没有交互，比如我拿着一个大箱子往前走，机器人能知道要帮我开门，或者接过来帮我拿；我吃完饭走了，机器人知道应该要收拾餐具，类似于这些对人类意图的识别，如果大模型机器人具备了高级智力，或许更值得期待。

四、大模型能否解决机器人数据收集难、生成难的问题？

险峰：刚才很多嘉宾都提到，机器人训练数据“收集难、生成难”，大家如何看大模型对机器人数据的影响？会有哪些新的变化？

嘉宾K：目前我们的做法还是：前段靠仿真，中段靠真实作业效果，最后由人来做评估修正；其实不止是我们，现在很多工业场景里机器人的工作方式，在工艺层面已经和用人工完全不一样了，很难单纯的迁移过来，不是说看看人类的录像就能解决的。

嘉宾L：我觉得做通用人形机器人，收集数据可能没有那么难，我们内部讨论过，包括OpenAI的CTO也讲过类似的逻辑，就是人身上能收集到的数据密度其实挺高的，比如你给1万个人带上传感器，跑上一年所有数据都有了。这件事本身不难，主要还是商业伦理的问题，但我觉得还是钱的问题，比如你给10万人装传感器，一人一年给10万美金，总会有人愿意，这个数据量也完全够用了。

嘉宾M：我展开讲讲数据收集，目前主要有三条技术路线：

一是收集动作库：它比较适合于生产流水线——每个工位上的动作不会有太大变化，但需要多次重复的任务；它的优点是只需要训练一次，后面机器人就不需要做大调整，但缺点是非常耗时。

比如PaLM-E，效果确实非常好，但为了训练它，谷歌用了13台机器人，收集了17个月数据，一共收集了5620亿个参数，而这还只是家用机器人，只需要一个底盘+一条机械臂+摄像头，如果是用在工业流水线上，采集的时间和数据量都是要翻倍的。

（图：谷歌的PaLM-E机器人）

第二条路线叫遥操作，也就是特斯拉正在做的：给人戴上VR和触觉传感器，把整套传感数据投射到机器人身上，直接告诉机器人如何像人一样运动。

比如腾讯做的四足机器狗，研究人员在一条金毛身上装了一套的动捕设备，再将收集到的数据抽象压缩到神经网络模型中；以前的机器狗动作极其僵硬，但用了金毛数据后的机器狗就变得非常灵活。

第三条路径叫模仿学习，就是人直接在机器人面前演示一遍，机器人就学会了。比如家政或者保洁工作，我打开洗衣机把东西放进去，只需要教一遍，不需要采集数据，也不需要动捕。

这个事情可能大家听起来比较科幻，但像CMU、MIT都已经发过不少论文，尽管还没有看到这个技术直接用在哪个场景上，但如果未来能实现，会是非常颠覆性的事情。

总之，目前每条技术路径上，都有很多公司或高校在尝试，最后很可能是几条路线混合在一起，发展出一套最适配的AI+机器人解决方案。所以这段时间，我们一直在密切关注各大科研机构的论文，还有特斯拉、DeepMind做了哪些新工作，有哪些是可以被国内公司借鉴学习的。

嘉宾N：讨论这个话题之前，我们首先要搞清楚，收集数据的目的是什么？比如让一只金毛跑来跑去，当然可以收集到数据，但这个数据只能让机械狗动作更自然，而不能让机械狗学会做某件事情。

如果要机器学习的话，那对数据质量的要求就高多了，这个时候又有一个大问题，就是数据采集的成本是很高的，但不同型号机器人之间的数据并不通用。举个例子，你好不容易训练好一个型号的机器人，但你的硬件总要升级迭代，假设到下一个型号里，机器人要换一种新的电机，那之前的数据等于就全废了，所以我们最近也在跟斯坦福合作，研究怎么让收集的数据和机器人型号是无关的，无关就可以让数据永远有效。

此外，遥操作的另一个问题是ROI太低了，工厂场景+固定工位还可以，但要实现通用基本不可能。所以，现在行业里大部分人还是采用虚拟训练的策略，因为虚拟环境下，物体可以随便生成，成本也非常低。

举个例子，比如叠衣服，先让机器在虚拟环境里叠各种形状的衣服，成功率可以到90%，然后放到真实环境里叠，成功率可能直接就降到5%了，但这已经足够了。

因为有了5%的成功率，AI就可以自己采集成功的轨迹数据，只要有5%作为起步，明天就能到10%，后天50%，再过几天100%，这样采集的ROI就特别好，不用人去干预，所以本质上，数据是用算力换的，而不是用人工换的。

五、大模型+机器人会有哪些应用场景？创业门槛有多高？

嘉宾P：我个人比较看好工业实践中应用，我们说自动化做了这么多年，到今天还是冰山一角，还有非常大的发展空间，原因是过去自动化的非标程度太高了。

举个例子，假设你是个自动化专业的学生，大学4年出来，可能连每种导轨、电机的型号都还认不全，不是你学的不好，是种类实在太多了。而这么多硬件组合在一起，会导致一个问题，就是让自动化过于依赖规模生产和工艺稳定。

比如说薯片，这个品类的自动化水平非常高，因为这么多年来，薯片除了口味，从外观到包材几乎没有变化；在过去，也只有这种大规模+长时间的连续生产，才能诞生出高自动化水平的设备。

但问题是，绝大部分行业的迭代周期远没有薯片长。

比如说汽车，以前汽车是机器人大规模应用的代表，这个行业的特点就是高投入+长周期，一款车光调试产线就要一年半，然后可以持续卖10年；但现在行业越来越卷，生产周期越来越快，一款车一共可能只能卖一年半，就要推新产品上市。

过去中国机器人行业十年涨了十几倍，但这期间汽车行业一直是下行的，此消彼长，传统主机厂那套高投入的玩法注定是无法持续的，这就需要更高柔性的自动化。

马斯克意识到了这点，所以他才认为人形机器人是终极解决方案——类似于把拧螺丝这种工作高度标准化、智能化，然后快速部署，这里用完了可以马上到别的地方用。

不过，开发人形机器人的难度也很大，并不是短时间内可以做出来的，但是这个过程中会产生很多技术，比如移动、抓取、视觉感知等等，结合大模型会有很多新技术的产出，由此也会诞生出新的产品，创造新的价值。

而当有一天，这些技术最终组合在一起，那时候人类可能就要担心一下了。

最后讲讲我对这件事的判断，首先大模型+机器人是非常重大的机会，如果你能做出很好的产品，后面的竞争者再进来会特别难受，产业形成闭环后门槛也会非常高。

但同时，这个行业对于人才、技术和资金的需求也非常恐怖，参与者要么是不差钱的科技巨头（比如谷歌微软），要么是头部的创业公司，当然还有传统工业巨头和高校研究所。

总之这个事情和以前的创业不太一样：互联网时代做个APP，可能几个人就够了，所以那时候我们能听到很多个人英雄主义的故事，但现在小公司可能电费都付不起。

从这个角度说，大模型+机器人是一个人类最高科技的集大成者，创业者要跑出来非常困难，当然，一旦成功，它能产生的价值也是非常巨大的，会把人类的自动化程度带到一个全新的高度。

六、大模型机器人距离落地还有哪些障碍？

险峰：刚才大家谈的都是大模型的积极影响，那么大模型会给机器人带来哪些额外问题？这件事距离最终落地还有哪些潜在的障碍？

嘉宾Q：首先大模型不可能部署在端侧，至少3-5年内绝无可能，所以现在大家都是端+云的模式，那对我们来说，第一个难点就是端+云的结构怎么搭？我觉得比较好的解决方案，是在端侧做一个动态的小模型，可以实现一些基础的现场交互，大模型的部分放在云端，当然这是个技术问题。

由此带来的第二个问题就是信号丢失，一旦没信号，机器人就只剩端侧智能了，我都接收不到信号我怎么控制它？只能保证最基础的让它不要撞到人；另外信号延迟也是问题，人机做交互延最怕延迟，所以我觉得，机器人通用大模型部署绝对不是一家公司的事，需要大家一起建设整个网络，这个模型我们自己肯定做不出来，但如果meta做出来我们马上会用。

嘉宾R：我觉得最大的障碍还是安全问题。把数据上传到云端大模型，相信每家企业都会有顾虑，这其中的知识产权和数据安全都要打问号，所以我们最近也在尝试，使用一些开源的小模型，叠加一些行业数据，打造一个垂直领域的专用模型。

这样的好处是，如果客户对数据安全要求特别高，我们可以直接把小模型部署在它指定的服务器上，只有如此，才能彻底消除客户对数据安全的顾虑。

另外就是算力的瓶颈，作为一家机器人公司，我们不可能投入那么多的显卡资源，我们最近也积极买卡，但要等好几个月才能交货。

嘉宾S：我觉得有三个问题，一是执行速度：比如谷歌的PaLM-E，可以从抽屉里拿东西，但那个视频是加了4倍速的，换言之，现实里机器人的动作只有视频速度的1/4，这个速度在大部分场景都还不能替代人。

第二是执行成功率：谷歌说他们用了大模型之后，把执行成功率从60%提升到75%，甚至80%，作为家庭机器人已经够用了，但要注意的是，这已经是当前大模型+机器人的最佳水平了，如果要用到更高精度的场景，比如半导体仪器的操作，或者给老人喂饭，要精确对准老人的嘴，后面还有很长的路要走。

第三是数据，谷歌PaLM-E主打家用场景，可以随便收集数据，特斯拉有自己的工厂，也是想收就收，但如果未来一家机器人公司，想要进入一家车厂收集数据，它可以收集到什么程度？工人会不会配合？这个事情现在是无解的。

以我的了解，目前这些数据很难被带出工厂，所以就看哪家机器人公司可以率先突破，比如和客户建立比较好的信任关系，但这又带来一个问题，就是A车厂的数据能不能拿给B车厂用？这些都是需要探索的。

嘉宾T：我也关注安全问题，但主要是指物理安全。开源的语言大模型，顶多是有偏见，它并不会伤害你，但如果大模型与机器人做结合，一些错误的理解可能会导致意外的连锁反应，比如你让机器人用烤箱做西餐，它却做了中餐，结果打开燃气意外失火等等。

现在很多人都在研究，如何在自然语言大模型中实现价值观的对齐，这是一个研究热点，但是在机器人领域还没有人研究，当然可能是技术还没发展到这个阶段，也可能是要出现风险后才会有人去研究。

七、机器人公司的壁垒会如何变化？

险峰：目前人形机器人距离我们还比较远，但从长远趋势看，机器人的智能化水平一直在稳步提升。

特别是大模型出现后，机器人的构建逻辑、交互逻辑全都变了，未来机器人公司的壁垒、评价标准会如何变化？各位怎么看？

嘉宾V：长远来看，一家大模型+机器人公司好不好，一个评估指标就是看它能不能突破新场景。

这么多年来，机器人要不是天上飞的，要不是地下跑的，已经被开发的差不多了，现在有了大模型，那一些以前机器人解决不了的场景，现在是不是可以被解决？另一方面，随着一些新行业崛起，比如光伏、锂电池这些产业链上，能否诞生机器人的新机会？这些是我们比较关注的。

此外，大模型可能带来一些机器人形态和硬件的改变，比如电子皮肤，也就是触觉传感器可能会是个方向；还有软体机器人，把机器人做成硅胶材质或者折纸结构的，可以自由伸缩，类似这样一些“人无我有”的技术，也会是很好的壁垒。

嘉宾W：过去大家讲SaaS，软件即服务，如果机器人能实现规模化应用，下一个就会迎来RaaS时代（机器人即服务）。机器人本身只是一个载体，核心是为客户提供服务，这里面就会有两个壁垒：

一是把机器人本体做得稳定、可靠，执行成功率要足够高，同时成本足够低；二是规模服务化的能力，比如有成千上万台机器人同时在跑，后面你每增加一台新机器，如何保证服务质量不下降？我觉得企业先要做到这两点，才能谈怎么与大模型做结合。

嘉宾X：机器人本质还是制造业，规模化生产和服务能力是必须的，除了这些基本功以外，大模型技术最颠覆的还是为发明创造提供一种新工具，比如现在很多高校老师都在借助GPT搞科研，简而言之，大模型是一种可以支撑发明的发明。

所以在机器人领域，大模型也可以帮助企业形成一些行业内的场景库、任务库、数据库和工艺库，这些会是企业构建垂直模型的核心壁垒，一旦你的产品体验比对手好3-5倍，客户就不会再给他们机会了。

嘉宾Y：现在人形机器人非常火，我本人也是马斯克的粉丝，但我坚决不认为人形机器人会成为主流。

为什么机器一定要做成人的样子？我自己就是产线工程师出身，从能耗角度讲，流水线是最好的方式，轮子的能量利用效率比用腿高10倍以上，你做了一个人形机器人，放弃了传送带，改用腿或者四足去搬东西，这是一种技术的倒退，非常可笑。

再比如你做个做饭机器人，它一定要长成人的样子，在灶台前拿个铲子炒菜吗？一家餐厅本来要招10个人，现在说不用了，咱们搞10个人形机器人吧，未来会是这样吗？一定不是，到时候餐厅一定是对整个后厨做全自动化改造，让人不用进入后厨，就可以完成出餐；这背后的核心，是你如何理解这个场景中的任务，以及怎样设计流程效率最高。

所以，最终绝大多数的机器人一定不是人形，对于某些工作，通用能力本身可能就是一种负担，因为客户付不起额外的成本——我只需要的一两种功能，你非要给我一个完整的人，那我为什么要为我用不到的功能买单？

嘉宾Z：人形确实是最难的机器人形态，双臂+双足+全身关节控制，要最后落地是个很长远的事情，但我觉得现在投资人看好人形的逻辑是：谁能做好人形，谁就有可能做好其他的机器人形态。

一家公司，只要团队足够优质，在它向着人形去努力的过程中，中间可能就有一些东西会跑出来，比如在中途突然发现一路岔路，沿着它最终做出一个好产品，这件事在互联网时代已经反复印证了。

另一个思路，也是马斯克的观点，就是世间有没有一种形态，是可以适应所有人类场景？完成所有人类工作的？

确实，现在很多很多标准化工序可以传送带解决，但要想实现通用性，可能最适应人类社会形态的还是人本身；所以，我还是比较笃信人形机器人的，未来能替代人的，最终还是一个长得像人的东西。