人形机器人如何走进现实，大模型提升智能化水平！

编辑:我爱机器人发布于:机器人资讯2023-09-074771

(图片来源：世界机器人大会组委会)

近日，全国机器人标准化技术委员会宣布成立人形机器人标准化工作组，并授予科大讯飞、小米集团、之江实验室等为人形机器人标准化工作组副组长单位，以期共同推动国家人形机器人标准化工作建设，助力机器人产业高质量发展。

业界认为，具身智能或将是AI的终极形态，人形机器人是实现具身智能的最佳形态之一。由于结构设计接近人体，人形机器人的活动场景可覆盖人类活动的方方面面，在医疗、教育、家庭服务和工业生产等领域展现广阔的应用前景。

落地应用场景广阔

在近日举行的世界机器人大会人形机器人技术与产业发展论坛上，2000年图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长姚期智表示，未来的通用人工智能(AGI)需要有具身的实体，同真实的物理世界交互完成各种任务，这样才能给产业带来真正更大的价值。

工业和信息化部副部长徐晓兰表示，我国机器人产业的发展势头强劲，产业规模已居全球首位，基础核心技术持续取得突破，人工智能进入了全球第一梯队。

徐晓兰表示，通用人工智能技术取得突破性的进展，为人形机器人的创新发展提供了重要的驱动，人类正在迎来人形机器人与通用人工智能融合发展的热潮。工业和信息化部将推动出台人形机器人创新发展指导意见，以通用人工智能的技术突破为引擎，打造人形机器人的大脑和小脑，用好工业机器人零部件产业发展的基础，系统攻关本体关键技术群，支持建设国家人形机器人制造业创新中心、部委重点实验室等创新载体，提升关键共性技术的供给能力。

“仿人机器人是技术、制造、服务3个核心能力的交汇点，也是软硬件与AI技术融合的制高点，是智能制造皇冠上的明珠。”小米集团高级副总裁曾学忠表示，从2020年起小米开始仿生机器人的探索，3年来搭建了拥有数百名研发人员的机器人研发体系，覆盖从零部件到硬件系统、软件系统、运控、感知等各个维度。

去年8月，小米发布全尺寸仿生人形机器人“铁大”1代，身高达到1.76米，体重51公斤，有21个关节的自由度，运动速度达到了4公里每小时，最大的关节驱动力达到300扭力。

在小米的规划蓝图中，仿人机器人岗位定位就是多能工，“首先是一名能独立完成特定工种的作业工;其次，必须有能力操作各种机器人设备;此外，还要具备多设备协同操作、维护及应急处理的能力。”曾学忠表示，仿人机器人需体现3个特征：有类人的人体，能够实现空间的运动可达，既包括上肢操作需要的触达空间，也包括移动所需要的运动空间，同时还能实现匹配环境的姿态避免碰撞;有类人的感知，能够快速适应各种变化的环境，调动器官做出多维度的环境信息抽取;有类人的人脑，通过小脑做出动作，通过大脑进行决策，在复杂环境中操作多种机器设备。

“智能制造将成为人形机器人首个大规模应用的领域。”优必选科技创始人、董事长兼CEO周剑表示，围绕工业制造、商用服务和家庭陪伴三大场景，人形机器人将重新定义AI时代的工人，把人从重复性的劳动中解脱出来;商用服务场景是人形机器人最快应用的市场，而家庭落地场景则是人形机器人最具潜力的应用市场。

在周剑看来，工业自动化时代的人工仍不可或缺，未来人形机器人可以和传统自动化设备协作作业，以解决复杂场景的柔性无人化，自主完成扭矩拧紧、柔性装配、物料搬运等任务。以制造行业的狭窄场景为例，他表示，人形机器人是最符合市场需求的，目前人形机器人Walker X已在智慧工厂场景中进行了训练及测试，可用于SPS智能分拣以及老化测试。

“未来70%的工作应当由自动化设备来完成，20%应当由仿真机器人来完成，剩下的10%还是需要人来完成。”曾学忠认为。

大模型提升智能化水平

AI大模型提升了机器人的智能化水平，近期微软、谷歌、阿里巴巴都发布了应用于机器人的AI大模型。对此，周剑预测，接入AI大模型后，利用机器人自带的视觉、语音、3D深度、压力等异构多源传感器获得的多模态数据进行融合感知，可以明显提升人形机器人在实际应用场景下的自主决策能力，从而扩展应用场景和应用范围，加速落地应用。

“如果我们将大型语言模型和机器人技术结合，人形机器人将会与人类非常相像。”日本大阪大学教授Hiroshi Ishiguro说：“通过融合大型语言模型与面部表情和手势等机器人的技术，可以研究许多模态的集成和多模态的表达，进而将意图或者欲望赋予机器人或类人机器人。”

在达闼机器人有限公司创始人兼首席执行官黄晓庆看来，大语言模型突破了图灵测试给人类带来通用人工智能的希望，但是目前由于没有足够多的行为数据，并没有办法很好地控制机器人，接下来要把更多的行为数据融进去，对它进行第二次训练，使其具有行为能力和空间感知能力，这样的大模型也就是robot GPT。

宇树科技创始人兼首席执行官王兴兴也表示，虽然目前通用大模型已经把一些文本处理或者基本文字的逻辑处理好了，但是对环境认知和感知能力基本是零，这部分内容需要新的模型来训练。“对于像ChatGPT这样的文本大模型，数据集可以直接从互联网上拉取，而且有大量的现成的数据可以用，机器人的数据集很多都是动态的，不能用一些静态数据做训练，必须用一些仿真环境或者其他手段产生动态模拟，让机器人与物理环境接触、交互。”

短期内不会看到巨变

“目前，小米正在积极推进仿人机器人在自有制造系统的分阶段落地，发展路径总体可以概括为，从单点到多点，最终发展成为生态。”曾学忠表示，短期内小米的仿人机器人在小米智能制造的真实环境里，以完成一两个工种的工作作为目标进行原型机的开发，并在这个过程中迭代需要的硬件系统、传感器系统、感知控制系统。

“我们认为未来的仿人机器人将是一个1+N+X庞大的产业生态，即一个平台型的整机产品，N个产业链伙伴，X个应用场景，一个由智能机器、仿人机器人和人类专家共同组成的人机一体化时代，一定会加速到来。”曾学忠说。

“我们要一步一步地向前推进，才能取得进步。”德国慕尼黑工业大学教授Alois C. Knoll坦言，我们必须要谨慎，不能把标准设得太高或者胃口吊得太高，不能营造一种类似于投机的氛围，这样很容易变成一个泡沫。也许它的进展的确会比通用性AI要慢一些，我们可能不会快速见到巨变。

清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇表示，行业希望机器人同时兼顾力量、速度、精度以及成本，但是目前所有技术都无法同时兼顾这几项。当前人形机器人还处于一个刚刚开始的阶段。

周剑表示，人类对人形机器人的需求是真实而广泛的，无论要花费十年还是三十年时间，靠积累和努力终究能够实现。