达闼机器人多模态大模型发布：机器人也能“察言观色”

编辑:我爱机器人发布于:机器人展会2023-07-073163

机器人赛道也开始出现大模型创新者。

7月7日上午，在上海世博展览馆的世界人工智能大会新品发布环节，机器人领域的独角兽头部企业达闼机器人，发布了业界首个机器人多模态大模型RobotGPT。该大模型包含RobotGPT 1.0服务平台产品和RobotGPT 1.0一体机产品。

达闼机器人进行舞蹈展示

发布会上，达闼首先介绍了海睿AGI平台的全新升级。海睿AGI平台是一个通用人工智能平台，为云端智能机器人提供了运营生态技术底座，可以接入各种主流的GPT和AIGC服务，进行多模态赋能。正是基于海睿AGI平台和海量机器人数据积累，该企业训练出了业界首个机器人多模态人工智能大模型RobotGPT。它是为实现机器人在复杂应用场景下的多模态行为而提供的交互生成型AI大模型。

与其它的文本、语音类大模型相比，RobotGPT具备多模态（文本、语音、图片、视觉、运动、点云等）融合感知、认知、决策和行为生成能力，并基于人工反馈的强化学习完成并快速智能进化。RobotGPT与机器人的具身智能相结合，实现机器人理解人类语言，自动分解、规划和执行任务，进行“察言观色”和实时交互，完成复杂的场景应用，推动具身智能的自主进化，让云端机器人成为通用人工智能的最佳载体。此外，RobotGPT还可以赋能数字人应用，实现虚实融合。

具身智能，是指拥有身体并支持物理交互的智能体，具备感知、思考、学习、决策等能力，能够与环境进行交互，标杆产品是人形机器人。“我们的目标是通过RobotGPT大模型，帮助企业更好地解决特定行业中的大模型推理、训练或混合推训及应用私有化部署等问题，从而提升企业的智能生产力。不仅如此，RobotGPT还将促进机器人AI大脑的进化，服务机器人逐步演变为具身智能机器人，人工智能的终极形态也有了具象化的载体。”达闼创始人、董事长兼CEO黄晓庆在发布会上表示。

RobotGPT 1.0的主要功能包括行业问答、多轮对话、多模态交互、人设场景、智能语音、AI变声、声纹识别、通用问答、文本摘要、情感分析、图片理解和图片生成等。经过实测，对于类ChatGPT生成式实时对话，RobotGPT 1.0表现相当出色，支持可控且精准的行业问答且具备高实时性，进行针对特定场景多轮对话。

澎湃新闻记者从大会获悉，依托达闼的业界首个国家新一代人工智能开放平台，RobotGPT大模型正在加速各领域发展和应用落地。目前，RobotGPT 及解决方案已落地能源电力、医疗健康、金融保险、交通枢纽、教育咨询、高端制造等十多个垂直行业，支持超过100个应用场景。