“人类获取外部信息中的70%以上来自眼睛。眼球不只是一个器官,更是大脑唯一一个伸到体表的部分。”

“我们不能通过点击鼠标来告诉仿生眼应该看什么位置,而是要让它自己决定看哪里。”仿生眼的研发不止于眼球本身,眼球背后的视觉信息处理系统更加重要

团队正在推进视觉与听觉、与四肢协同方面的探索,包括研发机器人的脑干芯片。“脑干芯片就是把机器人的多种传感器融合起来,就像人的脑干一样做视觉、听觉、触觉等多种信息的融合,同时集成处理器、微处理器、神经网络处理器,为机器人提供脑干以及部分大脑的功能。”

《瞭望》新闻周刊记者几天前看到了这样一双眼睛,与之对视,内心震撼,久久难忘。它是一双酷似人眼的机械眼,每只眼睛都是一个摄像头。在中国科学院上海微系统与信息技术研究所仿生视觉系统实验室,记者一眼望去,看见一个逼真的机械脑袋,走近发现嵌在其中的双眼才是宝贝。

当你目不转睛地盯着它,它也一动不动与你对视;转过身不再看它时,它的视线会跟随你移动;如果几个人一起出现,它一会儿看看你,一会儿看看他……记者惊喜于机器人的双眼能做到这么灵动了!但对着它拍摄一会后竟有点害怕,它太像人了,搭配上机械脑袋的面无表情,好像在高深莫测地思考着什么。这种奇妙感受仅用文字不足以描述,强烈建议看看本文配发的视频。

“人类获取外部信息中的70%以上来自眼睛。眼球不只是一个器官,更是大脑唯一一个伸到体表的部分。”实验室主任李嘉茂告诉记者,团队研发的仿生眼不只有一对眼球,还包含与视觉相关的类脑部分,“我们的研究有两个主要方面,一是模拟人眼的运动方式,二是模拟大脑的视觉信息处理系统。”

李嘉茂介绍,从20多年前用两台笨重的电脑控制仿生眼运动,到现在一个指甲盖大小的芯片就能实现大部分功能,团队的仿生眼相关技术已在地铁弓网检测、芯片制造自动化等领域应用,在仿生人眼视觉领域实现了国际一流。“更令人期待的是促进人形机器人迭代,仿生眼未来很可能成为人形机器人的一个标准模块。”


整体功能接近人眼

部分性能超越人眼

细心观察会发现,受限于技术,现在走入生活的机器人大多还没有双眼。比如送餐机器人、搬运机器人、扫地机器人,它们要么是根据设置好的路线运动,要么利用传感器感知距离、采集一些图像信息。偶尔有些机器人有了双眼,也是不能动的固定双目,或者是没有实际功能的装饰道具。

科学家模仿人眼制造机械眼,是因为人眼拥有超越其他所有动物眼睛的综合性能。“人的左右两只眼睛配合能形成立体视觉,更重要的是人眼通过运动能看得远、看得广、看得清、跟得上。”李嘉茂说,像人眼一样运动,是团队研发仿生眼的特点,主要模拟了人的双眼协调运动、前庭动眼反射、滑动型和跳跃型眼球运动。

双眼协调运动很好理解,就是人一只眼睛看一个物体时,另一只眼睛也只能对着这个物体看。李嘉茂介绍,两只眼睛协调运动才能聚焦相同目标,测算出目标距离,配合形成立体视觉,这是仿生眼运动的基础。否则两只眼睛各动各的,不仅无法测算距离,还会造成输入信息混乱。

记者在实验室看到,与手机录下二维平面的视频不同,仿生眼采集的是三维立体画面。研究人员用颜色图来展示其立体视觉效果,蓝色代表距离更远、红色代表距离更近。随着记者走近仿生眼,能看到颜色图块越来越红,效果类似激光雷达测距。

前庭动眼反射相当于视觉防抖,是指人头部运动时,眼球会自动向相反方向移动,所以人在奔跑跳跃时视线依旧稳定。“仿生眼是用陀螺仪和加速度传感器来监测头部的运动,有很强的防震效果。”李嘉茂展示了一段仿生眼与普通相机的对比视频,前者在震动情况下视线更加稳定,目标物体始终保持在画面中。

相应地,仿生眼具备精准导航定位的能力。携带仿生眼和普通定位装置记录下的行动轨迹显示,前者明显准确很多,在立体空间中的震动更小。

此外,人眼还有一个原始但强大的功能——跳跃型眼球运动,即人的双眼能快速切换视野,想看哪里就看哪里,甚至一秒钟可以转动超过800度。李嘉茂介绍,为了实现这一功能,仿生眼配备了非常强的电机驱动力量。

目前,团队研发的仿生眼在30帧/秒以上的采集条件下,可以保持70纳秒内的同步精度,在500毫秒内完成眼球注视点切换,视标追踪速度达到30度/秒以上,在5Hz、±7°震动条件下双眼视线误差保持在0.05度以内。实现了整体功能接近人眼,部分性能超越人眼。

李嘉茂团队研发的最新一代仿生眼(2023 年 5 月10 日摄)许东远摄 / 本刊


模拟人脑处理视觉信息

“我们不能通过点击鼠标来告诉仿生眼应该看什么位置,而是要让它自己决定看哪里。”李嘉茂说,仿生眼的研发不止于眼球本身,眼球背后的视觉信息处理系统更加重要。

李嘉茂介绍,眼睛看到的图像先转化为神经信号传导到初级视皮层,进行颜色、形状等低维度识别;然后逐渐深入到韦尼克区(是大脑视觉性语言中枢)变成语义,这时人能把图像理解成文字意思;接着又进入到布诺卡区(又叫运动语言区),将文字意思处理成人想说的话或想做的事。再往后是运动皮层控制舌头或手脚的动作把意思表达出来。另外,还有一路信息从初级视皮层到颞叶、海马体,它们的作用是对图像的精细识别、记忆和确定自己的位置。

仿生眼技术的核心是还原这个视觉信息处理系统,团队根据该大框架建立了眼球运动控制神经系统的数学模型。另外,还有一些小框架,比如模拟脑干上各个神经的连接,研发出眼球运动控制系统的数学模型等。

仿生眼这一步还只是前端智能,相当于一台小型计算机。将它接入后端知识及算力平台,可以进阶到更高程度的机器智能。李嘉茂举例介绍说:“我们给它看各种物品,让它学习积累成知识库,然后再下达指令。比如我说‘杯子’,它能找出所去过的地方与杯子相关的所有信息。比如我说‘想喝一杯水’,它就会去找杯子和水的信息拼在一起,这在云脑上已经能实现了。”

李嘉茂介绍了仿生眼相关技术现阶段的两个成熟应用。一是集成电路制造厂的晶圆搬运机器人,利用仿生眼技术做室内高精度定位和避障,机器人可以精准停止在作业位置,然后高效抓取晶圆盒运往目的地,更利于满足无尘化生产要求,已在国内头部的集成电路制造企业生产线应用。

二是轨道交通行业的弓网检测。基于仿生视觉的弓网实时监测系统已参与复兴号动车组以及上海地铁1号线和8号线、北京地铁6号线等轨交线路弓网检测项目,并安装在上海地铁18号线和西安地铁5号线的列车上。

记者了解到,通过架空接触网供电的列车上方装有受电弓,弓网状态关系到轨交安全运行。为保障安全,列车顶部、受电弓下方安装了双目系统,“在类脑处理器的协调下,该系统的紫外传感器、红外相机等部件共同监测受电弓和接触网的各项数据,发现异常情况就会预警。与市场上现有的激光雷达监测系统相比,该系统具有体积小、重量轻、耗电低、安装快等优点。”李嘉茂说。


迭代20余年,

或成人形机器人标准模块

李嘉茂团队关于仿生眼的研究始于20世纪90年代。他的导师张晓林(实验室创始主任)在1999年做出第一代仿生眼,主要实现了双眼协调控制,从当时拍摄的照片中可以看到,双眼中间有一根明显的转动轴。

当时电脑还很笨重,算力也比较小,一双仿生眼要靠两台电脑控制。一台电脑做视觉采集和计算,另外一台电脑用来实现电机控制,两台电脑堆起来的高度接近2米。

随着机械、视觉传感器、芯片等技术进步,仿生眼的外形越来越逼真,“视力”越来越清晰,功能也越来越多。第二代具备扫视、跟踪、稳向等多种眼球运动能力;第三代实现立体视觉,有一定的计算能力了,但还是在大脑初级视觉的范畴;第四代实现语义理解,可以认知场景,能够进行视觉导航了;第五代更多是结构上的变化,大小实现了跟人眼一样的2厘米直径,在形态上更加仿真拟人。

李嘉茂介绍,团队正在推进视觉与听觉、与四肢协同方面的探索,包括研发机器人的脑干芯片。“机器人有很多传感器,传感器之间的同步对于机器人高精度控制来说非常重要。脑干芯片就是把机器人的多种传感器融合起来,就像人的脑干一样做视觉、听觉、触觉等多种信息的融合,同时集成处理器、微处理器、神经网络处理器,为机器人提供脑干以及部分大脑的功能。”他说。

展望仿生眼接下来的发展,李嘉茂认为,它很可能成为人形机器人的标准模块。“现在,人形机器人的四肢和躯干基本做到跟人的形态一致了,但还缺少一双‘眼睛’。随着视觉传感性能的进一步优化,仿生眼能让机器人跟人接触时产生互动,在情感表达上效果更好。”

记者在交流中发现,仿生眼的学科交叉属性非常强,高度依赖基础技术,机械、生物、计算机都包含其中。机缘巧合的是,目前仍是实验室首席科学家的张晓林在攻读博士学位期间学习的是机械控制,毕业后进入医科大学开始研究与神经相关的眼球运动控制。李嘉茂学计算机出身,因为对机器人感兴趣,在2005年读研究生时选择了机器人方向,当时机器人和人工智能还比较冷门。交叉学科的学习经历让他们成为仿生人眼视觉领域研究的先行者,见证了仿生眼的迭代进步。

采访的最后,李嘉茂告诉记者,他非常期待人形机器人研究的新突破,具体到仿生眼,他关注四方面技术能力的提升:

一是更强大的后端知识与算力平台,仿生眼属于前端智能,与后端知识与算力平台结合将互相赋能,形成信息采集与智能运算的强强联合;

二是芯片算力的提升,智能算法需要消耗很大的算力,仿生眼算法的提高跟算力的提升不可分割;

三是视觉传感器分辨率的提升,视觉传感器的分辨率近年来飞速提升,但依旧不如人眼;

四是人工肌肉,仿生眼现在是利用电机驱动,如果人工肌肉等更柔性的材料取得突破,将助力仿生眼的控制更高精度、体积更小型化。 (第一季完)