事件传感器为设备制造商带来恰到好处的数据
从解剖学角度看,人类的眼睛就像大脑伸出的精密 “触手”,视网膜作为 “触手尖端”,触碰着我们所见的一切。进化在这一复杂的神经结构上创造了奇迹。
如今,对比人类眼睛的构造与当今最广泛使用的机器视觉系统设计:电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)成像芯片,二者均由像素网格组成。人类眼睛的能效比这些平面芯片式计算机视觉设备高出数个数量级,原因如下:对于观察到的场景,芯片的像素网格会在接收环境光线的过程中定期、完整地更新;而人类眼睛则更为 “节俭”,在任何时刻都只将注意力集中在视觉场景的一小部分 —— 即发生变化的部分,例如飘动的树叶或溅入水中的高尔夫球。
我所在的公司 Prophesee 及行业竞争对手将场景中的这些变化称为 “事件”,而这种受生物启发、专为捕捉此类事件设计的机器视觉系统则被称为神经形态事件传感器。与 CCD 和 CMOS 成像芯片相比,事件传感器响应速度更快、动态范围更高(意味着可同时检测场景中的黑暗和明亮区域)、捕捉快速运动时无模糊,且仅在感知到事件的时间和位置生成新数据 —— 这使得传感器在能耗和数据传输效率上具备显著优势。我们及其他行业参与者正利用这些受生物启发的 “超级传感器”,大幅升级各类设备和机器,包括高动态范围相机、增强现实可穿戴设备、无人机和医疗机器人。
如今,无论你看向何处,机器都开始 “回望” 我们 —— 而得益于事件传感器,它们的 “视野” 正越来越接近人类的感知方式。
事件传感器与CMOS成像芯片的比较
受人类眼睛启发的数字传感器可追溯至数十年前。20 世纪 80 年代,加州理工学院首次尝试研发此类传感器:先驱电气工程师 Carver A. Mead、Misha Mahowald 及其同事利用模拟电路模拟人类视网膜中兴奋性细胞的功能,打造出 “硅视网膜”。20 世纪 90 年代,Mead 联合创办 Foveon 公司,开发受神经启发的 CMOS 图像传感器,该传感器具备更高的色彩准确度、低光环境下更少的噪声和更锐利的图像。2008 年,相机制造商 Sigma 收购 Foveon,并继续将该技术应用于摄影领域。
20 世纪 90 年代至 21 世纪初,多家研究机构持续推进生物启发式成像技术。2006 年,苏黎世大学神经信息研究所的团队打造出首款实用的时间对比度事件传感器,可捕捉光强度随时间的变化。2010 年,塞维利亚微电子研究所的研究人员设计出可调优的传感器,能够检测空间或时间上的变化;同年,我在维也纳奥地利技术研究所的团队将时间对比度检测与像素级光电流积分相结合,既能检测光强度的相对变化,又能获取每个像素的绝对光强度。近年来,2022 年,巴黎视觉研究所的团队及其衍生公司 Pixium Vision 将神经形态传感器技术应用于生物医学领域 —— 开发视网膜植入物,帮助盲人恢复部分视力(Pixium 此后被总部位于加州阿拉米达的脑机接口制造商 Science Corp. 收购)。
其他在现实视觉任务中率先开发事件传感器的初创公司包括苏黎世的iniVation(后与中国SynSense合并)、新加坡的CelePixel(现为OmniVision的一部分)以及我所在的公司Prophesee(前身为Chronocam,位于巴黎)。
在主流 CMOS 图像传感器公司中,Samsung 率先推出自主研发的事件传感器设计。如今,Sony、OmniVision 等其他主要厂商也在探索和部署事件传感器。各公司瞄准的应用场景广泛,包括汽车机器视觉、无人机检测、血细胞追踪以及制造业使用的机器人系统等。
事件传感器的工作原理
要理解事件传感器的威力,可以考虑一台传统摄像机记录网球以每小时150公里的速度穿越球场。根据不同相机,它能捕捉24到60帧每秒,这可能导致由于球在帧间的大幅位移导致快速运动的欠采样,并可能因曝光时间内球的运动而出现运动模糊。同时,摄像机实际上过度采样了静态背景,比如网子和球场上其他不动的部分。
如果你让机器视觉系统分析场景中的动态,它必须依赖这串静态图像——摄像机的帧——这些图像既包含重要信息不足,也包含过多无关紧要信息。这是一种根本不匹配的方法,导致机器视觉系统构建者投资于复杂且耗电的处理基础设施,以弥补数据不足。这些机器视觉系统成本过高,无法用于需要实时理解场景的应用,如自动驾驶车辆,且在电池供电的智能眼镜、无人机和机器人等应用中消耗过多的能源、带宽和计算资源。
理想情况下,图像传感器应对包含快速运动和变化的场景部分使用高采样率,对缓慢变化部分使用较慢采样率,如果没有变化,采样率将归零。这正是事件传感器的作用。每个像素独立行动,通过对入射光量的变化反应来决定自身采样的时间。整个采样过程不再像传统摄像机那样受固定时钟控制,而是由场景中的细微变化调整的。

三组示意图。第一组显示黑色背景上的多个红点,代表球的运动轨迹;第二组将第一组图像按时间序列展开,展示传统摄像机需要多帧才能捕捉到完整运动;第三组示意图显示事件传感器记录的球在 X-Y - 时间三维空间中的运动路径。对于仅需追踪红球而无需关注场景其他部分的应用而言,无需记录或传输每帧中的所有数据。
让我们深入探讨一下游戏机制。当给定像素的光强超过预设阈值时,系统会以微秒级精度记录时间。该时间戳与像素在传感器阵列中的坐标形成一条描述“事件”的消息,传感器以数字数据包形式传输。每个像素都可以做到这一点,无需外部干预,比如时钟信号,且独立于其他像素。这种架构不仅对于准确捕捉快速动作至关重要,对于提升图像的动态范围也至关重要。由于每个像素是独立的,场景中最低的光线和最亮的光线会同时被记录;没有过曝或欠曝的问题。

像素结构示意图,包含光电二极管和相对变化检测器,右侧插图展示变化检测器如何根据像素光照的对数变化定义事件。事件传感器中的每个像素均独立工作,仅当照射到它的光变化超过预设值时才发送信息。
配备事件传感器的摄像机输出的并非图像序列,而是基于场景变化生成并传输的连续单个像素数据流。在许多场景中,大多数像素并不经常变化,因此与传统 CMOS 成像相比,事件传感器有望节省能耗 —— 尤其是考虑到数据传输和处理的能耗时。对于许多任务,我们的传感器功耗仅为传统传感器的十分之一;某些任务(如智能眼镜的眼动追踪)的传感和处理能耗甚至更低。以网球场景为例,由于变化仅占整个视野的一小部分,与传统传感器相比,事件传感器需要传输和处理的数据量极小,优势极为显著:可能高达五到六个数量级。
事件传感器的实际应用
想象未来事件传感器的出现,可以考虑任何需要快速、节能且数据高效、能效高光环境的相机的应用。例如,它们非常适合边缘设备:通常体积小、电力受限、佩戴贴身(如智能环),或远离高带宽、强力网络连接(如畜牧监测器)的联网设备。
事件传感器的低功耗和检测细微运动的能力也使其非常适合人机界面——例如用于智能手表、增强现实眼镜、游戏手柄和快餐店数字自助终端的眼球和凝视追踪、唇读和手势控制系统。
在家庭领域,工程师正在测试老年人健康监测器中的墙挂事件传感器,以检测人员跌倒。在这里,事件传感器还有另一个优势——它们不需要捕捉完整图像,只需捕捉坠落事件。这意味着显示器只发送警报,使用摄像头不会引发通常的隐私问题。
事件传感器还可以补充传统的数码摄影。这类应用仍处于开发阶段,但研究人员已证明,当事件传感器与手机摄像头配合使用时,关于场景内运动的额外信息以及事件传感器提供的高低光照,可以用来去除原始图像中的模糊,增加清晰度, 或者提升动态范围。
事件传感器也可以用于消除反方向的运动:目前,摄像机依赖机电稳定技术来保持摄像机的稳定。事件传感器数据可以算法地实时生成稳定图像,即使相机在晃动。而且由于事件传感器以微秒级的间隔记录数据,速度快于最快的CCD或CMOS图像传感器,因此也可以填补传统视频捕捉帧之间的空白。这可以有效地将帧率从每秒数十帧提升到数万帧,从而在录制结束后实现超慢动作点播视频。该技术的两个明显应用是帮助体育赛事裁判在比赛结束后立即解决问题,以及帮助当局重建交通事故的细节。
与此同时,众多早期发明者正在开发事件传感器在太空态势感知中的应用,包括卫星和太空碎片追踪。他们还在研究事件传感器在生物应用中的应用,包括微流控分析与流动可视化、流式细胞测量以及细胞治疗中的污染检测。
但目前,事件传感器的工业应用最为成熟。公司已将其应用于饮料盒生产线的质量控制、激光焊接机器人和物联网设备。开发者也在研究利用事件传感器计数高速输送带上的物体,为工业机器人提供视觉反馈控制,并对设备进行无接触振动测量,用于预测性维护。
事件传感器的数据挑战
技术能力仍有提升空间。最大的挑战之一是传感器产生的数据事件类型。机器视觉系统使用设计用于解释静态场景的算法。事件数据具有时间性质,能够有效捕捉机械臂的摆动或齿轮的旋转,但这些独特的数据特征并不容易被现有的机器视觉系统解析。

光强度随时间变化的曲线图,触发事件传感器发送信号。工程师可校准事件传感器,仅当光子数量变化超过预设值时才发送信号。这样一来,传感器传输的数据更少,但相关性更高。在该图表中,仅当强度变化(黑色曲线)超过特定值(水平虚线)时,才会触发事件信息(蓝色或红色,取决于变化方向)。注意:Y 轴为对数坐标,因此检测到的变化为相对变化。
这正是 Prophesee 的切入点。我们公司提供的产品和服务,帮助其他公司更轻松地将事件传感器技术集成到其应用中。为此,我们通过三种方式简化时间数据与现有系统的融合:设计具有行业标准接口和数据协议的新一代事件传感器;格式化数据,使其能被机器视觉算法或神经网络高效利用;提供持续运行的低功耗模式。基于此,去年我们与芯片制造商 AMD 合作,使我们的 Metavision HD 事件传感器能够与 AMD 的 Kria KV260 视觉 AI 开发套件配合使用 —— 该套件包含硬件和软件,方便开发人员测试其事件传感器应用。Prophesee 与 AMD 的开发平台解决了部分数据挑战,使开发人员能更自由地探索这种新型相机的应用潜力。
我们及其他行业参与者发现,管理事件传感器数据的一种有效方法是借鉴当今机器学习架构中受生物启发的神经网络。例如,脉冲神经网络(SNN)比传统神经网络更接近生物神经元 —— 具体而言,SNN 仅在检测到离散的 “脉冲” 活动时传输信息,而传统神经网络处理连续值。因此,SNN 提供了一种基于事件的计算方法,与事件传感器捕捉场景动态的方式高度匹配。
另一种备受关注的神经网络是图神经网络(GNN)。这类神经网络接受图作为输入数据,适用于任何以节点及其连接构成的网状结构表示的数据 —— 例如,社交网络、推荐系统、分子结构以及生物和数字病毒的行为。巧合的是,事件传感器生成的数据也可表示为三维图(包含两个空间维度和一个时间维度)。GNN 可通过提取特征(如二维图像、不同类型的物体、物体的方向和速度估计,甚至身体手势),有效压缩事件传感器生成的图数据。我们认为,GNN 在功耗、连接性和处理能力有限的基于事件的边缘计算应用中尤为有用。目前,我们正致力于将 GNN 几乎直接集成到事件传感器中,并最终将事件传感器和 GNN 处理模块整合到同一毫米级芯片中。
未来,我们期望看到机器视觉系统遵循自然界的成功策略:在恰当的时间捕捉恰当的数据,并以最高效的方式处理。最终,这种方法将让我们的机器以全新的方式感知更广阔的世界,这对人类和机器而言都是双赢。


评论