2023年3月有一个热点事件,有个人开车到墓地,车内屏幕显示周围有十几个行人,甚至还有一个骑自行车的,而当时的墓地道路上空无一人。居然在墓地看到了鬼影,这个消息一下子就火爆全网,说啥的都有。

汽车厂家作出了回应,称采用的是激光雷达和视觉摄像头融合感知,受限于当前市场传感器识别能力的局限性,出现了识别偏差,后续会升级改进。

那问题就来了,不同厂家使用的传感器性能相当,是否在同样情况下是也会出现鬼影呢?还是说不会?鬼影背后的技术原因是什么?如何才能解决?这些问题都值得深究。

现在用于辅助驾驶的车载传感器主要有三种,分别是视觉摄像头、毫米波雷达和激光雷达。视觉摄像头类似于人的眼睛,善于识别物体的形状和颜色,但不具备测距能力,夜晚的识别能力会大幅下降。毫米波雷达对目标的位置和速度非常敏感,而且抗干扰能力很强,对烟雾和尘埃穿透能力很好,但它对目标的形状和性质却无能为力。激光雷达的测距能力强,多线激光雷达还可以描绘目标的轮廓。但它不能区分颜色,而且受烟雾和尘埃的影响很大。

图片来自图虫网

三种传感器的原理和能力非常不同,分别适用于不同的场景,各有优长和短板。将三种传感器采集到的信息进行整合,取长补短,发挥1+1+1>3的优势,这叫做“多传感器信息融合”,是门非常高深的信息技术。

白天多依赖视觉传感器,雾霾天多依赖毫米波雷达,晚上多依赖激光雷达,这种定性说法很好理解,但如何对环境进行定量分析,三种信息的置信度和权值该如何确定,这是很复杂的系统工程。好比是你戴一块手表,看时间没有问题,让你戴三块手表,就不会看时间了。可有人精通三块手表的误差特性,通过补差校准后,能得出比戴任何一块表都更精准的时间。

但是,如果补差校准(即多传感器信息融合)的方法不对,把三块表的时间进行一番加减乘除,就可能得出一个远离正确时间的数据,这就悲剧了。

笔者曾从事多年的雷达相关工作,对“多传感器信息融合”的感触很深。用三部雷达观测同一批空情目标,会得到三个不同的航迹,这就需要用很复杂的技术方法进行航迹融合。融合好了,航迹精度会比单部雷达高,融合不好,航迹精度反而比单部雷达低。所以说,并不是传感器越多精度就越高,“多传感器信息融合”的能力才是关键,如果能力不够,效果反而更糟。

某国外著名新能源车采用的是“纯视觉方案”,其实就是只戴一块表,避开了“多传感器信息融合”的难题,成本低这头先占上了,而且现阶段的识别能力更稳定。从长远看,汽车的多传感器信息融合是必然趋势,但现阶段的能力还有待观察。

回到墓地鬼影事件,厂家的解释是“采用的是激光雷达和视觉摄像头融合感知,受限于当前市场传感器识别能力的局限性,出现了识别偏差”。当前市场传感器的性能是一致的,激光雷达和视觉摄像头融合感知也是各厂家的普遍做法,如果其他厂家在相同场景不出现鬼影的话,那问题就出在了“多传感器信息融合”方面,而不是传感器性能本身。

通过传感器识别车外目标,并通过车载电脑显示出来,这需要对车外目标进行模式识别,“模式识别”是人工智能的重要内容,也是近年来很热门的研究方向。

车外环境目标大体有六种,分别为卡车、大客车、小客车、摩托车、自行车和行人。如果传感器的探测规则是:高度1~2.5米,宽度<1米,速度<2米/秒,就判定为行人,而不是卡车等其他五种目标。这是一个很合理的模式识别方法,但样本只有6个,空间实在是太小了。如果按照上述的规则,路边的垃圾桶、邮筒都会被显示成行人。好比是一个人只见过苹果和香蕉,你给他橘子、鸭梨、石榴,他都会判定为苹果。

很明显,墓地墓碑等景物,并没有被该厂家纳入到样本空间。除了样本空间要大,还要增加一个“负逻辑”。以行人为例,不仅要有符合哪些标准就可以判定为行人的正逻辑,还要有符合哪些标准就可以判定不是行人的负逻辑。例如,路边有个塑料的衣服模特,高度、宽度、速度都符合行人标准,但它没有头,就可以判定它不是行人。没头的就不是行人,这就是一条很重要的负逻辑。

那该如何改进呢?有简单和复杂两种方法?简单方法就是提高判决阈值,即在原有基础上,缩小判定为行人的数值范围,墓碑等就不会被显示成行人了,但有些正常行人就会显示不出来了。这就是通过提高“漏报率”的方法来降低“误报率”,本质就是拆东墙补西墙,这种简单方法不是正路。

复杂方法,就是不断提高“多目标信息融合”和“模式识别”的能力,不断增加样本空间,不断充实正负逻辑,从而在根本上提升目标识别的能力。这是一条艰辛的道路,但它是能获得真正技术进步的正路。

本文为科普中国·星空计划扶持作品

作者:奥卡姆剃刀

审核:刘红梅(中国传媒大学电视学院副研究员)

出品:中国科协科普部

监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

来源: 星空计划

内容资源由项目单位提供