马斯克LiDAR无用论可能并非打嘴炮，研究表明立体视觉或能取代LiDAR
2019-04-30 22:07:07 来源：麦姆斯咨询评论：0 点击：

据麦姆斯咨询报道，康奈尔大学（Cornell University）近期的一项研究证明，廉价的立体视觉摄像头，或能提供与激光雷达系统几乎相同的精度，激光雷达是目前自动驾驶技术开发中最常见的方案，也是最昂贵的技术方案。

马斯克LiDAR无用论可能并非打嘴炮，研究表明立体视觉或能取代LiDAR

在特斯拉（Tesla）近期举办的“Autonomy Day”上，特斯拉首席执行官（CEO）埃隆·马斯克（Elon Musk）直言不讳地“批评”了激光雷达（LiDAR）技术的局限性，“它太昂贵了，完全没有必要，傻瓜才会用激光雷达”。马斯克偶尔打嘴炮，我们已经习惯了，但这次，他或许并非毫无根据。

在这项题为“源自视觉深度估计的伪激光雷达（Pseudo-LiDAR），缩小自动驾驶3D物体探测差距”的新研究成果中，研究人员介绍了一种解读图像视觉系统数据的新技术。当输入通常用于处理激光雷达数据的算法时，这种新型数据解读技术大大提高了基于图像的物体探测精度。

正如近期俄罗斯卡车制造商KAMAZ的自动驾驶卡车计划，以及图森未来（TuSimple）在其自动驾驶卡车系统中匹配激光雷达、毫米波雷达和摄像头系统，产业已经基本认可自动驾驶车辆需要部署多种传感器系统。康奈尔大学的这项研究表明，立体摄像头系统至少可以为基于激光雷达的探测方案提供低成本的备份系统。

研究人员认为，激光雷达和立体相机深度估算系统产生的点云质量并没有什么不同。然而，通过由德国卡尔斯鲁厄理工学院和芝加哥丰田技术研究所开发的KITTI Vision Benchmark Suite测量，使用仅图像数据的算法只能实现10%的3D平均精度（Average precision, AP），而激光雷达系统可以实现66%的3D平均精度。

源自视觉深度估计的伪LiDAR信号

源自视觉深度估计的伪LiDAR信号。左上角：一幅KITTI街景，车辆周围具有用激光雷达（红色）和伪激光雷达（绿色）获得的超级边界框。左下：估计的深度图。右：伪激光雷达（蓝色）vs. 激光雷达（黄色），伪激光雷达点与激光雷达点非常吻合。

研究人员提出，这种基于图像的3D信息表示，而非点云的质量，是激光雷达性能相对优越的原因。激光雷达信号被表现成一种自上而下的“鸟瞰视角”视图，而基于图像的数据被诠释成一种基于像素的前向方法，扭曲了远距离物体的尺寸，并因此使得距离越远，用摄像头采集的数据的3D表示越困难。

马斯克LiDAR无用论可能并非打嘴炮，研究表明立体视觉或能取代LiDAR

康奈尔大学研究人员发现的解决方案，是将基于图像的立体视觉数据转换为类似激光雷达生成的3D点云，并在将数据输入通常用于解读激光雷达数据的3D物体探测算法之前，先将数据转换为“鸟瞰”视图格式。研究人员在实验中采用了40万像素相机。虽然，实验结果仍然无法比肩激光雷达66%的3D平均精度，但是，通过采用这种方案，基于图像数据的3D平均精度大幅提高到了37.9%。研究人员表示，更高分辨率的相机可能会进一步提高实验结果。

康奈尔大学研究人员提出了一种基于图像的3D物体探测方案

康奈尔大学研究人员提出了一种基于图像的3D物体探测方案。对于给定的立体或单目图像，首先预测估计深度图，然后将其反向投影到激光雷达坐标系中的3D点云。研究人员将这种表现形式称为伪激光雷达（pseudo-LiDAR）。然后像激光雷达一样，可以应用任何基于激光雷达的探测算法，进行数据处理。

根据康奈尔大学发表的这项研究，现在还无法用立体相机系统大规模替代激光雷达，但是，理论上未来或许可行。研究人员进一步提出，如果一辆车上同时装配有激光雷达和摄像头视觉系统，那么激光雷达数据可以在一致、持续的基础上，用于训练专门用于解释图像3D数据的神经网络，从而改善作为主激光雷达系统备份的摄像头视觉系统的准确性。

研究人员将聚合视图对象检测与激光雷达、伪激光雷达和正面立体视觉视图进行了比较

定性比较。研究人员将聚合视图对象检测（Aggregate View Object Detection, AVOD）与激光雷达、伪激光雷达和正面立体视觉视图进行了比较。Groundtruth（真实地图）方框为红色，预测方框为绿色。正面立体视觉方法（右）甚至错误地计算了附近物体的深度，并完全忽略了远处的物体。

有时，简单的发现，会带来最重要的差异。在本研究中，缩小基于图像和基于激光雷达的3D物体探测之间差距的关键，就是3D信息的表现形式。从本质上来说，这项研究成果是对系统低效率的修正，而不是开发了一种全新的算法，不过，这并不是说这项发现不重要。研究人员的研究结果与他们对卷积神经网络的理解一致，并通过实证结果得到了验证。

事实上，康奈尔大学研究人员从这一修正中获得的改进前所未有，并且对所有其它方案都有同样的影响。凭借这一巨大的飞跃，自动驾驶汽车基于图像的3D物体探测，在不久的将来或能成为现实。这种前景的影响是巨大的。目前，激光雷达硬件可以说是自动驾驶所需要的最昂贵的附加组件。如果可以无需使用激光雷达，自动驾驶的硬件成本将获得大幅下降。

此外，即使对于装配激光雷达设备的自动驾驶汽车，基于图像的物体探测也大有可为。可以想象的一种场景是，激光雷达数据可以用于持续训练和微调基于图像的3D物体识别。当激光雷达传感器出现故障时，基于图像的3D探测可以作为一种高可靠的备份系统。同样，另一种应用场景例如，配备激光雷达硬件的高端豪华汽车，其数据可以用于持续训练经济型车辆上基于图像的3D探测系统。

未来的进一步研究

未来，这项研究还可以在多个直接的方向进行探索。首先，更高分辨率的立体图像可能会显著提高远距离物体的探测精度。目前的研究成果仅采用了40万像素的摄像头，与最先进的摄像头成像技术相去甚远。其次，在本研究中，还没有重点关注实时图像处理，一张图像中所有物体的分类大约在1秒量级，未来有可能将识别速度提高几个数量级。

最近对实时多分辨率深度估计的研究改进表明，加速深度估计的有效方法是首先以低分辨率计算深度图，然后结合高分辨率对之前的结果进行优化。从深度图到伪激光雷达图的转换非常快，应该可以通过模型蒸馏（model distillation）或随时预测（anytime prediction）等技术大大加快探测速度。

此外，通过激光雷达和伪激光雷达的传感器融合，未来的研究可以进一步提高3D物体探测的技术水平。伪激光雷达的优点是其信号比激光雷达密集得多，并且，两种数据模式可以具有较强互补性。这项研究成果有望支持并复兴基于图像的3D物体识别技术，或将推动计算机视觉领域在不久的将来完全消除图像方案和激光雷达之间的性能差距。

延伸阅读：

《汽车和工业应用的激光雷达-2019版》

《自动驾驶汽车传感器-2018版》

《摄像头模组产业现状-2019版》

《汽车MEMS和传感器市场及技术趋势-2017版》

《大陆集团最先进的ADAS激光雷达：SRL1》

《LeddarTech固态激光雷达（LiDAR）模组：LeddarVu》

《CMOS图像传感器产业现状-2018版》

《Mobileye EyeQ4视觉处理器系列》

相关热词搜索：LiDAR 激光雷达立体视觉摄像头

上一篇：苹果获54项专利授权，涵盖TrueDepth摄像头和悬浮手势控制
下一篇：阿里推出AI安全厨房：利用红外热成像技术监测燃点