欢迎来智东西
关注我们
智东西
车东西
芯东西
智猩猩
当前页面

PersDet: 透视BEV的单目3-D检测方法

AI技术
2022-09-13 18::19

arXiv论文“PersDet: Monocular 3D Detection in Perspective Bird’s-Eye-View“,2022年8月19日, 旷世科技的工作。

目前,在BEV中检测3D目标,优于用于自动驾驶和机器人的其他3D检测方法。然而,将图像特征转换为BEV需要特殊的算子来进行特征采样。许多边缘设备不支持这些操作,在部署检测器时会带来额外的障碍。为了解决这个问题,重新讨论BEV表示的生成,并提出在透视BEV中检测目标-一种不需要特征采样的新的BEV表示。

透视BEV特征同样可以享受BEV范式的好处。此外,透视BEV通过解决特征采样引起的问题,提高了检测性能。基于这一发现,提出透视BEV空间中高性能目标检测的方法-PersDet。

在实现简单且内存高效的结构的同时,PersDet在nuScenes基准上优于现有最先进的单目方法,当使用ResNet-50作为主干时,达到34.6%的mAP和40.8%的NDS。

基于摄像机的3-D目标检测器可分为两大类:摄像机视图(CV)检测器和BEV检测器。

如图所示,CV检测器沿着高度和宽度轴在图像平面中放置锚点。这些锚点自然地与从图像中提取的下采样特征图对齐。相反,BEV检测器的锚点分布在宽度轴和深度轴之间,因为BEV特征的语义对应于水平参考平面的目标。

由于Lift-Splat方法最初设计用于分割任务,因此这些锚点通常均匀分布在参考平面上。这种分布带来了特征采样的要求-透视效果在投影特征中进行,但不在锚点中进行。

本文建议将透视效应引入锚点,而不是将其从特征中移除。在这种情况下,语义信息可以与真实世界的锚点对齐,无需特征采样。此外,由于现有方法中的特征采样操作通常伴随着由过采样和欠采样现象引起的信息丢失和结构失真,因此去除特征采样会带来额外的性能增益。

以CaDDN为代表的现有BEV检测器遵循Lift-splat的模式,其中采用特征提取器和DepthNet进行特征提取和深度预测。深度预测由激光雷达获得的真值深度单独监督。注意,激光雷达深度仅在训练期间使用;检测器仅拍摄图像进行测试和验证。如图所示,BEV检测框架使用3D边框和深度监督执行统一训练。

利用提取的图像特征F和深度D,通过张量外积进行投影。传统上,生成的3D特征F3D采样或合并,与常规锚点对齐并消除透视效应。

网格采样(Grid sampling)操作基于空间坐标信息和预定义网格(锚点)对特征进行采样。锚点的设置对性能和效率具有决定性影响。如图所示,当给出密集锚点分布时,过采样问题可能导致重复特征表示。过采样现象将导致存储器的浪费和结构完整性的恶化。相反,稀疏分布可能会导致欠采样问题,其中某些源特征未被采样,从而导致信息丢失。更糟糕的是,过采样和欠采样问题不能完全解决,因为它们总是同时发生。

由于透视相机FOV在不同深度处具有不同的宽度(远距离较宽,相反较窄),因此在近场中总是存在欠采样问题,而在远距离处总是存在过采样问题。通过调整超参获得的最佳性能只是一种折衷,因此,一旦采用特征采样,特征的退化是不可避免的。

不规则的摄像机视野(FOV)导致常规BEV特征的内存效率低下。由于计算设备以矩阵的形式存储和计算数据,并且摄像机的视野是一个截锥(frustum),因此有很大一部分存储区域不包含有效信息。这种低效率导致3D张量大小急剧增加,并伴随着显著的内存浪费。

如图所示,展示在X轴(图像水平轴)上不同锚点密度下CaDDN检测器的性能和内存消耗。结果表明,随着锚密度的增加,3-D张量的内存消耗呈二次增长,导致整体内存消耗增加。当锚点的数量增加到176时,欠采样问题得到缓解,从而允许充分的性能。然而,3D张量的扩展使检测器的总内存消耗增加了一倍。换句话说,为了获得合适的性能,特征采样操作可能会显著增加检测器的内存消耗,从而导致更高的模型应用成本。

特征采样使用自定义操作,如网格采样或体素池化(Voxel Pooling)。通过在以CUDA为代表的灵活平台上使用自定义操作器,可以部署和加速这些操作。然而,在边缘设备上还有许多其他平台,无法执行或加速此类复杂操作。

因此,由于特征采样,许多低端场景无法享受BEV检测器的优势。

考虑到特征采样的上述缺点,文章探索在未去除透视效应的情况下直接对投影的BEV特征执行检测。PersHead作为上述问题的解决方案,旨在实现简单、高性能的目标检测。

如图所示,将透视效果引入目标与透视特征对齐。

根据CenterPoint头设计PersHead,使用特定于任务的分支进行分类和回归。给出BEV的特征F由Lift-Splat模块生成,PersHead对BEV特征执行共享卷积,并以密集形式的任务特定子网络进行预测。对于BEV特征Fbev的每个网格,PersHead预测目标的得分和边框属性,包括中心偏移、中心高度、边框大小、边框局部偏航角、方向类别和速度。


实验结果如下:

计算机视觉深度学习和自动驾驶
7篇文章
关注公众号
计算机视觉深度学习和自动驾驶
7篇文章
计算机视觉深度学习和自动驾驶的公众号