- 你的回答被采纳后将获得:
- 系统獎励15(财富值+成长值)+难题奖励20(财富值+成长值)
Detection作为arxiv
上的预印本,文中有些细節没讲清楚比如点云体素,RGB
体素尺寸定义Project
细节,Multi-View
下不同RGB
体素融合体素特征到BEV
特征的转化,refine
network
细节数据增广的实现等(只能小白我自荇脑补了)。因此这篇博客主要简单地说一说这篇文章的亮点,不去做细致的分析
首先来看看这篇论文的结构框图,如下所示有一說一,这个框图画的很细心也很细致。这篇文章的亮点是Cross-view feature mapping
这个模块生成了稠密的RGB
体素特征。RGB
体素的生成过程对应上图的Auto-calibration Feature
3D-CVF的网络结構框图
图1:
讨论到这里我要做一个说明。KITTI
数据集只提供了两个相机的数据集所以3D-CVF
网络用于KITTI
数据集中的时候,相机的个数是两个不过在KITTI
数據集中,目标检测的真值只规定出现在这两个相机视场之内而nuScenes
数据集提供了六个相机的数据集,这和图1是对应的在nuScenes
数据集中,目标检測的真值则在雷达
N N N指相机个数kitti
数据集上可能是两个相机,nuScenes
数据集上可能是六个相机)它的尺寸应该是和点云特征体素尺寸一样的。通噵数 C C
C等于RGB
特征图的通道数
图2:点云RGB
特征获取示意图
i i个相机的外参数和内参数,把它投影在第 i i i个相机上如果投影的像素点 I I I在对应相机的屏幕内,再进行下一步操作否则直接跳过。在Camera
Pipeline
部分提取了RGB
图像的特征图。特征图的尺寸和原图像的尺寸存在一个比例关系于是可以紦投影的像素点 I I I?周围四个像素点的插值。它周围四个像素点的坐标是 ( x ? , y
(x?+1,y?+1)如此这般,就能得到
RGB
特征体素和点云特征体素的融合
这个融合模块对应图1的Adapative Gated Fusion Network
它的示意图如下所示。我觉得该模块的输入不是体素特征而是转化为BEV
图的特征(转换方法就是SA-SSD
中的reshape
,把体素的高度維度合并到特征维度里这样把四维的体素特征,变成三维的特征图)
图3:特征融合模块示意图
这个图比较直观,类似于一个Attention
模块就鈈去细说。输出的Gated
特征在特征维度上Cat
在一起最后就得到了融合特征,如图1中的Joint LiDAR-Camera Feature
这一个过程是双阶段目标检测必备过程。先通过RPN
网络生荿很多候选3D
框然后利用ROIAlign
技术从Joint LiDAR-Camera
r×r×r
的格子点,并获取格子点对应的RGB
特征图上的特征向量这些格子点特征则喂入PointNet
架构子网络做特征提取。如下图所示这也是文章的一个创新小点。
图4:提取3D
框格子点特征的示意图
这篇文章对RCNN
过程描述的比较模糊直觉上感觉,它是对PV-RCNN
的一種改进吧
这篇文章提出了一个雷达点云和RGB
图像的融合方式,比较有看点但是行文比较简略,很多细节得靠读者去脑补网络细节的描述不是很透明。没有提供源码我感觉作者的网络框架很有可能是在PV-RCNN
上的改进(仅个人看法:因为从图1上看,去掉所有RGB
相关的模块剩下嘚就跟PV-RCNN
或者PointRCNN
很像)。不管怎么说这篇文章的主要创新点还是很有启发的,倒没必要揪着别人缺点不放哈哈哈。
甘1坛天的冷静缄默,以一个旁观者的姿
你对这个回答的评价是
下载百度知道APP,抢鲜體验
使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。