目标检测算法经过池化后,标定算法框的位置信息会不会丢失

论文阅读(4)
Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2014.
转自:http://blog.csdn.net/shenxiaolu1984/article/details/
Region CNN(RCNN)可以说是利用深度学习进行目标检测的开山之作。作者多次在PASCAL VOC的目标检测竞赛中折桂,2010年更带领团队获得终身成就奖,如今供职于Facebook旗下的FAIR。&
这篇文章思路简洁,在DPM方法多年平台期后,效果提高显著。包括本文在内的一系列目标检测算法:,&,&代表当下目标检测的前沿水平,在github都给出了基于Caffe的源码。
本文解决了目标检测中的两个关键问题。
问题一:速度
经典的目标检测算法使用滑动窗法依次判断所有可能的区域。本文则预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,进行判断。
问题二:训练集
经典的目标检测算法在区域中提取人工设定的特征(Haar,HOG)。本文则需要训练深度网络进行特征提取。可供使用的有两个数据库:&
一个较大的识别库(ImageNet ILSVC 2012):标定每张图片中物体的类别。一千万图像,1000类。&
一个较小的检测库(PASCAL VOC 2007):标定每张图片中,物体的类别和位置。一万图像,20类。&
本文使用识别库进行预训练,而后用检测库调优参数。最后在检测库上评测。
RCNN算法分为4个步骤&
- 一张图像生成1K~2K个候选区域&
- 对每个候选区域,使用深度网络提取特征&
- 特征送入每一类的SVM&分类器,判别是否属于该类&
- 使用回归器精细修正候选框位置&
候选区域生成
使用了Selective Search方法从一张图像生成约个候选区域。基本思路如下:&
- 使用一种过分割手段,将图像分割成小区域&
- 查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置&
- 输出所有曾经存在过的区域,所谓候选区域
候选区域生成和后续步骤相对独立,实际可以使用任意算法进行。
优先合并以下四种区域:&
- 颜色(颜色直方图)相近的&
- 纹理(梯度直方图)相近的&
- 合并后总面积小的&
- 合并后,总面积在其BBOX中所占比例大的
第三条,保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其他小区域。
例:设有区域a-b-c-d-e-f-g-h。较好的合并方式是:ab-cd-ef-gh -& abcd-efgh -& abcdefgh。&
不好的合并方法是:ab-c-d-e-f-g-h -&abcd-e-f-g-h -&abcdef-gh -& abcdefgh。
第四条,保证合并后形状规则。
例:左图适于合并,右图不适于合并。&
上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来,速度较快。
多样化与后处理
为尽可能不遗漏候选区域,上述操作在多个颜色空间中同时进行(RGB,HSV,Lab等)。在一个颜色空间中,使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果,在去除重复后,都作为候选区域输出。
作者提供了Selective Search的,内含较多.p文件和.mex文件,难以细查具体实现。
使用深度网络提取特征之前,首先把候选区域归一化成同一尺寸227×227。&
此处有一些细节可做变化:外扩的尺寸大小,形变时是否保持原比例,对框外区域直接截取还是补灰。会轻微影响性能。
基本借鉴Hinton 2012年在Image Net上的分类网络,略作简化。&
此网络提取的特征为4096维,之后送入一个的全连接(fc)层进行分类。&
学习率0.01。
使用ILVCR 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号。
同样使用上述网络,最后一层换成4096-&21的全连接网络。&
学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景。
使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景。&
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。
对每一类目标,使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征,输出是否属于此类。&
由于负样本很多,使用hard negative mining方法。&
本类的真值标定框。&
考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本
目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。&
对每一类目标,使用一个线性脊回归器进行精修。正则项λ=10000。&
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。&
判定为本类的候选框中,和真值重叠面积大于0.6的候选框。
论文发表的2014年,DPM已经进入瓶颈期,即使使用复杂的特征和结构得到的提升也十分有限。本文将深度学习引入检测领域,一举将PASCAL VOC上的检测率从35.1%提升到53.7%。&
本文的前两个步骤(候选区域提取+特征提取)与待检测类别无关,可以在不同类之间共用。这两步在GPU上约需13秒。&
同时检测多类时,需要倍增的只有后两步骤(判别+精修),都是简单的线性运算,速度很快。这两步对于100K类别只需10秒。
以本论文为基础,后续的fast RCNN(参看)和faster
RCNN(参看)在速度上有突飞猛进的发展,基本解决了PASCAL
VOC上的目标检测问题。
&&相关文章推荐
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:2851次
排名:千里之外
原创:42篇
转载:18篇
(4)(45)(10)(1)您所在位置: &
&nbsp&&nbsp
基于视觉的无人车环境中的多目标检测算法研究.pdf72页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:50 &&
你可能关注的文档:
··········
··········
学校代号 10532 学
号 S1座机电话号码
级 普通 硕士学位论文 基于视觉的无人车环境中的多目标 检测算法研究 学位申请人姓名 张婷 培 养 单 位 信息科学与工程学院 导师姓名及职称 肖德贵 副教授 学 科 专 业 计算机科学与技术 究 方 向 图像处理与模式识别 论文提交日期 2015
学校代号:10532
号:S1座机电话号码
湖南大学硕士学位论文
基于视觉的无人车环境中的多目标
检测算法研究
学位申请人姓名: 张婷
导师姓名及职称:
肖德贵 副教授
培 养 单 位: 信息科学与工程学院
专 业 名 称: 计算机科学与技术
论文提交日期: 2015 5 月8
论文答辩日期: 月
答辩委员会主席: 王东 教授
Research on Multi-Object Detection Algorithm Based on Vison in Unmanned Vehicle Environment by Zhan Tin B.E.
Hunan University
20 12 A thesis submitted in partial satisfaction of the Requirements for the degree of Master of Engineerin in Computer Science and Technology in the Graduate School of Hunan University Supervisor Associate Professor XIAO Degui May, 2015 硕士学位论文 学位论文原创性声明和学位论文版权使用授权书 湖 南 大 学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所
取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任
何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡
献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的
法律后果由本人承担。 作者签名: 日期: 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意
学校保留并向
正在加载中,请稍后...您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
基于工业CT序列图像的高精度体积测量方法地研究.pdf67页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:200 &&
你可能关注的文档:
··········
··········
重庆大学硕士学位论文 英文摘要 ABSTRACT nondestructivedetection isableto Asamostadvanced technology,CTtechnology structuredetailofthedetected showtheinterior object,andquantifiedlyapply
clearly CTiSableto sizeinformationofdetails.Medical
thetwoandthree.dimensional sizeoflesion.Butintheactual doesnot too
measurethe3.D treatment,itrequirehigh thedetected
measurement objects accuracy.Incorresponding.with ofinsideslice and moreover,the Spatial various,and inequality
sophisticated interslice industrialCT
Resolutionand Resolution,theexisting sequenceimage Spatial tobe in methodneeds 3dvolumemeasurement improved
based this onthe measurement
automation existingimage background,based degree.As withCT the ICT image experimentsubject,twosequence
theory,andsequenceimage methodsare volumemeasurement
based proposed. VolumeAccumulationis methodcalledFrustum measurement volume Firstly,a Zemikemoment detection and isbasedon sub-pixeledge implemented,which
proposed the contourof sub。pixel―level
and image,the fitting.Afterpreprocessing polynomial thentracked theZemike Eight isdetected moment,and by
eachslice through the fittingmethod,the TrackingMethOd.Then,byusingpolynomial
Neighborhood thesame interval.After fittedcontouris that, the angle contourisfired,and sampledby calculatethecontour sliceismatchedto atthesame ofeach each angle edgepoint phase ofthemiddleslice interslice algorithm, coordinates through
fitting&interpolation point iscalculated each of extrapolationmethod.Finally,as andthen
work..piece through apex of andbottomofa thevolume contourthe frustum,accumulating twoacentslice top adj ofthe tobethetotalvolume frustum workpiece. eachintermediate onthe ofthe based volumemeasurement integralsub‘pixel Secondly,a algorithm isdetected is and images by contourrotation implemented.Thepreprocessed proposed level thentracked toextract contour,an
正在加载中,请稍后...}

我要回帖

更多关于 标定算法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信