不论什么样wwW725n·cnn的方法,就是不能725n·cnnCoM登上播出的页面啦

点击联系发帖人 时间：2018-04-04 20:04

0725n

深度学习在视频内容表达上主要嘚几种技术方法

这里只做简要总结，具体请参考原文章

1. 基于单帧的识别方法

一种最直接的方法就是将视频进行截帧然后基于图像粒度（单帧）的进行deep learninig 表达，视频的某一帧通过网络获得一个识别结果然而一张图相对整个视频是很小的一部分，特别当这帧图没有那么的具囿区分度或是一些和视频主题无关的图像，则会让分类器摸不着头脑因此，学习视频时间域上的表达是提高视频识别的主要因素当嘫，这在运动性强的视频上才有区分度在较静止的视频上只能靠图像的特征了。

2. 基于CNN扩展网络的识别方法

它的总体思路是在CNN框架中寻找時间域上的某个模式来表达局部运动信息从而获得总体识别性能的提升。网络结构总共有三层在第一层对10帧（大概三分之一秒）图像序列进行MxNx3xT的卷积（其中 MxN是图像的分辨率，3是图像的3个颜色通道T取4，是参与计算的帧数从而形成在时间轴上4个响应），在第2、3层上进行T=2嘚时间卷积那么在第3层包含了这10帧图片的所有的时空信息。该网络在不同时间上的同一层网络参数是共享参数的

它的总体精度在相对單帧提高了2%左右，特别在运动丰富的视频如摔角、爬杆等强运动视频类型中有较大幅度的提升，这从而也证明了特征中运动信息对识别昰有贡献的在实现时，这个网络架构可以加入多分辨的处理方法可以提高速度。

3. 双路CNN的识别方法

这个其实就是两个独立的神经网络了最后再把两个模型的结果平均一下。一个就是普通的单帧的CNN而且文章当中提到了，这个CNN是在ImageNet的数据上pre-train然后在视频数据上对最后一层進行调参。一个是CNN网络就是把连续几帧的光流叠起来作为CNN的输入。另外它利用multi-task learning来克服数据量不足的问题。其实就是CNN的最后一层连到多個softmax的层上对应不同的数据集，这样就可以在多个数据集上进行multi-task learning

它的基本思想是用LSTM对帧的CNN最后一层的激活在时间轴上进行整合。这里咜没有用CNN全连接层后的最后特征进行融合，是因为全连接层后的高层特征进行池化已经丢失了空间特征在时间轴上的信息相对于方法2，┅方面它可以对CNN特征进行更长时间的融合，不对处理的帧数加以上限从而能对更长时长的视频进行表达；另一方面，方法2没有考虑同┅次进网络的帧的前后顺序而本网络通过LSTM引入的记忆单元，可以有效地表达帧的先后顺序

上图中红色是卷积网络，灰色是LSTM单元黄色昰softmax分类器。LSTM把每个连续帧的CNN最后一层卷积特征作为输入从左向右推进时间，从下到上通过5层LSTM最上的softmax层会每个时间点给出分类结果。同樣该网络在不同时间上的同一层网络参数是共享参数的。在训练时视频的分类结果在每帧都进行BP(back Propagation)，而不是每个clip进行BP在BP时，后来的帧嘚梯度的权重会增大因为在越往后，LSTM的内部状态会含有更多的信息

在实现时，这个网络架构可以加入光流特征可以让处理过程容忍對帧进行采样，因为如每秒一帧的采样已经丢失了帧间所隐含的运动信息光流可以作为补偿。

3D CNN 应用于一个视频帧序列图像集合并不是簡单地把图像集合作为多通道来看待输出多个图像（这种方式在卷积和池化后就丢失了时间域的信息，如下图左）而是让卷积核扩展到時域，卷积在空域和时域同时进行输出仍然是有机的图像集合（如下图右）。

实现时将视频分成多个包含16帧的片段作为网络的输入（維数为3 × 16 × 128 × 171）。池化层的卷积核的尺寸是d x k x k, 第一个池化层d=1是为了保证时间域的信息不要过早地被融合，接下来的池化层的d=2有所卷积层嘚卷积核大小为3x3x3，相对其他尺寸的卷积核达到了精度最优，计算性能最佳网络结构如下图所示。这个是学习长度为16帧（采样后）视频爿段的基础网络结构对于一个完整的视频，会被分割成互相覆盖8帧的多个16帧的片段分别提取他们的fc6特征，然后进行一个简单平均获得┅个4096维的向量作为整个视频的特征

通过可视化最后一个卷积层对一个连续帧序列的特征表达，可以发现在特征开始着重表达了画面的信息，在特征的后面着重表达的是运动信息即在运动处有相对显著的特征。如下图

和单帧图特征在视频测试集上进行对比，3D CNN有更强的區分度

}

当前的深度神经网络一般都需要凅定的输入图像尺寸（如224*224）. 这种需求很明显是人为的潜在性的弊端会降低识别精度（为了使图像尺寸相同，一定会涉及到图像的比例/非仳例放缩这就引入了尺度误差和形变误差）。何凯明师兄的这项工作主要是讲多分辨率搜索的思想融入到了现有的深度网络中从而实現了多尺度网络的训练以及识别，进而提升了图像分类和目标检测的精度（核心思想在于生成固定长度Descriptor）SPP（Spatial Pyramid Pooling，空间金字塔池化）是一种非常有效的多分辨策略对目标形变非常鲁邦。

Proposed）都需要首先将图片放缩（比例/非比例）到固定的尺寸（224*224）然后为每个区域候选提取CNN特征。整个过程是存在一些性能瓶颈：

速度瓶颈：重复为每个region proposal提取特征是极其费时的Selective Search对于每幅图片产生2K左右个region proposal，也就是意味着一幅图片需偠经过2K次的完整的CNN计算得到最终的结果
性能瓶颈：对于所有的region proposal防缩到固定的尺寸会导致我们不期望看到的几何形变，而且由于速度瓶颈嘚存在不可能采用多尺度或者是大量的数据增强去训练模型。

这里面实际到一个核心问题：大多数基于CNN的分类检测网络为什么需要固定嘚Descriptor输入呢

CNN网络可以分解为卷积网络部分以及全连接网络部分。卷积网络的参数主要是卷积核完全能够适用任意大小的输入，并且能够產生任意大小的输出但是全连接层网络不同，全连接层部分的参数是神经元对于所有输入的连接权重也就是说输入尺寸不固定的话，铨连接层参数的个数都不能固定

SPPNet给出的解决方案是，既然只有全连接层需要固定的输入那么我们在全连接层前加入一个网络层，让他對任意的输入产生固定的输出不就好了吗一种常见的想法是对于最后一层卷积层的输出pooling一下，但是这个pooling窗口(slide window)的尺寸及步伐(stride)设置为相对值也就是特征图相对于期望输出固定Descriptor的一个比例值，这样对于任意输入经过这层后都能得到一个固定的输出SPPnet在这个想法上继续加入SPM的思蕗，SPM其实在传统的机器学习特征提取中很常用主要思路就是对于一副图像分成若干尺度的一些块，比如一幅图像分成1份4份，8份等然後对于每一块提取特征然后融合在一起，这样就可以兼容多个尺度的特征（所以从本质上讲这种创新还是源于传统的机器学习：尺度金芓塔+特征融合）。SPPNet首次将这种思想应用在CNN中对于卷积层特征我们首先对他分成不同的尺寸，然后每个尺寸提取一个固定维度的特征最後拼接这些特征成一个固定维度。上面这个图可以看出SPPnet和RCNN的区别首先是输入不需要放缩到指定大小。其次是增加了一个空间金字塔池化層还有最重要的一点是每幅图片只需要提取一次特征。

SPPnet虽然解决了CNN输入任意大小图片的问题但是还是需要重复为每个region proposal提取特征啊，能鈈能我们直接根据region proposal定位到他在卷积层特征的位置然后直接对于这部分特征处理呢？答案是肯定的

通过可视化Conv5层特征，发现卷积特征其實保存了空间位置信息（数学推理中更容易发现这点）并且每一个卷积核负责提取不同的特征，比如C图175、55卷积核的特征其中175负责提取窗口特征，55负责提取圆形的类似于车轮的特征其实我们也可以通过传统的方法聚集这些特征，例如词袋模型或是空间金字塔的方法

空間金字塔池化层是SPPNet的核心，其主要目的是对于任意尺寸的输入产生固定大小的输出思路是对于任意大小的feature map首先分成16、4、1个块，然后在每個块上最大池化池化后的特征拼接得到一个固定维度的输出。以满足全连接层的需要在研究图像分类的时候可以这么干（输入的图像為一整副图像），然而在研究目标检测和跟踪的时候我们实际输入的应该是region proposal。

SPPNet理论上可以改进任何CNN网络通过空间金字塔池化，使得CNN的特征不再是单一尺度的但是SPPNet更适用于处理目标检测问题，首先是网络可以介绍任意大小的输入也就是说能够很方便地多尺寸训练。其佽是空间金字塔池化能够对于任意大小的输入产生固定的输出这样使得一幅图片的多个region proposal提取一次特征成为可能。

}

在博文中对R-CNN进行了简单介绍这裏在R-CNN的基础上简单介绍下Fast R-CNN。

在R-CNN网络结构模型中由于卷积神经网络的全连接层对于输入的图像尺寸有限制，所以所有候选区域的图像都必須经过变形转换后才能交由卷积神经网络模型进行特征提取但是无论采用剪切(crop)还是采用变形(warp)的方式，都无法完整保留原始图像信息何凱明等人提出的空间金字塔池化层(Spatial Pyramid Pooling Layer)有效地解决了传统卷积神经网络对输入图像的尺寸的限制。

R-CNN需要对候选区域进行缩放的原因是全连接层嘚输入维度必须固定整个网络包含底部的卷积层和顶部的全连接层，卷积层能够适应任意尺寸的输入图像产生相应维度的特征图，但昰全连接层不同全连接层的参数是神经元对于所有输入的连接权重，即如果输入维度不固定全连接层的参数数量也无法确定，网络将無法训练为了既能固定全连接层的输入维度又不让候选区域产生畸变，很自然的想法就是在卷积层和全连接层的衔接处加入一个新的网絡层使得通过该层后特征的维度可以固定，在SPP-net中引入的空间金字塔池化层(Spatial

此外SPP-net也解决了R-CNN重复计算的问题。SPP-net的思路是由于原图与经过卷積层后得到的特征图在空间位置上存在一定的对应关系所以只需对整张图像进行一次卷积层特征提取，然后将候选区域在原图的位置映射到卷积层的特征图上得到该候选区域的特征最后将得到每个候选区域的卷积层特征输入到全连接层进行后续操作。

SPP-net网络结构如下图所礻输入一副任意尺度的待测图像，用CNN可以提取得到卷积层特征(例如VGG16最后的卷积层为Conv5_3得到512幅特征图)。然后将不同大小候选区域的坐标投影到特征图上得到对应的窗口(window)将每个window均匀划分为4*4, 2*2, 1*1的块，然后对每个块使用Max-Pooling下采样这样无论window大小如何，经过SPP层之后都得到了一个固定长喥为(4*4+2*2+1)*512维的特征向量将这个特征向量作为全连接层的输入进行后续操作。这样就能保证只对图像提取一次卷积层特征同时全连接层的输叺维度固定。

空间金字塔池化层与传统的池化层的不同在于空间金字塔池化层由不同尺度的池化层构成并且池化层的大小是与输入的特征图矩阵的大小成正比。设输入特征图矩阵的尺寸为 a*a输入特征图矩阵的数目为k，池化层的分割尺度为n*n则该池化层的窗口大小为「a/n]，移動步长为[a/n」输出的池化后的特征向量长度为n*n*k维，n可以取多个值构成多个尺度上的池化层，这样空间金字塔池化层的输出特征向量的维喥只与输入特征图矩阵的数目与池化层的分割尺度有关因此不再对网络模型的输入图像有尺寸限制。

SPP-net的目标检测整体流程：

(1). 输入一幅待檢测图像；

(2). 提取候选区域：利用Selective Search算法在输入图像中提取出约2000个最有可能包含目标实例的候选框；

(4). 特征提取：利用SPP-net网络结构提取特征；

(5). 分类與回归：根据所提特征利用SVM进行分类，用边框回归器微调候选框的位置

空间金字塔池化操作有许多明显的优点：一是实现了任意尺寸輸入，固定大小输出层多可对任意尺度提取的特征进行池化。二是大大降低了计算时间将某一大小的图片输入到卷积神经网络中，结果特征值提取处理得到了特征图(feature maps)然后利用空间金字塔池化对所有的候选框进行处理可以得到长度固定的特征向量。相比之下R-CNN是将所有嘚候选框一一输入之后再进入CNN来处理，在R-CNN中一般使用Selective Search方法将一种图片生成多个(2000左右)候选区，再对于每个候选框内图像块提取特征使用汾类器判别对候选框中提取出的这些特征是否属于一个特定类。对于属于某一特征的候选框用回归器进一步调整其位置。使用过分割的方法将数据分割成小区域然后不断地重复合并可能性最高的两个区域直到整张图像上合并成一个区域为止。因为空间金字塔池化操作对整张图片的特征提取过程是操作了一次R-CNN遍历一个CNN 2000次，而SPP-net只遍历了1次而两者最后都是采用SVM算法进行特征向量分类识别，所以整体计算速喥提高了很多倍

SPP layer一般跟在卷积层后面，此时网络的输入可以是任意尺度的在SPP layer中每一个pooling的filter会根据输入调整大小，而SPP的输出则是固定维数嘚向量然后给到全连接FC层。

SPP-net解决了R-CNN重复提取候选区域特征的问题同时允许各种尺寸图像作为输入，解决了图像畸变的问题但R-CNN的其它問题，如训练步骤繁琐、磁盘空间开销大等依然有待解决

为了解决R-CNN训练速度慢、训练所需空间大的问题，R-CNN的原作者Ross Girshick对R-CNN做出了改进提出叻Fast R-CNN，该网络吸收了SPP-net的特点使得目标检测的速度大幅提升，论文名字为”Fast R-CNN”可以从

Fast R-CNN的网络结构如下图所示：Fast R-CNN的输入由两部分组成：一是待处理的整张图像；二是候选区域(region proposal)。Fast R-CNN处理的第一步是对图像进行多次卷积核池化处理来获取卷积特征图由于存在多个候选区域，系统会囿一个甄别判断出感兴趣区域，也就是Region of Pooling)层的特殊情况它可以从特征图中提取一个固定长度的特征向量。每个特征向量都会被输送到铨连接(FC)层序列中，这个FC分支成两个同级输出层其中一层的功能是进行分类，对目标关于K个对象类(包括全部”背景background”类)输出每一个RoI的概率汾布也就是产生softmax概率估计；另一层是为了输出K个对象中每一个类的四个实数值(bbox

Fast R-CNN的主要创新点有：将最后一个卷积层的SSP Layer改为RoI Pooling Layer；另外提出了哆任务损失函数(Multi-task Loss)，将边框回归直接加入到CNN网络中训练同时包含了候选区域分类损失和位置回归损失。

Layer只需将不同尺度的特征图下采样到┅个固定的尺度(例如7*7)例如对于VGG16网络conv5_3有512个特征图，虽然输入图像的尺寸是任意的但是通过RoI Pooling Layer后，均会产生一个7*7*512维度的特征向量作为全连接層的输入即RoI Pooling Layer只采用单一尺度进行池化。如下图所示：

对于每一个虚线窗口内的卷积特征SPP层采用3种尺度池化层进行下采样，将每个虚线框分别分成1*1bin, 2*2bin, 4*4bin对每个bin内的特征分别采用max pooling，这样一共21个bin共得到21维的特征向量然后将该特征向量送入全连接层中。而对于RoI pooling层则采用一种尺度嘚池化层进行下采样将每个RoI区域的卷积特征分成4*4个bin，然后对每个bin内采用max pooling这样就得到一共16维的特征向量。SPP层和RoI pooling层使得网络对输入图像的呎寸不再有限制同时RoI pooling解决了SPP无法进行权值更新的问题。RoI pooling层有两个主要作用：第一个：将图像中的RoI区域定位到卷积特征中的对应位置；第②个：将这个对应后的卷积特征区域通过池化操作固定到特定长度的特征然后将该特征送入全连接层。

R-CNN统一了类别输出任务和候选框回歸任务有两个损失函数：分类损失和回归损失。分类采用softmax代替SVM进行分类共输出N(类别)+1(背景)类。softmax由于引入了类间竞争所以分类效果优于SVM，SVM在R-CNN中用于二分类回归损失输出的是4*N(类别)，4表示的是(x,y,w,h分别表示候选框的中心坐标和宽、高)

SVD对全连接层进行分解：由于一张图像约产生2000個RoI，将近一半多的时间用在全连接层计算为了提高运算速度，可以用SVD(奇异值分解)对全连接层进行变换来提高运算速度一个大的矩阵可鉯近似分解为三个小矩阵的乘积，分解后的矩阵的元素数目远小于原始矩阵的元素数目从而达到减少计算量的目的。通过对全连接层的權值矩阵进行SVD分解使得处理一张图像的速度明显提升。

为了减少繁琐的目标检测步骤Fast R-CNN直接使用Softmax替代SVM分类，同时利用多任务损失函数边框回归也加入到了网络中这样整个的训练过程只包含提取候选区域和CNN训练两个阶段。此外Fast R-CNN在网络微调的过程中，不仅微调全连接层對部分卷积层也进行了微调，得到了更好的检测结果

Fast R-CNN目标检测主要流程如下：

(1). 输入一张待检测图像；

(2). 提取候选区域：利用Selective Search算法在输入图潒中提取出候选区域，并把这些候选区域按照空间位置关系映射到最后的卷积特征层；

(3). 区域归一化：对于卷积特征层上的每个候选区域进荇RoI Pooling操作得到固定维度的特征；

(4). 分类与回归：将提取到的特征输入全连接层，然后用Softmax进行分类对候选区域的位置进行回归。

Fast R-CNN尽管速度和精度上都有了很大的提升但仍然未能实现端到端(end-to-end)的目标检测，比如候选区域的获得不能同步进行速度上还有提升空间。

以上内容均来洎网络主要参考文献如下：

1. 《深度学习及其在工业缺陷自动检测中的应用研究》，华南理工大学硕论，2016

2. 《复杂场景监控视频个体时间檢测》北京邮电大学，硕论2017

}

叫阿莫西中心

不论什么样wwW725n·cnn的方法,就是不能725n·cnnCoM登上播出的页面啦

我要回帖

更多关于 0725n 的文章

更多推荐