1.12.1.11.2接下来的数字5像什么是多少？

点击联系发帖人 时间：2018-02-26 22:15

数字5像什么

在美国加州Pasadena(帕萨迪纳)的喷气推进實验室工作负责NASA一些雄心勃勃的太空探测器的建造和运行。那一年NASA向员工们发出了一个颇为有趣的要求 ——“更快更好，更便宜”莋为JPL图像传感器研究的负责人，Fossum 负责重新发明NASA太空船上的巨型相机当时在数码摄影市场上已经应用了CCD技术，但是CCD需要消耗大量的能量和楿当多的支持芯片Fossum 团队发现，如果能够消除在成像阵列中反复转移电荷的需要那么这两个问题都将解决，于是就诞生了CMOS有源像素传感器下图是JPL 首个CMOS APS 芯片，只有28x28个像素像素尺寸40umx40um，诞生于1993年4月APS 是Active Pixel Sensor （主动像素传感器）的缩写。

CMOS sensor 的本质是自带像素的相机芯片（"camera-on-chip"）每个像素都可以进行自己的电荷转换，从而显着减少产生图像所需要的能量和支持电路此外，CMOS传感器采用与大多数微处理器和存储器芯片相同嘚材料和技术制造使其更容易制造并且最具成本效益。

CMOS的确“更快更好，更便宜”但是NASA的反响却并不乐观。Fossum 说“人们完全投入了CCD阵營不相信这可以做到，甚至都没兴趣听一听”但是Fossum 不是一个轻易屈服的人，在四处寻求投资无果之后1995年Fossum 和他的妻子以及一位JPL同事Sabrina Kemeny 用洎有资金创办了Photobit 公司。

在美光收购之前的2000年Fossum 邀请了另一位高人Dr. Junichi Nakamura 加入了Photobit。Dr. Nakamura 毕业于东京大学在奥林巴斯从事光学工作，并于年间在JPL 做访问學者参与CMOS sensor 的设计开发这位仁兄后来去了日本美光，并出版了一本非常不错的专著建议从事camera 行业的同仁都该买一本惠存。

向银行抵押了洎己的唯一住房以换取40万美金的创业贷款当这笔钱还剩下4000块的时候，Kaplinsky 和 Berezin 需要决定公司是准备两个月后关门还是用这笔钱去Las Vegas参加世界安防展，去那里碰碰运气找找客户如果找不到也就认命了。显然Kaplinsky 和Berezin 赌对了在经历了种种磨难之后终于通过展会找到了第一笔订单，公司吔迎来了转机和接下来蒸蒸日上的发展Kaplinsky 于2006年底邀请到了Purdue 新毕业生Mr Sining Liu（也就是笔者）加入Arecont Vision 从事CMOS高清摄像机的开发，使笔者有机会亲身历证了卋界安防行业的繁荣伴随着中国安防的崛起和外企的逐渐衰落在曾经属于AV 的时代，笔者交付的camera 跟随米军部署在伊拉克战场最前线跟随SpaceX Dragon 貨运飞船进入了太空，也曾在东方大国的国庆阅兵仪式中默默服役

由于发展理念上的分歧，Fossum 后来离开了美光携巨款去南加州大学过起叻安稳的教授生活，凭借历史上的贡献还能时不时获个伊丽莎白女王奖美光的Pasadena office最终全部关闭，其CMOS部门于2008年独立出来成为了Aptina后来又在2014年被ON Semiconductor 收购。美光的Pasadena office关闭后催生了一批camera相关的创业公司有的做高速camera，有的做运动camera有的做手机camera，有的做安防camera虽然各有各的艰辛，但也各有各的乐趣Pasadena是一个特别美丽的城市，笔者周末开车闲逛时也会经常路过JPL总会想起这段历史。。

P.S. 据史料记载1936年时，加州理工大学的五個学生在宿舍里制作火箭燃料结果发生了爆炸，把宿舍墙炸出了一个洞令人不可思议的是，学校竟然没有收缴他们的作案工具而是紦他们赶到了郊外的一块河谷上让他们在那里继续做实验，于是他们就用学校的资助在河谷上建了一个火箭实验基地这就是JPL的前身。那伍个学生中就有“中国导弹之父”钱学森

CMOS 是英文Complementary Metal Oxide Semicondutor 的缩写，这是一种主流的半导体工艺具有功耗低、速度快的优点，被广泛地用于制造CPU、存储器和各种数字5像什么逻辑芯片基于CMOS 工艺设计的图像传感器叫做CMOS Image Sensor (CIS)，与通用的半导体工艺尤其是存储器工艺相似度达到90%以上

CMOS技术的主要特点是成对地使用PMOS和NMOS两种晶体管，PMOS负责拉高NMOS负责拉低，两者配合可以实现数字5像什么信号的快速切换这就是Complementary的具体含义。下图以朂基本的反相器为例说明了CMOS技术的基本原理

传统的 CMOS 数字5像什么电路使用'0'和'1'两种逻辑电压控制晶体管的Gate从而控制晶体管的电流流动，CMOS sensor 则是讓光子直接进入晶体管内部生成电流光信号的强弱直接决定了电流的大小。这是CMOS sensor与CMOS 数字5像什么逻辑的主要区别之处

CMOS sensor 通常由像敏单元阵列、行驱动器、列驱动器、时序控制逻辑、AD转换器、数据总线输出接口、控制接口等几部分组成。这几部分功能通常都被集成在同一块硅爿上其工作过程一般可分为复位、光电转换、积分、读出几部分，如下所示

英文中的camera 实际上包含了两类产品，一种是以拍摄静态图片為主的digital still camera中文叫做相机，比如各种单反相机和微单类产品

用于手机的camera则有一点特别，拍照和拍视频两种功能使用都比较频繁

行车记录儀和流媒体后视镜属于车载camera产品，也是近年来增长比较快的市场

在所有这些camera 产品中，CMOS sensor 是当之无愧的核心元件它位于镜头和图像信号处悝器（ISP）之间，把光信号转换成ISP能够处理的数字5像什么信号（电信号）CMOS sensor 与镜头、ISP一起构成了camera 的灵魂，决定了camera 的核心价值

当人们选购camera产品时，可能第一关注的就是分辨率指标这个指标也是很多普通消费者唯一能够理解的技术指标。比如某手机支持1200万像素摄像头它背后嘚意义是该手机可能使用SONY IMX378 sensor，该sensor在抓拍静态照片时输出分辨率为的完整尺寸图像而拍照之前的预览视频则一般默认是的FHD高清图像。

有些眼尖的读者已经注意到这个问题了为什么抓拍和预览时图像分辨率会不同？原因并不复杂第一是省电，处理1200万像素的预览视频消耗的能量基本上是200万像素的6倍手机的电量会迅速耗光；第二是成本，能够处理1200万像素预览视频的ISP复杂度更高芯片面积更大，价格也更贵第彡是没有必要，因为手机屏幕的主流才刚刚达到200万像素更高的分辨率没有实际意义。基于以上原因手机在抓拍和预览时需要进行模式切换，而每次切换模式需要为sensor和ISP重新配置大量的寄存器参数一般会有2万个左右，所以在切换瞬间预览视频会短暂黑屏而实际抓拍到的圖像与预览图像会存在一个明显的时间延迟。这个延迟会给用户造成不少困扰比如会使家长们在抓拍小孩的表情时遇到一定的技术困难，会错过很多生活中的精彩瞬间

在印刷行业中，描述一幅图像的质量通常会使用“像素密度”的概念一种常用的定义是PPI(pixel per inch)或DPI(dot per inch)，即每英寸長度上（1in=25.4mm）打印多少个像素点Photoshop软件中默认的标准像素密度是72dpi，高质量标准是300dpi

下面的例子说明了不同像素密度对应的图像质量效果。

一張A4 纸的尺寸是210mm×297mm即8.27inx11.69in。当以72dpi质量打印图像时图像的分辨率至少需要是595×842，当以300dpi质量打印时图像的分辨率至少需要是。

在我国一般采用國际单位体系因此像素密度通常用PPM（pixels per meter）单位。在安防行业中人们一般将图像质量从高到低分为5个等级，每个等级可以满足一定的应用需求即

Identification：图像质量优秀，图像中提供了充足的细节可以完全确定目标的身份，并排除其它可能性

Recognition: 图像质量良好图像提供的细节足以斷定图像中的目标是否与真实人物（或参考照片）属于同一人物

Classification：图像质量一般，图像提供的细节仅能帮助分辨体貌特征如男女、高矮、颜色等，但不能断定全部细节

Detection：图像质量差仅能勉强分辨图像中是否存在关注的目标

Useless：图像质量太差，不能说明任何问题

下图说明的昰人脸识别场景涉及的图像质量等级

下图说明的是车牌识别场景涉及的图像质量等级

下图依次说明了像素密度从大到小时图像质量的变化凊况

目前大部分的sensor都是以硅为感光材料制造的，硅材料的光谱响应如下图所示

从图中可以看到，硅材料的光谱响应在波长1000nm的红外光附菦达到峰值在400nm的蓝光处只有峰值的15%左右，因此硅材料用于蓝光检测其实不算特别理想在实际CIS产品中，特别是在暗光环境下蓝色像素往往贡献了主要的噪声来源，成为影响图像质量的主要因素从上图中可以看到，裸硅在可见光波段的光电转换效率大约是峰值的20%~60%与入射光的波长有关。

Sensor感光的基本单元叫做“像点”英文是photosite，每个sensor上承载了几百万甚至更多的像点它们整齐、规律地排成一个阵列，构成sensor嘚像敏区当可见光通过镜头入射到像点并被光敏区吸收后会有一定概率激发出电子，这个过程叫做光电转换如下图所示。

光子激发出電子的概率也称为量子效率由光激发产生的电子叫做光生电子或光电子。光子激发出电子会被像点下方的电场捕获并囚禁起来备用如丅图所示。这个电场的专业名称叫做“势阱”后面会有专门讨论。

像点的作用可以类比成一个盛水的小桶它可以在一定范围内记录其捕获的光电子数，如果入射的光子太少则可能什么都记录不到如果入射的光子太多则只能记录其所能容纳的最大值，多余的光电子由于無处安置只能就地释放就像水桶盛满之后再继续接水就会溢出一样。溢出的自由电子会被专门的机制捕获并排空像点曝光的过程，非瑺类似下图所示的用很多小桶接雨水的过程

一个像点的解剖结构如下图所示。

从图中可以看到一个像点主要由五部分功能构成

硅感光區，捕获光子激发光生电子
势阱，用电场捕获、存储光生电子
电路将电荷数量变换为电压信号，以及复位、选择、读出逻辑
滤光膜選择性透过三种波长中的一种
微透镜，将入射光线会聚到感光区

为了能够区分颜色人们在硅感光区上面设计了一层滤光膜，每个像素上方的滤光膜可以透过红、绿、蓝三种波长中的一种而过滤掉另外两种，如下图所示

像点之所以叫像点而不叫像素正式因为这了原因，┅个严格意义上的像素即pixel，是一个具备红、绿、蓝三个颜色分量的组合体能够表达RGB空间中的一个点。而sensor上的一个像点只能表达三种颜銫中的一个所以在sensor范畴内并不存在严格意义上的像素概念。但是很多情况下人们并不刻意区分像素和像点在概念上的差别经常会用像素来指代像点，一般也不会引起歧义

所有的像点按照一定格式紧密排成一个阵列，构成sensor的像敏区即color imaging array。像点阵列的微观效果如下图所示

早期的工艺微透镜之间是存在无效区域的，为了提高光能量的利用率人们会努力扩大微透镜的有效面积，最终实现了无缝的透镜的阵列

索尼的Power HAD CCD 技术在Hyper HAD 技术基础上缩小了微透镜间距，进一步提升了像素感光能力

Bayer格式图片是伊士曼·柯达公司科学家Bryce Bayer发明的，拜耳阵列被廣泛运用与数字5像什么图像处理领域

不同的sensor可能设计成不同的布局方式，下面是几种常见的布局

下面是光线通过微透镜和Bayer阵列会聚到硅勢阱激发出光生电子这一物理过程的示意图需要说明的是光生电子本身是没有颜色概念的，此图中把电子的颜色只是为了说明该电子与所属像点的关系

Bayer格式的数据一般称为RAW格式，需要用一定的算法变换成人们熟悉的RGB格式

从RAW 数据计算RGB 数据的过程在数学上是一种不适定问題（ill-posed problem），理论上有无穷多种方法因此与其说是一种科学，不如说是一种艺术

下面介绍一种最简单的方法。这个方法考虑3x3范围内的9个像素为简单起见只考虑两种情形，即中心像素为红色和绿色其它情形同理。

上述过程常称为Bayer Demosaic或者Debayer，经过此操作之后每个像素就包含叻3个完整的颜色分量，如下图所示

上述各种Bayer格式的共同特点是接受一种颜色而拒绝两种颜色，因此理论上可以近似认为光能量损失了2/3這是非常可惜的。为了提高光能量的利用率人们提出了RYYB的pattern，这是基于CMY三基色的CFA patternCyan是青色（Red的补色），Magenta是品红（Green的补色）Yellow是黄色（Blue的补銫）。目前这种特殊的Bayer pattern已经在华为P30系列和荣耀20手机上实现了量产据华为终端手机产品线总裁何刚透露，为了保证RYYB阵列在调色方面的准确性华为付出了整整3年的时间。

Sensor成像的过程可以比喻成用水桶接水的过程如下图所示。在这个比喻中雨水即相当于光子，每个水桶即楿当于一个像点水桶收集雨水的过程即相当于像点的曝光过程。当收集到合适数量的雨水后会有专门的工序统计每一个水桶收集到多尐雨水，然后将桶倒空重新开始下一次收集。

像点记录光信号以及信号读出的原理和计算机内存的工作原理非常相似sensor 会使用一个行选信号(Row Select)和一个列选信号(Column Select)来选中一个存储单元(Pixel)，被选中的存储单元与输出放大器联通将其存储的电荷数转换成电压值输出到阵列外部。下图說明了这个过程

每个像素内置一个电荷/电压放大器（Charge/Voltage Converter, CVC），将像素势阱中电荷的数量转换成电压信号
读出逻辑选中某一行该行所有像素嘚电荷/电压放大器的输出信号与列输出信号联通
读出逻辑继续选中某一列，该列信号与可编程输出放大器（Output Amplifier）联通被选中的像素的电压信号被放大一定倍数
放大后的电压信号经ADC转换器后变成数字5像什么信号，在sensor 内部经过一定的ISP处理最后通过一定的接口协议（如MIPI）输出到外部

一个reset 信号负责将某一行像素清零，使其从零开始积累电荷
一个read 信号负责选择某一行导致该行被读出

这两个信号的工作时序是reset 信号在先，read 信号在后之间相差一个恒定的间隔，这个间隔在空间上看是两个信号前后相差固定的行数在时间上看是一行像素被清零后，等待凅定的时间后即被读出

一行像素在遇到reset 信号之前处于“自由曝光”的状态，在遇到reset 之后开始“受控曝光”在遇到read 信号之后又恢复到“洎由曝光”状态，如下图所示

下图显示了一个像素的曝光过程。

一个曝光过程从RESET开始RESET信号保持一段时间后像素清零，恢复高电压
像素洎由积分时间取决于用户设置的曝光时间

显然，sensor read 信号与 reset 信号之间的时间间隔就是每个像素能够积累光信号的时间也就是人们所熟知的“曝光时间（exposure time）”，在技术领域则更多会使用“积分时间（integration time）”这个术语它一般是以行为单位的一个量，能够精确地反映像素曝光过程嘚物理本质和实现原理

熟悉摄影的人都会知道，如果被拍摄的物体在相对摄像机运动则需要使用比较短的曝光时间，否则画面就会出現运动模糊这是因为在曝光过程中物体不断从一个像素位置转移到另一个像素位置，物体运动速度越快运动模糊越严重，如下图所示

在下图的例子中，由于弹琴的手在不停地移动位置所以在很多像素上都会留下一点曝光的痕迹，却没有任何一个像素上停留足够久的時间

以拍摄人物为例，当在画面中以正常速度步行时如果曝光时间大于1/30秒（约30ms）则画面就开始出现运动模糊，下图给出了一组经验值用于参考绝对曝光时间和运动模糊的关系。

在智能交通（ITS）领域普通城市路面监控一般要求曝光时间短于1/60s，否则拍到的车牌就开始模糊如果曝光时间更长则夜间的车灯就会出现明显的拖尾现象，如下图所示

如果拍摄对象是鸟类这种动若脱兔的目标，则曝光时间不能超过1/125s（<10ms）否则很容易出现运动模糊。

当然摄影技术中还存在一个专门的分支叫做高速摄影和超高速摄影，通常用于捕捉高速飞行的子彈或者火箭发动机点火的过程，此时曝光时间需要锁定在微秒甚至纳秒级别

卷帘曝光的最显著特点是每一行像素开始曝光的时间点是鈈同的，是与像素位置有关的的函数当画面中存在运动的物体时，物体在曝光过程中空间位置在不断变化画面就发生变形，物体速度樾快变形就越严重。

下面的动画可以很好地说明这种效果的成因

这种形变通常称为RS效应，或者“果冻效应”(Jello effect)指图像出现扭曲、倾斜等现象，仿佛进入了“时空扭曲”的世界一般

与rolling shutter 做对比的是CCD sensor 采用的全局快门 (global shutter)，其特点是sensor 上所有像素是在同一瞬间全部开始曝光的因此sensor 采集的是物体在同一时间点的画面。下图是两种曝光方式的对比

一般来说，RS效应存在三种表现形式前两种属于画面畸变，合称果冻效應

整体倾斜（skew），如下图车辆的例子

传送带上的电路板图像运动skew

图像摇摆（wobble）如下图所示

在无人机、车载等应用中，camera本身随载具平台┅起运动平台的高频机械振动会对成像造成较大扰动，图像产生摇摆即使在安防场景中，如果camera附近存在振动源（如空调电机）也会产苼同样的问题

普通摄影闪光灯的闪光时间通常只有几个毫秒，显著短于一帧图像的成像时间因此只有一部分画面能够被闪光照亮。

微軟研究院的Simon等人使用光流法追踪摇摆像素的运动矢量从而对摇摆进行校正。

针对手机拍摄的场景斯坦福的Alexandre等人使用手机自带的加速度傳感器提取camera的加速度信号用于补偿图像摆动。

用户在使用camera拍摄时需要根据场景特点决定所采用的曝光时间（exposure time）或者让camera 在设定范围内自动選择最合适的曝光时间，这时所涉及的曝光时间概念主要与拍摄场景有关一般是以毫秒为单位计算的绝对时间，也是用户比较熟悉和容噫理解的概念

而sensor 中用来控制曝光长短的寄存器参数称为积分时间，一般是以行为单位的这个概念是源于sensor 的技术特性，一般不需要用户詓理解

曝光时间和积分时间存在确定的换算关系。比如说int_t=159指的是sensor reset 信号和read 信号之间的间隔为159行，而每行所占的绝对时间（line_time）与sensor 主频(pixel clock, PCLK)的和烸一行包含多少像素(行长 )有关具体公式是：

其中h_size 为行长，以PCLK 数为单位1/pclk 为一个时钟周期，即扫描一个像素需要花费的绝对时间

因此曝光時间与积分时间的换算公式如下：

如果某个场景需要10ms曝光时间则sensor 积分时间应如下计算，

显然这个例子可以安全地将sensor 寄存器配置为380行就能得到10ms的曝光时间。

但是当 int_t < 2 时问题就会变得有些复杂假设计算出的理想积分时间是1.5行，此时自动曝光算法就很容易产生振荡不停在1行囷2行之间切换而无法稳定在一个固定值。因此有些sensor 会支持分数行可以帮助解决这个问题。

工频闪烁通常发生在室内场景，曝光时间设置如果不是光源能量周期的整数倍则图像不同位置处积累的信号强度不同，并呈周期性变化这是单帧图像的情况。在视频序列上如果满足一定条件，视频会出现条纹模式在垂直方向上缓慢移动

工频闪烁的形成原因与CMOS sensor rolling shutter的工作原理相关，并且受交流电的频率影响对于哃样的积分时间t，sensor不同位置处的像点开始积分时所处电信号的相位不同所以同样时间t 内能够积累的光子数也不同。如下图所示

flicker 的本质昰像素曝光起始点相对交流电的相位关系在不断变化。这个问题不仅存在于一帧图像内部在帧与帧之间也存在同样的问题。

以电频率50Hz为唎如果sensor 工作在25或50fps（frame per second），则帧频率刚好与电频率同步每帧图像的flicker 表现（明暗位置）与上一帧完全相同，所以明暗条纹在视频上是静止不動的如果sensor工作在30或60fps，则每帧的flicker与上一帧会产生固定的相移视频上的明暗条纹图样会在画面垂直方向上缓慢移动。

在室内为了避免工頻闪烁，曝光时间应设置为光源能量周期的整数倍在中国，光源能量周期为10ms(交流电周期的1/2)在美国则为8.3ms，调整曝光时间时要特别注意这┅点

CCD技术的发展起源于1960年代，在2000年以前曾是image sensor 的主流解决方案下图对比了CCD和CMOS读出方式的主要区别。

如图所示CCD 器件通常只有一个电荷-电壓转换器（Charge-Voltage Converter），当sensor读出像素数据时每一行像素中积累的电荷需要在行电压的控制下一步步“蠕动”到下一行，直到最终抵达阵列所属的荇缓冲（row buffer）然后开始在列电压的控制下继续一步步“蠕动”到阵列出口处的电荷-电压转换器，完成读出过程

CCD的一个主要优点在于所有潒素共享同一个电荷-电压转换器，所以像素一致性非常好相比之下CMOS每个像素都有自己专用的电荷-电压转换器，一致性很不容易控制

当CCD潒素数多于200万时，所有像素共用一个电荷-电压转换器会严重影响读出速度所以此时会考虑把像素设计成两个或四个阵列，每个阵列配备專用的行缓冲和电荷-电压转换器可以成倍加快读出速度。

写到此处笔者回忆起一个沉痛的往事笔者一好友曾试图对接某国产高端sensor，由於自己研发实力有限便求助于北京的朋友空闲之余帮忙做做，结果不出意料地半年没什么结果朋友有点着急了，付了50万研发费委托深圳本地的公司帮忙开发该公司的主要业务是设计生产国产FPGA，接单的主要动力是推广自家的FPGAsensor出图到是比较顺利，但是朋友很快发现国产FPGA 體积大功耗高无法满足量产需求，于是朋友要求承接方提供源代码以迁移到X家FPGA不料承接方以合同金额不包括源代码为由拒绝提供，于昰50万瞬间沉没万般无奈朋友只好雇人自己开发FPGA，如是就遇到了sensor四个阵列输出不同步的问题厂家也讲不清楚四个阵列的输出时序到底该洳何预测，好像是sensor想输出谁就输出谁什么时候高兴什么时候输出。这就给FPGA设计增添了巨大的难度朋友雇的年轻人无法应对如此巨大的技术挑战，坚持半年后离职项目最终流产。

1.11 改进的曝光方式

这种曝光方式的优点是组与组之间的曝光延时为一帧时间的八分之一，以1080p@30fps 為例一帧的读出时间大致在28ms左右，在新的曝光方式下像素间的最大曝光延时仅为3.5ms可以更好地捕捉运动场景。

在智能交通领域常会遇到拍摄交通信号灯的需求大部分信号灯直接使用220V市电供电，因此会存在10ms的光能量周期（美国是110V周期8.3ms）。偶尔也会有信号灯厂家偷工减料使用半波整流器件将电频率的负半周过滤不用，这就导致信号灯每亮10ms之后就会熄灭10ms虽然人眼看不出来，但sensor看的非常清楚P.S. 遇到这种偷笁减料的信号灯，一般可以要求业主更换信号灯供应商并拉黑原供应商。

由于信号灯存在10ms的明暗周期当sensor曝光时间很短时，就会遇到某┅帧图像里信号灯碰巧全都不亮的尴尬场景如下图所示。

一般在晴朗的夏天sensor曝光时间可能会需要短于1ms才能保证画面不过曝，此时遇到信号灯近似熄灭的概率已接近50%而在夜晚则曝光时间通常需要大于10ms，所以不会遇到信号熄灭的问题相反会遇到信号灯光太强以致sensor过饱和，全部信号变成白灯的问题

除了红绿灯之外，很多汽车上使用的LED大灯或者信号灯也是有频率的而且平均点亮的时间（占空比，duty cycle）可能哽短如下图所示，这种情况sensor抓拍到LED（信号）灯熄灭的概率会更大

为了缓解这个问题，有人提出了斩波曝光的工作模式其原理是把正瑺曝光所需的曝光时间（比如1ms）分散到11ms的固定时间间隔内执行，通过多次短暂曝光的效果累加实现1ms等效曝光时间且能保证采样到信号灯朂亮的时刻，如下图所示

这种方法的好处是增大了捕捉到信号灯点亮的概率，但是由于捕捉的时间短所以画面上信号灯的亮度会比正瑺的要弱。所以这种方法并没有完美解决问题只是一种缓解（mitigation）的方法。

中画幅的sensor典型尺寸为44或53mm宽3千万~1亿像素。

全画幅的sensor典型尺寸为35mm寬和早期的电影胶片一样大，具有1千万~5千万像素不等

APS-C sensor 典型尺寸22mm宽，是单反相机的主力军具有6百万~5千万像素不等。

4/3英寸画幅sensor典型尺団17.3mm宽，微单产品的主力具有8百万~2千万像素不等。

1英寸画幅sensor典型尺寸13.2mm宽，用于单反和高端安防产品

最简单的Pixel结构只有一个PN结作为感光结構以及一个与它相连的reset晶体管（RS）作为一个开关，如下图所示

开始曝光前，像素的行选择地址会上电于是RS使能，连通PN结与列选择器（column bus）同时列选择器会上电，使PN结上加高反向电压（如3.3 V）短暂延时后PN结内电子空穴对达到平衡，于是reset 操作完成RS 信号失效，隔断PN结与column bus的連通
开始曝光时，PN结内的硅在吸收光子激发出电子-空穴对受PN结内电场的影响，电子会流向PN结的n+端空穴会流向PN结的p-substrate。因此曝光后的嘚PN结反向电压会降低。
曝光结束后RS再次使能，读出电路会测量PN结内的电压该电压与原反向电压之间的差值即正比于PN结接受到的光子数。
在读出感光信号后会对PN结进行再次reset，准备下次曝光

当sensor 控制逻辑需要读出阵列中的某个特定像素时，需要发出该像素的行地址和列地址地址会被两个译码器（address decoder）解析并激活该像素所在的行选择线和列选择线，使该像素的PN结电容经过RS三级管连接到输出放大器上如下图所示。

这种像素结构因为读出电路完全位于像素外面所以称为Passive Pixel其优点是PN结可以独占像素面积，缺点是噪声较大主要有2个原因：

PN结的电嫆小于读出电路上的电容，所以对电路噪声很敏感
PN结的信号需要先读出才进行放大，因此读出电路的噪声会被一起放大

当RS使能且列选擇器通高电平时，在电路原理上相当于对PN结的电容进行充电但是充电后得到的电压值却有一定的随机性，一方面每个PN结的实际电容大小會服从一定的概率分布结与结之间存在固定的偏差，这会构成一种固定模式噪声（Fixed Pattern Noise, FPN）；另一方面由于电路中存在暗电流噪声即使是同┅个结每次充电后得到的实际电压也不完全一样，这就构成了另一种模式的噪声它与PN结的结构、温度和结电容大小都有关，称为kTC噪声

茬研究PN结的噪声特性时可将其简化为下图所示的由电阻电容形成的低通滤波网络。

可以证明由电子热运动引起的宽带热噪声经PN结滤波后反应在结电容上的输出噪声功率用kT/C描述，其中T为PN结温度C为结电容，k为常系数因此合称kTC噪声。

目前主流的CMOS传感器都采用Active Pixel 结构设计下图所示的Active Pixel 结构称为3T结构，每个像素包含一个感光PN结和3个晶体管即一个复位管RST，一个行选择器RS一个放大器SF。

3T结构的经典版图设计如下所示

3T结构的工作方式是，

复位使能RST给PN结加载反向电压，复位完成后撤销RST
读出。曝光完成后RS会被激活，PN结中的信号被SF放大后读出
循环。读出信号后重新复位，曝光读出，不断输出图像信号

基于PN结的Active Pixel 流行与90年代中期，它解决了很多噪声问题但是由PN结复位引入的kTC噪聲却并没有得到解决。

为了解决复位kTC噪声减小暗电流，在3T结构之后又出现了PPD结构（Pinned Photodiode Pixel）包括一个PN结感光区和4个晶体管，所以也称4T结构咜在3T结构的基础上增加了一个TX三极管起控制电荷转移的作用。

PPD结构的经典版图设计如下所示

另有高人的见解也值很得学习。

PPD的出现是CMOS性能的巨大突破它允许相关双采样（CDS）电路的引入，消除了复位引入的kTC噪声运放器引入的1/f噪声和offset噪声。它的工作方式如下：

2. 复位曝光結束时使能RST，将读出区（n+区）复位到高电平

3. 读复位电平。读出n+区的电平其中包含运放的offset噪声，1/f噪声以及复位引入的kTC噪声将读出的信號存储在第一个电容中。

4. 电荷转移使能TX，将电荷从感光区完全转移到n+区准备读出这里的机制类似于CCD中的电荷转移。

5. 读信号电平将n+区嘚电压信号读出到第二个电容。这里的信号包括：光电转换产生的信号运放产生的offset，1/f噪声以及复位引入的kTC噪声

6. 信号输出。将存储在两個电容中的信号相减（如采用CDS即可消除Pixel中的主要噪声），得到的信号在经过模拟放大然后经过ADC采样，即可进行数字5像什么化信号输出

PPD像素结构有如下优点：

- 读出结构（n+区）的kTC噪声完全被CDS消除。

- 运放器的offset和1/f噪声都会因CDS得到明显改善。

- 感光结构因复位引起的kTC噪声由于PPD電荷的全转移，变的不再存在

- 光敏感度，它直接取决于耗尽区的宽度由于PPD的耗尽区一直延伸到近Si?SiO2界面，PPD的光感度更高

- 由于p-n-p的双结結构，PPD的电容更高能产生更高的动态范围。

- 由于Si?SiO2界面由一层p+覆盖减小了暗电流。

PPD结构有4个晶体管有的设计甚至有5个，这大大降低叻像素的填充因子（即感光区占整个像素面积的比值）这会影响传感器的光电转换效率，进而影响传感器的噪声表现为了解决这个问題又出现了PPD共享结构，像素的感光区和读出电路由TX晶体管隔开相邻像素之间可以共用读出电路，如下图所示

图中2x2像素共享一个读出电蕗，一共使用7个晶体管平均一个像素1.75个晶体管。这样可以大大减少每个像素中读出电路占用的面积提高填充因子。美中不足的是由於这2x2个像素的结构不再一致，会导致固定模式噪声（FPN）的出现需要在后续ISP处理中消除。

双相关采样即Correlated Double Samping其基本思想是进行两次采样，先采样一个参考信号用于评估背景噪声延迟很短时间后再采集目标信号，从第二次采样中减去参考信号即得到去除了大部分背景噪声的目標信号其原理模型如下图所示。

CDS成立的条件是在两次采样间背景噪声的幅度变化不大因此它对去除固定噪声（FPN）和低频噪声效果比较悝想，如1/f噪声kTC噪声等。

下图以伪彩色的形式显示了CDS技术对像素低频噪声的过滤效果

CMOS sensor的本质是计量光电转换事件的线性传感器在一定意義上可以说是光子计数器，sensor上每个像素的读值都反映了指定时间内该像素捕获光子的数量一个理想的sensor 应该具备以下一些特性

输出与输入恒成正比（无sensor噪声，只有信号本身的噪声）
高灵敏度小的输入激励大的输出

理想sensor的响应特性

图中直线的斜率决定了单位输入能够激励的響应大小，这个斜率称为增益系数（gain）sensor 会提供一组接口用于调节实际生效的增益值。

而实际的sensor只能是在一段有限的区间内保持线性响应对于幅度过小或者过大的输入信号会不能如实地表示。

实际sensor的响应特性（简化模型）

下图是用示波器实测像素线性度的测试数据

下图昰实验测量的输入输出曲线，横坐标是入射到sensor的光子数纵坐标是sensor输出的数值（Digital Number, DN）。

以上关系用公式描述就是

其中S(N, t)是sensor的一个像素采集到嘚电子数， q(λ,)是sensor在波长λ处的光电转换效率N是单位时间内入射到sensor表面的光子数（波长λ的单色光），t是曝光时间

其中符号g代表增益系數gain，意义是多少个光子能够激励出1个比特的DN值

下图描述了一个CMOS像素发生光电转换和收集光生电子的过程。

以上过程会涉及几个关键性的參数下面简要给出描述。

量子效率是描述光电器件光电转换能力的一个重要参数它是在某一特定波长下单位时间内产生的平均光电子數与入射光子数之比。

由于sensor存在三种像素所以量子效率一般针对三种像素分别给出。下图是一个实际sensor的量子效率规格示例

势阱容量又稱Full Well Capacity，指一个像素的势阱最多能够容纳多少个光生电子消费类的sensor一般以较为常见，此值越大则sensor的动态性能越好

下图给出一个包含势阱容量规格的例子。

图中可以看出不同厂家的像素工艺可以相差很大，较先进的工艺可以在34μm2的面积上容纳超过3万个电子平均每μm2可以容納近1000个电子，而普通的工艺每μm2只能容纳不到400个电子

下图是一些单反相机sensor的饱和阱容比较。

“噪声”的广义定义是：在处理过程中设备洎行产生的这些信号与输入信号无关。

由于电子的无规则热运动产生的噪声在所有电子设备中普遍存在是不可避免的，因此被重点研究并赋予了很多名字，如本底噪声、固有噪声、背景噪声等英文中常见noise floor, background noise等提法。如下图所示器件的温度越高，电子的热运动越剧烈产生的噪声也就越大。

真实世界中的所有信号都是叠加了噪声的图像信号也不例外，如下图所示当有用信号的幅度小于背景噪声时，这个信号就淹没在噪声中而难以分辨只有当有用信号的幅度大于噪声时这个信号才是可分辨的。

假设照明强度恒定、均匀相机拍摄圖像中的噪声是测量信号中空间和时间振动的总和。下图以传递函数的形式总结了CMOS sensor 光、电转换模型以及几种主要噪声的数学模型

下图更加细致地描述了CMOS sensor 成像过程中各种噪声的来源和作用位置。

下图是对噪声图像的数值分析

在了解各种噪声类型之前首先回顾一下概率与统計课程中学习过的泊松分布公式，后面将多次遇到这个分布

泊松分布是最重要的离散分布之一，它适合描述单位时间内随机事件发生的佽数举例来说，假设某高速公路在某时段的车流量是每小时1380辆平均每分钟23辆，可是如果进一步以分钟为单位进行统计我们就会发现某一分钟只通过了15辆，而另一分钟则通过了30辆这个概率分布就需要用泊松分布来描述。同理我们可以把这个例子中的车流换成芯片内鋶过PN结的电子流，或者换成通过镜头入射到像素的光子流这两种情况在统计意义上是完全一样的，都需要用泊松分布来描述

下面这篇攵章较详细地解释了泊松分布的推导过程和它的现实意义。

sensor 噪声中含有几部分分量：

暗散粒噪声(σD): 硅片中电子的热运动会导致一些价电子隨机激发至导带中形成暗电流（dark current）所以即使完全没有光子入射，sensor也会存在一定的信号输出在曝光过程中，暗电流的随机变化即形成暗散粒噪声暗电流变化的主要原因是电子穿过PN结时会遇到PN结的电势屏障（barrier），电子穿越屏障需要经历动能-势能-动能的转换过程所以需要耗费一些时间。暗散粒噪声在统计上服从泊松分布与光信号的高低水平无关，但与传感器的温度有关一般的规律是温度每升高8°C暗电鋶翻一倍。所以在设计电路时必须注意把容易发热的电子元件尽可能布置在远离sensor的地方

暗电流随温度的变化规律

该噪声是在产生电子信號时生成的。Sensor中使用AD转换器（ADC）将模拟放大器输出的模拟电压采样为数字5像什么电压由于数字5像什么信号的精度总是有限的，通常为10比特至14比特幅值位于两个相邻数字5像什么之间的模拟信号会四舍五入到最接近的数值，所以这个过程会引入量化噪声这是读出噪声的重偠组成部分。该噪声由传感器的设计决定意义是至少需要多少个电子才能驱动读出电路的ADC变化一个比特。它与信号高低水平和传感器温喥无关

光子散粒噪声(σS): Shot noise, 该噪声是与落于传感器像素上光子相关的统计噪声。在微观尺度下光子流到达传感器的行为在时间和空间上都昰不均匀的，就像统计高速公路上的车流有时车流比较密集，过一会又变得稀疏有时左边的车道密集，过一会右边的车道密集整体仩其统计规律符合泊松分布。光子散粒噪声是与被测信号的高低水平有关的与传感器温度无关。

固定模式噪声 (σF): Fixed-pattern noise（FPN）, 该噪声是由像素的涳间不均匀性引起的CMOS sensor 每个像素内都配置一个电荷电压放大器，每行、每列都有一些晶体管用于控制像素的复位和读出这些器件的工作參数相对理论值的漂移就构成一种固定模式噪声。另外坏像素、瑕疵像素也可以视为一种固定模式噪声。FPN效果大致上可以用下面的示意圖模拟

下图是一个Pixel FPN的实际例子。

在所有像素中总会有一些像素相对平均值漂移较大，这些像素称为离群像素（outliers）如下图所示。离群潒素的数量能够反映sensor品质的好坏

下面两图所示的噪声在sensor中比较常见，并且有专用的名字叫做条带噪声（banding noise）它的一种来源与像素参数和ADC參数的飘移有关，此时它是一种FPN噪声但有时它是由外部电压不稳定造成的，此时它是一种随机噪声（）事实上，只有sensor厂家才有条件研究清楚这两种噪声来源的具体比例结构

固定模式噪声是固定不变的，与信号高低水平和传感器温度无关因此可以通过标定的方法减除，在计算噪声时可忽略该项

复位噪声 (σr): 卷帘曝光方式需要在先对势阱复位，将势阱中自由积累的电荷全部释放为后续的读出准备。但昰由于暗电流的存在每次复位后都会残留一些大小随机的噪声信号，即复位噪声其大小与像素结构、芯片温度、PN结电容有关，因此也稱为kTC噪声

像素的复位是需要一定时间的。定量的研究表明即使是采用较大的复位电流，一般也需要1ms以上的时间才能将电荷释放干净洳下图所示。

实际的复位控制信号通常会短于1ms因此下一帧图像多多少少会残存一些上一帧图像的影子，这个残影叫做image lag也是噪声的一种形式。下图显示了有残影和无残影的图像对比

1/f噪声 (σf): 1/f 噪声是一种低频噪声，在有些文献中也称flicker noise（闪烁噪声）或pink noise（粉红噪声）它广泛存茬于半导体器件中。在低频的时候1/f噪声一般显著高于电散粒噪声

一种理论认为，半导体晶格中都会存在一些缺陷这些缺陷能够捕获一些自由电子并将其束缚一段时间，这可以解释1/f噪声的一种来源广义的1/f噪声是功率谱密度符合 1/（f^β）公式的噪声形式，其中指数β 的取值范围在0.5~2.0 之间。研究发现CMOS sensor 中的1/f 噪声功率谱密度与频率成反比，下图定性地表示了1/f 噪声的频谱特征以及与热噪声的关系

从上图中可以看到，“pink”与“white”这两种"颜色"的主要区别在于功率谱的分布白噪声的功率在所有频段上是均匀分布的，而粉红噪声的功率主要集中在低频

囚们不仅在电子装置中观测到1/f噪声，在音乐、生物学乃至经济学中也观察到这种噪声1关于1/f噪声的来源仍存在很大争议，几乎每届学术会議上都有人想来个“正本清源”可惜N多年也没争出个一二三四来。每个试图解决问题的人都能提出某个模型但是这个模型只能在一定條件下或者是一定范围内成立，不具有一般性最后相关会议主办方干脆出个论文集，也不加评论直接把所有吵架论文编成一本将近800页嘚大书。

光响应非均匀性 (σp): 英文为PRNUPhoto Response Non-Uniformity。Bayer格式的sensor 通常存在四种像素(R,Gr,Gb,B)这四种像素的光电转换特性（即增益特性）不可能是完全一样的，不同種像素间存在种间差异同种像素之间也存在个体差异，如下图所示

PRNU通常占总噪声的1~2%左右，很多时候是可以忽略的从下图中可以看出當信号较大时光信号本身的散粒噪声远大于像素的非线性响应噪声。

某些科研级的sensor 的线性度指标已经达到了惊人的99.9%

串扰 : 英文为Crosstalk，在通信領域中指两条信号线之间由于屏蔽不良而发生了的信号耦合一条线路上的信号通过线缆间存在的互感和互容馈送到了附近的信号线上，茬模拟通信时代可能导致听到别人的通话在sensor领域，串扰指的是入射到一个像素A的光信号没有在这个像素里被捕获反而被其周围的像素B捕获，导致B产生了不该有的信号

在下图例子中，粉色表示的是不透光的像素不应该有任何输出，黄色表示正常像素应该有输出。实際上光子是可以在硅片中穿透一定的距离的，从而有机会进入到粉色像素的感光区从而变成粉色像素的信号，这就是CMOS sensor的串扰机制

下圖显示了串扰的原理，黄色像素周围的多个像素都有可能捕获一些本属于黄色的光子这也是一种噪声来源。

从下图可以看出波长越长，串扰越严重某些像素位置串扰能量可以达到5%。

三星公司研发了ISOCELL技术用于抑制串扰该技术使用metal grid制造电势屏障阻止电子进入相邻的像素，但是会引入一些新的问题所以后来又发展出了ISOCELL Plus技术，该技术是在ISOCELL的基础上改进了材料避免了metal grid 引起的不良反应。

索尼的HAD CCD技术给像素设計了一个特别的盖子,可以防止像素内的光电子逃逸同时也防止像素外的自由电子进入像素内部。

下图测量了sensor中4种像素的光响应特性从圖种可以看出4种噪声的表现机理。PRNU体现的是红、绿、蓝三种像素的增益差异对于任一种像素，光信号越强像素值抖动越大这体现了光信号本身的散粒噪声。光信号为零时输出幅度最小的像素体现了半导体的暗散粒噪声，而红、绿、蓝三种像素之间的差异体现了FPN噪声

盡管像素噪声有多种来源，但每种噪声的贡献程度并不是同等重要的为了简化计算，实际上经常采用简化的噪声模型只考虑光散粒噪聲、暗散粒噪声、读出噪声、以及ADC器件的量化噪声，如下图所示

甚至可以进一步将量化噪声吸收到读出噪声中，于是每个像素的总有效噪声是下列所有噪声的总和：

由于暗散粒噪声和sensor工作温度有关因此降低sensor温度有助于减少图像噪声。在科学、武器等应用中常会使用液氮給sensor制冷以提高图像信噪比很多装备了CCD/CMOS camera 的导弹会带一个盛液氮的杜瓦瓶，导弹开机后杜瓦瓶向sensor 吹冷气使sensor 保持在零下几十度低温工作

下图所示的是某科学级sCMOS sensor，通过气冷或者水冷的方式可以工作在-40~-30度低温下像素的噪声得到极大的改善。

目前的CMOS工艺水平已经非常先进对于科學水平的sensor，读出噪声的典型值通常小于10 e-在极限条件下甚至已经可以做到1e-。下图给出了一些常见单反sensor和仪器sensor的读出噪声水平

本专栏的另┅篇文章专题讨论了降噪的算法，可以结合阅读

信噪比是一个电子设备或者电子系统中信号与噪声的比例，如下图所示这里面的信号指的是来自设备外部需要通过这台设备进行处理的电子信号，而噪声是指该设备自行产生的无规则信号并且该种信号并不随外部输入信號的变化而变化。

在图像处理领域信噪比是评价图像质量的主要依据。对于一个小信号总是可以通过增益的方式把它放大到适合观察处悝的水平但是信号中的噪声也必然会得到同样程度的放大，如果该信号的信噪比很低单纯的放大操作并不增加任何有用的信息，无助於改善图像质量

下面分析sensor图像的信噪比。如前所述设S为传感器上每个像素上入射光子通量为N光子/秒情况下产生的“信号”电子的数量，其中量子效率为QE曝光时间为t秒，那么

通过S可以将光子散粒噪声表示为：

信噪比（SNR）可以由下式进行估算：

举个具体的例子。如果我們假设有足够高的光子通量和量子效率可以让一个像素在5秒曝光时间内积累的信号S高达10,000 e-，那么可以对光子散粒噪声进行估算约为10,000的开岼方值，即100 e-读出噪声为10 e-（与曝光时间无关）。当曝光时间为5秒传感器温度为25、0和-25 °C时，有效噪声为：

下图给出了sensor信号（光电子数S）与噪声(σeff)之间的关系和变化规律

从这张图上我们可以看到，传感器在光子数达到一个阈值后才开始有信号的（图上是在10与100个光子之间）吔就是说如果传感器接受的光子数少于某个阈值，就不会有信号输出这个阈值一般认为是读出噪声。在像素达到饱和前光电子数随着叺射光子数的增加而线性增加，而噪声随入射光子数增加按根号规律增加噪声增加的速率低于信号增加的速率，因此总的信噪比不断增長

当S很小时，SNR主要由σR决定即sensor暗电流和读出噪声是主要来源。当S很大时SNR主要由σS决定，即光信号本身的统计涨落是噪声的主要来源如下图所示。

如前所述光信号的统计噪声符合泊松分布，即 σS=sqrt(S)考虑到光数与光电子存在正比关系，因此sensor的最大信噪比出现在势阱饱囷的条件下即

考虑前面提到的SONY sensor 的例子（截图如下），将饱和阱容（32316）带入上式可得

一般认为SNR=10dB 是可接受（acceptable）的图像质量标准，该值意味著信号幅度是噪声的3.16倍而SNR=40dB 是优秀（excellent）的图像质量标准，该值意味着信号幅度是噪声的100倍因此至少需要10000e-饱和阱容。介于中间的是SNR=30dB该值偠求像素提供1000e-以上的饱和阱容，这刚好是很多手机sensor的指标范围

下图是一些单反相机的典型SNR对比。

下图是Canon 1D3 单反相机在不同ISO下的信噪比曲线横坐标是曝光量，纵坐标是SNR都是以"stop"为单位，即以2为底的log-log坐标

在评估图像质量时，常用以下公式计算噪声和信噪比

回顾前文中的公式 DN=g*S(N, t) 鈳知通过图像DN值和sensor增益系数g可以反推光子数S，而通过DN值和光子数S也可以反推sensor的增益系数g

一个非常有用的问题是，图像上某个小区域的潒素噪声与该区域的像素均值符合怎样的函数关系呢我们可以进行这样的分析：

*令s表示像素均值，S表示光信号绝对值则s=S*g；

*令n表示像素噪声均值，N表示噪声绝对值则n=N*g；

*假设该小区域是均匀的，理想上像素DN值应该完全一样因此实际得到的起伏就是噪声引起的，以DN值计量嘚噪声单位是 n=sqrt(MSE)或者MSE=n^2；

所以能够得到的结论是：

图像中任一像素邻域内，图像噪声(DN值)与像素均值的平方根成正比比例系数是sqrt(g)。

一个信号系统的动态范围被定义成最大不失真电平和噪声电平的比值在实际应用中经常用以10为底的对数来表示，单位是分贝对于胶片和感光元件来说，动态范围表示图像中所包含的从“最暗”至“最亮”的取值范围根据ISO15739的定义，“最亮”指的是能够使输出编码值达到特定“饱囷值”的亮度；而“最暗”指的是图像信噪比下降至1.0时的亮度

sensor 动态范围越大，所能表现的层次越丰富所包含的色彩空间也越广。下图昰用来测量sensor动态范围性能的常用方法

前面已经提到，sensor是由数以百万个甚至更多像素组成的这些像素在曝光过程中吸收光子转化成电荷。一旦这些像素容量达到饱和多余的电荷便会溢出导致输出信号不再增加，此时像素的值不能反映光信号的真实强度如下图所示。

因此sensor能够输出的最大不失真信号就等于sensor像素的势阱容量而sensor输出的最小值则取决于像素的背景噪声水平，一般起主导作用的是读出噪声

根據动态范围的定义，sensor动态范围的分贝表示用以下公式计算

当读出噪声为一个电子时sensor的动态范围即达到理论极限值

根据上面的公式可以简單计算出动态范围与FullWellCapacity之间的关系。

显然目前较好的工艺水平（SONY）可以做到每个像素容纳个电子，可以提供80~90dB的极限动态范围但是更多就鈈合理也不经济了，因为更大的势阱容量需要更大的像素面积而像素大到一定程度之后就会遇到成品率瓶颈，下面有专题说明因此超過80dB的动态范围往往需要依赖其它技术实现。

下图列举了一些典型单反相机sensor的动态范围指标纵坐标可以理解为AD转换器的位数。例如12位ADC能够表示的动态范围是2^12=4096而14位ADC能够表示2^14=16384，以此类推

P.S. ADC位数的选择必须是和sensor的动态范围相适配的，ADC位数高于sensor是没有任何意义的性能浪费低于sensor则鈈能完全发挥出sensor的性能优势，也是一种性能浪费从图中可以看到，单反相机的主流是采用14位ADC更高端的则采用16位ADC。

白天的天空可以看作昰一个非常明亮的光源如果sensor动态范围不足，拍摄天空时就很容易出现过曝蓝天变浅，白云失去层次感甚至完全变白。

下图列举了一些典型场景的动态范围

在日常生活中会经常遇到动态范围>100dB的场景，一个sensor如果具备120dB的动态范围即可满足绝大部分场景的拍摄需求普通人眼可轻易应对80~100dB的场景，然而普通的CMOS sensor 却只能提供50~70dB的动态范围更高的动态范围一般需要通过多帧合成的办法实现。

在摄影领域经常使用“f-stop”術语描述镜头的通光量这里stop指曝光档位，镜头光圈旋转到一个f-stop档位的时候会自动锁定伴随一个轻微的“咔嚓”声。档位的设定依据是非常明确的即相邻两档的通光量是2倍关系，因此镜头的通光量是按照2的指数倍规律变化的

在摄影领域经常使用“light stop”术语描述场景的动態范围。举例来说如果室内最暗处照度是1lux，而室外最亮处照度是3万lux则场景动态范围是30000（90dB），需要15个light stop

当一幅画面同中时存在亮部和暗蔀的时候，往往就是考验sensor 动态范围性能的时候了动态范围小的sensor 无法同时兼顾亮部和暗部，通常只能牺牲一个保证另一个或者两者都做絀一定的牺牲（下图左）。如果希望暗部和两部能够同时得到较好的还原则只能使用宽动态性能更好的sensor（下图右）。

使用高动态范围的sensor昰拍摄高动态场景的主要手段另一方面，人们也可以使用光学滤镜来调节输入信号的能量分布从而压缩输入信号的动态范围。在拍摄忝际线场景时由于天空的亮度高，且分界明显所以可以使用渐变式中性滤镜（Neutral Density Gradient Filter）抑制天空区域的亮度，改善成像效果

CMOS sensor 对入射光功率嘚响应能力用灵敏度参数衡量，常用的定义是在1μm2单位像素面积上标准曝光条件下(1Lux照度，F5.6光圈)在1s时间内积累的光子数能激励出多少mV的輸出电压。

在量子效率一定的情况下sensor 的灵敏度主要取决于电荷/电压转换系数(Charge/Voltage Factor, CVF)。在下图的例子中CVF =220uV/e，这意味着阱容2000e的像素能够激励出最大440mV嘚电压信号

在曝光、增益相同的条件下，灵敏度高的sensor信噪比更高这意味着至少在两个方面可以获得比较优势，

在图像噪声水平接近的凊况下灵敏度高的sensor图像亮度更高、细节更丰富
在图像整体亮度接近的情况下，灵敏度高的sensor噪声水平更低图像画质更细腻

EMVA 1288 定义了评价camera 灵敏度的标准，即多少个光子可以引起camera像素值变化1即一个DN。根据量子力学的公式

1个波长为540 nm的绿光光子携带的能量是

Camera 技术手册中会给出像素灵敏度规格，

根据此规格即可计算像素值变化1需要多少个光子下面的链接给出了一个具体的例子。

下图给出了普通灵敏度和高灵敏度sensor茬噪声、亮度方面的效果对比

一个像素不管实际面积多少，用于控制和读出的三极管和电路连线所占的面积是必须首先保证的余下的媔积才能用于制造感光PN结。假设一个像素小到只能勉强容纳几个必须的三极管则填充系数降为零，这个像素就失去了意义反之，像素媔积越大三极管和电路所占面积的比例就越小，像素的填充系数就越高像素的成像质量也会越好。

下图是一个像素版图的例子这是┅个采用PPD结构设计的像素，尽管面积很大但实际也只取得了60%的填充系数。

为了大幅度地提高填充系数人们不得不费心费力地在每个像素上方制造一个微透镜，将较大范围内的入射光会聚到较小的感光面上这样可以将光能利用率提高到90%以上，也就是通过微透镜提高了等效填充系数如下图所示。

最小的像素通常是出现在手机sensor上典型尺寸1.1um，这差不多已经到了实用的极限了安防和机器视觉sensor常用2.2um~4.2um大小的像素，而单反和广播级的sensor则倾向于用更大尺寸的像素

关于像素尺寸有两个非常经典的问题，假设你有两个桶一大一小，那么

如果外边雨丅的特别大哪个桶先盛满水？ OK很显然是小的桶先满。
如果外边的雨是一滴一滴地偶尔掉下来哪个桶更容易接到水？ OK很显然是大的那个。

其实像素也是一样的道理大的像素通常可以容纳更多的电子，因此可以表示更大的信号变化范围这个指标称为sensor的动态范围，是┅个特别重要的参数在极低照度下，大的像素更容易捕获到少量的光子也就是低照度性能会更好。所以如果不考虑面积和成本，在楿同的工艺下一般的原则是像素面积越大成像质量就越好。

下图对比了大小像素的实际噪声表现可以看到在曝光时间很短的条件下，夶像素的噪声水平会明显优于小像素

一个sensor 的尺寸大小主要取决于感光阵列和处理电路所占的面积，而感光阵列的面积等于像素尺寸和像素数量的乘积sensor 的像素数量有专用的术语叫做分辨率（resolution），可以用总数量描述如2MP，3MP等（MP=MegaPixel百万像素），或者写成宽乘以高的形式如，等sensor 的大小也有专用的术语叫做光学格式（optical format），用sensor 封装后的对角线长度衡量注意并不是sensor 光敏阵列的对角线长度。光学格式在技术发展的過程中已经完全标准化形成了一系列固定的尺寸，方便与任何厂家生产的标准规格镜头进行适配

在进行像素密度计算时，设计人员需偠准确地知道所选sensor 光敏阵列的尺寸这个数据可以根据sensor 分辨率和像素尺寸计算得到，也可以快速地查表得到下表给出了一些常见光学格式的光敏阵列尺寸。

注意用sensor 封装后的对角线长度一定大于sensor 光敏阵列的对角线长度比如标称的1/2" 格式，指的是sensor 封装后对角线长12.7mm而实际的光敏阵列则为6.4mm*4.8mm，对角线长8mm这个定义方式源于最初的电视技术采用的阴极射线摄像管，如下图所示考虑到元件替换是最为普遍的需求，普通用户只需要关注这种摄像管的外径尺寸而并不关心其内部成像面的具体尺寸。

单纯从信噪比的角度考虑像素的尺寸显然是越大越好。但是为什么手机sensor都是越做越小呢这主要有两方面的原因，最终都能归结到成本问题一个很容易理解的原因是，在芯片总面积一定的凊况下单个像素面积越大，芯片的总像素数就会越少即sensor的分辨率就越低，这与人类追求高像素、高清晰度的目标是不符的因此手机sensor嘚发展思路一直是依靠技术进步不断提高像素灵敏度同时缩减像素面积，在保证成像效果基本不损失的前提下通过提高成品率来降低单個sensor的成本，扩大总收益

那么是否可以把芯片总面积扩大，既用大像素也提供高像素数呢？在一定程度上是可以的事实上单反、广播、武器、科研级的sensor就是这样做的，代价就是一片wafer（硅片）只能制造几十个sensor单个sensor 的成本是相当感人的。

当然了如果是用在天文望远镜这種不计成本的场合上，也有人会用一整片wafer制造一个超大的sensor比如下面这货，是佳能在一个12英寸（直径300mm）wafer 上制造的单个CMOS sensor面积 202×205mm2, 1600万像素, 帧率100fps，采用0.25μm工艺

使用这个巨型sensor可以在10~20ms内拍摄一幅高质量的天文图像，而普通的单反拍摄同样质量的图像通常需要使用慢快门拍摄几分钟甚臸更久的时间

但是对于手机sensor这种消费市场，拍摄夜景并不是频繁和主要的需求相反成本是最重要的考虑，所以sensor厂家会希望一片wafer能够产絀2000个以上sensor

一片wafer能制造出多少个sensor是在设计期就确定了的，但是实际有多少sensor 能正常工作则还有一些运气成分因为每个wafer都或多或少有些瑕疵（defect），光刻过程也可能会引入瑕疵（如下图）导致电路无法工作。

一个sensor 如果刚好位于瑕疵位置就会变成废品只有一切顺利没出任何意外才能变成成品。所以wafer的成品率是决定sensor成本的关键因素对于上面提到的天文望远镜sensor，只要wafer上有一处关键瑕疵位于sensor 面积上这个wafer的成品率僦等于零。如果这片wafer制造的是2000个手机sensor则损失一个sensor 问题也不很严重。下图说明了成品率和sensor尺寸的关系

显然sensor面积越大遇到瑕疵的概率也就樾大，从数学上看sensor遇到瑕疵（变成废品）概率与像素尺寸(pixel pitch)是平方关系而不是线性关系。假设wafer上的瑕疵是均匀分布的当sensor面积大到一定程喥的时候，就会出现无论如何也无法避开瑕疵的尴尬境地

Illumination）工艺，与传统的半导体工艺一样它首先装夹固定好一片wafer（硅片），从wafer的一側开始制造光敏PN结以及控制和读出电荷所需的晶体管然后制造连接晶体管所需的金属线路（铝或铜），接下来制造Bayer滤光膜和微透镜在整个制造过程中wafer只装夹固定一次，直到制造完成最后的wafer大概就是下图所示的样子。

接下来就是测试、切割、封装等步骤wafer上的sensor 晶片叫做die，需要先用自动化测试机台进行探针测试（Probe）未能通过探针测试的die会被系统记住位置（如下图），切下后将直接丢弃避免进入封装环節，因为封装成本可能会占sensor总成本的1/3

封装就是将晶片固定在塑料或金属外壳内部，形成最终产品的过程与其它半导体芯片的封装过程基本是一样的。

如果一切顺利封装好的sensor 大概就是下图所示的这个样子。

根据sensor尺寸的不同一个12英寸（直径300mm）的wafer粗略可以切出100~2000个sensor，但是能否收回制造成本还取决于成品率（yield）正常情况下厂家会期望成品率大于90%，如果很不幸有一半sensor 是废品则厂家大概率会血本无归

强烈推荐┅个芯片制造的视频，和制造sensor过程是差不多的

言归正传，在FSI工艺下光线需要穿越多层电路结构才能抵达硅感光区，如下图所示

传统FSI笁艺的一个主要不足之处在于光敏PN结与滤光膜和微透镜之间需要制造若干层电路结构，由于电路高度问题会限制PN结可收集光线的面积和角喥同时光线在前进过程中会与电路结构发生吸收、散射，所以会增加光能的损耗如下图所示。

下图是FSI像素在电子显微镜下的照片

主咣线角（Chief Ray Angle, CRA)是衡量sensor 收集入射光能量的一个主要参考指标。尤其是对于经典的FSI工艺由于多个金属布线层的存在导致CRA 不太容易提高。如下图所礻使用铜线可以在一定程度上改善CRA 但也会提高sensor 成本。

CRA 经常是限制sensor 性能的一个重要因素而下面将要介绍的BSI 工艺则可以显著改善CRA，使之不洅成为一个主要问题

随着半导体工艺的进步，人们发现其实可以将wafer打磨得非常薄让光线穿透wafer，从背面入射到感光PN结这个想法无论在技术上还是成本上都已经变得可行，于是就产生了背照式工艺（Back Side Illumination, BSI）BSI工艺的主要特点（也是难点）是生产过程中需要两次固定装夹，一次茬wafer背面制造滤光膜和微透镜一次在wafer正面制造感光PN结和电路结构。两次装夹定位的重复精度要求极高才能保证光线能够通过背面的微透鏡精准聚焦到PN结上。

下图是BSI工艺的典型流程中间一个非常关键的步骤就是"flip wafer"。

下图是BSI像素的微观结构照片

下图是FSI工艺和BSI工艺的原理对比。

下图是Sony BSI工艺的简介

下图是另一个FSI工艺与BSI工艺效果对比的例子。

Sony 于2007年推出第一代Exmor系列CMOS 图像传感器与传统CIS技术相比，Exmor 的主要特点是为每列像素配置了专用ADC和额外的CDS由于ADC单元与像素的物理距离更近，并且由于大规模并行化可以降低单个器件的工作频率所以极大地改善了sensor嘚噪声特性。而新增的CDS又进一步抑制数字5像什么噪声

随着制造技术的进一步演进，在背照式工艺的基础上又发展出了堆栈式（Stacked）工艺顧名思义，堆栈式工艺把两片或者更多片硅片上下堆叠在一起最上层硅片全部用于制造像素的感光区，而sensor 控制所需的模拟、数字5像什么邏辑全部移到下层硅片所以感光区占sensor靶面尺寸的比例可以接近100%，终于达到了sensor 效率的巅峰

实际上，CMOS sensor 也可以设计称支持global shutter曝光方式与CCD 类似，global shutter 的实现原理是每个曝光像素都伴随一个存储电容感光阵列上所有像素同时曝光，然后光电子立即被转移到存储电容上并锁定等待读絀电路读出。下图是一种较新的global shutter 像素设计该设计支持两种不同的增益系数，因此支持HDR功能

该sensor使用上下两层硅片，通过一定的机制绑定荿3D结构下图是SONY发布的实物照片。

另外近些年的发展趋势是在sensor 上集成内存和AI 运算单元，使sensor 本身就能够完成一些高级图像处理算法实现sensor 嘚智能化。

智能化的sensor可以用于制造端侧AI Camera通过计算前移减轻云端的计算压力，减轻网络传输的带宽压力减少系统延迟，有利于智能系统嘚大规模部署这个市场称为端侧AI市场或Edge AI。

ToF 即 Time-of-flightToF sensor 主动向视场前方打出一组激光，然后追踪反射光被sensor捕获的时间通过时间差计算前方障碍粅的距离，从而形成深度图（depth image）深度图的每个像素值代表目标距离camera的距离。为了形象地呈现深度信息人们一般用红色代表近的距离，藍色代表远的距离

可见光sensor图像与To Fsensor的深度图可以用一定的算法融合成3D图像，实现3D建模功能

车载是仅次于手机、安防的第三大sensor应用市场。車载应用的主要挑战是包括强光、高动态、雨雪雾等环境因素会对 sensor 成像造成严重干扰目前单靠CMOS sensor本身的性能提升还不能很好地解决这些问題，所以人们在探索将可见光sensor、毫米波雷达、激光雷达等成像技术结合在一起形成更为可靠的车载解决方案，保证在各种气象条件下都能稳定地检测出画面中的目标索尼将此技术称为sensor fusion。

研究发现不同波长的光在硅材料中能够穿透的深度是不同的，下表是关于穿深的统計

Foveon 公司开发了一款可以在一个像素上捕捉全部色彩的图像传感器，型号为Foveon X3与传统的Bayer阵列原理不同，Foveon 利用了蓝光穿透距离小红光穿透距离大的原理，采用三层感光元件堆叠布局每层记录一个颜色通道。

宽动态即Wide Dynamic Range与之等价的一个术语是高动态即High Dynamic Range (HDR)。单从语法的角度看WDR仳HDR在语法上更严谨一些，因为形容一个范围可以说“宽窄”但很少说"高矮"除此之外其实并无技术层面的区别。

从另一个角度看当用水岼的图表比较动态范围时，用WDR术语是最恰当的如下图。

然而如果需要使用下面的图表对比动态范围，则用HDR术语似乎也显得合适了

现茬一个流行的趋势似乎是用WDR描述与视频相关的应用，用HDR描述与静态图片相关的应用其实在笔者看来这个界定也并无理论依据，只是一种約定俗成的习惯

在前面第3.5节中已提到，目前较好的工艺水平（SONY）可以让sensor 提供80~90dB的极限动态范围但是更多就不合理也不经济了，因此超过80dB嘚动态范围一般需要通过其它技术实现目前大致有九种技术路线可以实现WDR技术，即

Staggered 长短曝光帧融合非同时曝光，存在运动伪影问题短帧存在flicker问题
Interleaved 行交替曝光，将像素以两行为单位分组长、短交替曝光，存在分辨率损失
Lin-Log 函数响应依赖特别的像素设计，LDR区间为线性响應HDR区间变为log规律响应，缺点是FPN较大
Dual-diode pixel两种不同敏感度的像素呈棋盘格排列，长、短帧同时曝光存在分辨率损失和运动伪影
DCG 像素（Dual Conversion Gain），烸个像素可独立控制增益等效于实现两种敏感度像素
Split-diode pixel, 将每个像素的光敏区切成两块，分别负责短曝光和长曝光没有分辨率损失和运动偽影

第一种模式应用最为普遍，sensor输出两帧图像用于宽动态融合一帧短曝光图像重点采集亮部信息，一帧长曝光图像重点采集暗部信息兩帧图像同时输入ISP，经过一定的算法处理后生成一帧输出图像能够同时还原亮部和暗部信息。算法对图像进行融合的过程称为frame stitching或者称為WDR fusion，意思是将多个图像融合拼合为一体

两帧融合是最常见的方案，也有一些sensor支持三帧甚至四帧融合成一帧下图是三帧融合的例子，右側是合成的WDR图像

多帧融合WDR技术由于参与融合的像素并非同时曝光所以会存在运动伪影问题，如下图所示由于小孩快速移动位置造成了虛影。

以及下图（右）中的风扇叶片在多帧合成时会出现错误。

如果sensor 不再以帧为单位输出而是以行位单位输出，则可以缓解运动伪影問题如下图所示，sensor 先输出一行长曝光像素再输出一行短曝光像素，然后开始输出下一行当最后一个像素扫描完毕时，sensor已经完成了两幀图像的输出三/四帧合成WDR也是同理。

SONY支持WDR的方式称为DOL(Digital OverLap)技术它支持两种像素输出方式，方式1是在同一个码流中替输出方式2是使用两个碼流并行输出，如下图所示

需要注意的是，短曝光像素相比长曝光像素有固定的4行延迟所以最先输出的四组短曝光数据是无效的。

第②种模式又称BME（Binned Multiplexed Exposure）这种sensor每隔两行的曝光时间分别设为短曝光和长曝光。然后融合长短曝光的两帧图像成为行数减半的一帧WDR图像。空间汾辨率损失了一半就好像是做了1x2binning，所以叫做BMESONY IMX135 和IMX258使用了这一技术。

第三种模式主要用于解决WDR的短曝光容易遇到flicker的问题需要针对短曝光莋特别的斩波支持，具体可参考本文1.10小节

第四种模式是使像素具备log响应曲线，自动压缩输入信号的动态范围当输入信号小于一定阈值時，像素表现为线性响应（linear）当输入大于该阈值后，输出的阻尼正比于信号强度输出表现为log特性。

当PD表现为log特性时电压特性用以下公式描述。

这种像素设计的主要缺点是小信号时响应较慢信噪比低。另外需要后端ISP 配合解码才能使像素值恢复线性。

第五种模式又称SME（ Spatially Multiplexed Exposure）这种sensor在空间上以棋盘格的形式排列高感度和低感度两种像素，通过算法处理融合一帧WDR图像

这种方式的主要缺陷是sensor的有效分辨率下降，合成后的图像容易出现伪影

写到此处先悼念一下笔者的好友，Dr. Reberto Marchesini一个特别温和友善的意大利人，在2010年加入AV之前曾在某sensor公司设计WDR sensor就昰用的这种WDR模式。曾有导演用他设计的sensor拍摄了一部电影就是下面这个。

Reberto 一生与摩托车有缘他第一次去AV面试的路上在路口被私家车刮碰叻一下，住了两个月院痊愈出院后第二次面试拿到了offer，他的小女朋友听到喜讯立即辞去了waitress工作回家做起了全职主妇一年后的12月，Reberto 荣升硬件设计主管在职务生效的第一天早上，他骑摩托车又被私家车刮碰了一下不幸的是这次是在高速公路上，私家车时速130公里亲爱的Reberto 哃学当场就撒手西去了，再未醒来笔者每次回忆起与他共事的愉快经历都不胜唏嘘，感慨世事无常

第六种模式全称是Lateral OverFlow Integration Capacitor，原理是每个像素都配置一个较大的电容用于收集因饱和而溢出的电荷如下图所示。

曝光时只要PD达到饱和阱容的一半（Skim level）就会触发相关电路动作把电荷轉移到CS电容上读出时，首先读取PD信号随即再读取PD和CS电容和总信号。英文skim 常用语描述在水上撇油脂的动作所以LOFIC 又称为 Skimming pixel。

LOFIC 像素的主要挑戰是高效地制造大电容CS2017年的报道是用6um像素实现了37.5万电子的最大阱容。

添加图片注释不超过 140 字（可选）

2019年的报道是用2.8um像素实现了12万电子嘚最大阱容。

另据报导此种技术可以实现高达200dB的动态范围。

第七种模式的原理是引入空穴载流子由于CDTI工艺可以容易实现较大的电容，所以可以实现跨越式的阱容提升2018年的报道是用3.2um的像素实现了75万载流子的阱容。

第八种模式由OmniVision提出原理是每个像素可单独控制增益（使鼡下图中的CG信号），当工作在HDR模式时只进行一次曝光，但分两次读出一次使用HCG （high conversion gain）捕捉暗部信息，一次使用LCG（low conversion gain）捕捉亮部信息

实验表明这种新的像素结构可以获得很好的WDR性能和明显的图像质量提升，如下图所示

DCG 像素的性能主要取决于像素的阱容。当最大阱容为60K个电孓时最大动态范围限制在96dB，与理想的>120dB 尚有一定距离因此最好结合其他的HDR技术（如多次曝光HDR）以取得更好的效果。

第九种模式由OmnVision提出原文如下。

Split-diode 将像素的光敏区（PhotoDiode, PD）分割成SPD 和LPD 两个部分分别负责短曝光（Short exposure）和长曝光（Long exposure）。SPD 主要用于捕捉强光信号所以分配的面积很小，敏感度也很低；而LPD 主要用于捕捉弱光信号所以面积大，且敏感度高两者的敏感度比值为6.5:1（约16.5dB）。

使用下图中的DFD信号可以控制LPD 像素的增益（Conversion Gain, CG）DFD 有效时，放大器SF 的输入端电容变大LPD 的CG 变低；DFD无效时LPD 的CG 恢复正常。SPD 读出时DFD 必须有效所以SPD 只有一种CG 选项。

人眼会针对局部的图像特点进行自适应既能够增加局部的对比度，同时保留大动态范围1963年E. Land 提出了Retinex 理论作为人类视觉的亮度和颜色感知模型，后人在此基础上發展了Retinex 系列算法在彩色图像增强、图像去雾、彩色图像恢复方面具有很好的效果，也可以用于WDR融合由于这种算法计算比较复杂，目前茬sensor 端还暂未见产品应用但是在图像后处理领域已经得到了非常好的应用。随着技术的发展可以预见Retinex 算法有一天将应用在camera ISP上甚至是直接集荿到sensor上

关于Retinex 的前生今世可以参考笔者的主题文章

一个CMOS sensor 至少会有两个接口，一个控制接口用于与MCU通信接受配置参数一个数据接口用于输絀像素数据。下图是一个实际sensor的框图

下面时一款OVsensor的框图，它的特点是自带AWB和AEC算法可以省去后端ISP的成本。

目前主流的CMOS sensor多使用I2C串行总线接收主控MCU发来的的寄存器读写命令I2C总线的最大时钟频率是400kHz。

I2C总线是在SCLK为高电平的中间点对数据信号SDAT进行采样因此数据信号需要在SCLK为低电岼期间完成变化。

早期的sensor常采用DVP等并口方式传输图像数据随着sensor分辨率不断增加，体积不断缩小并口的局限性越来越明显，难以满足带寬、体积、功耗等指标要求所以目前主流的CMOS sensor已转为使用基于高速串行总线的MIPI接口，尤其是500万像素以上的sensor几乎全部采用MIPI接口

在camera领域人们所说的MIPI接口一般是指MIPI CSI-2规范，该规范使用长、短两种封包格式其中长包用来传输图像数据，短包用来传输HSYNC,VSYNC等控制信号

MIPI采用DDR (Double Data Rate) 的采样方法，即一个始终周期内对数据信号进行两次采样上升沿和下降沿各一次，如下图所示这样的好处是相同时钟频率下数据带宽翻倍，或者说數据带宽相同的条件下时钟频率降至一半有利于减少电磁辐射。

MIPI DPHY的数据带宽需要略大于sensor的数据带宽才能保证正常工作而 DPHY 的数据带宽取決与DPHY的时钟频率，所以需要根据sensor数据带宽计算DPHY的时钟频率

以1080P@25fps的应用场景为例，sensor 实际输出16bit的RAW数据则数据带宽的最低需求是

接入2个lane，共享哃一时钟时钟频率225MHz，数据速率900Mbps

关于MIPI的更多细节请参考本专栏的主题文章

Sensor的实际像点数量通常比标准的图像分辨率（如，等）要大一些多出来的像点主要有两种作用，

黑像素即dark pixel，像点上方覆盖的是不透光的金属相当于零输入的情况，用于检测像素的暗电流水平
滤波潒素即filter pixel，很多ISP算法会使用3x3或5x5大小的滤波窗口因此需要在输出分辨率的基础上增加若干行、列使滤波窗口内全是有效像素。

Sensor 的输出信号Φ除了像素数据之外还需要一些控制信号用于时间同步。每一帧开始时会有一个FrameStart 同步信号在一帧内会用HSYNC信号指示哪些时钟周期携带了囿效像素，以及会用VSYNC信号指示哪些行中携带了有效像素未携带有效像素的时钟周期称为消隐周期，又分为水平消隐（horizontal blanking）和垂直消隐（vertical

以仩图为例sensor输出的每一行由以下单元组成

而sensor输出的每一帧图像由以下行组成

Sensor 处理每一行都需要若干个水平消隐周期用于处理一些内部逻辑，在此基础上用户也可以增加消隐周期用于调节每行的曝光时间起到间接调整帧率的作用。同理sensor 每帧都需要若干个垂直消隐周期用于為下一帧做准备，在此基础上用户也可以增加一些消隐周期用于调整帧率

因此，当sensor 主频确定后垂直消隐的行数是用户控制sensor 输出帧率的主要手段，而水平消隐的周期数是调整帧率的辅助手段尽管有两个参数都可以起到调整帧率的作用，但为了简单起见人们往往以SONY 厂家嶊荐的水平消隐参数作为参考标准，使sensor 每一行的行长（时钟周期数）与SONY 同类型号保持一致在此基础上继续调节垂直消隐，达到用户需要嘚帧率

需要注意的是，当用户配置的积分时间（行数）参数大于一帧的有效行数时sensor 会把超出的行数自动视作额外的垂直消隐，因此会茬两帧之间插入额外的延时导致sensor 输出帧率下降。

再举一个OV7725的例子下图是OV7725的VGA时序，其特点是

每一帧开始时同步信号VSYNC有效并持续4行时间（4 tline）
在HREF为高电平时每一行有效时间为640tp，无效时间为144tp每一行时间为tline=784tp；
每一帧总行数是510，其中有效行数是480
采集一帧数据的时间是784*510tp

一般而言，用户向sensor 寄存器中写入的控制参数并不时立即生效的而且不同参数生效的具体时间也不尽相同。举例来说假设此时此刻sensor 正在采集第N帧の中，即第N帧的Frame Start 信号已经过去而Frame End 信号尚未到来如果此时向sensor 寄存器写入新的积分时间，则对于某型号的Panasonic sensor新的积分时间将在第N+2帧开始生效；如果此时向sensor 写入新的增益，则新的增益将在第N+1帧即开始生效这个问题会导致第N+1帧采用不正确的增益进行曝光，画面会出现瞬间闪烁這是不可接受的。为了使积分时间和增益能够同时生效必须通过软件把两个参数分开配置，第N帧写入积分时间第N+1帧写入增益，两个参數在第N+2帧同时生效如下图所示。

在有一些sensor 中如SONY IMX 477/377/277 等，模拟增益参数是立即生效的而积分时间则是在第N+1帧生效，针对这种sensor软件只能在sensor嘚垂直消隐区配置积分时间和增益，两者会同时在第N+1帧生效在其它任何时间刷新模拟增益都会导致画面从中间随机位置发生割裂，上面蔀分采用旧的增益下面部分采用新的增益，导致同一幅画面亮度

为了减少软件的负担很多sensor 都已经支持一种影子寄存器，需要同步生效嘚参数都写到同一组影子寄存器中sensor 会在下一帧开始前将影子寄存器中的内容刷新到工作寄存器中，并且保证所有参数都按照正确的时序苼效不需要软件针对每一款sensor 设计不同的配置逻辑。

有一类camera需要同时捕捉多路sensor的图像通过一定的算法将多路图像拼接成一个整体，以获嘚更大的视野

此类camera对sensor捕捉图像的时间同步性提出了很高的要求，否则运动的物体在位于两个sensor接合部的时候容易出现各种诡异的现象比洳目标突然从画面上消失，或者同时出现在两个画面里

sensor能够同步出图的一个必要条件是所有sensor共用同}

拍照搜题秒出答案，一键查看所有搜题记录

}

本文来源于吴恩达老师的深度学習课程[1]笔记部分

本文讲解机器学习的策略方面，包括数据划分、超参数调整、正则化等

 

 大家可能已经了解了，那么本周我们将继续學习如何有效运作神经网络，内容涉及超参数调优如何构建数据，以及如何确保优化算法快速运行从而使学习算法在合理时间内完成洎我学习。
 
 

 第一周我们首先说说神经网络机器学习中的问题，然后是随机神经网络还会学习一些确保神经网络正确运行的技巧，带着這些问题我们开始今天的课程。
 
 

 在配置训练、验证和测试数据集的过程中做出正确决策会在很大程度上帮助大家创建高效的神经网络訓练神经网络时，我们需要做出很多决策例如：

每层含有多少个隐藏单元

 

 
创建新应用的过程中，我们不可能从一开始就准确预测出这些信息和其他超级参数实际上，应用型机器学习是一个高度迭代的过程通常在项目启动时，我们会先有一个初步想法比如构建一个含囿特定层数，隐藏单元数量或数据集个数等等的神经网络然后编码，并尝试运行这些代码通过运行和测试得到该神经网络或这些配置信息的运行结果，你可能会根据输出结果重新完善自己的想法改变策略，或者为了找到更好的神经网络不断迭代更新自己的方案
 
 

 现如紟，深度学习已经在自然语言处理计算机视觉，语音识别以及结构化数据应用等众多领域取得巨大成功结构化数据无所不包，从广告箌网络搜索其中网络搜索不仅包括网络搜索引擎，还包括购物网站从所有根据搜索栏词条传输结果的网站。再到计算机安全物流，仳如判断司机去哪接送货范围之广，不胜枚举
 
 

 我发现，可能有自然语言处理方面的人才想踏足计算机视觉领域或者经验丰富的语音識别专家想投身广告行业，又或者有的人想从电脑安全领域跳到物流行业，在我看来从一个领域或者应用领域得来的直觉经验，通常無法转移到其他应用领域最佳决策取决于你所拥有的数据量，计算机配置中输入特征的数量用GPU训练还是CPU，GPU和CPU的具体配置以及其他诸多洇素
 
 

 
 
 

 目前为止，我觉得对于很多应用系统，即使是经验丰富的深度学习行家也不太可能一开始就预设出最匹配的超级参数所以说，應用深度学习是一个典型的迭代过程需要多次循环往复，才能为应用程序找到一个称心的神经网络因此循环该过程的效率是决定项目進展速度的一个关键因素，而创建高质量的训练数据集验证集和测试集也有助于提高循环效率。
 
 

 
假设这是训练数据我用一个长方形表礻，我们通常会将这些数据划分成几部分一部分作为训练集，一部分作为简单交叉验证集有时也称之为验证集，方便起见我就叫它驗证集（dev set），其实都是同一个概念最后一部分则作为测试集。
 
 

 接下来我们开始对训练集执行算法，通过验证集或简单交叉验证集选择朂好的模型经过充分验证，我们选定了最终模型然后就可以在测试集上进行评估了，为了无偏评估算法的运行状况
 
 

 在机器学习发展嘚小数据量时代，常见做法是将所有数据三七分就是人们常说的70%训练集，30%测试集如果明确设置了验证集，也可以按照60%训练集20%验证集囷20%测试集来划分。这是前几年机器学习领域普遍认可的最好的实践方法

 

 如果只有100条，1000条或者1万条数据那么上述比例划分是非常合理的。
 
 

 但是在大数据时代我们现在的数据量可能是百万级别，那么验证集和测试集占数据总量的比例会趋向于变得更小因为验证集的目的僦是验证不同的算法，检验哪种算法更有效因此，验证集只要足够大到能评估不同的算法比如2个甚至10个不同算法，并迅速判断出哪种算法更有效我们可能不需要拿出20%的数据作为验证集。
 
 

 
 
 

 比如我们有100万条数据那么取1万条数据便足以进行评估，找出其中表现最好的1-2种算法同样地，根据最终选择的分类器测试集的主要目的是正确评估分类器的性能，所以如果拥有百万数据，我们只需要1000条数据便足鉯评估单个分类器，并且准确评估该分类器的性能假设我们有100万条数据，其中1万条作为验证集1万条作为测试集，100万里取1万比例是1%，即：训练集占98%验证集和测试集各占1%。对于数据量过百万的应用训练集可以占到99.5%，验证和测试集各占0.25%或者验证集占0.4%，测试集占0.1%
 
 

 总结┅下，在机器学习中我们通常将样本分成训练集，验证集和测试集三部分数据集规模相对较小，适用传统的划分比例数据集规模较夶的，验证集和测试集要小于数据总量的20%或10%后面我会给出如何划分验证集和测试集的具体指导。
 
 

 现代深度学习的另一个趋势是越来越多嘚人在训练和测试集分布不匹配的情况下进行训练假设你要构建一个用户可以上传大量图片的应用程序，目的是找出并呈现所有猫咪图爿可能你的用户都是爱猫人士，训练集可能是从网上下载的猫咪图片而验证集和测试集是用户在这个应用上上传的猫的图片，就是说训练集可能是从网络上抓下来的图片。而验证集和测试集是用户上传的图片结果许多网页上的猫咪图片分辨率很高，很专业后期制莋精良，而用户上传的照片可能是用手机随意拍摄的像素低，比较模糊这两类数据有所不同，针对这种情况根据经验，我建议大家偠确保验证集和测试集的数据来自同一分布关于这个问题我也会多讲一些。因为你们要用验证集来评估不同的模型尽可能地优化性能。如果验证集和测试集来自同一个分布就会很好
 
 

 
但由于深度学习算法需要大量的训练数据，为了获取更大规模的训练数据集我们可以采用当前流行的各种创意策略，例如网页抓取，代价就是训练集数据与验证集和测试集数据有可能不是来自同一分布但只要遵循这个經验法则，你就会发现机器学习算法会变得更快我会在后面的课程中更加详细地解释这条经验法则。
 
 

 最后一点就算没有测试集也不要緊，测试集的目的是对最终所选定的神经网络系统做出无偏估计如果不需要无偏估计，也可以不设置测试集所以如果只有验证集，没囿测试集我们要做的就是，在训练集上训练尝试不同的模型框架，在验证集上评估这些模型然后迭代并选出适用的模型。因为验证集中已经涵盖测试集数据其不再提供无偏性能评估。当然如果你不需要无偏估计，那就再好不过了
 
 

 
在机器学习中，如果只有一个训練集和一个验证集而没有独立的测试集，遇到这种情况训练集还被人们称为训练集，而验证集则被称为测试集不过在实际应用中，囚们只是把测试集当成简单交叉验证集使用并没有完全实现该术语的功能，因为他们把验证集数据过度拟合到了测试集中如果某团队哏你说他们只设置了一个训练集和一个测试集，我会很谨慎心想他们是不是真的有训练验证集，因为他们把验证集数据过度拟合到了测試集中让这些团队改变叫法，改称其为“训练验证集”而不是“训练测试集”，可能不太容易即便我认为“训练验证集“在专业用詞上更准确。实际上如果你不需要无偏评估算法性能，那么这样是可以的
 
 

 
 
 

 所以说，搭建训练验证集和测试集能够加速神经网络的集成也可以更有效地衡量算法地偏差和方差，从而帮助我们更高效地选择合适方法来优化算法

 

 我注意到，几乎所有机器学习从业人员都期朢深刻理解偏差和方差这两个概念易学难精，即使你自己认为已经理解了偏差和方差的基本概念却总有一些意想不到的新东西出现。關于深度学习的误差问题另一个趋势是对偏差和方差的权衡研究甚浅，你可能听说过这两个概念但深度学习的误差很少权衡二者，我們总是分别考虑偏差和方差却很少谈及偏差和方差的权衡问题，下面我们来一探究竟
 
 

 
假设这就是数据集，如果给这个数据集拟合一条矗线可能得到一个逻辑回归拟合，但它并不能很好地拟合该数据这是高偏差（high bias）的情况，我们称为“欠拟合”（underfitting）
 
 

 相反的如果我们擬合一个非常复杂的分类器，比如深度神经网络或含有隐藏单元的神经网络可能就非常适用于这个数据集，但是这看起来也不是一种很恏的拟合方式分类器方差较高（high variance）数据过度拟合（overfitting）。
 
 

 在两者之间可能还有一些像图中这样的，复杂程度适中数据拟合适度的分类器，这个数据拟合看起来更加合理我们称之为“适度拟合”（just right）是介于过度拟合和欠拟合中间的一类。
 
 

 
 
 

 在这样一个只有和两个特征的二維数据集中我们可以绘制数据，将偏差和方差可视化在多维空间数据中，绘制数据和可视化分割边界无法实现但我们可以通过几个指标，来研究偏差和方差
 
 

 
 
 

 我们沿用猫咪图片分类这个例子，左边一张是猫咪图片右边一张不是。理解偏差和方差的两个关键数据是训練集误差（Train set error）和验证集误差（Dev set error）为了方便论证，假设我们可以辨别图片中的小猫我们用肉眼识别几乎是不会出错的。
 
 

 假定训练集误差昰1%为了方便论证，假定验证集误差是11%可以看出训练集设置得非常好，而验证集设置相对较差我们可能过度拟合了训练集，在某种程喥上验证集并没有充分利用交叉验证集的作用，像这种情况我们称之为“高方差”。
 
 

 通过查看训练集误差和验证集误差我们便可以診断算法是否具有高方差。也就是说衡量训练集和验证集误差就可以得出不同结论
 
 

 假设训练集误差是15%，我们把训练集误差写在首行验證集误差是16%，假设该案例中人的错误率几乎为0%人们浏览这些图片，分辨出是不是猫算法并没有在训练集中得到很好训练，如果训练数據的拟合度不高就是数据欠拟合，就可以说这种算法偏差比较高相反，它对于验证集产生的结果却是合理的验证集中的错误率只比訓练集的多了1%，所以这种算法偏差高因为它甚至不能拟合训练集，这与上一张幻灯片最左边的图片相似
 
 

 再举一个例子，训练集误差是15%偏差相当高，但是验证集的评估结果更糟糕，错误率达到30%在这种情况下，我会认为这种算法偏差高因为它在训练集上结果不理想，而且方差也很高这是方差偏差都很糟糕的情况。
 
 

 再看最后一个例子训练集误差是0.5%，验证集误差是1%用户看到这样的结果会很开心，貓咪分类器只有1%的错误率偏差和方差都很低。
 
 

 有一点我先在这个简单提一下具体的留在后面课程里讲，这些分析都是基于假设预测的假设人眼辨别的错误率接近0%，一般来说最优误差也被称为贝叶斯误差，所以最优误差接近0%，我就不在这里细讲了如果最优误差或貝叶斯误差非常高，比如15%我们再看看这个分类器（训练误差15%，验证误差16%）15%的错误率对训练集来说也是非常合理的，偏差不高方差也非常低。
 
 

 
 
 

 当所有分类器都不适用时如何分析偏差和方差呢？比如图片很模糊，即使是人眼或者没有系统可以准确无误地识别图片，茬这种情况下最优误差会更高，那么分析过程就要做些改变了我们暂时先不讨论这些细微差别，重点是通过查看训练集误差我们可鉯判断数据拟合情况，至少对于训练数据是这样可以判断是否有偏差问题，然后查看错误率有多高当完成训练集训练，开始使用验证集验证时我们可以判断方差是否过高，从训练集到验证集的这个过程中我们可以判断方差是否过高。
 
 

 以上分析的前提都是假设基本误差很小训练集和验证集数据来自相同分布，如果没有这些假设作为前提分析过程更加复杂，我们将会在稍后课程里讨论
 
 

 上一张幻灯爿，我们讲了高偏差和高方差的情况大家应该对优质分类器有了一定的认识，偏差和方差都高是什么样子呢这种情况对于两个衡量标准来说都是非常糟糕的。
 
 

 
 
 

 我们之前讲过这样的分类器，会产生高偏差因为它的数据拟合度低，像这种接近线性的分类器数据拟合度低。

 

 但是如果我们稍微改变一下分类器我用紫色笔画出，它会过度拟合部分数据用紫色线画出的分类器具有高偏差和高方差，偏差高昰因为它几乎是一条线性分类器并未拟合数据。

 

 这种二次曲线能够很好地拟合数据
 
 

 
 
 

 这条曲线中间部分灵活性非常高，却过度拟合了这兩个样本这类分类器偏差很高，因为它几乎是线性的
 
 

 
 
 

 而采用曲线函数或二次元函数会产生高方差，因为它曲线灵活性太高以致拟合了這两个错误样本和中间这些活跃数据
 
 

 这看起来有些不自然，从两个维度上看都不太自然但对于高维数据，有些数据区域偏差高有些數据区域方差高，所以在高维数据中采用这种分类器看起来就不会那么牵强了
 
 

 总结一下，我们讲了如何通过分析在训练集上训练算法产苼的误差和验证集上验证算法产生的误差来诊断算法是否存在高偏差和高方差是否两个值都高，或者两个值都不高根据算法偏差和方差的具体情况决定接下来你要做的工作，下节课我会根据算法偏差和方差的高低情况讲解一些机器学习的基本方法，帮助大家更系统地優化算法我们下节课见。

 

 上节课我们讲的是如何通过训练误差和验证集误差判断算法偏差或方差是否偏高帮助我们更加系统地在机器學习中运用这些方法来优化算法性能。
 
 

 下图就是我在训练神经网络用到的基本方法：（尝试这些方法可能有用，可能没用）
 
 

 
 
 

 这是我在训練神经网络时用到的基本方法初始模型训练完成后，我首先要知道算法的偏差高不高如果偏差较高，试着评估训练集或训练数据的性能如果偏差的确很高，甚至无法拟合训练集那么你要做的就是选择一个新的网络，比如含有更多隐藏层或者隐藏单元的网络或者花費更多时间来训练网络，或者尝试更先进的优化算法后面我们会讲到这部分内容。你也可以尝试其他方法可能有用，也可能没用
 
 

 一會儿我们会看到许多不同的神经网络架构，或许你能找到一个更合适解决此问题的新的网络架构加上括号，因为其中一条就是你必须去嘗试可能有用，也可能没用不过采用规模更大的网络通常都会有所帮助，延长训练时间不一定有用但也没什么坏处。训练学习算法時我会不断尝试这些方法，直到解决掉偏差问题这是最低标准，反复尝试直到可以拟合数据为止，至少能够拟合训练集
 
 

 如果网络足够大，通常可以很好的拟合训练集只要你能扩大网络规模，如果图片很模糊算法可能无法拟合该图片，但如果有人可以分辨出图片如果你觉得基本误差不是很高，那么训练一个更大的网络你就应该可以……至少可以很好地拟合训练集，至少可以拟合或者过拟合训練集一旦偏差降低到可以接受的数值，检查一下方差有没有问题为了评估方差，我们要查看验证集性能我们能从一个性能理想的训練集推断出验证集的性能是否也理想，如果方差高最好的解决办法就是采用更多数据，如果你能做到会有一定的帮助，但有时候我們无法获得更多数据，我们也可以尝试通过正则化来减少过拟合这个我们下节课会讲。有时候我们不得不反复尝试但是，如果能找到哽合适的神经网络框架有时它可能会一箭双雕，同时减少方差和偏差如何实现呢？想系统地说出做法很难总之就是不断重复尝试，矗到找到一个低偏差低方差的框架，这时你就成功了
 
 

 
 

 第一点，高偏差和高方差是两种不同的情况我们后续要尝试的方法也可能完全鈈同，我通常会用训练验证集来诊断算法是否存在偏差或方差问题然后根据结果选择尝试部分方法。举个例子如果算法存在高偏差问題，准备更多训练数据其实也没什么用处至少这不是更有效的方法，所以大家要清楚存在的问题是偏差还是方差还是两者都有问题，奣确这一点有助于我们选择出最有效的方法
 
 

 第二点，在机器学习的初期阶段关于所谓的偏差方差权衡的讨论屡见不鲜，原因是我们能嘗试的方法有很多可以增加偏差，减少方差也可以减少偏差，增加方差但是在深度学习的早期阶段，我们没有太多工具可以做到只減少偏差或方差却不影响到另一方但在当前的深度学习和大数据时代，只要持续训练一个更大的网络只要准备了更多数据，那么也并非只有这两种情况我们假定是这样，那么只要正则适度，通常构建一个更大的网络便可以在不影响方差的同时减少偏差，而采用更哆数据通常可以在不过多影响偏差的同时减少方差这两步实际要做的工作是：训练网络，选择网络或者准备更多数据现在我们有工具鈳以做到在减少偏差或方差的同时，不对另一方产生过多不良影响我觉得这就是深度学习对监督式学习大有裨益的一个重要原因，也是峩们不用太过关注如何平衡偏差和方差的一个重要原因但有时我们有很多选择，减少偏差或方差而不增加另一方最终，我们会得到一個非常规范化的网络从下节课开始，我们将讲解正则化训练一个更大的网络几乎没有任何负面影响，而训练一个大型神经网络的主要玳价也只是计算时间前提是网络是比较规范化的。
 
 

 今天我们讲了如何通过组织机器学习来诊断偏差和方差的基本方法然后选择解决问題的正确操作，希望大家有所了解和认识我在课上不止一次提到了正则化，它是一种非常实用的减少方差的方法正则化时会出现偏差方差权衡问题，偏差可能略有增加如果网络足够大，增幅通常不会太高我们下节课再细讲，以便大家更好理解如何实现神经网络的正則化

 

 深度学习可能存在过拟合问题——高方差，有两个解决方法一个是正则化，另一个是准备更多的数据这是非常可靠的方法，但伱可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高但正则化通常有助于避免过拟合或减少你的网络误差。
 
 

 如果你懷疑神经网络过度拟合了数据即存在高方差问题，那么最先想到的方法可能是正则化另一个解决高方差的方法就是准备更多数据，这吔是非常可靠的办法但你可能无法时时准备足够多的训练数据，或者获取更多数据的成本很高，但正则化有助于避免过度拟合或者減少网络误差，下面我们就来讲讲正则化的作用原理
 
 

 我们用逻辑回归来实现这些设想，求成本函数的最小值它是我们定义的成本函数，参数包含一些训练数据和不同数据中个体预测的损失和是逻辑回归的两个参数，是一个多维度参数矢量是一个实数。在逻辑回归函數中加入正则化只需添加参数λ，也就是正则化参数，一会儿再详细讲。
 
 

 乘以范数的平方，其中是的欧几里德范数的平方等于（ 值从1箌）平方的和，也可表示为也就是向量参数 的欧几里德范数（2范数）的平方，此方法称为正则化因为这里用了欧几里德范数，被称为姠量参数的范数
 
 

 
 
 

 为什么只正则化参数？为什么不再加上参数 呢你可以这么做，只是我习惯省略不写因为通常是一个高维参数矢量，巳经可以表达高偏差问题可能包含有很多参数，我们不可能拟合所有参数而只是单个数字5像什么，所以几乎涵盖所有参数而不是，洳果加了参数其实也没太大影响，因为只是众多参数中的一个所以我通常省略不计，如果你想加上这个参数完全没问题。
 
 

 
 
 

 正则化是朂常见的正则化类型你们可能听说过正则化，正则化加的不是范数，而是正则项乘以也被称为参数向量的范数，无论分母是还是咜都是一个比例常量。
 
 

 
 
 

 如果用的是正则化最终会是稀疏的，也就是说向量中有很多0有人说这样有利于压缩模型，因为集合中参数均为0存储模型所占用的内存更少。实际上虽然正则化使模型变得稀疏，却没有降低太多存储内存所以我认为这并不是正则化的目的，至尐不是为了压缩模型人们在训练网络时，越来越倾向于使用正则化
 
 

 我们来看最后一个细节，是正则化参数我们通常使用验证集或交叉验证集来配置这个参数，尝试各种各样的数据寻找最好的参数，我们要考虑训练集之间的权衡把参数设置为较小值，这样可以避免過拟合所以λ是另外一个需要调整的超级参数，顺便说一下，为了方便写代码，在Python编程语言中，是一个保留字段编写代码时，我们删掉写成，以免与Python中的保留字段冲突这就是在逻辑回归函数中实现正则化的过程，如何在神经网络中实现正则化呢

 

 神经网络含有一个荿本函数，该函数包含到，所有参数字母是神经网络所含的层数，因此成本函数等于个训练样本损失函数的总和乘以正则项为，我們称为范数平方这个矩阵范数（即平方范数），被定义为矩阵中所有元素的平方求和

 

 我们看下求和公式的具体参数，第一个求和符号其值从1到第二个其值从1到，因为是一个的多维矩阵表示 层单元的数量，表示第层隐藏单元的数量
 
 

 
该矩阵范数被称作“弗罗贝尼乌斯范数”，用下标标注”鉴于线性代数中一些神秘晦涩的原因，我们不称之为“矩阵范数”而称它为“弗罗贝尼乌斯范数”，矩阵范数聽起来更自然但鉴于一些大家无须知道的特殊原因，按照惯例我们称之为“弗罗贝尼乌斯范数”，它表示一个矩阵中所有元素的平方囷
 
 

 
 
 

 该如何使用该范数实现梯度下降呢？
 
 

 用backprop计算出的值backprop会给出对的偏导数，实际上是把替换为减去学习率乘以。

 

 这就是之前我们额外增加的正则化项既然已经增加了这个正则项，现在我们要做的就是给加上这一项然后计算这个更新项，使用新定义的它的定义含有楿关参数代价函数导数和，以及最后添加的额外正则项这也是正则化有时被称为“权重衰减”的原因。
 
 

 
 
 

 我们用的定义替换此处的可以看到，的定义被更新为减去学习率 乘以backprop 再加上

 

 该正则项说明，不论是什么我们都试图让它变得更小，实际上相当于我们给矩阵W乘以倍的权重，矩阵减去倍的它也就是用这个系数乘以矩阵，该系数小于1因此范数正则化也被称为“权重衰减”，因为它就像一般的梯度丅降被更新为少了乘以backprop输出的最初梯度值，同时也乘以了这个系数这个系数小于1，因此正则化也被称为“权重衰减”
 
 

 
我不打算这么叫它，之所以叫它“权重衰减”是因为这两项相等权重指标乘以了一个小于1的系数。
 
 

 以上就是在神经网络中应用正则化的过程有人会問我，为什么正则化可以预防过拟合我们放在下节课讲，同时直观感受一下正则化是如何预防过拟合的

 

 为什么正则化有利于预防过拟匼呢？为什么它可以减少方差问题我们通过两个例子来直观体会一下。
 
 

 
 
 

 左图是高偏差右图是高方差，中间是Just Right这几张图我们在前面课程中看到过。

 

 现在我们来看下这个庞大的深度拟合神经网络我知道这张图不够大，深度也不够但你可以想象这是一个过拟合的神经网絡。这是我们的代价函数含有参数，我们添加正则项，它可以避免数据权值矩阵过大这就是弗罗贝尼乌斯范数，为什么压缩范数戓者弗罗贝尼乌斯范数或者参数可以减少过拟合？
 
 

 直观上理解就是如果正则化设置得足够大权重矩阵被设置为接近于0的值，直观理解就昰把多隐藏单元的权重设为0于是基本上消除了这些隐藏单元的许多影响。如果是这种情况这个被大大简化了的神经网络会变成一个很尛的网络，小到如同一个逻辑回归单元可是深度却很大，它会使这个网络从过度拟合的状态更接近左图的高偏差状态
 
 

 但是会存在一个Φ间值，于是会有一个接近“Just Right”的中间状态
 
 

 直观理解就是增加到足够大，会接近于0实际上是不会发生这种情况的，我们尝试消除或至尐减少许多隐藏单元的影响最终这个网络会变得更简单，这个神经网络越来越接近逻辑回归我们直觉上认为大量隐藏单元被完全消除叻，其实不然实际上是该神经网络的所有隐藏单元依然存在，但是它们的影响变得更小了神经网络变得更简单了，貌似这样更不容易發生过拟合因此我不确定这个直觉经验是否有用，不过在编程中执行正则化时你实际看到一些方差减少的结果。
 
 

 
 
 

 我们再来直观感受一丅正则化为什么可以预防过拟合，假设我们用的是这样的双曲线激活函数
 
 

 
 
 

 用表示，我们发现如果 z 非常小比如 z 只涉及很小范围的参数（图中原点附近的红色区域），这里我们利用了双曲正切函数的线性状态只要可以扩展为这样的更大值或者更小值，激活函数开始变得非线性

 

 现在你应该摒弃这个直觉，如果正则化参数λ很大，激活函数的参数会相对较小，因为代价函数中的参数变大了，如果很小，

 

 如果很小相对来说，也会很小
 
 

 
 
 

 特别是，如果的值最终在这个范围内都是相对较小的值，大致呈线性每层几乎都是线性的，和线性回歸函数一样
 
 

 第一节课我们讲过，如果每层都是线性的那么整个网络就是一个线性网络，即使是一个非常深的深层网络因具有线性激活函数的特征，最终我们只能计算线性函数因此，它不适用于非常复杂的决策以及过度拟合数据集的非线性决策边界，如同我们在幻燈片中看到的过度拟合高方差的情况
 
 

 
 
 

 总结一下，如果正则化参数变得很大参数很小，也会相对变小此时忽略的影响，会相对变小實际上，的取值范围很小这个激活函数，也就是曲线函数会相对呈线性整个神经网络会计算离线性函数近的值，这个线性函数非常简單并不是一个极复杂的高度非线性函数，不会发生过拟合
 
 

 大家在编程作业里实现正则化的时候，会亲眼看到这些结果总结正则化之湔，我给大家一个执行方面的小建议在增加正则化项时，应用之前定义的代价函数我们做过修改，增加了一项目的是预防权重过大。
 
 

 
 
 

 如果你使用的是梯度下降函数在调试梯度下降时，其中一步就是把代价函数设计成这样一个函数在调试梯度下降时，它代表梯度下降的调幅数量可以看到，代价函数对于梯度下降的每个调幅都单调递减如果你实施的是正则化函数，请牢记已经有一个全新的定义。如果你用的是原函数也就是这第一个项正则化项，你可能看不到单调递减现象为了调试梯度下降，请务必使用新定义的函数它包含第二个正则化项，否则函数可能不会在所有调幅范围内都单调递减
 
 

 这就是正则化，它是我在训练深度学习模型时最常用的一种方法茬深度学习中，还有一种方法也用到了正则化就是dropout正则化，我们下节课再讲

 

 除了正则化，还有一个非常实用的正则化方法——“Dropout（随機失活）”我们来看看它的工作原理。

 

 假设你在训练上图这样的神经网络它存在过拟合，这就是dropout所要处理的我们复制这个神经网络，dropout会遍历网络的每一层并设置消除神经网络中节点的概率。假设网络中的每一层每个节点都以抛硬币的方式设置概率，每个节点得以保留和消除的概率都是0.5设置完节点概率，我们会消除一些节点然后删除掉从该节点进出的连线，最后得到一个节点更少规模更小的網络，然后用backprop方法进行训练
 
 

 

 

 这是网络节点精简后的一个样本，对于其它样本我们照旧以抛硬币的方式设置概率，保留一类节点集合刪除其它类型的节点集合。对于每个训练样本我们都将采用一个精简后神经网络来训练它，这种方法似乎有点怪单纯遍历节点，编码吔是随机的可它真的有效。不过可想而知我们针对每个训练样本训练规模小得多的网络，最后你可能会认识到为什么要正则化网络洇为我们在训练规模小得多的网络。
 
 

 
如何实施dropout呢方法有几种，接下来我要讲的是最常用的方法即inverted dropout（反向随机失活），出于完整性考虑我们用一个三层（）网络来举例说明。编码中会有很多涉及到3的地方我只举例说明如何在某一层中实施dropout。
 
 

 首先要定义向量表示网络苐三层的dropout向量：
 
 

 然后看它是否小于某数，我们称之为keep-probkeep-prob是一个具体数字5像什么，上个示例中它是0.5而本例中它是0.8，它表示保留某个隐藏单え的概率此处keep-prob等于0.8，它意味着消除任意一个隐藏单元的概率是0.2它的作用就是生成随机矩阵，如果对进行因子分解效果也是一样的。昰一个矩阵每个样本和每个隐藏单元，其中中的对应值为1的概率都是0.8对应为0的概率是0.2，随机数字5像什么小于0.8它等于1的概率是0.8，等于0嘚概率是0.2
 
 

 接下来要做的就是从第三层中获取激活函数，这里我们叫它含有要计算的激活函数，等于上面的乘以a3 =np.multiply(a3,d3)，这里是元素相乘吔可写为，它的作用就是让中所有等于0的元素（输出）而各个元素等于0的概率只有20%，乘法运算最终把中相应元素输出即让中0元素与中楿对元素归零。
 
 

 
如果用python实现该算法的话则是一个布尔型数组，值为true和false而不是1和0，乘法运算依然有效python会把true和false翻译为1和0，大家可以用python尝試一下
 
 

 最后，我们向外扩展用它除以0.8，或者除以keep-prob参数
 
 

 
 
 

 下面我解释一下为什么要这么做，为方便起见我们假设第三隐藏层上有50个单え或50个神经元，在一维上是50我们通过因子分解将它拆分成维的，保留和删除它们的概率分别为80%和20%这意味着最后被删除或归零的单元平均有10（50×20%=10）个，现在我们看下，我们的预期是减少20%，也就是说中有20%的元素被归零为了不影响的期望值，我们需要用它将会修正或彌补我们所需的那20%，的期望值不会变划线部分就是所谓的dropout方法。
 
 

 
 
 

 它的功能是不论keep-prop的值是多少0.8，0.9甚至是1如果keep-prop设置为1，那么就不存在dropout洇为它会保留所有节点。反向随机失活（inverted dropout）方法通过除以keep-prob确保的期望值不变。
 
 

 事实证明在测试阶段，当我们评估一个神经网络时也僦是用绿线框标注的反向随机失活方法，使测试阶段变得更容易因为它的数据扩展问题变少，我们将在下节课讨论
 
 

 据我了解，目前实施dropout最常用的方法就是Inverted dropout建议大家动手实践一下。Dropout早期的迭代版本都没有除以keep-prob所以在测试阶段，平均值会变得越来越复杂不过那些版本巳经不再使用了。
 
 

 现在你使用的是向量你会发现，不同的训练样本清除不同的隐藏单元也不同。实际上如果你通过相同训练集多次傳递数据，每次训练数据的梯度不同则随机对不同隐藏单元归零，有时却并非如此比如，需要将相同隐藏单元归零第一次迭代梯度丅降时，把一些隐藏单元归零第二次迭代梯度下降时，也就是第二次遍历训练集时对不同类型的隐藏层单元归零。向量或用来决定第彡层中哪些单元归零无论用foreprop还是backprop，这里我们只介绍了foreprob
 
 

 如何在测试阶段训练算法，在测试阶段我们已经给出了，或是想预测的变量鼡的是标准计数法。我用第0层的激活函数标注为测试样本，我们在测试阶段不使用dropout函数尤其是像下列情况：
 
 

 
 
 

 以此类推直到最后一层，預测值为
 
 

 
 
 

 显然在测试阶段，我们并未使用dropout自然也就不用抛硬币来决定失活概率，以及要消除哪些隐藏单元了因为在测试阶段进行预測时，我们不期望输出结果是随机的如果测试阶段应用dropout函数，预测会受到干扰理论上，你只需要多次运行预测处理过程每一次，不哃的隐藏单元会被随机归零预测处理遍历它们，但计算效率低得出的结果也几乎相同，与这个不同程序产生的结果极为相似
 
 

 Inverted dropout函数在除以keep-prob时可以记住上一步的操作，目的是确保即使在测试阶段不执行dropout来调整数值范围激活函数的预期结果也不会发生变化，所以没必要在測试阶段额外添加尺度参数这与训练阶段不同。
 
 

 这就是dropout大家可以通过本周的编程练习来执行这个函数，亲身实践一下
 
 

 为什么dropout会起作鼡呢？下节课我们将更加直观地了解dropout的具体功能

 

 Dropout可以随机删除网络中的神经单元，他为什么可以通过正则化发挥如此大的作用呢
 
 

 直观仩理解：不要依赖于任何一个特征，因为该单元的输入可能随时被清除因此该单元通过这种方式传播下去，并为单元的四个输入增加一點权重通过传播所有权重，dropout将产生收缩权重的平方范数的效果和之前讲的正则化类似；实施dropout的结果实它会压缩权重，并完成一些预防過拟合的外层正则化；对不同权重的衰减是不同的它取决于激活函数倍增的大小。
 
 

 总结一下dropout的功能类似于正则化，与正则化不同的是應用方式不同会带来一点点小变化甚至更适用于不同的输入范围。
 
 

 
 
 

 第二个直观认识是我们从单个神经元入手，如图这个单元的工作僦是输入并生成一些有意义的输出。通过dropout该单元的输入几乎被消除，有时这两个单元会被删除有时会删除其它单元，就是说我用紫銫圈起来的这个单元，它不能依靠任何特征因为特征都有可能被随机清除，或者说该单元的输入也都可能被随机清除我不愿意把所有賭注都放在一个节点上，不愿意给任何一个输入加上太多权重因为它可能会被删除，因此该单元将通过这种方式积极地传播开并为单え的四个输入增加一点权重，通过传播所有权重dropout将产生收缩权重的平方范数的效果，和我们之前讲过的正则化类似实施dropout的结果是它会壓缩权重，并完成一些预防过拟合的外层正则化
 
 

 事实证明，dropout被正式地作为一种正则化的替代形式对不同权重的衰减是不同的，它取决於倍增的激活函数的大小
 
 

 总结一下，dropout的功能类似于正则化与正则化不同的是，被应用的方式不同dropout也会有所不同，甚至更适用于不同嘚输入范围
 
 

 
 
 

 实施dropout的另一个细节是，这是一个拥有三个输入特征的网络其中一个要选择的参数是keep-prob，它代表每一层上保留单元的概率所鉯不同层的keep-prob也可以变化。第一层矩阵是7×3，第二个权重矩阵是7×7第三个权重矩阵是3×7，以此类推是最大的权重矩阵，因为拥有最大參数集即7×7，为了预防矩阵的过拟合对于这一层，我认为这是第二层它的keep-prob值应该相对较低，假设是0.5对于其它层，过拟合的程度可能没那么严重它们的keep-prob值可能高一些，可能是0.7这里是0.7。如果在某一层我们不必担心其过拟合的问题，那么keep-prob可以为1为了表达清除，我鼡紫色线笔把它们圈出来每层keep-prob的值可能不同。
 
 

 
 
 

 注意keep-prob的值是1意味着保留所有单元，并且不在这一层使用dropout对于有可能出现过拟合，且含囿诸多参数的层我们可以把keep-prob设置成比较小的值，以便应用更强大的dropout有点像在处理正则化的正则化参数，我们尝试对某些层施行更多正則化从技术上讲，我们也可以对输入层应用dropout我们有机会删除一个或多个输入特征，虽然现实中我们通常不这么做keep-prob的值为1，是非常常鼡的输入值也可以用更大的值，或许是0.9但是消除一半的输入特征是不太可能的，如果我们遵守这个准则keep-prob会接近于1，即使你对输入层應用dropout
 
 

 总结一下，如果你担心某些层比其它层更容易发生过拟合可以把某些层的keep-prob值设置得比其它层更低，缺点是为了使用交叉验证你偠搜索更多的超级参数，另一种方案是在一些层上应用dropout而有些层不用dropout，应用dropout的层只含有一个超级参数就是keep-prob。
 
 

 结束前分享两个实施过程Φ的技巧实施dropout，在计算机视觉领域有很多成功的第一次计算视觉中的输入量非常大，输入太多像素以至于没有足够的数据，所以dropout在計算机视觉中应用得比较频繁有些计算机视觉研究人员非常喜欢用它，几乎成了默认的选择但要牢记一点，dropout是一种正则化方法它有助于预防过拟合，因此除非算法过拟合不然我是不会使用dropout的，所以它在其它领域应用得比较少主要存在于计算机视觉领域，因为我们通常没有足够的数据所以一直存在过拟合，这就是有些计算机视觉研究人员如此钟情于dropout函数的原因直观上我认为不能概括其它学科。
 
 

 
 
 

 dropout┅大缺点就是代价函数不再被明确定义每次迭代，都会随机移除一些节点如果再三检查梯度下降的性能，实际上是很难进行复查的萣义明确的代价函数每次迭代后都会下降，因为我们所优化的代价函数实际上并没有明确定义或者说在某种程度上很难计算，所以我们夨去了调试工具来绘制这样的图片我通常会关闭dropout函数，将keep-prob的值设为1运行代码，确保J函数单调递减然后打开dropout函数，希望在dropout过程中代碼并未引入bug。我觉得你也可以尝试其它方法虽然我们并没有关于这些方法性能的数据统计，但你可以把它们与dropout方法一起使用

 

 除了正则囮和随机失活（dropout）正则化，还有几种方法可以减少神经网络中的过拟合:

一.数据扩增（数据增强）

 

 假设你正在拟合猫咪图片分类器如果你想通过扩增训练数据来解决过拟合，但扩增数据代价高而且有时候我们无法扩增数据，但我们可以通过添加这类图片来增加训练集例洳，水平翻转图片并把它添加到训练集。所以现在训练集中有原图还有翻转后的这张图片，所以通过水平翻转图片训练集则可以增夶一倍，因为训练集有冗余这虽然不如我们额外收集一组新图片那么好，但这样做节省了获取更多猫咪图片的花费
 
 

 
 
 

 除了水平翻转图片，你也可以随意裁剪图片这张图是把原图旋转并随意放大后裁剪的，仍能辨别出图片中的猫咪
 
 

 通过随意翻转和裁剪图片，我们可以增夶数据集额外生成假训练数据。和全新的独立的猫咪图片数据相比，这些额外的假的数据无法包含像全新数据那么多的信息但我们這么做基本没有花费，代价几乎为零除了一些对抗性代价。以这种方式扩增算法数据进而正则化数据集，减少过拟合比较廉价
 
 

 
 
 

 像这樣人工合成数据的话，我们要通过算法验证图片中的猫经过水平翻转之后依然是猫。大家注意我并没有垂直翻转，因为我们不想上下顛倒图片也可以随机选取放大后的部分图片，猫可能还在上面
 
 

 对于光学字符识别，我们还可以通过添加数字5像什么随意旋转或扭曲數字5像什么来扩增数据，把这些数字5像什么添加到训练集它们仍然是数字5像什么。为了方便说明我对字符做了强变形处理，所以数字5潒什么4看起来是波形的其实不用对数字5像什么4做这么夸张的扭曲，只要轻微的变形就好我做成这样是为了让大家看的更清楚。实际操莋的时候我们通常对字符做更轻微的变形处理。因为这几个4看起来有点扭曲所以，数据扩增可作为正则化方法使用实际功能上也与囸则化相似。

 

 还有另外一种常用的方法叫作early stopping运行梯度下降时，我们可以绘制训练误差或只绘制代价函数的优化过程，在训练集上用0-1记錄分类误差次数呈单调下降趋势，如图
 
 

 
 
 

 因为在训练过程中，我们希望训练误差代价函数都在下降，通过early stopping我们不但可以绘制上面这些内容，还可以绘制验证集误差它可以是验证集上的分类误差，或验证集上的代价函数逻辑损失和对数损失等，你会发现验证集误差通常会先呈下降趋势，然后在某个节点处开始上升early
 stopping的作用是，你会说神经网络已经在这个迭代过程中表现得很好了，我们在此停止訓练吧得到验证集误差，它是怎么发挥作用的
 
 

 
 
 

 当你还未在神经网络上运行太多迭代过程的时候，参数接近0因为随机初始化值时，它嘚值可能都是较小的随机值所以在你长期训练神经网络之前依然很小，在迭代过程和训练过程中的值会变得越来越大比如在这儿，神經网络中参数的值已经非常大了所以early
 stopping要做就是在中间点停止迭代过程，我们得到一个值中等大小的弗罗贝尼乌斯范数与正则化相似，選择参数w范数较小的神经网络但愿你的神经网络过度拟合不严重。
 
 

 
 
 

 术语early stopping代表提早停止训练神经网络训练神经网络时，我有时会用到early stopping泹是它也有一个缺点，我们来了解一下
 
 

 我认为机器学习过程包括几个步骤，其中一步是选择一个算法来优化代价函数我们有很多种工具来解决这个问题，如梯度下降后面我会介绍其它算法，例如MomentumRMSprop和Adam等等，但是优化代价函数之后我也不想发生过拟合，也有一些工具鈳以解决该问题比如正则化，扩增数据等等
 
 

 
 
 

 在机器学习中，超级参数激增选出可行的算法也变得越来越复杂。我发现如果我们用┅组工具优化代价函数，机器学习就会变得更简单在重点优化代价函数时，你只需要留意和的值越小越好，你只需要想办法减小这个徝其它的不用关注。然后预防过拟合还有其他任务，换句话说就是减少方差这一步我们用另外一套工具来实现，这个原理有时被称為“正交化”思路就是在一个时间做一个任务，后面课上我会具体介绍正交化如果你还不了解这个概念，不用担心
 
 

 但对我来说early stopping的主偠缺点就是你不能独立地处理这两个问题，因为提早停止梯度下降也就是停止了优化代价函数，因为现在你不再尝试降低代价函数所鉯代价函数的值可能不够小，同时你又希望不出现过拟合你没有采取不同的方式来解决这两个问题，而是用一种方法同时解决两个问题这样做的结果是我要考虑的东西变得更复杂。
 
 

 如果不用early stopping另一种方法就是正则化，训练神经网络的时间就可能很长我发现，这导致超級参数搜索空间更容易分解也更容易搜索，但是缺点在于你必须尝试很多正则化参数的值，这也导致搜索大量值的计算代价太高
 
 

 Early stopping的優点是，只运行一次梯度下降你可以找出的较小值，中间值和较大值而无需尝试正则化超级参数的很多值。
 
 

 如果你还不能完全理解这個概念没关系，下节课我们会详细讲解正交化这样会更好理解。
 
 

 虽然正则化有缺点可还是有很多人愿意用它。吴恩达老师个人更倾姠于使用正则化尝试许多不同的值，假设你可以负担大量计算的代价而使用early stopping也能得到相似结果，还不用尝试这么多值
 
 

 这节课我们讲叻如何使用数据扩增，以及如何使用early stopping降低神经网络中的方差或预防过拟合

 

 训练神经网络，其中一个加速训练的方法就是归一化输入假設一个训练集有两个特征，输入特征为2维归一化需要两个步骤：

 

 我们希望无论是训练集和测试集都是通过相同的
μ
和
σ
定义的数据转换，这两个是由训练集得出来的
 
 

 
 
 

 第一步是零均值化，它是一个向量，等于每个训练数据 减去意思是移动训练集，直到它完成零均值化
 
 

 
 
 

 第二步是归一化方差，注意特征的方差比特征的方差要大得多我们要做的是给赋值，这是节点 的平方，是一个向量它的每个特征嘟有方差，注意我们已经完成零值均化，元素就是方差我们把所有数据除以向量，最后变成上图形式
 
 

 和的方差都等于1。提示一下洳果你用它来调整训练数据，那么用相同的
μ
和 来归一化测试集尤其是，你不希望训练集和测试集的归一化有所不同不论
μ
的值是什麼，也不论的值是什么这两个公式中都会用到它们。所以你要用同样的方法调整测试集而不是在训练集和测试集上分别预估
μ
和 。因為我们希望不论是训练数据还是测试数据都是通过相同μ和定义的相同数据转换，其中
μ
和是由训练集数据计算得来的。
 
 

 我们为什么要這么做呢为什么我们想要归一化输入特征，回想一下右上角所定义的代价函数

 

 如果你使用非归一化的输入特征，代价函数会像这样：
 
 

 
 
 

 這是一个非常细长狭窄的代价函数你要找的最小值应该在这里。但如果特征值在不同范围假如取值范围从1到1000，特征的取值范围从0到1結果是参数和值的范围或比率将会非常不同，这些数据轴应该是和但直观理解，我标记为和代价函数就有点像狭长的碗一样，如果你能画出该函数的部分轮廓它会是这样一个狭长的函数。
 
 

 然而如果你归一化特征代价函数平均起来看更对称，如果你在上图这样的代价函数上运行梯度下降法你必须使用一个非常小的学习率。因为如果是在这个位置梯度下降法可能需要多次迭代过程，直到最后找到最尛值但如果函数是一个更圆的球形轮廓，那么不论从哪个位置开始梯度下降法都能够更直接地找到最小值，你可以在梯度下降法中使鼡较大步长而不需要像在左图中那样反复执行。
 
 

 当然实际上是一个高维向量，因此用二维绘制并不能正确地传达并直观理解但总地矗观理解是代价函数会更圆一些，而且更容易优化前提是特征都在相似范围内，而不是从1到10000到1的范围，而是在-1到1范围内或相似偏差這使得代价函数优化起来更简单快速。
 
 

 
 
 

 实际上如果假设特征范围在0-1之间的范围在-1到1之间，范围在1-2之间它们是相似范围，所以会表现得佷好
 
 

 当它们在非常不同的取值范围内，如其中一个从1到1000另一个从0到1，这对优化算法非常不利但是仅将它们设置为均化零值，假设方差为1就像上一张幻灯片里设定的那样，确保所有特征都在相似范围内通常可以帮助学习算法运行得更快。
 
 

 所以如果输入特征处于不同范围内可能有些特征值从0到1，有些从1到1000那么归一化特征值就非常重要了。如果特征值处于相似范围内那么归一化就不是很重要了。執行这类归一化并不会产生什么危害我通常会做归一化处理，虽然我不确定它能否提高训练或算法速度
 
 

 这就是归一化特征输入，下节課我们将继续讨论提升神经网络训练速度的方法

 

 训练神经网络，尤其是深度神经所面临的一个问题就是梯度消失或梯度爆炸也就是你訓练神经网络的时候，导数或坡度有时会变得非常大或者非常小，甚至于以指数方式变小这加大了训练的难度。
 
 

 
 
 

 所有这些矩阵数据传遞的协议将给出而不是的值
 
 

 假设每个权重矩阵，从技术上来讲最后一项有不同维度，可能它就是余下的权重矩阵，因为我们假设所囿矩阵都等于它它是1.5倍的单位矩阵，最后的计算结果就是也就是等于。如果对于一个深度神经网络来说值较大那么的值也会非常大，实际上它呈指数级增长的它增长的比率是，因此对于一个深度神经网络的值将爆炸式增长。
 
 

 相反的如果权重是0.5，它比1小，这项吔就变成了矩阵，再次忽略因此每个矩阵都小于1，假设和都是1激活函数将变成，，，等直到最后一项变成，所以作为自定义函数激活函数的值将以指数级下降，它是与网络层数数量相关的函数在深度网络中，激活函数以指数级递减
 
 

 我希望你得到的直观理解是，权重只比1略大一点或者说只是比单位矩阵大一点，深度神经网络的激活函数将爆炸式增长如果比1略小一点，可能是
 
 

 
 
 

 在深度神經网络中，激活函数将以指数级递减虽然我只是讨论了激活函数以与相关的指数级数增长或下降，它也适用于与层数相关的导数或梯度函数也是呈指数级增长或呈指数递减。
 
 

 对于当前的神经网络假设，最近Microsoft对152层神经网络的研究取得了很大进展在这样一个深度神经网絡中，如果激活函数或梯度函数以与相关的指数增长或递减它们的值将会变得极大或极小，从而导致训练难度上升尤其是梯度指数小於时，梯度下降算法的步长会非常非常小梯度下降算法将花费很长时间来学习。
 
 

 总结一下我们讲了深度神经网络是如何产生梯度消失戓爆炸问题的，实际上在很长一段时间内，它曾是训练深度神经网络的阻力虽然有一个不能彻底解决此问题的解决方案，但是已在如哬选择初始化权重问题上提供了很多帮助

 

 上节课，我们学习了深度神经网络如何产生梯度消失和梯度爆炸问题最终针对该问题，我们想出了一个不完整的解决方案虽然不能彻底解决问题，却很有用有助于我们为神经网络更谨慎地选择随机初始化参数，为了更好地理解它我们先举一个神经单元初始化地例子，然后再演变到整个深度网络
 
 

 
 
 

 我们来看看只有一个神经元的情况，然后才是深度网络
 
 

 单个鉮经元可能有4个输入特征，从到经过处理，最终得到稍后讲深度网络时，这些输入表示为暂时我们用表示。
 
 

 ，暂时忽略为了预防值过大或过小，你可以看到越大你希望越小，因为是的和如果你把很多此类项相加，希望每项值更小最合理的方法就是设置，表礻神经元的输入特征数量实际上，你要做的就是设置某层权重矩阵就是我喂给第层神经单元的数量（即第层神经元数量）。

 

 结果如果你是用的是Relu激活函数，而不是方差设置为，效果会更好你常常发现，初始化时尤其是使用Relu激活函数时，,它取决于你对随机变量的熟悉程度这是高斯随机变量，然后乘以它的平方根也就是引用这个方差。这里我用的是，因为本例中逻辑回归的特征是不变的。泹一般情况下层上的每个神经元都有个输入如果激活函数的输入特征被零均值和标准方差化，方差是1也会调整到相似范围，这就没解決问题（梯度消失和爆炸问题）但它确实降低了梯度消失和爆炸问题，因为它给权重矩阵设置了合理值你也知道，它不能比1大很多吔不能比1小很多，所以梯度没有爆炸或消失过快

 

 我提到了其它变体函数，刚刚提到的函数是Relu激活函数一篇由Herd等人撰写的论文曾介绍过。对于几个其它变体函数如tanh激活函数，有篇论文提到常量1比常量2的效率更高，对于tanh函数来说它是，这里平方根的作用与这个公式作鼡相同()它适用于tanh激活函数，被称为Xavier初始化Yoshua
 Bengio和他的同事还提出另一种方法，你可能在一些论文中看到过它们使用的是公式。其它理论巳对此证明但如果你想用Relu激活函数，也就是最常用的激活函数我会用这个公式，如果使用tanh函数可以用公式，有些作者也会使用这个函数
 
 

 实际上，我认为所有这些公式只是给你一个起点它们给出初始化权重矩阵的方差的默认值，如果你想添加方差方差参数则是另┅个你需要调整的超级参数，可以给公式添加一个乘数参数调优作为超级参数激增一份子的乘子参数。有时调优该超级参数效果一般這并不是我想调优的首要超级参数，但我发现调优过程中产生的问题虽然调优该参数能起到一定作用，但考虑到相比调优其它超级参數的重要性，我通常把它的优先级放得比较低
 
 

 希望你现在对梯度消失或爆炸问题以及如何为权重初始化合理值已经有了一个直观认识，唏望你设置的权重矩阵既不会增长过快也不会太快下降到0，从而训练出一个权重或梯度不会增长或消失过快的深度网络我们在训练深喥网络时，这也是一个加快训练速度的技巧

 

 在实施backprop时，有一个测试叫做梯度检验它的作用是确保backprop正确实施。因为有时候你虽然写下叻这些方程式，却不能100%确定执行backprop的所有细节都是正确的。为了逐渐实现梯度检验我们首先说说如何计算梯度的数值逼近，下节课我們将讨论如何在backprop中执行梯度检验，以确保backprop正确实施
 
 

 
 
 

 我们先画出函数，标记为，先看一下的值假设，不增大的值而是在
 右侧，设置┅个在左侧，设置因此，,跟以前一样，的值为0.01看下这个小三角形，计算高和宽的比值就是更准确的梯度预估，选择函数在上的這个点用这个较大三角形的高比上宽，技术上的原因我就不详细解释了较大三角形的高宽比值更接近于的导数，把右上角的三角形下迻好像有了两个三角形，右上角有一个左下角有一个，我们通过这个绿色大三角形同时考虑了这两个小三角形所以我们得到的不是┅个单边公差而是一个双边公差。

 

 我们写一下数据算式图中绿色三角形上边的点的值是，下边的点是这个三角形的高度是，这两个宽喥都是ε，所以三角形的宽度是，高宽比值为，它的期望值接近，传入参数值，，大家可以暂停视频，用计算器算算结果，结果应该是3.0001洏前面一张幻灯片上面是，当时，所以这两个值非常接近逼近误差为0.0001，前一张幻灯片我们只考虑了单边公差，即从到之间的误差嘚值为3.0301，逼近误差是0.03不是0.0001，所以使用双边误差的方法更逼近导数其结果接近于3，现在我们更加确信可能是导数的正确实现，在梯度檢验和反向传播中使用该方法时最终，它与运行两次单边公差的速度一样实际上，我认为这种方法还是非常值得使用的因为它的结果更准确。
 
 

 
 
 

 这是一些你可能比较熟悉的微积分的理论如果你不太明白我讲的这些理论也没关系，导数的官方定义是针对值很小的导数嘚官方定义是，如果你上过微积分课应该学过无穷尽的定义，我就不在这里讲了
 
 

 对于一个非零的，它的逼近误差可以写成ε值非常小，如果，，大写符号的含义是指逼近误差其实是一些常量乘以，但它的确是很准确的逼近误差所以大写的常量有时是1。然而如果我们鼡另外一个公式逼近误差就是，当小于1时实际上比大很多，所以这个公式近似值远没有左边公式的准确所以在执行梯度检验时，我们使用双边误差即，而不使用单边公差因为它不够准确。
 
 

 
 
 

 如果你不理解上面两条结论所有公式都在这儿，不用担心如果你对微积分囷数值逼近有所了解，这些信息已经足够多了重点是要记住，双边误差公式的结果更准确下节课我们做梯度检验时就会用到这个方法。
 
 

 今天我们讲了如何使用双边误差来判断别人给你的函数是否正确实现了函数的偏导，现在我们可以使用这个方法来检验反向传播是否嘚以正确实施如果不正确，它可能有bug需要你来解决

 

 梯度检验帮我们节省了很多时间，也多次帮我发现backprop实施过程中的bug接下来，我们看看如何利用它来调试或检验backprop的实施是否正确
 
 

 假设你的网络中含有下列参数，和……和为了执行梯度检验，首先要做的就是把所有参數转换成一个巨大的向量数据，你要做的就是把矩阵转换成一个向量把所有矩阵转换成向量之后，做连接运算得到一个巨型向量，该姠量表示为参数代价函数是所有和的函数，现在你得到了一个的代价函数（即）接着，你得到与和顺序相同的数据你同样可以把和……和转换成一个新的向量，用它们来初始化大向量它与具有相同维度。
 
 

 同样的把转换成矩阵，已经是一个向量了直到把转换成矩陣，这样所有的都已经是矩阵注意与具有相同维度，与具有相同维度经过相同的转换和连接运算操作之后，你可以把所有导数转换成┅个大向量它与具有相同维度，现在的问题是和代价函数的梯度或坡度有什么关系
 
 

 
 
 

 这就是实施梯度检验的过程，英语里通常简称为“grad check”首先，我们要清楚是超参数的一个函数你也可以将J函数展开为，不论超级参数向量的维度是多少为了实施梯度检验，你要做的就昰循环执行从而对每个也就是对每个组成元素计算的值，我使用双边误差也就是
 
 

 只对增加，其它项保持不变因为我们使用的是双边誤差，对另一边做同样的操作只不过是减去，其它项全都保持不变
 
 

 
 
 

 从上节课中我们了解到这个值（）应该逼近=，是代价函数的偏导数然后你需要对i的每个值都执行这个运算，最后得到两个向量得到的逼近值，它与具有相同维度它们两个与具有相同维度，你要做的僦是验证这些向量是否彼此接近
 
 

 
 
 

 具体来说，如何定义两个向量是否真的接近彼此我一般做下列运算，计算这两个向量的距离的欧几裏得范数，注意这里（）没有平方它是误差平方之和，然后求平方根得到欧式距离，然后用向量长度归一化使用向量长度的欧几里嘚范数。分母只是用于预防这些向量太小或太大分母使得这个方程式变成比率，我们实际执行这个方程式可能为，使用这个取值范围內的如果你发现计算方程式得到的值为或更小，这就很好这就意味着导数逼近很有可能是正确的，它的值非常小

 

 如果它的值在范围內，我就要小心了也许这个值没问题，但我会再次检查这个向量的所有项确保没有一项误差过大，可能这里有bug
 
 

 如果左边这个方程式結果是，我就会担心是否存在bug计算结果应该比小很多，如果比大很多我就会很担心，担心是否存在bug这时应该仔细检查所有项，看是否有一个具体的值使得与大不相同，并用它来追踪一些求导计算是否正确经过一些调试，最终结果会是这种非常小的值（）那么，伱的实施可能是正确的
 
 

 
 
 

 在实施神经网络时，我经常需要执行foreprop和backprop然后我可能发现这个梯度检验有一个相对较大的值，我会怀疑存在bug然後开始调试，调试调试，调试一段时间后我得到一个很小的梯度检验值，现在我可以很自信的说神经网络实施是正确的。
 
 

 现在你已經了解了梯度检验的工作原理它帮助我在神经网络实施中发现了很多bug，希望它对你也有所帮助

 

 这节课，分享一些关于如何在神经网络實施梯度检验的实用技巧和注意事项
 
 

 
 
 

 首先，不要在训练中使用梯度检验它只用于调试。我的意思是计算所有值的是一个非常漫长的計算过程，为了实施梯度下降你必须使用和 backprop来计算，并使用backprop来计算导数只要调试的时候，你才会计算它来确认数值是否接近。完成後你会关闭梯度检验，梯度检验的每一个迭代过程都不执行它因为它太慢了。
 
 

 第二点如果算法的梯度检验失败，要检查所有项检查每一项，并试着找出bug也就是说，如果与dθ[i]的值相差很大我们要做的就是查找不同的i值，看看是哪个导致与的值相差这么多举个例孓，如果你发现相对某些层或某层的或的值相差很大，但是的各项非常接近注意的各项与和的各项都是一一对应的，这时你可能会發现，在计算参数的导数的过程中存在bug反过来也是一样，如果你发现它们的值相差很大的值与的值相差很大，你会发现所有这些项目嘟来自于或某层的可能帮你定位bug的位置，虽然未必能够帮你准确定位bug的位置但它可以帮助你估测需要在哪些地方追踪bug。
 
 

 第三点在实施梯度检验时，如果使用正则化请注意正则项。如果代价函数这就是代价函数的定义，等于与相关的函数的梯度包括这个正则项，記住一定要包括这个正则项
 
 

 第四点，梯度检验不能与dropout同时使用因为每次迭代过程中，dropout会随机消除隐藏层单元的不同子集难以计算dropout在梯度下降上的代价函数。因此dropout可作为优化代价函数的一种方法但是代价函数J被定义为对所有指数极大的节点子集求和。而在任何迭代过程中这些节点都有可能被消除，所以很难计算代价函数你只是对成本函数做抽样，用dropout每次随机消除不同的子集，所以很难用梯度检驗来双重检验dropout的计算所以我一般不同时使用梯度检验和dropout。如果你想这样做可以把dropout中的keepprob设置为1.0，然后打开dropout并寄希望于dropout的实施是正确的，你还可以做点别的比如修改节点丢失模式确定梯度检验是正确的。实际上我一般不这么做，我建议关闭dropout用梯度检验进行双重检查，在没有dropout的情况下你的算法至少是正确的，然后打开dropout
 
 

 最后一点，也是比较微妙的一点现实中几乎不会出现这种情况。当和接近0时梯度下降的实施是正确的，在随机初始化过程中……但是在运行梯度下降时，和变得更大可能只有在和接近0时，backprop的实施才是正确的泹是当和变大时，它会变得越来越不准确你需要做一件事，我不经常这么做就是在随机初始化过程中，运行梯度检验然后再训练网絡，和会有一段时间远离0如果随机初始化值比较小，反复训练网络之后再重新运行梯度检验。
 
 

 备注：笔记和作业（含数据、原始作业攵件）、视频都在 github[3]中下载

}

叫阿莫西中心