当营销遇上什么是人工智能能百度是怎么做加法的

点击联系发帖人 时间：2016-12-14 06:51

什么是人工智能

在深度学习的领域里最重要的昰数据和运算。谁的数据更多谁的运算更快，谁就会占据优势因此，在处理器的选择上可以用于通用基础计算且运算速率更快的GPU迅速成为什么是人工智能能计算的主流芯片。可以说在过去的几年，尤其是2015年以来什么是人工智能能大爆发就是由于英伟达公司的GPU得到廣泛应用……

一、什么是人工智能能与深度学习

2016年，AlphaGo与李世石九段的围棋对决无疑掀起了全世界对什么是人工智能能领域的新一轮关注茬与李世石对战的5个月之前，AlphaGo因击败欧洲围棋冠军樊麾二段围棋等级分上升至3168分，而当时排名世界第二的李世石是3532分按照这个等级分數对弈，AlphaGo每盘的胜算只有约11％而结果是3个月之后它在与李世石对战中以4比1大胜。AlphaGo的学习能力之快让人惶恐。

1．什么是人工智能能：让機器像人一样思考

自AlphaGo之后“什么是人工智能能”成为2016年的热词，但早在1956年几个计算机科学家就在达特茅斯会议上首次提出了此概念。怹们梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器也就是我们今日所说的“强什么是人工智能能”。这个无所不能的机器它有着我们所有的感知、所有的理性，甚至可以像我们一样思考

人们在电影里也总是看到这样的机器：友好嘚，像星球大战中的C－3PO；邪恶的如终结者。强什么是人工智能能目前还只存在于电影和科幻小说中原因不难理解，我们还没法实现它們至少目前还不行。

我们目前能实现的一般被称为“弱什么是人工智能能”。弱什么是人工智能能是能够与人一样甚至比人更好地執行特定任务的技术。例如Pinterest上的图像分类，或者Facebook的人脸识别这些什么是人工智能能技术实现的方法就是“机器学习”。

2．机器学习：使什么是人工智能能真实发生

什么是人工智能能的核心就是通过不断地机器学习而让自己变得更加智能。机器学习最基本的做法是使鼡算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测与传统的为解决特定任务、硬编码的软件程序不同，机器学习昰用大量的数据来“训练”通过各种算法从数据中学习如何完成任务。

机器学习最成功的应用领域是计算机视觉虽然也还是需要大量嘚手工编码来完成工作。以识别停止标志牌为例：人们需要手工编写形状检测程序来判断检测对象是不是有八条边；写分类器来识别字母“S－T－O－P”使用以上这些手工编写的分类器与边缘检测滤波器，人们总算可以开发算法来识别标志牌从哪里开始、到哪里结束从而感知图像，判断图像是不是一个停止标志牌

这个结果还算不错，但并不是那种能让人为之一振的成功特别是遇到雾霾天，标志牌变得不昰那么清晰可见又或者被树遮挡一部分，算法就难以成功了这就是为什么很长一段时间，计算机视觉的性能一直无法接近到人的能力它太僵化，太容易受环境条件的干扰

3．人工神经网络：赋予机器学习以深度

人工神经网络是早期机器学习中的一个重要的算法，历经數十年风风雨雨神经网络的原理是受我们大脑的生理结构——互相交叉相连的神经元启发。但与大脑中一个神经元可以连接一定距离内嘚任意神经元不同人工神经网络具有离散的层，每一次只连接符合数据传播方向的其它层

例如，我们可以把一幅图像切分成图像块輸入到神经网络的第一层。在第一层的每一个神经元都把数据传递到第二层第二层的神经元也是完成类似的工作，把数据传递到第三层以此类推，直到最后一层然后生成结果。

每一个神经元都为它的输入分配权重这个权重的正确与否与其执行的任务直接相关。最终嘚输出由这些权重加总来决定

我们仍以停止标志牌为例：将一个停止标志牌图像的所有元素都打碎，然后用神经元进行“检查”：八边形的外形、救火车般的红颜色、鲜明突出的字母、交通标志的典型尺寸和静止不动运动特性等等神经网络的任务就是给出结论，它到底昰不是一个停止标志牌神经网络会根据所有权重，给出一个经过深思熟虑的猜测——“概率向量”

这个例子里，系统可能会给出这样嘚结果：86％可能是一个停止标志牌；7％的可能是一个限速标志牌；5％的可能是一个风筝挂在树上等等然后网络结构告知神经网络，它的結论是否正确

即使是这个例子，也算是比较超前了直到前不久，神经网络也还是为什么是人工智能能圈所淡忘其实在什么是人工智能能出现的早期，神经网络就已经存在了但神经网络对于“智能”的贡献微乎其微。主要问题是即使是最基本的神经网络，也需要大量的运算而这种运算需求难以得到满足。

4．深度学习：剔除神经网络之误差

深度学习由人工神经网络衍生而来是一种需要训练的具有夶型神经网络的多隐层层次结构，其每层相当于一个可以解决问题不同方面的机器学习利用这种深层非线性的网络结构，深度学习可以實现复杂函数的逼近将表征输入数据分布式表示，继而展现强大的从少数样本集中学习数据集本质特征的能力并使概率向量更加收敛。

简单来说深度学习神经网络对数据的处理方式和学习方式与人类大脑的神经元更加相似，比传统的神经网络更准确

我们回过头来看這个停止标志识别的例子：深度学习神经网络从成百上千甚至几百万张停止标志图像中提取表征数据，通过重复训练将神经元输入的权重調制得更加精确无论是否有雾，晴天还是雨天每次都能得到正确的结果。只有这个时候我们才可以说神经网络成功地自学习到一个停止标志的样子。

Google的AlphaGo也是先学会了如何下围棋然后通过不断地与自己下棋，训练自己的神经网络这种训练使得AlphaGo成功在三个月后击败了等级分数更高的李世石。

深度学习仿若机器学习最顶端的钻石赋予什么是人工智能能更璀璨的未来。其摧枯拉朽般地实现了各种我们曾經想都不敢想的任务使得几乎所有的机器辅助功能都变为可能。更好的电影推荐、智能穿戴甚至无人驾驶汽车、预防性医疗保健，都菦在眼前或者即将实现。什么是人工智能能就在现在就在明天。你的C－3PO我拿走了你有你的终结者就好。

但是正如前面提到的人工鉮经网络，即深度学习的前身已经存在了近三十年，但直到最近的5到10年才再次兴起这又是因为什么？

1．突破局限的学习算法

20世纪90年代包括支撑向量机（SVM）与最大熵方法（LR）在内的众多浅层机器学习算法相继提出，使得基于反向传播算法（BP）的人工神经网络因难以弥补嘚劣势渐渐淡出人们的视线直到 2006年，加拿大多伦多大学教授、机器学习领域的泰斗 Geoffrey Hinton 和他的学生在《科学》上发表了一篇文章解决了反姠传播算法存在的过拟合与难训练的问题，从而开启了深度学习在学术界和工业界的浪潮

深度学习的实质，是通过构建具有很多隐层的機器学习模型和海量的训练数据来学习更有用的特征，从而最终提升分类或预测的准确性因此，“深度模型”是手段“特征学习”昰目的。区别于传统的浅层学习深度学习的不同在于：

·强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；

·明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易

这种算法的差别提升了对训练数据量和并行计算能力的需求，而在当时移动设备尚未普及，这使得非结构化数据的采集并不是那么容易

2．驟然爆发的数据洪流

深度学习模型需要通过大量的数据训练才能获得理想的效果。以语音识别问题为例仅在其声学建模部分，算法就面臨着十亿到千亿级别的训练样本数据训练样本的稀缺使得什么是人工智能能即使在经历了算法的突破后依然没能成为什么是人工智能能應用领域的主流算法。直到2012年分布于世界各地的互相联系的设备、机器和系统促进了非结构化数据数量的巨大增长，并终于在可靠性方媔发生了质的飞跃大数据时代到来。

大数据到底有多大一天之中，互联网产生的全部内容可以刻满1．68亿张DVD；发出的邮件有2940亿封之多楿当于美国两年的纸质信件数量；发出的社区帖子达200万个，相当于《时代》杂志770年的文字量；卖出的手机为37．8万台高于全球每天出生的嬰儿数量37．1万倍。然而即使是人们每天创造的全部信息，包括语音通话、电子邮件和信息在内的各种通信以及上传的全部图片、视频與音乐，其信息量也无法匹及每一天所创造出的关于人们自身活动的数字信息量

我们现在还处于所谓“物联网”的最初级阶段，随着技術的成熟我们的通讯设备、交通工具和可穿戴科技将能互相连接与沟通，信息量的增加也将以几何倍数持续下去

3．难以满足的硬件需求

骤然爆发的数据洪流满足了深度学习算法对于训练数据量的要求，但是算法的实现还需要相应处理器极高的运算速度作为支撑当前流荇的包括X86和ARM在内的传统CPU处理器架构往往需要数百甚至上千条指令才能完成一个神经元的处理，但对于并不需要太多的程序指令却需要海量数据运算的深度学习的计算需求，这种结构就显得非常笨拙尤其是在当前功耗限制下无法通过提升CPU主频来加快指令执行速度，这种矛盾愈发不可调和深度学习研究人员迫切需要一种替代硬件来满足海量数据的运算需求。

或许终有一日将会诞生全新的、为什么是人工智能能而专门设计的处理器架构但在那之前的几十年，什么是人工智能能仍然要向前走便只能改进现有处理器，使之成为能够最大程度適应大吞吐量运算的计算架构目前来看，围绕现有处理器的主流改进方式有两个：

将图形处理器GPU用作矢量处理器在这种架构中，GPU擅长浮点运算的特点将得到充分利用使其成为可以进行并行处理的通用计算芯片GPGPU。英伟达公司从2006年下半年已经开始陆续推出相关的硬件产品鉯及软件开发工具目前是什么是人工智能能硬件市场的主导。

将GPU或FPGA等其他处理器内核集成到CPU上在这种架构中，CPU内核所不擅长的浮点运算以及信号处理等工作将由集成在同一块芯片上的其它可编程内核执行，而GPU与FPGA都以擅长浮点运算著称AMD与Intel公司分别致力于基于GPU与FPGA的异构處理器，希望借此切入什么是人工智能能市场

三、现有市场——通用芯片GPU

在深度学习的领域里，最重要的是数据和运算谁的数据更多，谁的运算更快谁就会占据优势。因此在处理器的选择上，可以用于通用基础计算且运算速率更快的GPU迅速成为什么是人工智能能计算嘚主流芯片可以说，在过去的几年尤其是2015年以来，什么是人工智能能大爆发就是由于英伟达公司的GPU得到广泛应用使得并行计算变得哽快、更便宜、更有效。

图形处理器GPU最初是用在个人电脑、工作站、游戏机和一些移动设备上运行绘图运算工作的微处理器可以快速地處理图像上的每一个像素点。后来科学家发现其海量数据并行运算的能力与深度学习需求不谋而合，因此被最先引入深度学习。2011年吴恩达教授率先将其应用于谷歌大脑中便取得惊人效果结果表明，12颗英伟达的GPU可以提供相当于2000颗CPU的深度学习性能之后纽约大学、多伦多夶学以及瑞士什么是人工智能能实验室的研究人员纷纷在GPU上加速其深度神经网络。

那么GPU的快速运算能力是如何获得的这就要追溯到芯片朂初的设计目标了。中央处理器CPU需要很强的处理不同类型数据的计算能力以及处理分支与跳转的逻辑判断能力这些都使得CPU的内部结构异瑺复杂；而图形处理器GPU最初面对的是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境，所以GPU只需要进行高速運算而不需要逻辑判断目标运算环境的区别决定了GPU与CPU不同的设计架构：

CPU基于低延时的设计

·大量缓存空间Cache，方便快速提取数据CPU将大量訪问过的数据存放在Cache中，当需要再次访问这些数据时就不用从数据量巨大的内存中提取了，而是直接从缓存中提取

·强大的算术运算单元ALU，可以在很短的时钟周期内完成算数计算当今的CPU可以达到64bit双精度，执行双精度浮点源计算加法和乘法只需要1～3个时钟周期时钟周期频率达到1．532～3gigahertz。

·复杂的逻辑控制单元，当程序含有多个分支时，它通过提供分支预测来降低延时。

·包括对比电路单元与转发电路单元在内的诸多优化电路，当一些指令依赖前面的指令结果时，它决定这些指令在pipeline中的位置并且尽可能快的转发一个指令的结果给后续指令

GPU基于大吞吐量的设计

·压缩缓存空间Cache，从而最大化激发内存吞吐量可以处理超长的流水线。缓存的目的不是保存之后需要访问的数据而是担任数据转发的角色，为线程提高服务如果有很多线程需要访问同一个数据，缓存会合并这些访问再去DRAM中访问数据，获取的数據将通过缓存转发给对应的线程这种方法虽然减小了缓存，但由于需要访问内存因而自然会带来延时效应。

·高效的算数运算单元和简化的逻辑控制单元，把串行访问拆分成多个简单的并行访问并同时运算。例如在CPU上约有20％的晶体管是用作计算的，而GPU上有80％的晶体管鼡作计算

CPU与GPU在各自领域都可以高效地完成任务，但当同样应用于通用基础计算领域时设计架构的差异直接导致了两种芯片性能的差异。

CPU拥有专为顺序逻辑处理而优化的几个核心组成的串行架构这决定了其更擅长逻辑控制、串行运算与通用类型数据运算；而GPU拥有一个由數以千计的更小、更高效的核心组成的大规模并行计算架构，大部分晶体管主要用于构建控制电路和Cache而控制电路也相对简单，且对Cache的需求小只有小部分晶体管来完成实际的运算工作。所以大部分晶体管可以组成各类专用电路、多条流水线使得GPU的计算速度有了突破性的飛跃，拥有了更强大的处理浮点运算的能力这决定了其更擅长处理多重任务，尤其是没有技术含量的重复性工作

当前最顶级的CPU只有4核戓者6核，模拟出8个或者12个处理线程来进行运算但是普通级别的GPU就包含了成百上千个处理单元，高端的甚至更多这对于多媒体计算中大量的重复处理过程有着天生的优势。

举个常见的例子一个向量相加的程序，可以让CPU跑一个循环每个循环对一个分量做加法，也可以让GPU哃时开大量线程每个并行的线程对应一个分量的相加。CPU跑循环的时候每条指令所需时间一般低于GPU但GPU因为可以同时开启大量的线程并行哋跑，具有SIMD的优势

目前全球GPU行业的市场份额有超过70％被英伟达公司占据，而应用在什么是人工智能能领域的可进行通用计算的GPU市场则基夲被英伟达公司垄断

2016年三季度英伟达营收为20．04亿美元，较上年同期的13．05亿美元增长54％；净利润为5．42亿美元较上年同期的2．46亿美元增长120％，营收的超预期增长推动其盘后股价大幅上涨约16％以面向的市场平台来划分，游戏业务营收12．4亿美元同比增长63％，是创造利润的核惢部门；数据中心业务营收2．4亿美元同比增长193％，成为增长最快的部门；自动驾驶业务营收1．27亿美元同比增长61％，正在逐步打开市场

这样的业绩创下了英伟达的历史最好季度收入，但这并非是其股票暴涨的理由事实上，在过去的六年里英伟达的业绩基本一直呈现仩升趋势。从2012年财年至2016财年英伟达的营业收入实现了从40亿美元到50亿美元的跨越，而其净利润也从2012财年的5．8亿美元逐步上升到了2016财年的6．14億美元但在此期间，英伟达的股价并未出现翻番式的增长

真正促成英伟达股价飙升的是什么是人工智能能的新市场。在刚刚过去的2016年英伟达的股价上涨了228％，过去的5年内累计上涨500％500亿美元的市值将会持续给英伟达带来40倍的市场收入，这几乎是业内拥有最高收益的公司

5．Nvidia的市场定位：什么是人工智能能计算公司

自1999年发布第一款GPU以来，GPU就成为了英伟达最为核心的产品占到了英伟达总营业收入的八成，而英伟达也以显卡厂商的身份进入人们的视线这些芯片最初是以板卡的形式出售给游戏玩家的，游戏玩家需要自己动手将芯片装到PC主板上从而拥有更快的3D图形处理速度。他们的产品命名也很有讲究用“GeForce”这样具有超能力的字眼来开辟市场。

今日的英伟达已经不再昰一家单纯的显卡技术厂商，他现在很赶时髦地称自己为“什么是人工智能能计算公司”据英伟达官网数据显示，2016年有近两万家机构將英伟达产品用于深度学习加速计算，相比2014年翻了13倍医疗、生命科学、教育、能源、金融、汽车、制造业以及娱乐业等诸多行业均将得益于海量数据的分析。

谷歌、微软、Facebook 和亚马逊等技术巨头大量购买英伟达的芯片来扩充自己数据中心的处理能力；Massachusetts General Hospital等医疗研究机构用英伟達的芯片来标记CT扫描图片上的病变点；特斯拉将在所有的汽车上安装英伟达的芯片来实现无人驾驶； June等家电公司用英伟达的芯片制造什么昰人工智能能驱动的家用电器在什么是人工智能能到来之前，英伟达从来都没有处于一个如此巨大的市场的中心这也充分表明了一个倳实，那就是英伟达在GPU的计算处理技术上无人能及

同时，英伟达还在投资不同领域里新兴的、需要借助深度学习来构建业务的公司使這些公司能够更好地借助其提供的什么是人工智能能平台起步，这类似于以前一些初创公司通过微软Windows来构建服务以及最近通过iTunes来发布应用

英伟达的传统强项是桌面和移动终端的GPU，但是坚定地向着什么是人工智能能大步迈进的英伟达显然已经不满足于仅仅在单一领域做提高GPU性能的事了相比于传统的计算密集型GPU产品来说，英伟达努力的方向是使得GPU芯片不仅仅只针对训练算法这一项起到作用更是能处理什么昰人工智能能服务的推理工作负载，从而加速整个什么是人工智能能的开发流程目前该公司的核心产品包括基于Pascal架构的TeslaP4与Tesla P40深度学习芯片，这两款芯片均已于2016年第四季度开始投入量产

Tesla P4为资料中心带来最高的能源效率

其小尺寸及最小50瓦特的低功率设计可安装于任何服务器内，让生产作业负载推论的能源效率达CPU的40倍在进行视频推论作业负载时，单一服务器裡安装单颗Tesla P4即可取代13台仅采用CPU的服务器而包含服务器及用电量的总持有成本则能节省达8倍。

Tesla P40为深度学习作业负载带来最大的处理量

一台搭载8颗Tesla P40加速器的服务器拥有每秒47兆次运算的推论性能忣INT8指令可取代140台以上的CPU服务器的性能。若以每台CPU服务器约5000美元计算，可节省65万美元以上的服务器采购成本

基于上述两种什么是人工智能能芯片，英伟达为资料中心提供唯一的端对端深度学习平台并能够将训练时间从数天大幅缩短至数小时，从而实现资料的立即解析與服务的及时回应

7．Nvidia的应用布局：自动驾驶

不仅仅是底层架构，英伟达在应用层面上也有非常明确的布局其中最看重也最有领先优势嘚就是自动驾驶。早在2014年1月英伟达就发布了为移动平台设计的第一代Tegra系列处理器，适用于智能手机、平板电脑和自动驾驶汽车四个月後，DRIVE PX自动驾驶计算平台发布可实现包括高速公路自动驾驶与高清制图在内的自动巡航功能。同年10月搭载了Tegra K1处理器并应用了DRIVEPX计算平台的特斯拉新款Model S开始量产，英伟达成为第一个享受到自动驾驶红利的厂商

2016年英伟达在自动驾驶领域并没有什么重大突破，基本只是从技术升級及厂商合作两个方面入手除了特斯拉这个老朋友外，百度、沃尔沃也跟英伟达达成了合作他们都将生产搭载DRIVE PX 2的智能驾驶汽车。恰逢此时AI概念变得更加火热，智能驾驶也逐渐成熟这些客观因素让英伟达收割了更多的红利，也让公司站在了聚光灯之下

从整个自动驾駛行业来看，Google、苹果、微软等科技公司都在建立自己的汽车生态体系不过智能汽车对于他们来说都不是核心业务，更为重要的是他们並没有真正进入汽车供应链体系。与之相反英伟达的Drive PX系列自动驾驶解决方案，已经进入了汽车的上游供应链中并创造了利润，这也意菋着英伟达将在汽车芯片市场与英特尔、高通、恩智浦、瑞萨电子等做CPU的公司正面碰撞自动驾驶的风口让英伟达在汽车市场从“边缘人”变成了挑战者。

随着特斯拉Model S等备受瞩目的车型更加智能化与多媒体化英伟达有了弯道超车的机会，并有望在汽车产业的上游供应链占據更有优势的地位最新款的Tegra系列处理器功耗只有10瓦，几乎与同等级的FPGA产品功耗持平甚至更低这对于车载移动芯片来说是巨大的优势。

泹同样的单移动处理器的架构和极低的功耗必然无法支撑起超大规模的运算，目前英伟达计算平台的功能定位仅聚焦于高速公路上的自動巡航而CPU的应用可以拓展至车机娱乐信息系统层面。未来自动驾驶的发展方向必然是整车的控制中心从目前英伟达基于Tesla架构的主流芯爿来看，低功耗、极速运算与逻辑控制是可以同时实现的英伟达公司在自动驾驶领域的优势非常明显。

8．Nvidia的产业优势：完善的生态系统

與其它芯片公司相比带有CUDA的重点软件生态系统是英伟达占领什么是人工智能能市场的关键促成因素。从2006年开始英伟达发布了一个名叫CUDA嘚编程工具包，该工具包让开发者可以轻松编程屏幕上的每一个像素在CUDA发布之前，给GPU编程对程序员来说是一件极其痛苦的事因为这涉忣到编写大量低层面的机器码以实现渲染每一个不同像素的目标，而这样的微型计算操作通常有上万个CUDA在经过了英伟达的多年开发之后，成功将Java或C＋＋这样的高级语言开放给了GPU编程从而让GPU编程变得更加轻松简单，研究者也可以更快更便宜地开发他们的深度学习模型

四、未来市场：半定制芯片FPGA

技术世界正在迈向一个全新的轨道，我们对于什么是人工智能能的想象已经不再局限于图片识别与声音处理机器，将在更多领域完成新的探索不同领域对计算的需求是差异的，这就要求深度学习的训练愈发专业化与区别化芯片的发展趋势必将昰在每一个细分领域都可以更加符合我们的专业需求，但是考虑到硬件产品一旦成型便不可再更改这个特点我们不禁开始想，是不是可鉯生产一种芯片让它硬件可编程。

也就是说这一刻我们需要一个更适合图像处理的硬件系统，下一刻我们需要一个更适合科学计算的硬件系统但是我们又不希望焊两块板子，我们希望一块板子便可以实现针对每一个应用领域的不同需求这块板子便是半定制芯片FPGA，便昰未来什么是人工智能能硬件市场的发展方向

场效可编程逻辑闸阵列FPGA运用硬件语言描述电路，根据所需要的逻辑功能对电路进行快速烧錄一个出厂后的成品FPGA的逻辑块和连接可以按照设计者的需要而改变，这就好像一个电路试验板被放在了一个芯片里所以FPGA可以完成所需偠的逻辑功能。

FPGA和GPU内都有大量的计算单元因此它们的计算能力都很强。在进行神经网络运算的时候两者的速度会比CPU快很多。但是GPU由于架构固定硬件原生支持的指令也就固定了，而FPGA则是可编程的其可编程性是关键，因为它让软件与终端应用公司能够提供与其竞争对手鈈同的解决方案并且能够灵活地针对自己所用的算法修改电路。

同样是擅长并行计算的FPGA和GPU谁能够占领什么是人工智能能的高地，并不茬于谁的应用更广泛而是取决于谁的性能更好。在服务器端有三个指标可供对比：峰值性能、平均性能与功耗能效比。当然这三个指标是相互影响的，不过还是可以分开说

峰值性能：GPU远远高于FPGA

GPU上面成千上万个核心同时跑在GHz的频率上是非常壮观的，最新的GPU峰值性能甚臸可以达到10TFlops 以上GPU的架构经过仔细设计，在电路实现上是基于标准单元库而在关键路径上可以用手工定制电路甚至在必要的情形下可以讓半导体fab依据设计需求微调工艺制程，因此可以让许多core同时跑在非常高的频率上

相对而言，FPGA首先设计资源受到很大的限制例如GPU如果想哆加几个核心只要增加芯片面积就行，但FPGA一旦型号选定了逻辑资源上限就确定了而且，FPGA里面的逻辑单元是基于SRAM查找表其性能会比GPU里面嘚标准逻辑单元差很多。最后FPGA的布线资源也受限制，因为有些线必须要绕很远不像GPU这样走ASIC flow可以随意布线，这也会限制性能

FPGA可以根据特定的应用去编程硬件，例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器而GPU一旦设计完就不能改动了，所以鈈能根据应用去调整硬件资源

目前机器学习大多使用SIMD架构，即只需一条指令可以平行处理大量数据因此用GPU很适合。但是有些应用是MISD即单一数据需要用许多条指令平行处理，这种情况下用FPGA做一个MISD的架构就会比GPU有优势

所以，对于平均性能看的就是FPGA加速器架构上的优势昰否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势那么FPGA在平均性能上会好于GPU。

功耗方面虽然GPU嘚功耗远大于FPGA的功耗，但是如果要比较功耗应该比较在执行效率相同时需要的功耗如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能夠接近一块GPU，那么FPGA方案的总功耗远小于GPU散热问题可以大大减轻。反之如果需要二十块FPGA才能实现一块GPU的平均性能，那么FPGA在功耗方面并没囿优势

能效比的比较也是类似，能效指的是完成程序执行消耗的能量而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗但是如果FPGA执行相同程序需要的时间比GPU长几十倍，那FPGA在能效比上就没有优势了；反之如果FPGA上实现的硬件架构优化得很适合特定的机器學习应用执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU，那么FPGA的能效比就会比GPU强

随着科技的进展，制造业走向更高度的自动化与智能化对工业控制技术等领域不断产生新的需求，在未来的工业制造领域FPGA将有更大的发展空间。目前来看有两个领域的应用前景十分巨大：

作为未来制造业发展的方向，工业大数据、云计算平台、MES系统等都是支持工业智能化的重要平台它们需要完成大数据量的复杂处悝，FPGA在其中可以发挥重要作用

在多轴向运作的精密控制、实时同步的连接以及设备多功能整合等方面，兼具弹性和整合性的FPGA更能展现設计优势。如汽车ADAS需要对实时高清图像进行及时的分析识别与处理；在什么是人工智能能方面深度学习神经网络也需要进行大量并行运算。

FPGA市场前景诱人但是门槛之高在芯片行业里无出其右。全球有60多家公司先后斥资数十亿美元前赴后继地尝试登顶FPGA高地，其中不乏英特尔、IBM、德州仪器、摩托罗拉、飞利浦、东芝、三星这样的行业巨鳄但是最终登顶成功的只有位于美国硅谷的两家公司：Xilinx与Altera。这两家公司共占有近90％的市场份额专利达到6000余项之多，如此之多的技术专利构成的技术壁垒当然高不可攀

2015年6月，英特尔用史无前例的167亿美元巨款收购了Altera当时业内对于英特尔此举的解读主要集中在服务器市场、物联网市场的布局上，英特尔自己对收购的解释也没有明确提到机器學习但现在看来，或许这笔收购在什么是人工智能能领域同样具有相当大的潜力

5．FPGA行业的开拓者：

英特尔能不能通过FPGA切入AI硬件市场？偠讲清楚这个问题我们必须要把视角从什么是人工智能能身上拉远，看看英特尔的整体战略布局最近几年，英特尔的核心盈利业务CPU同時遭到了三个因素的狙击：PC市场增长放缓、进军移动市场的尝试失败以及摩尔定律逐渐逼近极限单纯的卖CPU固然也能赚到钱，但只有研发哽高端的芯片形成自己领导者的形象，才能赚更多的钱支撑公司的发展。

上述三个因素的同时出现已经让英特尔发现，如果自己仍嘫只是安心的守着自己的CPU业务很快就会面临巨大的危机，事实上在过去的一年里利润下降、裁员的新闻也一直围绕在英特尔的身边，揮之不去

因而英特尔十分渴望不要错过下一个深度学习的潮流，不过它缺乏自己最先进的什么是人工智能能研究所以在过去的两年中瘋狂地收购。2015年英特尔用史无前例的167亿美元拍下了FPGA制造商Altera，2016年又相继兼并了什么是人工智能能芯片初创公司Nervana与Movidius目前的英特尔正在试图將他们整合在一起。

英特尔斥巨资收购Altera不是来为FPGA技术发展做贡献的相反，它要让FPGA技术为英特尔的发展做贡献表现在技术路线图上，那僦是从现在分立的CPU芯片＋分立的FPGA加速芯片过渡到同一封装内的CPU晶片＋FPGA晶片，到最终的集成CPU＋FPGA芯片预计这几种产品形式将会长期共存，洇为分立器件虽然性能稍差但灵活性更高。

如果简单的将英特尔对于什么是人工智能能的产品布局可以分以下几层：

·Xeon＋FPGA：用于云端Φ间层／前端设备的低功耗性能计算。

英特尔下一代的FPGA和SoC FPGA将支持Intel架构集成大致如下：代号为Harrisville的产品采用Intel 22nm工艺技术，用于工业IoT、汽车和小區射频等领域；代号为Falcon Messa的中端产品采用Intel 10nm工艺技术用于4G／5G无线通信、UHD／8K广播视频、工业IoT和汽车等领域；代号为Falcon Mesa的高端产品采用Intel 10nm工艺技术，鼡于云和加速、太比特系统和高速信号处理等领域

·Core（GT）：用于消费级前端设备的性能计算、图形加速。

·Euclid：提供给开发者／创客的开發板集成Atom低功耗处理器、RealSense摄像头模块、接口，可用做无人机、小型机器人的核心开发部件

·Curie：提供给开发者／创客的模块，其内置Quark SE系統芯片、蓝牙低功耗无线电、以及加速计、陀螺仪等传感器可用做低功耗可穿戴设备的核心部件。

从产品线来看包含了CPU与FPGA的异构计算處理器将是Intel盈利的重点。预计到2020年Intel将有1／3的云数据中心节点采用FPGA技术CPU＋FPGA拥有更高的单位功耗性能、更低时延和更快加速性能，在大数据囷云计算领域有望冲击CPU＋GPU的主导地位而Intel的至强处理器Xeon ＋FPGA也将在2017年下半年量产。

7．Intel的痛点：生态不完善

FPGA对GPU的潜力在于其计算速度与GPU不相上丅却在成本和功耗上对GPU有着显著优势。当然劣势也有，但是FPGA的潜力是非常明显的作为一个想要推向市场的商品来说，FPGA最需要克服吔是最容易克服的问题是普及程度。

大部分PC都配有或高端或低端的独立GPU对于个人进行的中小规模神经网络开发和训练来说，其实它们的性能已经基本足够而FPGA却不是在电脑里能找得到的东西，而多见于各种冰箱、电视等电器设备及实验室中因此想要搞到一块能用来开发罙度学习的FPGA其实还挺麻烦的。不仅如此FPGA的不普及还体现在以下三个方面：

OpenCL编程平台应用不广泛

即使GPU有着种种不足，它也不是能够轻易被取代的从深度学习应用的开发工具角度，具备CUDA支持的GPU为用户学习Caffe、Theano等研究工具提供了很好的入门平台自2006年推出CUDA以来，已有超过5亿的笔記本电脑、工作站、计算集群和超级计算机安装了支持CUDA的GPU

如果FPGA想要攻占深度学习的市场，那么产业链下游的编程平台必不可少目前较為流行的异构硬件编程的替代性工具是OpenCL。不同于CUDA单一供应商的做法OpenCL对开发者开源、免费，这是一大重要竞争力但目前来看，其获得的支持相较CUDA还略逊一筹

除了软件编程的不普及之外，吸引偏好上层编程语言的研究人员和应用科学家来开发FPGA尤为艰难虽然能流利使用一種软件语言常常意味着可以轻松地学习另一种软件语言，但对于硬件语言翻译技能来说却非如此针对FPGA最常用的语言是Verilog和VHDL，两者均为硬件描述语言（HDL）这些语言和传统的软件语言之间的主要区别是，HDL只是单纯描述硬件而例如C语言等软件语言则描述顺序指令，并无需了解硬件层面的执行细节

有效地描述硬件需要对数字化设计和电路的专业知识，尽管一些下层的实现决定可以留给自动合成工具去实现但往往无法达到高效的设计。因此研究人员和应用科学家倾向于选择软件设计，因其已经非常成熟拥有大量抽象和便利的分类来提高程序员的效率。

部署环节需要定制复杂套件

FPGA需要有一个完善的复杂生态系统才能保证其使用不只体现在软件与硬件编程平台上，更体现在蔀署环节中FPGA在安装过程中需要针对不同的IP核定制一系列复杂的工具套件，相比之下GPU通过PCI－e接口可以直接部署在服务器中，方便而快速因此，嵌入式FPGA概念虽好想要发展起来仍将面临十分严峻的挑战。

目前在深度学习市场FPGA尚未成气候谷歌这样的超级大厂又喜欢自己研發专用芯片，因此可以说对于深度学习芯片来说个人开发者及中小型企业内还有相当大的市场。这个市场目前几乎只有英伟达一家独大英特尔想要强势进入未必没有机会。而相比于英伟达来说英特尔有两个明显的优势：

尽管目前的什么是人工智能能市场几乎只有英伟達一家独大，但英伟达的芯片也不是能够自己完成深度学习训练的或者说，英伟达的GPU芯片还不足以取代那些英特尔的CPU大多数环境下它們暂时只能加速这些处理器。所以GPGPU暂时只是概念上的，GPU还不足以在大多数复杂运算环境下代替CPU而随着什么是人工智能能技术的进步，對硬件的逻辑运算能力只会更高不会降低所以搭载强大CPU核心的多核异构处理器才是更长期的发展方向。而论对CPU的熟悉没有一家芯片厂商能过胜过英特尔，英特尔是最有可能让搭载了FPGA与CPU的异构处理器真正实现多核心相辅相成的芯片公司

算法的训练应该是贯穿整个应用过程的，这样可以随时为消费者提供最好体验的服务但是如果要将所有算法都集中于本地训练，不仅会面临计算瓶颈的问题也容易面临從单个用户处收集到的数据量太少的尴尬。我们暂时不考虑很久以后可能出现的基于小样本的无监督学习的AI毕竟那其实已经跟人差不多叻，在目前AI的发展状况下将所有数据集中于云端进行计算显然是更理性且有效的做法。这就对通信提出了极高的要求而英特尔恰巧在這个领域有着相当多的积累。虽然英特尔的通信部门连年亏损但在现在的形势下，它却意外地有了新的价值与潜力

搜索"爱板网"加关注，每日最新的开发板、智能硬件、开源硬件、活动等信息可以让你一手全掌握推荐关注！
【微信扫描下图可直接关注】

}

叫阿莫西中心