鼠标的芯片究竟有多重要,高低端半导体芯片的重要性差异在哪

鼠标的设计,鼠标芯片方案介绍
鼠标芯片介绍
无线鼠标技术已相当成熟,市面上已有大量无线鼠标上市,但是价格悬殊很大,本文从无线光电鼠标原理出发,探讨如何设计不同档次的无线光电鼠标。一般和光学成像引擎,鼠标控制芯片,无线芯片的选择有关.
无线鼠标技术已相当成熟,市面上已有大量无线鼠标上市,价格在100到600元之间。有红外和无线电等传输方式;接口类型是USB和PS2;大部分是光电鼠标,也有部分低价的滚轮鼠标,但是由于滚轮鼠标易受灰尘影响,大部分场合工作都不是很理想,故本文只讨论光电鼠标。
光电鼠标的光学传感器象一部DC/DV一样,跟随操作者的移动连续记录它途经表面的“快照”(假想一下间谍卫星拍摄地球表面的情形,不过比喻不是很恰当,比如光电鼠标是自带光源的,并且它的移动是没有规律的等等),这些快照(即帧)是有一定的频率(即扫描频率、刷新率、帧速率等,以下我们对此不加区分)和尺寸及分辨率(即光学传感器的CMOS晶振的有效像素数),并且光学传感器的透镜应具备一定的放大作用;而光电鼠标的核心――DSP通过对比这些快照之间的差异从而识别移动的方向和位移量,并将这些确定的信息加以封装后通过USB接口源源不断地进入PC;驱动程序(可以是Windows的默认驱动)则根据这些信号经过一定的转换(参照关系由驱动设置)最终决定鼠标指针在屏幕上的位置。
由此,我们可知一个大略的“(鼠标移动)表面-&镜头(组)-&光学传感器CMOS晶阵-&DSP-&USB接口-&驱动程序-&PC屏幕坐标”的过程了。
光电鼠标的两个重要参数:光学分辨率和扫描频率。目前市场上光电鼠标的光学分辨率多数为400DPI和800DPI两种,其含义就是鼠标每移动2.54厘米的距离,光标在屏幕上移动的距离就是400像素和800像素。扫描频率主要是指光学扫描芯片每秒钟所获得的快照的数量。这些快照会被信号处理系统进行分析,从而判断出鼠标移动的速度和方向。
一般来说分辨率在400DPI,扫描频率在2000次左右在普通的办公应用中就已经够了。但是专家推荐游戏玩家和制图高手,需购买一款分辨率为800DPI,扫描频率在2500次以上的光电鼠标。另外,鼠标的分辨率应与扫描频率相互配合才能获得理想的使用效果,鼠标仅仅拥有很高DPI指标是不够的,必须有适当的扫描频率相配合,例如某些杂牌产品仅仅有每秒1500次的扫描频率,这样当鼠标快速移动,特别是进行激烈的游戏战时候,鼠标很容易失去指向或者丢帧。
2.1.光电鼠标常用芯片
虽然市面上光学鼠标的品牌众多,但光学传感器的生产厂家屈指可数。在以前,大部分厂家都用的是安捷伦公司的光学传感器IC,比较早期的如HDNS-2000,Image
size为18&18,刷新率为1500次/秒,被很多光学鼠标采用。另外安捷伦还有ADNS-2051、ADNS-2001等传感器芯片,扫描次数最高达2300次/秒。
来自台湾IC新的第三代光学定位芯片PAN101
208,由于价格便宜,在国内占有一定的市场。PAN101芯片具有2000次/秒的扫描频率,这个指标介于安捷伦H次)、S次)之间,不过定位芯片的性能还要取决于CMOS矩阵的大小等方面,实际性能在我们后面的试用中会有介绍。此外PAN101芯片是一颗可编程光学引擎,不同的编程算法能够达到400CPI或800CPI。
微软新一代的Intelli Mouse Explorer(IE系列鼠标)采用了ST
Microelectronics公司开发的光学传感器芯片,Image sensor
size增大到22&22,刷新率达到了6000次/秒,像素处理能力达到了2904000个/秒,这一基本的技术指标仍被微软各光学鼠标沿用至今。按照微软公布的指标,此款光学引擎可以承受最大37英寸/秒的移动速度,超越了30英寸/秒的人手握鼠标移动速度的理论极限。光学鼠标丢帧的问题得以解决,这也是职业游戏玩家采用微软的光学鼠标的原因。
安捷伦也开发出了新一代的光学传感器芯片。首先是专门为罗技开发的A2020芯片,与STMicroelectronics的芯片相比,A2020没有那么高的刷新率,只有5250次/秒,但是却有大得多的Image
sensor size——30&30,这样算下来,像素处理能力达到了4725000个/秒,比ST
Microelectronics的产品更高,而罗技公司公布的MX光学引擎理论能的承受最大移动速度为40英寸/秒。A2020被用于罗技的MX引擎中,大家熟悉的MX300、MX500和无线的MX700都是以A2020为核心的。当然,增大Image
sensor size也带来了功耗的增加,这个对有线鼠标影响倒不大,但对于无线鼠标来说就相当明显了。
现阶段高端鼠标应用最为广泛的是安捷伦ADNS-3060系列光学成像定位引擎。该引擎能为鼠标提供400dpi~800dpi的扫描精度和6400FPS的扫描速度。与被广泛采用的安捷伦ADNS-2051高性能的光学浏览传感器相比,ADNS-3060的工作电压是3.3V(而不是5V),节电模式下电流消耗为30uA(而不是240uA),最大时钟频率为24MHz(而不是18MHz),在每秒6,400帧时的最大速度为每秒40英寸(而不是每秒1,500帧时的14英寸)。这两种传感器都提供了高达800cpi(每英寸点数)的分辨率,比较适合设计无线鼠标。
2.2.鼠标控制器
2.2.1.PS2控制器
XLT522是一款专用配对PAN101B204/208系列、ADNS-2051
系列的光电鼠标控制芯片,采用MICRO控制接口,解析度达到800CPI。本芯片兼容PS/22D3KEY、PS/23D
3KEY、PS/23D5KEY三种工作模式,并根据不同的系统及驱动程序自动适应切换,当工作于3D3KEY
时,其第4(Forward)、5(Back)两键相当于中间键。该芯片外围电路精简到最少。滚轮为除2设计。产品的主要性能优势是,可以采用Micro
控制方式,把204版本的高解析度的功能挖掘出来,达到800CPI
的高性能,并使用功能脚复用的方法,实现自由动态切换!所谓动态即指可在使用鼠标过程中设置解析度,也可以在电路上把解析度定死。适合作5KEY
鼠标,且与2D3KEY、3D3KEY模式自动切换,同时这款芯片适合PAN101B的所有型号:
PAN101BOI-204、PAN101BOI-208
、PAN101BSI-204、PAN101BSI-208,固不必为选型而费心。
2.2.2.USB鼠标控制器
目前USB鼠标采用赛普拉斯半导体公司(Cypress)的CY7C63723
enCoRe(增强型器件减少)USB微控制器。Cypress CY7C63723
enCoRe器件具有如下特性:业界最小的Cypress专有M8控制器内核及集成的USB串行接口引擎(SIE)和收发器;用于存储和数据缓冲的集成EPROM加RAM;以及可减少EMI的优化输出驱动器。EnCoRe系列USB微控制器专注于系统成本的降低,采用内部小晶振,因此无需外部晶振或共鸣器。该器件还集成了低速常见的USB设备及其它片外元器件,如上拉电阻、唤醒电路和3.3V调压器。
2.3.无线收发芯片
无线收发种类很多,有无线、红外、篮牙等。红外有一定的方向性,而篮牙技术比较复杂,价格比较高,目前市场上的无线鼠标大多采用无线芯片实现。
2.3.1.无线射频
nRF2401无线收发一体芯片和蓝牙一样,都工作在2.4GHz自由频段,能够在全球无线市场畅通无阻。nRF2401支持多点间通信,最高传输速率超过1Mbit/S,而且比蓝牙具有更高的传输速度。它采用SOC方法设计,只需少量外围元件便可组成射频收发电路。与蓝牙不同的是,nRF2401没有复杂的通信协议,它完全对用户透明,同种产品之间可以自由通信。更重要的是,nRF2401比蓝牙产品更便宜。所以nRF2401是业界体积最小、功耗最少、外围元件最少的低成本射频系统级芯片。
2.3.2.红外
IRDA是红外数据协会的简称,IRDA制订的一系列红外数据通讯标准形成了红外数据通讯技术的基础。红外通讯技术是一种点对点的数据传输协议,是传统的设备之间连接线缆的替代。它的通讯距离一般在0到1米之间,传输速率最快可达16Mbps,通讯介质为波长为900纳米左右的近红外线。
不过红外线技术只是无线技术的最初级阶段,它的技术较简单、生产成本低,同时也拥很多显而易见的缺点。这些缺点主要是由于光的直线传播的特性所造成的,如使用时发射器需要对准接收器、发射器和接收器之间不可有障碍物阻挡等缺点会给用户使用时造成诸多限制。因为红外的传输速度限制,应用红外无线技术的鼠标,都存在着明显影响使用感受的延迟现象。红外通讯植入成本大幅降低,大批量生产可使植入成本控制在3美元以内。
2.3.3.蓝牙技术
PMB8753芯片基于英飞凌的130nmCMOS工艺技术,功耗比以前的解决方案降低35%。该芯片通过了基本数据速率环境(1Mbps)和低于增强数据速率环境(2Mbps和3Mbps)的所有协同工作测试。这种WLAN共存接口(2线和3线)能和许多WLAN解决方案共享2.4GHzISM频段,传输距离为10米。通过外接功率放大器,BlueMoon芯片能容易地升级到1级(100米)。
CSR推出的WLAN解决方案,包括主打手机的802.11b/g的UniFi-1
Portable,以及可用于手机及其他消费性电子产品的802.11a/b/g的UniFi-1
Consumer,预计2004年底送样,2005年中正式量产,单价将低于8美元,额外的原材料成本不到1美元。随着竞争的加剧、产量的扩大,蓝牙芯片的价格越来越便宜,蓝牙芯片离3美元/颗的日子不远了,同时蓝牙产品的出货量越来越大。
2.4.电压和比特率
由于无线鼠标需自带电源,所以要求所用芯片必须是低功耗和低电压,而安捷伦的光学成像定位引擎已有低电压低功耗产品,如ADNS-2030、ADNS-3060,nRF2401也是低电压低功耗产品。鼠标部分还需要一个微处理器考虑到价格和低电压要求,可以选用AT89C2051,AVR单片机等。
nRF2401的传输速率可达1M,可充分发挥光学引警的性能,常用的USB接口都是1.1规范的,它的传输速率最大是1.1M,和nRF2401差不多。
3.设计方案
3.1.典型方案
鼠标的设计需要考虑接口,光学芯片,无线射频芯片。组合起来有多种设计方案,本文只列举采用无线芯片部分设计。
3.1.1.低价无线鼠标
接口采用比较便宜的PS2。SMC522是一款性能优良的PS/2光电3D鼠标控制芯片,可与PAN101B204/208系列、ADNS-2051系列配对使用构成高性能光电鼠标。SMC522采用MICRO控制接口,可使鼠标的解析度400CPI/800CPI动态切换并适用于PS/2
2D3KEY、PS/23D3KEY、PS/23D5KEY等多种工作模式(根据不同的系统及驱动程序自动切换)。
目前所谓的机械鼠标应该叫做光学机械鼠标(Opto-mechanical),简称光机鼠标。光机鼠标限于先天结构的限制,存在滚球、滚轴等机械器件的磨损,而且还会沾染灰尘,造成其精度的下降。所以大多数的光机鼠标的设计寿命一般只有1年。光机鼠标除了需要经常清洗之外,还只能在诸如鼠标垫那样的比较平整却有一定摩擦力的平面上工作,适用场合很有限。
3.1.2.使用ADNS-2030做无线鼠标
接口PS2或者USB,适合要求不高的用户。
安捷伦科技公司不久前推出一种新型光学鼠标传感器ADNS-2030。它使用五号电池供电,连续使用时间长。ADNS-2030具有最平滑、最快速、最精确的定位控制功能,可为工作站、PC和笔记本电脑使用的无绳鼠标提供理想的解决方案。这种光学定位传感器每秒可拍摄上千张数码图片,其分辨率高达800dpi,该器件经过信号分析和处理可将鼠标的运动转化为计算机屏幕上光标的移动。与传统机械鼠标相比,采用这种新技术的光电鼠标可以实现更加精确的定位和更加灵敏的移动,而且不再需要鼠标垫,因此极大提高了使用的可靠性,延长了使用寿命。
ADNS-2030光学鼠标传感器还为设计人员提供了更高的灵活性,它的帧速率每秒可达500~2300帧,分辨率为400dpi或800dpi,最快速度每秒可达36cm。鼠标处于静止状态,还自动执行省电功能,同时可为发光二极管(LED)光源提供受控驱动程序。ADNS-2030使用单一电源供电,并具备片上LED驱动功能以及停止移动时的省电模式特性。另外,ADNS-2030还包含一个影像采撷系统(IAS)、一个数字信号处理器(DSP)、一个双通道的正交输出以及一个双线串行端口。
3.1.3.使用ADNS-3060的光电鼠标基础上添加无线收发器
这个设计是针对高端用户,可采用AVR单片机,USB/PS2控制器采用较好的CY7CD83743A-PC芯片。
在目前市场上的高端鼠标产品中,两大厂商罗技和微软还是用他们的集先进技术和良好设计于一体的无线鼠标产品当仁不让地占据着这个权威性的地位。在蓝牙技术鼠标产品推广微软要落后于罗技;不过在采用无线电技术的产品方面,微软的地位和罗技一样不可动摇。
3.1.4.仿无需电池无线鼠标防双飞燕设计
它的光电引擎芯片并非常见的安捷伦产品而是较为少见的台湾产OM02引擎。其水平大概和第二代安捷伦引擎差不多。选择它的因素我们估计有两个,一是安捷伦引擎在所有引擎中功耗属于较大的,显然不太适合无电池产品使用,二也不能不说是有一定价格的原因。
3.2.抗干扰设计
由于无线RF特殊性,我们必须严格控制EMC干扰因素,否则产品达不到设计要求,无线芯片也无法达到理论传输距离和传输速率。
在绘制PCB板时要特别注意以下几个方面:
1)采用质量较好的稳压电源,并添加高低频滤波电路,例如100uF和1000pF电容,100Ω电阻组成的滤波电路。
2)PCB板的数字电路,模拟信号电路,RF电路必须分区设计,避免相互干扰,可用地线将区域隔离,在靠近电源的一点将三部分的地接与电源地。
3)每个芯片的电源与地之间添加0.01uF-0.1uF高频电容,减少电路对电源的影响。
4)单片机晶振与单片机引脚尽可能靠近,用地线将时钟隔离,并将晶振外壳与地连接固定。
5)布线时避免90度折线,减少回路面积。
6)电源线和地线尽可能的粗,PCB板空白处与地充分连接。
7)软件抗干扰可以提高产品的可靠性,增强抗干扰效果:
8)不用代码空间清“0”,程序结束设置软件陷阱。
9)跳转指令前加几个NOP,多字节指令之后加几个NOP。
10)数据通讯添加数据校验位。
3.4.方案对比
SMC522/$0.22,EM84510/¥1。(参考:明基无线键盘鼠标(滚轮)套装200元)。
采用ADNS-2030和nRF2401做的无线鼠标主要芯片价格为:nRF,AT89C2051-12PI/&#,CY7C6。
ADNS-3060/$5,(参考:双飞燕无线鼠标价格120元)。
已投稿到:理论与现实的差异,多核心芯片软开发瓶颈何在?
当前位置:&
&&理论与现实的差异,多核心芯片软开发瓶颈何在?
西安交通大学维纳仪器有限责任公司联系我们
地址:西安交通大学东南门启光大厦903室
邮编:710048
电话:029-5283
传真:029-2315801
Email:winner@mail.
理论与现实的差异,多核心芯片软开发瓶颈何在?
[db:副标题]
  中央处理器,CPU(Central Processing Unit),做为电脑的大脑,掌管着电脑所有运行的程序。为了让程序可以运行的更快更稳,电脑架构师们不断的思考着该如何设计出更好的 CPU 架构,让使用者得以享受更加快速、便利的电脑。  为了设计出更为出色的 CPU,工程师便想借由不断提高 CPU 的时脉,让 CPU 得以在一秒内执行更多的指令。随着科技的发展,时脉的确如工程师所愿,逐步的提高。从 1990 年代开始,CPU 的时脉从 60MHz,一举提升到 2000 年的 2000MHz。进步幅度之大,令人赞叹。  发展遇到瓶颈,多核心的时代来临?  到了千禧年,时脉的进展,却不再如此顺利。当 CPU 时脉发展到 4GHz 左右时,工程师发现,CPU 每秒所制造出的热,已经突破一般家用散热器可以负担的量。为了解决工程上的瓶颈,工程师开始将目光放在多核心架构上。因此,Intel 以及 AMD 皆于 2005 年发布了双核心 CPU,欲借由双核心的技术,突破单芯片效能的瓶颈。  但是,多核心架构却没有如原先预期的向超多核心发展。intel 从 2005 年至 2015 年。将近 10 年间,在一般消费者市场(不含电竞玩家)所发售的 CPU 也顶多从双核心进展到四核心。至于 AMD,即使发布了 8 核心的 CPU 于市场上,其效能也顶多和该时期的同级 4 核 intel CPU 相当。  究竟是什么样的因素,让 CPU 的核心无法如同时脉的进展般,一飞冲天?  应用程序的极限,多核心无用武之地?  在不考虑在单一 CPU 中加入过多核心,会大幅增加 CPU 的耗电量时。最主要的因素便是多核心的应用程序不容易开发,让电脑架构师决定持续研究如何改善一个核心的效能,而非多核心架构的开发。但是,为何多核心的 应用程序会难以开发呢,这必须从使用者常用的应用程序来看。  在日常的使用环境中,使用者大多是使用网页浏览器、看影片、以及玩游戏。而这 3 种,恰好是 3 种不同的应用类型。  在使用网页浏览器时,电脑大多在等待使用者下新的指令,像是打字以及使用鼠标点击链接,接着便是从远端读取网页资料并绘成使用者界面。软件在 CPU 端可以平行运作的部分相当稀少,也因此,多核心在单纯的浏览网页上,并无法带来太多的增益。  上网看影片则是电脑会不断的从服务器接收影片的资料以及向服务器送请求,接收资料后,交由绘图处理器(GPU)进行绘图运算,将压缩过的编码影像档转换成显示器的画面。在这一类应用中,工作负担主要是在 GPU 端,CPU 可平行的程度也不高。  最后的应用,则是游玩游戏。在玩游戏时,电脑会不断的接收使用者所下的指令,接着是在电脑所建构出的虚拟世界中,标记玩家周遭的景色以及移动。之后,便是将整个虚拟世界交由 GPU,转换成显示器的画面。绘图处理器详细的运行流程在此。  在这一类应用中,因为电脑需不断地记录玩家的移动以及将虚拟世界中物体位置记录在 CPU 中,因此,CPU 的负担较其他应用沉重,毕竟它需要从硬盘中读取地图的地形座标以及玩家的位置和动作。此外,CPU 也需将大量的游戏资料送进 GPU 中。所以,游戏和前述的应用相比,可平行的程度较高。但是,4 核心也足以负荷所有需求。因为负荷最沉重负担的,依旧是 GPU。  根本问题,人的思绪是线性的  由上所述的数个原因,可以得知最根本的问题,便是人类一次只能思考一件事情。而电脑程序是由人类撰写,导致在撰写程序时会将人类的思考方式带进电脑中,让程序在早期的发展,仅需由单核心处理器便可以完成。  此外,如果要将现行的程序修改成平行程序,也因为人的思考流程是线性的,工程师需要花费相当大的力气才能找出可以平行的部分,并将程序的逻辑做大幅的修改,让平行程序难以推广。  或许会有人反驳,人一次是可以做两件事情,像是一边做事一边听音乐,但那也只能称为可以迅速的在两件事情间做切换而非同时思考。除非,有人可以将眼睛同时对焦在两点以上,这样才有可能一次处理两件事情。  此外,有部分的使用者会宣称,他们一次会开启多个网页分页,这样也算是需要多核心的 CPU,但是,如前所述,除非有人可以将眼睛对焦在两点上,同时看两个网页。不然,开启多个分页只是占用大量的内存,多核心在这类应用上没有多大的帮助。  移动时代来临,应用产生剧变  然而,在智能手机发布之后,情况开始有所转变。随着手机的迅速发展以及应用的多变,多核心的应用逐渐增加。举例来说,在 2013 年,Apple 推出的 iPhone 5s 内,便在原本的双核心 CPU 外,添加一个小处理器做感测器的资料收集。在其他手机内部,则使用一般的 CPU 核心负责。让原本的应用,新增了一份可平行的工作。  此外,近期的应用程序也开始提升和现实世界的互动性。以现行热门的 Pok&mon GO 为例。在开启 AR 和现实世界互动时,要执行此类应用程序,便需要大量的运算资源。在寻找宝可梦时,手机需要收集 GPS 信号,下载地图资讯以及宝可梦出现的位置。  当宝可梦出现后,则需要将相机拍摄的图片和宝可梦做结合。同时,运动感测器也需要开启,计算玩家镜头的移动轨迹,订出宝可梦应该出现在画面的何处;抛球时,则需计算抛球的方向还有滑动的速度以计算抛球的距离。这些应用都可以平行,为多核心 CPU 开启一片新天地。  另外,随着自动驾驶以及人工智能的题材兴起,原本用在手机内部的芯片,开始攻城掠地,往其他领域拓展。在其他领域中,因为需要大量的感测器,让超多核心的应用化为可能。毕竟,光是接收大量的感测器资料,现行的 4 核心 CPU 已招架不住。  那么,我们是否需要多核心的 CPU 呢?对一般的笔电以及桌机使用者而言,近期的答案为否,毕竟 4 核心已经能满足使用者的需求;但在移动应用市场中,答案则为是,因为移动设备的应用越来越多元,感测器也越来越多,在 CPU 中塞入更多的核心,将可迅速的应付与日俱增的硬件需求,而不需花费大量的人力以及财力从单一核心压榨出更多效能。
发布时间:日 10:32&人气:&审核编辑:郑益文
更多内容请访问()
理论与现实的差异,多核心芯片软开发瓶颈何在?-相关新闻
提点建议:
,请填写评语后直接提交。
&&匿名留言
扫描二维码关注微博
扫描二维码关注微信一文读懂人工智能芯片所有猫腻,CPU/GPU/FPGA等都有啥差异?-控制器/处理器-与非网
4.深度学习:剔除神经网络之误差
深度学习由人工神经网络衍生而来,是一种需要训练的具有大型神经网络的多隐层层次结构,其每层相当于一个可以解决问题不同方面的机器学习。利用这种深层非线性的网络结构,深度学习可以实现复杂函数的逼近,将表征输入数据分布式表示,继而展现强大的从少数样本集中学习数据集本质特征的能力,并使概率向量更加收敛。
简单来说,深度学习神经网络对数据的处理方式和学习方式与人类大脑的神经元更加相似,比传统的神经网络更准确。
我们回过头来看这个停止标志识别的例子:深度学习神经网络从成百上千甚至几百万张停止标志图像中提取表征数据,通过重复训练将神经元输入的权重调制得更加精确,无论是否有雾,晴天还是雨天,每次都能得到正确的结果。只有这个时候,我们才可以说神经网络成功地自学习到一个停止标志的样子。
Google的AlphaGo也是先学会了如何下围棋,然后通过不断地与自己下棋,训练自己的神经网络,这种训练使得AlphaGo成功在三个月后击败了等级分数更高的李世石。
二、深度学习的实现
深度学习仿若机器学习最顶端的钻石,赋予人工智能更璀璨的未来。其摧枯拉朽般地实现了各种我们曾经想都不敢想的任务,使得几乎所有的机器辅助功能都变为可能。更好的电影推荐、智能穿戴,甚至无人驾驶汽车、预防性医疗保健,都近在眼前,或者即将实现。人工智能就在现在,就在明天。你的C-3PO我拿走了,你有你的终结者就好。
但是正如前面提到的,人工神经网络,即深度学习的前身,已经存在了近三十年,但直到最近的5到10年才再次兴起,这又是因为什么?
1.突破局限的学习算法
20世纪90年代,包括支撑向量机(SVM)与最大熵方法(LR)在内的众多浅层机器学习算法相继提出,使得基于反向传播算法(BP)的人工神经网络因难以弥补的劣势渐渐淡出人们的视线。直到 2006年,加拿大多伦多大学教授、机器学习领域的泰斗 Geoffrey Hinton 和他的学生在《科学》上发表了一篇文章,解决了反向传播算法存在的过拟合与难训练的问题,从而开启了深度学习在学术界和工业界的浪潮。
深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,&深度模型&是手段,&特征学习&是目的。区别于传统的浅层学习,深度学习的不同在于:
&强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;
&明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。
这种算法的差别提升了对训练数据量和并行计算能力的需求,而在当时,移动设备尚未普及,这使得非结构化数据的采集并不是那么容易。
2.骤然爆发的数据洪流
深度学习模型需要通过大量的数据训练才能获得理想的效果。以语音识别问题为例,仅在其声学建模部分,算法就面临着十亿到千亿级别的训练样本数据。训练样本的稀缺使得人工智能即使在经历了算法的突破后依然没能成为人工智能应用领域的主流算法。直到2012年,分布于世界各地的互相联系的设备、机器和系统促进了非结构化数据数量的巨大增长,并终于在可靠性方面发生了质的飞跃,大数据时代到来。
大数据到底有多大?一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多,相当于美国两年的纸质信件数量;发出的社区帖子达200万个,相当于《时代》杂志770年的文字量;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万倍。然而,即使是人们每天创造的全部信息,包括语音通话、电子邮件和信息在内的各种通信,以及上传的全部图片、视频与音乐,其信息量也无法匹及每一天所创造出的关于人们自身活动的数字信息量。
我们现在还处于所谓&物联网&的最初级阶段,随着技术的成熟,我们的通讯设备、交通工具和可穿戴科技将能互相连接与沟通,信息量的增加也将以几何倍数持续下去。
3.难以满足的硬件需求
骤然爆发的数据洪流满足了深度学习算法对于训练数据量的要求,但是算法的实现还需要相应处理器极高的运算速度作为支撑。当前流行的包括X86和ARM在内的传统CPU处理器架构往往需要数百甚至上千条指令才能完成一个神经元的处理,但对于并不需要太多的程序指令,却需要海量数据运算的深度学习的计算需求,这种结构就显得非常笨拙。尤其是在当前功耗限制下无法通过提升CPU主频来加快指令执行速度,这种矛盾愈发不可调和,深度学习研究人员迫切需要一种替代硬件来满足海量数据的运算需求。
或许终有一日将会诞生全新的、为人工智能而专门设计的处理器架构,但在那之前的几十年,人工智能仍然要向前走,便只能改进现有处理器,使之成为能够最大程度适应大吞吐量运算的计算架构。目前来看,围绕现有处理器的主流改进方式有两个:
&图形处理器通用化:
将图形处理器GPU用作矢量处理器。在这种架构中,GPU擅长浮点运算的特点将得到充分利用,使其成为可以进行并行处理的通用计算芯片GPGPU。英伟达公司从2006年下半年已经开始陆续推出相关的硬件产品以及软件开发工具,目前是人工智能硬件市场的主导。
&多核处理器异构化:
将GPU或等其他处理器内核集成到CPU上。在这种架构中,CPU内核所不擅长的浮点运算以及信号处理等工作,将由集成在同一块芯片上的其它可编程内核执行,而GPU与FPGA都以擅长浮点运算著称。AMD与Intel公司分别致力于基于GPU与FPGA的异构处理器,希望借此切入人工智能市场。
三、现有市场&&通用芯片GPU
在深度学习的领域里,最重要的是数据和运算。谁的数据更多,谁的运算更快,谁就会占据优势。因此,在处理器的选择上,可以用于通用基础计算且运算速率更快的GPU迅速成为人工智能计算的主流芯片。可以说,在过去的几年,尤其是2015年以来,人工智能大爆发就是由于英伟达公司的GPU得到广泛应用,使得并行计算变得更快、更便宜、更有效。
1.GPU是什么?
图形处理器GPU最初是用在个人电脑、工作站、游戏机和一些移动设备上运行绘图运算工作的微处理器,可以快速地处理图像上的每一个像素点。后来科学家发现,其海量数据并行运算的能力与深度学习需求不谋而合,因此,被最先引入深度学习。2011年吴恩达教授率先将其应用于谷歌大脑中便取得惊人效果,结果表明,12颗英伟达的GPU可以提供相当于2000颗CPU的深度学习性能,之后纽约大学、多伦多大学以及瑞士人工智能实验室的研究人员纷纷在GPU上加速其深度神经网络。
2.GPU和CPU的设计区别
那么GPU的快速运算能力是如何获得的?这就要追溯到芯片最初的设计目标了。中央处理器CPU需要很强的处理不同类型数据的计算能力以及处理分支与跳转的逻辑判断能力,这些都使得CPU的内部结构异常复杂;而图形处理器GPU最初面对的是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,所以GPU只需要进行高速运算而不需要逻辑判断。目标运算环境的区别决定了GPU与CPU不同的设计架构:
CPU基于低延时的设计
&大量缓存空间Cache,方便快速提取数据。CPU将大量访问过的数据存放在Cache中,当需要再次访问这些数据时,就不用从数据量巨大的内存中提取了,而是直接从缓存中提取。
&强大的算术运算单元ALU,可以在很短的时钟周期内完成算数计算。当今的CPU可以达到64bit双精度,执行双精度浮点源计算加法和乘法只需要1~3个时钟周期,时钟周期频率达到1.532~3gigahertz。
&复杂的逻辑控制单元,当程序含有多个分支时,它通过提供分支预测来降低延时。
&包括对比电路单元与转发电路单元在内的诸多优化电路,当一些指令依赖前面的指令结果时,它决定这些指令在pipeline中的位置并且尽可能快的转发一个指令的结果给后续指令。
GPU基于大吞吐量的设计
&压缩缓存空间Cache,从而最大化激发内存吞吐量,可以处理超长的流水线。缓存的目的不是保存之后需要访问的数据,而是担任数据转发的角色,为线程提高服务。如果有很多线程需要访问同一个数据,缓存会合并这些访问,再去DRAM中访问数据,获取的数据将通过缓存转发给对应的线程。这种方法虽然减小了缓存,但由于需要访问内存,因而自然会带来延时效应。
&高效的算数运算单元和简化的逻辑控制单元,把串行访问拆分成多个简单的并行访问,并同时运算。例如,在CPU上约有20%的晶体管是用作计算的,而GPU上有80%的晶体管用作计算。
3.GPU和CPU的性能差异
CPU与GPU在各自领域都可以高效地完成任务,但当同样应用于通用基础计算领域时,设计架构的差异直接导致了两种芯片性能的差异。
CPU拥有专为顺序逻辑处理而优化的几个核心组成的串行架构,这决定了其更擅长逻辑控制、串行运算与通用类型数据运算;而GPU拥有一个由数以千计的更小、更高效的核心组成的大规模并行计算架构,大部分晶体管主要用于构建控制电路和Cache,而控制电路也相对简单,且对Cache的需求小,只有小部分晶体管来完成实际的运算工作。所以大部分晶体管可以组成各类专用电路、多条流水线,使得GPU的计算速度有了突破性的飞跃,拥有了更强大的处理浮点运算的能力。这决定了其更擅长处理多重任务,尤其是没有技术含量的重复性工作。
当前最顶级的CPU只有4核或者6核,模拟出8个或者12个处理线程来进行运算,但是普通级别的GPU就包含了成百上千个处理单元,高端的甚至更多,这对于多媒体计算中大量的重复处理过程有着天生的优势。
举个常见的例子,一个向量相加的程序,可以让CPU跑一个循环,每个循环对一个分量做加法,也可以让GPU同时开大量线程,每个并行的线程对应一个分量的相加。CPU跑循环的时候每条指令所需时间一般低于GPU,但GPU因为可以同时开启大量的线程并行地跑,具有SIMD的优势。
4.GPU行业的佼佼者:Nvidia
目前全球GPU行业的市场份额有超过70%被英伟达公司占据,而应用在人工智能领域的可进行通用计算的GPU市场则基本被英伟达公司垄断。
2016年三季度英伟达营收为20.04亿美元,较上年同期的13.05亿美元增长54%;净利润为5.42亿美元,较上年同期的2.46亿美元增长120%,营收的超预期增长推动其盘后股价大幅上涨约16%。以面向的市场平台来划分,游戏业务营收12.4亿美元,同比增长63%,是创造利润的核心部门;数据中心业务营收2.4亿美元,同比增长193%,成为增长最快的部门;自动驾驶业务营收1.27亿美元,同比增长61%,正在逐步打开市场。
这样的业绩创下了英伟达的历史最好季度收入,但这并非是其股票暴涨的理由,事实上,在过去的六年里,英伟达的业绩基本一直呈现上升趋势。从2012年财年至2016财年,英伟达的营业收入实现了从40亿美元到50亿美元的跨越,而其净利润也从2012财年的5.8亿美元逐步上升到了2016财年的6.14亿美元。但在此期间,英伟达的股价并未出现翻番式的增长。
真正促成英伟达股价飙升的是人工智能的新市场。在刚刚过去的2016年,英伟达的股价上涨了228%,过去的5年内累计上涨500%。500亿美元的市值将会持续给英伟达带来40倍的市场收入,这几乎是业内拥有最高收益的公司。
5.Nvidia的市场定位:人工智能计算公司
自1999年发布第一款GPU以来,GPU就成为了英伟达最为核心的产品,占到了英伟达总营业收入的八成,而英伟达也以显卡厂商的身份进入人们的视线。这些芯片最初是以板卡的形式出售给游戏玩家的,游戏玩家需要自己动手将芯片装到PC主板上,从而拥有更快的3D图形处理速度。他们的产品命名也很有讲究,用&GeForce&这样具有超能力的字眼来开辟市场。
今日的英伟达,已经不再是一家单纯的显卡技术厂商,他现在很赶时髦地称自己为&人工智能计算公司&。据英伟达官网数据显示,2016年,有近两万家机构将英伟达产品用于深度学习加速计算,相比2014年翻了13倍。医疗、生命科学、教育、能源、金融、汽车、制造业以及娱乐业等诸多行业均将得益于海量数据的分析。
谷歌、微软、Facebook 和亚马逊等技术巨头大量购买英伟达的芯片来扩充自己数据中心的处理能力;Massachusetts General Hospital等医疗研究机构用英伟达的芯片来标记CT扫描图片上的病变点;特斯拉将在所有的汽车上安装英伟达的芯片来实现无人驾驶; June等家电公司用英伟达的芯片制造人工智能驱动的家用电器。在人工智能到来之前,英伟达从来都没有处于一个如此巨大的市场的中心,这也充分表明了一个事实,那就是英伟达在GPU的计算处理技术上无人能及。
同时,英伟达还在投资不同领域里新兴的、需要借助深度学习来构建业务的公司,使这些公司能够更好地借助其提供的人工智能平台起步,这类似于以前一些初创公司通过微软Windows来构建服务以及最近通过iTunes来发布应用。
6.Nvidia的核心产品:Pascal家族
英伟达的传统强项是桌面和移动终端的GPU,但是坚定地向着人工智能大步迈进的英伟达显然已经不满足于仅仅在单一领域做提高GPU性能的事了。相比于传统的计算密集型GPU产品来说,英伟达努力的方向是使得GPU芯片不仅仅只针对训练算法这一项起到作用,更是能处理人工智能服务的推理工作负载,从而加速整个人工智能的开发流程。目前该公司的核心产品包括基于Pascal架构的TeslaP4与Tesla P40深度学习芯片,这两款芯片均已于2016年第四季度开始投入量产。
Tesla P4为资料中心带来最高的能源效率
其小尺寸及最小50瓦特的低功率设计可安装于任何服务器内,让生产作业负载推论的能源效率达CPU的40倍。在进行视频推论作业负载时,单一服务器裡安装单颗Tesla P4即可取代13台仅采用CPU的服务器,而包含服务器及用电量的总持有成本则能节省达8倍。
Tesla P40为深度学习作业负载带来最大的处理量
一台搭载8颗Tesla P40加速器的服务器拥有每秒47兆次运算的推论性能及INT8指令,可取代140台以上的CPU服务器的性能。若以每台CPU服务器约5,000美元计算,可节省65万美元以上的服务器采购成本。
基于上述两种人工智能芯片,英伟达为资料中心提供唯一的端对端深度学习平台,并能够将训练时间从数天大幅缩短至数小时,从而实现资料的立即解析与服务的及时回应。
7.Nvidia的应用布局:自动驾驶
不仅仅是底层架构,英伟达在应用层面上也有非常明确的布局,其中最看重也最有领先优势的就是自动驾驶。早在2014年1月,英伟达就发布了为移动平台设计的第一代Tegra系列处理器,适用于智能手机、平板电脑和自动驾驶汽车,四个月后,DRIVE PX自动驾驶计算平台发布,可实现包括高速公路自动驾驶与高清制图在内的自动巡航功能。同年10月,搭载了Tegra K1处理器并应用了DRIVEPX计算平台的特斯拉新款Model S开始量产,英伟达成为第一个享受到自动驾驶红利的厂商。
2016年英伟达在自动驾驶领域并没有什么重大突破,基本只是从技术升级及厂商合作两个方面入手,除了特斯拉这个老朋友外,百度、沃尔沃也跟英伟达达成了合作,他们都将生产搭载DRIVE PX 2的智能驾驶汽车。恰逢此时,AI概念变得更加火热,智能驾驶也逐渐成熟,这些客观因素让英伟达收割了更多的红利,也让公司站在了聚光灯之下。
从整个自动驾驶行业来看,Google、苹果、微软等科技公司都在建立自己的汽车生态体系,不过智能汽车对于他们来说都不是核心业务,更为重要的是,他们并没有真正进入汽车供应链体系。与之相反,英伟达的Drive PX系列自动驾驶解决方案,已经进入了汽车的上游供应链中,并创造了利润,这也意味着英伟达将在汽车芯片市场与英特尔、高通、恩智浦、瑞萨电子等做CPU的公司正面碰撞,自动驾驶的风口让英伟达在汽车市场从&边缘人&变成了挑战者。
随着特斯拉Model S等备受瞩目的车型更加智能化与多媒体化,英伟达有了弯道超车的机会,并有望在汽车产业的上游供应链占据更有优势的地位。最新款的Tegra系列处理器功耗只有10瓦,几乎与同等级的FPGA产品功耗持平甚至更低,这对于车载移动芯片来说是巨大的优势。
但同样的,单移动处理器的架构和极低的功耗必然无法支撑起超大规模的运算,目前英伟达计算平台的功能定位仅聚焦于高速公路上的自动巡航,而CPU的应用可以拓展至车机娱乐信息系统层面。未来自动驾驶的发展方向必然是整车的控制中心,从目前英伟达基于Tesla架构的主流芯片来看,低功耗、极速运算与逻辑控制是可以同时实现的,英伟达公司在自动驾驶领域的优势非常明显。
8.Nvidia的产业优势:完善的生态系统
与其它芯片公司相比,带有CUDA的重点软件生态系统是英伟达占领人工智能市场的关键促成因素。从2006年开始,英伟达发布了一个名叫CUDA的编程工具包,该工具包让开发者可以轻松编程屏幕上的每一个像素。在CUDA发布之前,给GPU编程对程序员来说是一件极其痛苦的事,因为这涉及到编写大量低层面的机器码以实现渲染每一个不同像素的目标,而这样的微型计算操作通常有上万个。CUDA在经过了英伟达的多年开发之后,成功将Java或C++这样的高级语言开放给了GPU编程,从而让GPU编程变得更加轻松简单,研究者也可以更快更便宜地开发他们的深度学习模型。
四、未来市场:半定制芯片FPGA
技术世界正在迈向一个全新的轨道,我们对于人工智能的想象已经不再局限于图片识别与声音处理,机器,将在更多领域完成新的探索。不同领域对计算的需求是差异的,这就要求深度学习的训练愈发专业化与区别化。芯片的发展趋势必将是在每一个细分领域都可以更加符合我们的专业需求,但是考虑到硬件产品一旦成型便不可再更改这个特点,我们不禁开始想,是不是可以生产一种芯片,让它硬件可编程。
也就是说,这一刻我们需要一个更适合图像处理的硬件系统,下一刻我们需要一个更适合科学计算的硬件系统,但是我们又不希望焊两块板子,我们希望一块板子便可以实现针对每一个应用领域的不同需求。这块板子便是半定制芯片FPGA,便是未来人工智能硬件市场的发展方向。
1.FPGA是什么?
场效可编程逻辑闸阵列FPGA运用硬件语言描述电路,根据所需要的逻辑功能对电路进行快速烧录。一个出厂后的成品FPGA的逻辑块和连接可以按照设计者的需要而改变,这就好像一个电路试验板被放在了一个芯片里,所以FPGA可以完成所需要的逻辑功能。
FPGA和GPU内都有大量的计算单元,因此它们的计算能力都很强。在进行神经网络运算的时候,两者的速度会比CPU快很多。但是GPU由于架构固定,硬件原生支持的指令也就固定了,而FPGA则是可编程的。其可编程性是关键,因为它让软件与终端应用公司能够提供与其竞争对手不同的解决方案,并且能够灵活地针对自己所用的算法修改电路。
2.FPGA和GPU的性能差异
同样是擅长并行计算的FPGA和GPU,谁能够占领人工智能的高地,并不在于谁的应用更广泛,而是取决于谁的性能更好。在服务器端,有三个指标可供对比:峰值性能、平均性能与功耗能效比。当然,这三个指标是相互影响的,不过还是可以分开说。
峰值性能:GPU远远高于FPGA
GPU上面成千上万个核心同时跑在GHz的频率上是非常壮观的,最新的GPU峰值性能甚至可以达到10TFlops 以上。GPU的架构经过仔细设计,在电路实现上是基于标准单元库而在关键路径上可以用手工定制电路,甚至在必要的情形下可以让半导体fab依据设计需求微调工艺制程,因此可以让许多core同时跑在非常高的频率上。
相对而言,FPGA首先设计资源受到很大的限制,例如GPU如果想多加几个核心只要增加芯片面积就行,但FPGA一旦型号选定了逻辑资源上限就确定了。而且,FPGA里面的逻辑单元是基于SRAM查找表,其性能会比GPU里面的标准逻辑单元差很多。最后,FPGA的布线资源也受限制,因为有些线必须要绕很远,不像GPU这样走ASIC flow可以随意布线,这也会限制性能。
平均性能:GPU逊于FPGA
FPGA可以根据特定的应用去编程硬件,例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器,而GPU一旦设计完就不能改动了,所以不能根据应用去调整硬件资源。
目前机器学习大多使用SIMD架构,即只需一条指令可以平行处理大量数据,因此用GPU很适合。但是有些应用是MISD,即单一数据需要用许多条指令平行处理,这种情况下用FPGA做一个MISD的架构就会比GPU有优势。
所以,对于平均性能,看的就是FPGA加速器架构上的优势是否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势,那么FPGA在平均性能上会好于GPU。
功耗能效比:
功耗方面,虽然GPU的功耗远大于FPGA的功耗,但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能够接近一块GPU,那么FPGA方案的总功耗远小于GPU,散热问题可以大大减轻。反之,如果需要二十块FPGA才能实现一块GPU的平均性能,那么FPGA在功耗方面并没有优势。
能效比的比较也是类似,能效指的是完成程序执行消耗的能量,而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗,但是如果FPGA执行相同程序需要的时间比GPU长几十倍,那FPGA在能效比上就没有优势了;反之如果FPGA上实现的硬件架构优化得很适合特定的机器学习应用,执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU,那么FPGA的能效比就会比GPU强。
3.FPGA市场前景
随着科技的进展,制造业走向更高度的自动化与智能化,对工业控制技术等领域不断产生新的需求,在未来的工业制造领域,FPGA将有更大的发展空间。目前来看,有两个领域的应用前景十分巨大:
工业互联网领域
作为未来制造业发展的方向,工业大数据、云计算平台、MES系统等都是支持工业智能化的重要平台,它们需要完成大数据量的复杂处理,FPGA在其中可以发挥重要作用。
工业机器人设备领域
在多轴向运作的精密控制、实时同步的连接以及设备多功能整合等方面,兼具弹性和整合性的FPGA,更能展现设计优势。如汽车ADAS需要对实时高清图像进行及时的分析识别与处理;在人工智能方面,深度学习神经网络也需要进行大量并行运算。
4.FPGA现有市场
FPGA市场前景诱人,但是门槛之高在芯片行业里无出其右。全球有60多家公司先后斥资数十亿美元,前赴后继地尝试登顶FPGA高地,其中不乏英特尔、IBM、德州仪器、摩托罗拉、飞利浦、东芝、三星这样的行业巨鳄,但是最终登顶成功的只有位于美国硅谷的两家公司:Xilinx与Altera。这两家公司共占有近90%的市场份额,专利达到6000余项之多,如此之多的技术专利构成的技术壁垒当然高不可攀。
2015年6月,英特尔用史无前例的167亿美元巨款收购了Altera,当时业内对于英特尔此举的解读主要集中在服务器市场、物联网市场的布局上,英特尔自己对收购的解释也没有明确提到机器学习。但现在看来,或许这笔收购在人工智能领域同样具有相当大的潜力。
5.FPGA行业的开拓者:
英特尔能不能通过FPGA切入AI硬件市场?要讲清楚这个问题,我们必须要把视角从人工智能身上拉远,看看英特尔的整体战略布局。最近几年,英特尔的核心盈利业务CPU同时遭到了三个因素的狙击:PC市场增长放缓、进军移动市场的尝试失败以及摩尔定律逐渐逼近极限。单纯的卖CPU固然也能赚到钱,但只有研发更高端的芯片,形成自己领导者的形象,才能赚更多的钱,支撑公司的发展。
上述三个因素的同时出现,已经让英特尔发现,如果自己仍然只是安心的守着自己的CPU业务,很快就会面临巨大的危机,事实上在过去的一年里,利润下降、裁员的新闻也一直围绕在英特尔的身边,挥之不去。
因而英特尔十分渴望不要错过下一个深度学习的潮流,不过它缺乏自己最先进的人工智能研究,所以在过去的两年中疯狂地收购。2015年,英特尔用史无前例的167亿美元拍下了FPGA制造商Altera,2016年又相继兼并了人工智能芯片初创公司Nervana与Movidius。目前的英特尔正在试图将他们整合在一起。
6.Intel的产品布局
英特尔斥巨资收购Altera不是来为FPGA技术发展做贡献的,相反,它要让FPGA技术为英特尔的发展做贡献。表现在技术路线图上,那就是从现在分立的CPU芯片+分立的FPGA加速芯片,过渡到同一封装内的CPU晶片+FPGA晶片,到最终的集成CPU+FPGA芯片。预计这几种产品形式将会长期共存,因为分立器件虽然性能稍差,但灵活性更高。
如果简单的将英特尔对于人工智能的产品布局,可以分以下几层:
&Xeon Phi+ Nervana:用于云端最顶层的高性能计算。
&Xeon+FPGA:用于云端中间层/前端设备的低功耗性能计算。
英特尔下一代的FPGA和SoC FPGA将支持Intel架构集成,大致如下:代号为Harrisville的产品采用Intel 22nm工艺技术,用于工业IoT、汽车和小区射频等领域;代号为Falcon Messa的中端产品采用Intel 10nm工艺技术,用于4G/5G无线通信、UHD/8K广播视频、工业IoT和汽车等领域;代号为Falcon Mesa的高端产品采用Intel 10nm工艺技术,用于云和加速、太比特系统和高速信号处理等领域。
&Core(GT):用于消费级前端设备的性能计算、图形加速。
&Euclid:提供给开发者/创客的开发板,集成Atom低功耗处理器、RealSense摄像头模块、接口,可用做无人机、小型机器人的核心开发部件。
&Curie:提供给开发者/创客的模块,其内置Quark SE系统芯片、蓝牙低功耗无线电、以及加速计、陀螺仪等传感器,可用做低功耗可穿戴设备的核心部件。
从产品线来看,包含了CPU与FPGA的异构计算处理器将是Intel盈利的重点。预计到2020年Intel将有1/3的云数据中心节点采用FPGA技术,CPU+FPGA拥有更高的单位功耗性能、更低时延和更快加速性能,在大数据和云计算领域有望冲击CPU+GPU的主导地位,而Intel的至强处理器Xeon +FPGA也将在2017年下半年量产。
7.Intel的痛点:生态不完善
FPGA对GPU的潜力在于其计算速度与GPU不相上下,却在成本和功耗上对GPU有着显著优势。当然,劣势也有,但是FPGA的潜力是非常明显的。作为一个想要推向市场的商品来说,FPGA最需要克服,也是最容易克服的问题是普及程度。
大部分PC都配有或高端或低端的独立GPU,对于个人进行的中小规模神经网络开发和训练来说,其实它们的性能已经基本足够。而FPGA却不是在电脑里能找得到的东西,而多见于各种冰箱、电视等电器设备及实验室中,因此想要搞到一块能用来开发深度学习的FPGA其实还挺麻烦的。不仅如此,FPGA的不普及还体现在以下三个方面:
OpenCL编程平台应用不广泛
即使GPU有着种种不足,它也不是能够轻易被取代的。从深度学习应用的开发工具角度,具备CUDA支持的GPU为用户学习Caffe、Theano等研究工具提供了很好的入门平台。自2006年推出CUDA以来,已有超过5亿的笔记本电脑、工作站、计算集群和超级计算机安装了支持CUDA的GPU。
如果FPGA想要攻占深度学习的市场,那么产业链下游的编程平台必不可少。目前较为流行的异构硬件编程的替代性工具是OpenCL。不同于CUDA单一供应商的做法,OpenCL对开发者开源、免费,这是一大重要竞争力。但目前来看,其获得的支持相较CUDA还略逊一筹。
实现硬件编程困难
除了软件编程的不普及之外,吸引偏好上层编程语言的研究人员和应用科学家来开发FPGA尤为艰难。虽然能流利使用一种软件语言常常意味着可以轻松地学习另一种软件语言,但对于硬件语言翻译技能来说却非如此。针对FPGA最常用的语言是Verilog和VHDL,两者均为硬件描述语言(HDL)。这些语言和传统的软件语言之间的主要区别是,HDL只是单纯描述硬件,而例如C语言等软件语言则描述顺序指令,并无需了解硬件层面的执行细节。
有效地描述硬件需要对数字化设计和电路的专业知识,尽管一些下层的实现决定可以留给自动合成工具去实现,但往往无法达到高效的设计。因此,研究人员和应用科学家倾向于选择软件设计,因其已经非常成熟,拥有大量抽象和便利的分类来提高程序员的效率。
部署环节需要定制复杂套件
FPGA需要有一个完善的复杂生态系统才能保证其使用,不只体现在软件与硬件编程平台上,更体现在部署环节中。FPGA在安装过程中需要针对不同的IP核定制一系列复杂的工具套件,相比之下,GPU通过PCI-e接口可以直接部署在服务器中,方便而快速。因此,嵌入式FPGA概念虽好,想要发展起来仍将面临十分严峻的挑战。
8.Intel的优势
目前在深度学习市场FPGA尚未成气候,谷歌这样的超级大厂又喜欢自己研发专用芯片,因此可以说对于深度学习芯片来说,个人开发者及中小型企业内还有相当大的市场。这个市场目前几乎只有英伟达一家独大,英特尔想要强势进入未必没有机会。而相比于英伟达来说,英特尔有两个明显的优势:
尽管目前的人工智能市场几乎只有英伟达一家独大,但英伟达的芯片也不是能够自己完成深度学习训练的。或者说,英伟达的GPU芯片还不足以取代那些英特尔的CPU,大多数环境下它们暂时只能加速这些处理器。所以,GPGPU暂时只是概念上的,GPU还不足以在大多数复杂运算环境下代替CPU,而随着人工智能技术的进步,对硬件的逻辑运算能力只会更高不会降低,所以搭载强大CPU核心的多核异构处理器才是更长期的发展方向。而论对CPU的熟悉,没有一家芯片厂商能过胜过英特尔,英特尔是最有可能让搭载了FPGA与CPU的异构处理器真正实现多核心相辅相成的芯片公司。
曾涉足云计算
算法的训练应该是贯穿整个应用过程的,这样可以随时为消费者提供最好体验的服务。但是如果要将所有算法都集中于本地训练,不仅会面临计算瓶颈的问题,也容易面临从单个用户处收集到的数据量太少的尴尬。我们暂时不考虑很久以后可能出现的基于小样本的无监督学习的AI,毕竟那其实已经跟人差不多了,在目前AI的发展状况下,将所有数据集中于云端进行计算显然是更理性且有效的做法。这就对通信提出了极高的要求,而英特尔恰巧在这个领域有着相当多的积累。虽然英特尔的通信部门连年亏损,但在现在的形势下,它却意外地有了新的价值与潜力。
更多最新行业资讯,欢迎点击与非网!
与非网专栏作者招募
你也许是工程师甲,每天默默画电路板、写代码;
你也许是高校老师乙,每天站在三尺讲台,传授知识;
你也许是项目经理丙,每天为得到客户认可而赶工、奔忙;
不管你身处何地是何种身份,只要你是电子领域的从业者,就一定有对这一行业的一些感受和看法。
可能你已修炼成资深行业观察家,如老师那样真知灼见;
可能你善于分析行业趋势,如侃侃而谈;
可能你精通某一项技术,如那样精讲技术而不失幽默;
可能你善于发现身边的工程师故事,如般娓娓道来。
也可能你和他们都不同,有自己想发表的观点,这样的你都是我们在等的人,只要你准备好了,&与非网专栏作者&就会成为你的一个标签。你不再是普通的路人&甲、乙、丙&,而是工程师和电子产业的发言人。
我们给专栏作者的展示机会:
1. 与非网主站【与非原创】栏目的集中展示:
2. 与非网主页:首页焦点、行业发现的重点推荐
3. 与非网微信:原创推送,直达核心行业读者
4. 如果专栏内容热度很高,我们还可以帮助联系相关出版社洽谈集结出版。
成功取决于行动力,赶紧将你的职场态度和行业观点进行整理、提炼成专栏大纲吧,以&专栏作者+大纲名称&为主题,发送到:(请将#替换为@)即可,或者你还有些疑惑想更多了解专栏作者的情况,也可以加小编的微信+qq:详谈。
与非网专栏作者,我们等你!
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
东芝芯片竞购战一直闹得沸沸扬扬,由于旗下美国西屋电气核电业务的巨亏,上个月月底,东芝在美国的核电子公司“西屋电气”已经启动破产程序。东芝亟需靠出售芯片业务来筹措资金填补资产负债表的漏洞。
发表于: 09:45:00
苹果过往一向都依赖于供应商们的部件提供,但众所周知再过那么一些时日,它就要大刀阔斧地开始改变自己对后者的依赖了。
发表于: 14:13:32
如果说“变”是历史的主调,那对于FPGA业者来说,变化显然来得太快了。
发表于: 08:58:00
4月11日,乐视带来了新旗舰乐Pro3双摄AI版,主打双1300像素双摄和人工智能助手“乐乐”。
发表于: 08:24:00
4月10日,“人机大战”的消息再次传出,关于人类和AI的对抗再次牵动世界的神经。
发表于: 08:22:00
从A系列芯片到最近基本确定的苹果图形芯片(暂时称其为G系列芯片),苹果为他们自主开发设计的芯片选择了相应的英文字母代号,如今从A-Z中还有20个字母任苹果选择。
发表于: 08:44:00
在去年发布的iPhone 7/7 Plus上,微处理器巨头英特尔赢得了该手机的蜂窝调制解调器(XMM 7360)订单,英特尔也非承包iPhone 7的所有订单,则是与芯片制造商高通分享这份蛋糕,但仍然不能满足iPhone 7的大量的基带数量要求。
发表于: 22:54:30
去年7月,“中国高端芯片联盟”正式成立,联盟成员包括紫光集团、长江存储、中芯国际、中国电子、华为、中兴、联想,以及清华大学、北京大学、中科院微电子所、工信部电信研究院、中标软件在内的27家国内高端芯片、基础软件、整机应用等产业链的重点骨干企业、著名院校和研究院所。
发表于: 14:21:52
近日,国内几乎所有科技类媒体都围绕着印度电信运营商协会(The Cellular Operators Association of India,以下简称COAI)近期的一个通报大造文章。通报中揭露,某些在印度销售的双SIM卡 4G LTE智能手机在第二张卡槽出现网络降速问题,并声称这对印度当地运营商所提供的网络服务品质造成了影响。
发表于: 14:11:17
测温测量和控制在当今社会生活中扮演着至关重要的 角色,国际国内市场现有的多种测温技术涵盖了安检、市 场、生活、消防、科研等诸多领域。
发表于: 13:38:21
手机缘分测试……
旗下网站:
与非门科技(北京)有限公司 All Rights Reserved.
京ICP证:070212号
北京市公安局备案编号: 京ICP备:号}

我要回帖

更多关于 学好英语究竟有多重要 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信