训练深度神经网络训练,单个GPU和GPU集群有什么区别

GPU加速深度学习
本文介绍了GPU用于深度学习(尤其是深度学习训练)加速的背景,使用了主流的开源深度学习框架在NVIDIA GPU上实测加速性能,并给出了一些使用建议。
  一年半以前,AlphaGo完胜李世乭的围棋赛让深度学习(Deep Learning)这个名词家喻户晓,再度掀起人工智能的新一波热潮。其实深度学习背后的神经网络基础理论早在上世纪50年代就已提出,经过几起几落的发展,到了21世纪初,多层神经网络算法也日趋成熟。深度学习理论早在十多年以前就有重要突破,为何直到近年才出现爆发。这不得不提到2012年的一场竞赛。
  2012年,Geoffrey E. Hinton(与Yann LeCun 和Yoshua Bengio并称为深度学习三驾马车)的弟子Alex Krizhevsky在ILSVRC-2012的图像分类比赛中使用2块Nvidia GTX 580 GPU训练的多层神经网络(后来被称为AlexNet)以15.3%的top-5测试错误率摘得冠军,而使用传统方法的第二名的成绩是26.2%,整整提高了10多个百分点。这也成为了深度学习发展史上的里程碑事件,从此深度神经网络一炮走红,此后ILSVRC的优胜者一直被深度神经网络霸占。
  可以说深度学习爆发有两个主要原因,一个是像ImageNet这样的大规模数据集的出现,而另一个重要原因就是计算能力的提高,而这主要得益于GPU用于深度学习的加速,尤其是深度学习训练的加速。
  Alex当时使用的数据集包含120万张高清图片,受限于单块GTX 580 GPU 3GB的内存,他们使用了2块GPU来训练他们包含6000万参数和65万神经节点的网络,当时花了5~6天的时间。可以想象,没有GPU的加速,要完成如此大规模的数据集的多层神经网络训练要花费多长的时间。
  随着深度网络层数的增加,训练集动辄以T为单位计算,现在深度学习的训练已经离不开GPU了,而GPU的计算能力也在不断的提升,以满足深度学习训练的计算需求。2. 实测
  下面是我们使用主流的几个开源深度学习框架在NVIDIA GPU上做的一些深度学习的测试。其中P100和P4的数据均来自于阿里云GPU云服务器新GPU实例的内部测试数据,仅供参考,实际数据请以线上正式环境为准。2.1 NVCaffe
  NVCaffe是NVIDIA基于BVLC-Caffe针对NVIDIA GPU尤其是多GPU加速优化的开源深度学习框架。
  我们使用NVCaffe对AlexNet、GoogLeNet、ResNet50三种经典卷积神经网络在单机8卡P100服务器上做了训练测试。测试使用ImageNet ILSVRC2012数据集,,其中训练图片1281167张, 验证测试图片 5万张,LMDB格式train set 240GB ,val set 9.4GB,数据单位是Images/Second(每秒处理的图像张数),OOM表示Batch Size太大导致GPU显存不够。
  下面是给出物理机上GoogLeNet的数据:
  从测试数据我们看到,相同GPU数量,随着Batch Size的增大,训练性能会有明显的提升,相同Batch Size,在GPU Memory基本用满的情况下,随着GPU数量的增加,训练性能也会有明显的提升,GPU加速可以接近线性加速。高密GPU服务器可以接近线性加速,对于大数据集的训练提速非常明显。
  我们还对比了不同卷积神经网络模型的多GPU加速比,结果如下:
  可以看到,不同神经网络模型的GPU加速也是有差别的,AlexNet的多GPU加速效果就不如GoogLeNet和ResNet50好。2.2 MXNet
  相比Caffe,MXNet是一个更加简洁灵活效率高的开源深度学习框架,它配置简单,依赖少,尤其是具有很好的多GPU加速扩展性。
  我们使用Benchmark模式测试ImageNet训练,使用网络Inception-v3(GoogLeNet的升级版)在单机8卡P100服务器上进行测试,物理机加速比如下:
  可以看到,MXNet也具有非常好的GPU线性加速扩展能力。
  下面是P100虚拟机与AWS P2.16xlarge实例的对比,单位是samples/sec,越大性能越好:2.3 TensorFlow
  TensorFlow得益于背后Google的支持,是活跃度最高的开源深度学习框架。
  我们使用CIFAR-10数据集在P100上做了多GPU加速训练测试,物理机加速比如下:
  可以看到,TensorFlow的单机多卡加速能力是非常差的,尤其是超过2卡以后,跟NVCaffe和MXNet有较大的差距。
  此外,我们使用AlexNet Benchmark模式对不同架构单GPU 做了Forward和Forward-backward性能测试作为比较参考,包括新的Pascal架构的Tesla P100、P4和老的Kepler架构的K80(其中K80数据来源于AWS P2.16xlarge实例,对比的P100也是虚拟机的数据),数据单位sec/ batch,值越小性能越好:
  通过K80与P100、P4的对比,可以看到Pascal架构的GPU(P100、P4)比Kepler架构的GPU(K80)有非常明显的性能提升。其中特别一提的是P4因为较低的TDP(75W),具备非常好的性能功耗比,非常适合作为推理的加速。3. 总结
  1) 为了缩短训练时间,尽可能选择新架构的GPU,比如Pascal架构的P100,并利用GPU适合并行计算的特点使用多GPU来加速训练。但是注意,并不是所有的深度学习框架都有好的单机多卡加速,比如开源的TensorFlow就不好,我们建议用户使用比如MXNet或者NVCaffe这样的学习框架用于单机多卡加速。
  2) Batch Size的增大对于训练的性能有明显的提升,因此应尽可能选择GPU Memory大的GPU,比如P100的GPU Memory可以达到16GB。
  3) 不同深度神经网络的实现差异,会导致多GPU加速比的差异,在设计或者优化神经网络模型的时候,需要注意如何更好的利用GPU的并行计算能力,比如减小GPU之间的通信开销以提高GPU并行计算的效率。
本文为云栖社区原创内容,未经允许不得转载,如需转载请发送邮件至yqeditor@list.;如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:yqgroup@ 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
用云栖社区APP,舒服~
【云栖快讯】红轴机械键盘、无线鼠标等753个大奖,先到先得,云栖社区首届博主招募大赛9月21日-11月20日限时开启,为你再添一个高端技术交流场所&&
阿里云优惠券分享给你,
用优惠券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。 注意在手机上下订单不能使用优惠券的哦。
您的八折推荐码如下:vl9sqt,a9wlha,4lvolc,zo9gj0,ciqa6f,amzwf8,qh6tzz,0f6hfv
阿里云机器学习是基于阿里云分布式计算引擎的一款机器学习算法平台。用户通过拖拉拽的方式可视化的操作组件来进行试验,...
阿里云针对移动应用推出的无线加速产品,旨在依托阿里云遍布全网的加速节点,海量带宽网络等优越的基础设施,为开发者提...
提供一种性能卓越、稳定、安全、便捷的计算服务,帮助您快速构建处理能力出色的应用,解放计算给服务带来的压力,使您的...
Loading...深度卷积神经网络CNNs的多GPU并行框架及其应用
发表于 17:25|
来源腾讯大数据|
摘要:本文是腾讯深度学习系列文章之一,主要聚焦于腾讯深度学习平台(Tencent Deep Learning Platform)中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架。
【编者按】深度卷积神经网络有着广泛的应用场景,本文对深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架做了详细的分享,通过多个Worker
Group实现了数据并行,同一Worker Group内多个Worker实现模型并行。框架中实现了三阶段并行流水线掩盖I/O、CPU处理时间;设计并实现了模型并行引擎,提升了模型并行计算执行效率;通过Transfer
Layer解决了数据存储访问效率问题。此框架显著提升了深度卷积神经网络训练速度,解决了当前硬件条件下训练大模型的难题。
以下为原文:
将深度卷积神经网络(Convolutional Neural Networks, 简称CNNs)用于图像识别在研究领域吸引着越来越多目光。由于卷积神经网络结构非常适合模型并行的训练,因此以模型并行+数据并行的方式来加速Deep
CNNs训练,可预期取得较大收获。Deep CNNs的单机多GPU模型并行和数据并行框架是腾讯深度学习平台的一部分,腾讯深度学习平台技术团队实现了模型并行和数据并行技术加速Deep
CNNs训练,证实模型拆分对减少单GPU上显存占用有效,并且在加速比指标上得到显著收益,同时可以以较快速度训练更大的深度卷积神经网络,提升模型准确率。
<Ns模型并行导论
1.1.典型应用分析:图像识别图像识别是深度卷积神经网络获得成功的一个典型应用范例。图1揭示了一个具有5个卷积层和3个全连接层的深度卷积神经网络,该模型可应用于图像分类。
使用GPU训练深度卷积神经网络可取得良好的效果[1][2],自2012年使用Deep CNNs模型在ImageNet图像分类挑战中取得突破性成绩,2013年的最佳分类结果也是由Deep
CNNs模型取得。基于此,腾讯深度学习平台技术团队期望引入Deep CNNs来解决或优化图像分类问题和图像特征提取问题,以提升在相应用例场景中的效果。
1.2.现有系统的问题在将CNN应用于图像相关领域的算法研究以及CNN训练平台搭建的实践过程中,受限于单个GPU上的显存大小(例如:服务器采购的显卡Tesla K20c可用显存为4.8GB,ImageNet
2012论文[1]中用到的网络占用显存大约3.9GB),在尝试调整参数和网络规模的实验中,往往难以存储下更大规模的深度卷积神经网络模型,使得包含较多参数的网络不能在单GPU上训练,需要通过多GPU模型并行技术,拆分模型到多个GPU上存储和训练来解决。
随着训练数据集扩充、模型复杂度增加,即使采用GPU加速,在实验过程中也存在着严重的性能不足,往往需要十余天时间才能达到模型的收敛,不能满足对于训练大规模网络、开展更多试验的需求
考虑到上述问题,在腾讯深度学习平台的Deep CNNs多GPU并行训练框架中,通过设计模型拆分方法、模型并行执行引擎和优化访存性能的Transfer
Layer,并吸收在数据并行方面设计经验,实现了多GPU加速的模型并行和数据并行版本。
本文描述多GPU加速深度卷积神经网络训练系统的模型并行和数据并行实现方法及其性能优化,依托多GPU的强大协同并行计算能力,结合目标Deep
CNNs模型在训练中的并行特点,实现快速高效的深度卷积神经网络训练。
1.3.框架设计目标多GPU模型并行+数据并行期望达到下述目标:充分利用Deep CNNs模型的可并行特点,结合SGD(Stochastic Gradient
Descent,随机梯度下降)训练的数据并行特性,加速模型训练过程;突破显存大小限制,使得训练超过单GPU显存的模型成为可能,并预期通过训练更复杂的网络来获得更好的模型效果。
上述目标完成后,系统可以更快地训练图1中目标Deep CNNs模型。模型拆分到不同GPU上可减少对单GPU显存占用,适用于训练更深层次、更多参数的卷积神经网络。
1.4.挑战在图像识别应用中,深度卷积神经网络模型的卷积层计算量大,全连接层参数多。因此,如何划分计算资源,通过模型并行和数据并行两个数据/计算组织层次上来加速训练是框架设计首要解决的问题。
图像作为输入数据,其数据量庞大,且需要预处理过程,因此在Batch训练时磁盘I/O、数据预处理工作也要消耗一定时间。经典的用计算时间掩盖I/O时间的方法是引入流水线,因此如何设计一套有效的流水线方法来掩盖I/O时间和CPU处理时间,以使得整体耗时只取决于实际GPU训练时间,是一个重要问题。
模型并行是将一个完整Deep CNNs网络的计算拆分到多个GPU上来执行而采取的并行手段,结合并行资源对模型各并行部分进行合理调度以达到模型并行加速效果是实现模型并行的关键步骤。
多GPU系统通过UVA(Unified Virtual Address,统一虚拟地址)技术,允许一颗GPU在kernel计算时访问其他GPU的设备内存(即显存),但由于远程设备存储访问速度远远低于本地存储访问速度,实际性能不佳。因此在跨GPU的邻接层数据访问时,需要关注如何高效利用设备间数据拷贝,使所有计算数据本地化。
2.系统概述如何模型并行?
模型并行是:适当拆分模型到不同的计算单元上利用任务可并行性达到整个模型在计算过程中并行化效果。
如图2所示,揭示了从单GPU训练到多GPU模型并行训练的相异之处,主要在于:在使用单GPU训练的场景下,模型不进行拆分,GPU显存上存储整个模型;模型并行的场景下,将模型拆分到多个GPU上存储,因此在训练过程中每个GPU上实际只负责训练模型的一部分,通过执行引擎的调度在一个WorkerGroup内完成对整个模型的训练。
多GPU并行系统从功能上划分为用于读取和分发数据的Training Data Dispatcher和用于做模型并行训练的GPU Worker,如图3所示。训练数据从磁盘文件读取到CPU主存再拷贝到GPU显存,故此设计在各Worker计算每batch数据时,由Training
Data Dispatcher从文件中读取并分发下一batch数据,以达到用计算时间掩盖I/O时间的设计目标。
3.训练数据处理的并行加速基于mini-batch的训练,现有技术方案在训练深度卷积神经网络时,每次从数据文件中读入和处理1个batch数据,在GPU计算某一batch时由CPU预读取和预处理下一batch。但是随着训练集图片像素数增大,读取和处理时间随之增加,由于采用多GPU技术加速了单个batch计算时间,数据处理的性能问题随之而来,需要减少数据处理的用时,以使最终加速效果取决于计算用时。
如图4所示,总体看来,在深度卷积神经网络训练过程中始终是在执行一条三阶段并行的流水线:计算本次batch数据——处理下次batch数据——读入再下次batch数据。
4.GPU Worker: 模型并行的承载体数据并行以划分Worker Group为基本组织形式,模型并行以在Worker Group内划分Worker为基本组织形式,并行训练的调度资源来源于CPU线程,计算资源来源于GPU卡。由于GPU卡通常意义上被看成是一种加速卡或协处理器卡,必须在基于CPU的主机上下文中被调用来做计算,因此遵循1个CPU线程绑定1张GPU卡能够发挥多GPU共同参与计算时的并行性效能。
在实际生产环境中,安装多GPU服务器的硬件体系结构如图5所示,示例中揭示了一个8 GPU节点服务器的硬件配置,每两个GPU Slot连接在一个GPU专用PCI槽位上再通过PCIe
Switch将GPU Slot 0,1,2,3连接在一颗CPU上,GPU Slot 4,5,6,7连接在另一颗CPU上,两颗CPU通过IOH(Input
Output Hub)连接。
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章&&&&机器学习
工业与学术界的数据科学家已将 GPU 用于机器学习以便在各种应用上实现开创性的改进,这些应用包括图像分类、视频分析、语音识别以及自然语言处理等等。 尤其是深度学习,人们在这一领域中一直进行大力投资和研究。深度学习是利用复杂的多级「深度」神经网络来打造一些系统,这些系统能够从海量的未标记训练数据中进行特征检测。&
虽然机器学习已经有数十年的历史,但是两个较为新近的趋势促进了机器学习的广泛应用: 海量训练数据的出现以及 所提供的强大而高效的并行计算。&
人们利用 GPU 来训练这些深度神经网络,所使用的训练集大得多,所耗费的时间大幅缩短,占用的数据中心基础设施也少得多。&
GPU 还被用于运行这些机器学习训练模型,以便在云端进行分类和预测,从而在耗费功率更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和吞吐量。
将 GPU 加速器用于机器学习的早期用户包括诸多顶级规模的网络和社交媒体公司,另外还有数据科学和机器学习领域中一流的研究机构。 与单纯使用 CPU 的做法相比,GPU 具有数以千计的计算核心、可实现 10-100 倍应用吞吐量,因此 GPU 已经成为数据科学家处理大数据的首选处理器。
针对机器学习应用的基准测试
"借助 GPU,预先录制的语音或多媒体内容的转录速度能够大幅提升。 与 CPU 软件相比,我们执行识别任务的速度最高可提升 33 倍。"
Ian Lane 教授, 卡耐基梅隆大学
了解其他数据科学家如何推进自己在机器学习领域中的工作,了解工具、软件架构以及计算配置等有助于自己快速入门的信息。
: 用于脑回神经网络算法的架构
: 脑回神经网络的高性能 C++/CUDA 软件实施
:&用于定义、优化以及评估数学公式的 Python 库
: 用于机器学习算法的科学计算架构&
: GPU 加速版本的完整标准 BLAS 库
: 简单易用的 HPC 语言集成计算、可视化以及编程
:&神经网络工具包
SlashGear:
tom's Hardware:
EnterpriseTech:
(Rob Fergus, Facebook/纽约大学)
(Adam Coates, 斯坦福大学)
(Dan Ciresan, 瑞士人工智能研究所)
(Wonkyum Lee, 卡耐基梅隆大学)
Zeiler, Clarifai)
Sato, Hideki Niihara, Denso IT 实验室)
(Alexander
Shcekalev, Yandex)
(John Canny,
加州大学伯克利分校)
(Jessica Ray, 麻省理工学院林肯实验室)
白皮书: (Adam
Coates, 斯坦福大学)
(Alex Krizhevsky, IlyaSutskever, Geoffrey Hinton, 多伦多大学)
(OmryYadan, Keith Adams YanivTaigman, Marc Ranzato, Facebook)
(Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu,
Rob Fergus, YannLeCun, 纽约大学)
(Dan Ciresan, 瑞士人工智能研究所)
(Bryan Catanzaro, NVIDIA)
2 颗 NVIDIA Tesla K40 GPU 加速器
8 颗 NVIDIA Tesla K40 GPU 加速器
2 颗 Intel 至强 CPU (8 核或更高级别)
2 颗 Intel 至强 CPU (8 核或更高级别)
64 GB 系统内存
256 GB 系统内存
如需了解如何购买 GPU 加速器,敬请访问 页面。
订阅 NVIDIA 最新消息&&|&&责编:林光楠
&&&&&在今年的GTC2015大会上的CEO老黄就提出了Deep&Learning(深度学习)的概念,而在2015年的4月15日GTC大会在北京“重演”,深度学习指的是计算机使用神经网络自主学习的过程,这个趋势的兴起让&NVIDIA&又进一步改进了原本在去年&GTC&即公布的&Pascal&架构设计内容。Pascal&架构&GPU&的三大设计特色将大幅加快训练速度,精准地训练更丰富的深度神经网络,犹如人类大脑皮层的资料结构将成为深度学习研究的基础。&&NVIDIA全球副总裁兼中国区总经理张建中&&&&再加上32GB的显存(是NVIDIA&新发布的旗舰级产品&GeForce&GTX&TITAN&X&的&2.7&倍),Pascal&架构可进行混合精度的计算任务。它将配备&3D&堆叠显存,提升深度学习应用程序的速度性能多达5倍;另搭配&NVIDIA&的高速互连技术&NVLink&来连接两个以上的&GPU,可将深度学习的速度提升达十倍。NVIDIA中国区高级市场总监刘念宁合精度计算&–&达到更精准的结果&&&&混合精度计算让采用&Pascal&架构的&GPU&能够在&16&位浮点精度下拥有两倍于&32&位浮点精度下的速率的计算速度。更出色的浮点计算性能特别提高了深度学习两大关键活动:分类和卷积的性能,同时又达到所需的精准度。3D&堆叠显存&–&更快的传输速度和优秀的省电表现&&&&显存带宽限制了数据向&GPU&传输的速度。采用&3D&堆叠显存将可提高比&Maxwell&架构高出三倍的带宽和近三倍的容量,让开发人员能建立更大的神经网络,大大提升深度学习训练中带宽密集型部分的速度。Pascal&采用显存芯片逐个堆叠的技术,位置接近&GPU&而不是处理器板更往下的地方。如此就能把输出在显存与&GPU&间往返的距离从几英寸减缩到几毫米,大幅加快传输速度和拥有更好的省电表现。&NVIDIA中国区企业传播高级经理金洋NVLink&–&更快的数据移动速度&&&&Pascal&架构加入&NVLink&技术将使得&GPU&与&CPU&之间数据传输的速度,较现有的&PCI-Express&标准加快5到12倍,对于深度学习这些需要更高&GPU&间传递速度的应用程序来说是一大福音。NVLink&可将系统里的&GPU&数量增加一倍,以共同用于深度学习计算任务上;还能以新的方式连接&CPU&与&GPU,在服务器设计方面提供较&PCI-E&更出色的灵活性和省电表现。GeForce&GTX&TITAN&X&的另一面&&&&Titan&X&不仅可玩转精致的虚拟世界,也可胜任繁重的科研工作。TITAN&X是NVIDIA全新推出的旗舰级游戏显卡,但也特别适合用于深度学习。&NVIDIA中国区技术市场经理施澄秋&&&&两周前在旧金山举办的游戏开发者大会上让各位先睹为快&TITAN&X&的身影,它以电影《霍比特人》里的史矛戈巨龙为蓝本,播放了一段名为《暗影神偷》精彩的虚拟现实体验。&&&&在&TITAN&X&上能以&4K&的超高画质呈现最新&AAA&游戏大作的瑰丽画面,可以在开启&FXAA&高设定值的情况下,以每秒40帧(40fps)运行《中土世界:暗影魔多》(Middle-earth:&Shadow&of&Mordor)游戏,而在九月发行的&GeForce&GTX&980&上则是以&30fps&来运行。&&&&采用&NVIDIA&Maxwell&GPU&架构的&TITAN&X,结合&3,072&个处理核心、单精度峰值性能为&7&teraflops,加上板载的&12GB&显存,在性能和性能功耗比方面皆是前代产品的两倍。&&&&凭借强大的处理能力和&336.5GB/s&的带宽,让它能处理用于训练深度神经网络的数百万的数据。例如,&TITAN&X&在工业标准模型&AlexNet&上,花了不到三天的时间、使用&120万个&ImageNet&图像数据集去训练模型,而使用16核心的&CPU&得花上四十多天。现已上市的GeForce&GTX&TITAN&X&售价为&7999元人民币。NVIDIA中国区公关经理何京DIGITS:通往最佳深度神经网络的便捷之路&&&&使用深度神经网络来训练电脑教自己如何分类和识别物体,是一件繁重又费时的事情。DIGITS&深度学习&GPU&训练系统软件自始至终都将为用户提供所需数据,帮助用户建立最优的深度神经网络,改变上述的局面。技术大会会场&&&&即可下载DIGITS&深度学习&GPU&训练系统,这是首套用于设计、训练和验证图像分类深度神经网络的多合一图形系统。&&&&DIGITS&可在安装、配置和训练深度神经网络过程中为用户提供指导&–&处理复杂的工作好让科学家能专心在研究活动和结果上。&&&&得益于其直观的用户界面和强大的工作流程管理能力,不论是在本地系统还是在网络上使用&DIGITS,准备和加载训练数据集都相当简单。&&&&这是同类系统中首个提供实时监控和可视化功能的系统,用户可以对工作进行微调。它还支持&GPU&加速版本&Caffe,目前,这一框架在众多数据科学家和研究人员中都得到了广泛使用,用于构建神经网络(参见&Parallel&Forall&博客上的《DIGITs:&Deep&Learning&Training&System》一文,有更详尽的说明)。DIGITS&DevBox:全球最快的桌边型深度学习机器&&&&NVIDIA&深度学习工程团队为了自己的研发工作而开发的&DIGITS&DevBox,是一套集多项功能于一身的平台,能够加快深度学习的研究活动。它采用四个&TITAN&X&GPU、从内存到&I/O,DevBox&的每个组件都进行了最佳化调试,可为最严苛的深度学习研究工作提供高效率的性能表现。技术大会会场&&&&它已经预先安装了数据科学家和研究人员在开发自己的深度神经网络时,所需要使用到的各种软件,包括&DIGITS&软件包、最受欢迎的深度学习架构&–&Caffe、&Theano&和&Torch,还有&NVIDIA&完整的&GPU&加速深度学习库&cuDNN&2.0。&&&&所有这些都集结在这个高能效、静默、运行流畅且外形优美的软件包中,只需要普通的电源插座,低调安置在您的桌下即可。&&&&较早期的多&GPU&训练成果显示,在关键深度学习测试中,DIGITS&DevBox&可以提供&4&倍于单个&TITAN&X&的性能。使用&DIGITS&DevBox&来训练&AlexNet&只要13个小时就能完成,而使用最好的单&GPU&PC&的话则是两天,单纯使用&CPU&系统的话则要一个月以上的时间。
显卡类型 显卡芯片
投诉欺诈商家:
天津重庆哈尔滨沈阳长春石家庄呼和浩特西安太原兰州乌鲁木齐成都昆明贵阳长沙武汉郑州济南青岛烟台合肥南京杭州东莞南宁南昌福州厦门深圳温州佛山宁波泉州惠州银川
本城市下暂无经销商
4¥22995¥32886¥8807¥26998¥18999¥319910¥2099}

我要回帖

更多关于 dnn深度神经网络 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信