GPU核数gpu z是什么么

测试一个完全并行的程序. 基本框架是每个线程完全独立的算出一个数然后相加. 在GPU上用CUDA实现.在TeslaC1060上面, 把所有的循环放到一个线程里完成, 用时大概1800s, 而最好的并行结果是0.8s, 可是TeslaC1060只有240个核(SP)啊. 那么这个加速比是怎么回事呢?我知道加速比不能这么测, 但是这个现象让我很不解.我了解的超线性加速比可能会因为使用了大内存或者在树上search而产生, 但是这两者似乎我的程序都不曾涉及.或者就是因为GPU跑单线程特别慢么?
我查阅了一下CUDA C Programming Guide。其中5.2.3节的内容[1]应该能解释关于加速比的问题。(以下假设Tesla架构)简要的说,就是在每个Multiprocessor上可以允许至多16个warp处于active状态,但并非所有都同时运行,而是由warp scheduler在每个instruction的issue time时选取当前已准备好运行下一条指令的warp,然后运行其中的active threads。这应该是最细粒度的hide latency的方式吧。好的warp scheduler应该会在kernel运行中时刻保持每个multiprocessor上的所有core都处于忙碌状态。这种快速的warp间切换应该可以带来额外的Thread Level Parallel。我想这就是你在评论里说的超线程所做到的事情吧(或许不准确,Intel的hyper-threading其实我不很了解)。写到这里,忽然想起来之前其实已经在阅读moderngpu时思考过这个问题。moderngpu里有详细的分析[2],帮助达到最佳的occupancy。祝你好运![1] [2]
谢邀,在知乎上混了一年多,终于遇到一个我可以用我的研究项目来解答的问题了。摘要:主要原因是GPU对于单线程多发射(instruction-level parallelism)的支持很差,而对于多线程并行(thread-level parallelism)的支持很好。
C1060应该是很早以前的计算卡了,它上市的时候我应该还在上高中,所以不是很了解,所以就去google了一些结束参数。从【1】中我们可以查出来,Tesla C1060 有240个SP,但是我们知道,NVIDIA的GPU的架构是一直在变的,从最早的tesla架构到现在的kepler架构,区别很大,所以还需要知道C1060的具体架构。
我没找到介绍tesla C1060架构的资料,不过从【2】中,我们可以看到,tesla C1060的compute capability 是1.3, 也就是说它属于最早的tesla 架构。tesla架构中,每8个SP为一组,组成一个SM(Streaming-Multiprocessor), 共30个SM。下面介绍点别的东西,再来分析加速比。
我们都知道,不管是CPU core 还是GPU core, 都有一个技术叫做流水线(pipeline), 流水线可以让一个core同时执行多条指令,从最简单的单流水模型来讲,一个core如果有N个流水级,那么它同时可以执行最多N个指令同时执行。CPU上有很多技术,什么out-of-order issue之类的,来尽量挖掘线程里的instruction-level parallelism, 来填满流水线。 但是GPU不一样,GPU面向的是众线程任务,主要是为了发掘thread-level parallelism, 所以,GPU对于单线程多发射的支持非常差,可以忽略不计。GPU每发射一个线程的一条指令,会等待这个线程这条指令完全结束,才会继续执行这条线程(关于这一点,我没有找到正式资料,从一些手册里推测出来的,stack overflow上也有一个自称NVIDIA前工程师的人提到过)。
根据【3】中9.2.6节的描述,我们可以推断,tesla C1060的流水线深度是24,,所以对于单线程任务,每条指令至少会花掉24个cycle,然后才会执行下一条指令。而并行以后,C1060最多可以同时执行24*240 = 5760个线程,所以从这个角度上来讲,加速比的极限是5760倍。 当然考虑到一些现实情况,比如Memory之类的,真正的加速比达不到这个极限,不过我觉得你所提到的 = 2250的加速比是合理的。【1】Tesla C1060 Specification, 【2】【3】-----------------------补充1.0----------------------------------显卡的架构更新换代很快,NVIDIA几乎每几个月就会发布很多新特性,每一两年就会发布新的架构,而且架构之间的区别很多,所以讨论GPU的问题,如果想得到很细节的答案,一定要具体到是哪一代架构。而且要特别小心的是,很多资料里对于显卡细节的讨论都不准确,主要原因是因为更新换代太快了,即使是在NVIDIA的官方手册里,也一定要注意一下到底指的哪一代架构。这个问题的部分答案可以在 提到来的CUDA Programming Guide的5.2.3节里找到,不过一定要注意架构问题。
计算机科学博士生, 关注图形学及并行计算第三方登录
电视机“核数”真的越多越好吗?
用微信扫描二维码分享至好友和朋友圈
电视机“核战”在2013年就已经打响,从双核到八核,再一直到二百核,部分品牌在推广时已将中、高低端产品一齐贴上“多核”的标签。但这东西对于消费者真的有用吗?“核战争”所炫耀的或者说所带来的优势到底是什么?到底有没有,今天万维家电网就和网友一起来探讨探讨。&“核”到底是怎么计算出来的?现如今在家电卖场的平板电视专柜转一圈,随处可以看到四核、六核甚至200核的电视产品,首先小编就来说说这些数字是怎么算出来的。彩电品牌在打“核战”初期只涉及到CPU与GPU的按量叠加,一款双核CPU+双核GPU的电视即可叫做“四核电视”;同理4核CPU+4核GPU就是“八核电视”了。随后VPU的出现更是帮助小编增长了见识,这是一种功能类似于GPU的东西,对于电视画质可能会起到一些作用。接下来小编先为大家简要介绍一下这“三个PU”的意义。&&&&CPU叫做中央处理器,可以有效提升电视运行速度;GPU叫做图形处理器,可以增强画面渲染效果,尤其在动态画面显示时效果更明显;VPU叫做视觉处理单元(Visual Processing Unit),这个是由ATI芯片商提出的,和GPU没有什么差别。&电视“核”现状分析宣传“核力量”的彩电品牌以国产居多,主要在宣传四核、六核以及八核产品。在合资品牌中我们就很难看到八核、十核甚至200核的宣传概念。小编选择了比较典型的几款电视产品进行对比,究竟电视核数对于用户实际使用来说有存在什么影响呢?大家不妨一起看看。
TCL L55E5700A-UD
康佳 LED55X9800U
“终结者”
双核A9 CPU四核SGX544 GPU
四核A9 CPU六核Mali-450 GPU
192CUDA核(外置)四核CPU+四核处理器
先跟大家说说这款TCL游戏电视,因为主打游戏功能,所以对于电视娱乐性能要求较高,最常见的双核A9处理器搭配四核SGX544,运行大型游戏也毫无问题,同时观看4K视频、上网浏览这些基本功能都可以实现。TCL L55E5700-UD电视 游戏画面用这款电视玩游戏时虽然可以感受到存在一些卡顿、拖尾的现象发生,但是完全能够满足普通用户的使用需求了,毕竟娱乐性能跟平板、电脑是没有办法比的。康佳目前主要以推出八核、十核电视产品为主,宣传内容为“更快、更清晰”,相比TCL游戏电视而言这款康佳LED55X9800U在响应速度方面确实能快一点,但是六核GPU对于画质的渲染用户没有办法直接通过肉眼进行分辨,需要通过一些外接设备来玩游戏时才能体现出来。康佳LED55X9800U&4K画面& &相比TCL游戏电视而言,康佳LED55X9800U确实响应速度较快,同时观看4K视频、上网浏览这些基本功能也可以实现。联想智能电视S9最大的特色在于搭载的NVIDIA Tegra K1芯片,配备192个CUDA核心及4个CPU核心,加之电视本身的4核处理器,其拥有200颗计算核心的智能电视。联想智能电视S9 游戏主界面机身搭载双核CPU+双核GPU,想要其他的196核(四核CPU+192核GPU)?再来千把块买张扩展卡吧亲。即使不想买也没关系,自带的四核配置也够看4K大片、上网、玩游戏了。&多核电视是否有用?一般我们使用4K电视就是看看大片、浏览个网页或者发个微博什么的,其实这些功能基本带“智能”的电视都可以实现,所以单纯的去看芯片配置完全没有必要。那么CPU、GPU甚至VPU对电视真的有用吗?小编认为确实能对电视性能起到一定的提升作用,但是单纯的堆叠核数看上去本身就是一个宣传噱头了。结论一:多核CPU可整体提高电视运行效率,主要取决于包括CPU在内的芯片整体架构能否达到效果;GPU可以对画质进行有效渲染,提升图像处理能力,单纯叠加数字的话对电视影响不大。结论二:单纯堆核数对于电视来说没有任何意义,并不是核数越高的电视在响应速度、画质渲染方面能力越强;结论三:对于用户来说没必要纠结电视核数,因为主要的观看、娱乐功能几乎智能电视都可实现,即使存在差距也不会影响用户使用。
用微信扫描二维码分享至好友和朋友圈
跟贴热词:
文明上网,登录发贴
网友评论仅供其表达个人看法,并不表明网易立场。
目前没有跟贴,欢迎你发表观点
图片,文字等缺失或错误
色情,暴力等非法内容
广告,重复文章等垃圾内容
我有话要说72芯GPU四核A15架构 数字解析Tegra 4 - 推酷
72芯GPU四核A15架构 数字解析Tegra 4
中国 评测】刚刚进入2013年,引领新一年业界发展潮流的消费电子行业年度盛会
又和我们见面了,1月8日至11日,
大展在美国拉斯维加斯举行。受高通公司邀请,手机中国正在展会前方现场全程追踪报道本次
的盛况,并在第一时间为大家带来最新的资讯。
成为主流,2012年四核开始普及,进入2013年你认为移动智能领域会有怎样的改变,八核处理器?昨天英伟达(NVIDIA)似乎给出了答案。1月6日,本届CES2013(国际消费类电子产品展览会)正式开放之前,英伟达则率先举行发布会,推出了目前全球最快的移动处理器NVIDIA Tegra 4。
NVIDIA Tegra 4处理器亮相CES展会
NVIDIA Tegra 4代号为“Wayne”,它仍是一颗四核心处理器,同时它也是全球第一款采用Cortex-
架构的四核芯片。无论是整体功耗、性能还是图形处理,相比Tegra 3都有显著提升。为了让大家更清晰的了解这颗Tegra 4四核CPU,下面笔者就以几个最基本的数字来向大家做以说明。
已发表评论数()
&&登&&&录&&
已收藏到推刊!
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见这一事件影响几何?现在就可以登陆,就这一热门话题热烈讨论
(无需注册,支持匿名直接发帖)
[风险提示]
本网站提供的有关股评、投资分析报告、股市预测文章信息等仅供参考,股市有风险,入市须谨慎!
重要声明:容维公司及其关联机构、雇员对上述信息的来源、准确性及完整性不作任何保证。在任何情况下,报告中的信息或所表达的意见仅供参考,并不构成证券买卖的出价或征价。本公司及其关联机构、雇员对使用本报告及其内容所引发的任何直接或间接损失概不负责。我公司及其关联机构可能会持有报告中提到的公司所发行的公司所发行的证券并进行交易,还可能为这些公司提供或争取提供投资银行业务等服务。本报告版权归百家财富网所有,未经书面许可任何机构和个人不得以任何形式翻版、复印、刊登、发表或引用等。
“容维公司承诺提供专业服务,不承诺投资者获取投资收益,也不与投资者约定分享投资收益或分担投资损失。”及“市场有风险,投资需谨慎。”
咨询热线: 55 传真:5
特别声明:本站所有信息均来自互联网,不保证时效,所有言论及信息不代表本站立场,本站不负任何连带法律责任!
经营许可证编号:黑B2- 百家财富网版权所有 Copyright & 2004-欢迎来安卓网!请
客户端下载:
|||||||||||||||||
别再数“核”数啦 500%性能提升RK3288 GPU背后数据解读
还在做平板&核&数的文章?事实上玩家已经审美疲劳。其实除了CPU,GPU是决定产品性能的关键因素,功耗、性能决定了平板产品的整体体验价值。瑞芯微最新的RK3288处理器,除升级了全新性能、功耗更低的ARM内核外,在GPU配备方面也采用了极为强大的Mali-T764,号称性能比Mali 400MP4提升500%。GPU的型号、参数背后代表着什么?对用户有什么意义?
谈到GPU性能强不强,目前大家首先想到的是芯片GPU可以跑出多FLOPS值。什么是FLOPS呢?FLOPS是&Floating-point operations per second&的缩写,意为每秒浮点运算次数。对于浮点数做一次加法或者乘法,都算是一次操作,记作1 FLOPS。浮点数是有一定的精度的,比如16bit的浮点数,精度就是FP16,而再高一点的FP32就是32bit的浮点数。只要将每个周期的 FLOPS 数乘以每个核心的运算流水线数,再乘以核心数,然后乘以频率,就会得出 FLOPS 数,这个数字很大,所以通常以&GFLOPS&(千兆个 flops)标称。目前绝大部分游戏的Pixel Shader计算都采用中等(FP16)的精度, Vertex Shader计算则一般是FP32的精度。至于能跑多少GFLOPS,这很大程度由GPU的Shader着色器架构来决定了。而Mali-T764性能暴涨的秘密就是采用了ARM基于统一渲染设计的第三代MIDgard架构。
目前主流的Mali-400并非统一渲染架构,而是分离式渲染架构,顶点和像素处理分开。这种分离式渲染方式可大大简化内核架构,但不同的应用程序和游戏对像素渲染和顶点渲染的需求不一样,极容量导致GPU的运算资源得不到充分利用。相对来说,Mali-T764由于采用基于统一渲染设计的第三代MIDgard架构,Shader着色器利用率更加高效,可以让着色器根据渲染需要灵活分配Shader计算能力从而避免算力被浪费。
在Mali-T764统一渲染架构中,Shader计算单元为可编程USSE2浮点单元。采用Vec4+scalar的架构,单周期支持4个FP32操作加一个scalar操作,流处理器的工作效率大幅提升。同时为了提升渲染效能,T764在内部架构上进行了重新设计,特别是大幅度改变了着色器核心的配置方式。如Mali-T764的着色器数量就多达16个,以每四个一组进行管理,这样通过单一的调度机制,每个核心群都会分到相同的处理任务。每一个像素着色器含有4个ALU,每个ALU由个128bit wide的Vector Unit加上一个32bit的Scalar单元组成。由于目前绝大部分游戏的Pixel Shader计算都采用FP16的精度渲染的Pixel Shader是FP16精度,因此T764每个着色器中VUALU处理能力为8个FLOPS,每周期就是8*4+2=34个FLOPS,结合16个统一渲染着色器的配置,最终使得T764拥有怪兽般的性能。
以瑞芯微RK3288处理器为例,Mali T764在工作频率为600MHz时,峰值运算速度高达326GLOPS(34个*600MHz*16个着色器=326 GLOPS)及拥有每秒9.6GPIX的像素填充率,性能比目前市场主流的Mali-400MP4提升到500%,堪称逆天!由于性能的暴增,从Mali-T764抗锯齿也支持4x/16x FSAA(全屏抗锯齿),即便在16xFSAA(16倍全屏抗锯齿)时也不会出现明显的性能损失,这意味着用Mali-T764玩Android平台的大型3D游戏可以让画面变得更平滑。
瑞芯微已R3288平板解决方案的发布,势必会给平板市场刮来一阵春风,相信自此之后,T764都将成为新一代平板配置的显卡新标杆。在CES2104上,瑞芯微已经正式发布R3288,以大陆及台湾OEM厂商的速度,普通消费者在四月份左右就可以有机会获得搭载Mali-T764的平板电脑,RK3288新品也将全面暴发。
(责任编辑:少潭)(人气:)上一篇:
(来源:安卓网)下一篇:
热门产品推荐
分享到其他平台:
手机访问当前页面地址}

我要回帖

更多关于 gpu z是什么 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信