gpu是什么意思影响GPU的计算速度

点击联系发帖人 时间：2012-02-26 07:34

gpu高性能计算

建筑结构分区
查看: 569|回复: 1
听众数收听数最后登录注册时间主题精华0积分12帖子
技术员, 积分 12, 距离下一级还需 38 积分
PKPM V2.2在32位和64位操作系统下的运算速度谁更快
& && &&& & & 结构专业在设计时，对一个结构模型从试算到最终确定，通常计算次数都是几十遍、上百遍的，每次计算的速度太慢简直就是煎熬。本人设计经常遇到八度半，三类土的高层结构设计，SATWE正常算一遍就要5分钟左右，有时候运算还没算完就想起哪里哪里设置不对、哪里加点截面更好，更合理什么的，但只能焦急的等，没办法。试过把计算机硬件配高点的做法，发现几点：1. CPU不论是几核的，主频最重要，四核的3.0G和双核的3.6G，在其他硬件相同的情况下，肯定是双核 3.6G的运算快。2. 2G内存和4G内存，在其他硬件相同的情况下，肯定是4G的运算快得多。
现在 64位操作系统现在风靡全球，能管理大于4G的内存，而32位的操作系统只能管理小于4G的内存，现在配电脑，内存便宜，起点都是配8G内存了，最近闲来无事，就想折腾下，心想，64位能用8G内存，而32位最多只能用4G内存，这样一来，速度提高一倍不敢说，至少提高25%吧，想当初，同一台机器，2G和4G速度那是提高了近35%啊！想到就干，昨天下午把家里的电脑装上64位的WIN7，8G内存立马就人出来了，高兴啊，（原来的用32位的XP，电脑只能认出4G的内存)，折腾到晚上，终于把系统和软件全部弄好了，满怀期望开始试算以前的结构模型，拿了个小的模型算，原来的32位XP系统，4G内存，算一遍95秒，现在的64位WIN7系统，8G内存，算一遍居然要115秒，想不通啊，想不通！反反复复多次，还是比32位的要慢，又拿了个大点的模型算，一样的结果，还是32位的要快，头晕，无法解释了，事实胜于雄辩！最后得出结论：PKPM在64位和32位的系统下，内存虽然翻一倍，但速度还是32位的快！
& & 唯一的解释：PKPM的编程内核是32位的，最大内存只支持到4G！所以结构的同僚们，要想运算速度快，只有无限制的用更高主频的CPU，内存大于4G对运算无任何帮助！（真正的想运算有质的提速，除非PKPM用64位重新编程）
& & 第一次在论坛发帖，不怎么会弄，以上只是个人实际对比后的一些肤浅看法，权当抛砖引玉，同僚们不喜勿喷！
& && && && &
听众数收听数最后登录注册时间主题精华0积分25帖子
技术员, 积分 25, 距离下一级还需 25 积分
关于硬件选择，我给PKPM发了封邮件，问题和回复分别如下：
& &&&1. 内存4G，搭配32位操作系统，对比8G内存，搭配64位操作系统，哪个运算速度会快些？大约多大影响？（网上有人说4G内存32位操作系统更快）
& &&&2. CPU，核数和主频，哪个影响大？（网上有人说，satwe仅使用了单核，所以主要相关的是单核性能）
& &&&3. CPU选用AMD，针对satwe是不是会更有利？
& &&&4. 使用固态硬盘对计算速度影响大吗？
& &&&5. SAUSAGE能够使用显卡GPU，那么显卡GPU和satwe运算有关吗？
1、8G内存，搭配64位肯定比内存4G，搭配32位速度快，因为PKPM程序从v2.1开始支持64位计算；
2、PKPM程序从v2.1开始支持多核并行计算，不必专门挑选单核高频CPU；
3、AMD或Intel，还是Intel的更有利；
4、计算中会生成临时文件，固态硬盘提高读写速度，有一定的影响；
5、目前仅SAUSAGE使用GPU加速计算，其他程序没有，故GPU和satwe运算无关，且SAUSAGE使用GPU加速所需显卡档次较高，笔记本一般无法满足。
8-1(商易宝)
8-2(英才网)
8-3(媒体广告)& GPU 应用程序&
利用 NVIDIA(R)
Tesla GPU 来加速计算研究与工程应用程序。
Tesla GPU 在服务器中是 CPU 的协处理器，我们来看一看该 GPU 如何提升诸多行业中应用程序的性能.
(PDF 1.7 MB)
试用 Tesla K80 GPU 加速器。
生物信息学
计算流体力学
计算机辅助设计
国防与情报
Electronic Design Automation
成像与计算机视觉
媒体和娱乐
分子动力学
石油天然气/地震
计算结构力学
视觉化及对接
天气与气候| 时间排序
应该说基本上没有什么相同点，出发点就是不同的。高性能计算或者说，并行计算，是为了突破单机的资源限制，让更多的机器共同完成一项任务。而云计算，一般来说是通过虚拟化技术，让资源过剩的单台物理机独立、隔离地完成多个任务，他们出发点就不一样，甚至可以说是完全相反的。但是云计算现在范畴也很广，所以也会有一些开始重叠的地方，比如说云化的服务器可以再组成集群，就又有点像并行计算了，不过云化服务器的集群一般来说都是用来提供网络服务而不是计算服务。&br&云计算当中比较重要的进步是提供了存储和网络的虚拟化，从而使云服务器真正与一个性能适中的物理服务器等效，从而实现了资源的按需分配、高利用率以及高可用性。它提供的是一个从底层来看非常松散的结构，从而可以让各种各样的任务自由组合、互不干扰；它跟并行计算的高度组织化的结构是相反的。
应该说基本上没有什么相同点，出发点就是不同的。高性能计算或者说，并行计算，是为了突破单机的资源限制，让更多的机器共同完成一项任务。而云计算，一般来说是通过虚拟化技术，让资源过剩的单台物理机独立、隔离地完成多个任务，他们出发点就不一样，甚至…
谢邀&br&－－－－－－－－－&br&非常多啊，现在各大软件互联网公司都有自己的研究团队，你有才华的话，在这个社会不会被浪费
谢邀－－－－－－－－－非常多啊，现在各大软件互联网公司都有自己的研究团队，你有才华的话，在这个社会不会被浪费
本人对这个不是很懂，最近正好查这方面的资料：&br&1：&a href=&///?target=http%3A///q/s7907510/a/1& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&OpenGL vs. OpenCL, which to choose and why?_KECHENGPUZI_课程铺子&i class=&icon-external&&&/i&&/a&&br&2：&a href=&///?target=https%3A//www.opengl.org/discussion_boards/showthread.php/180692-OpenGL-Compute-Shaders-vs-OpenCL& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&OpenGL Compute Shaders vs OpenCL&i class=&icon-external&&&/i&&/a&&br&3：&a href=&/question/& class=&internal&&Vulkan会替代OpenCL成为新的跨平台通用计算的接口吗？ - GPU 通用计算&/a&
本人对这个不是很懂，最近正好查这方面的资料： 1： 2： 3：
来自子话题：
先把思路理顺吧。&br&&br&1. Vulkan是OpenGL 5.0，也就是OpenGL 4.5的继任者&br&2. OpenGL 4.5支持compute shader&br&3. Compute shader是做通用计算的，和OpenCL存在竞争关系。&br&&br&所以不是Vulkan会取代OpenCL，而是Vulkan里的compute shader可以用来做OpenCL那样的通用计算。&br&&br&好了，有了这个基础，就可以看看同一件事情，用Vulkan和OpenCL的区别了。&br&&br&Vulkan是图形为主，可以用CS通用计算。OpenCL是专门做通用计算。这个事情不是第一次发生，而是在D3D vs CUDA的时候已经发生过。结果是，谁都没革谁的命，而是分工不同。总的来说，如果是一个图形程序，需要做一些通用计算，就会选择D3D/Vulkan。如果是纯通用计算，没有或只有一点点图形，就会用CUDA/OpenCL来完成，再与图形API交互。
先把思路理顺吧。 1. Vulkan是OpenGL 5.0，也就是OpenGL 4.5的继任者 2. OpenGL 4.5支持compute shader 3. Compute shader是做通用计算的，和OpenCL存在竞争关系。所以不是Vulkan会取代OpenCL，而是Vulkan里的compute shader可以用来做OpenCL那样的通用计…
看这型号名就大概能猜到x30又是要跪在gpu上，预计性能跟810的adreno430差不多
看这型号名就大概能猜到x30又是要跪在gpu上，预计性能跟810的adreno430差不多
穷人用单精, 土豪用双精, 神经病(CPU)用gmp.
穷人用单精, 土豪用双精, 神经病(CPU)用gmp.
来泼个冷水, 为什么需要GPU加速? 因为运算速度慢. 为什么运算速度上不去? 因为设备不行. 为什么设备不行? 因为没钱.&br&&br&表征就是明明雇到了理论基础比较强的工程专业人员, 可是根本用不到, 只能让他去跟计算机专业一起打杂. &br&&br&所以你现在的困惑, 只不过是导师(老板)手里没什么钱而已. 我说句实在的, 这三年你不如好好学英语出国读研了.
来泼个冷水, 为什么需要GPU加速? 因为运算速度慢. 为什么运算速度上不去? 因为设备不行. 为什么设备不行? 因为没钱. 表征就是明明雇到了理论基础比较强的工程专业人员, 可是根本用不到, 只能让他去跟计算机专业一起打杂. 所以你现在的困惑, 只不过是导师(老…
”旗舰&Soc中很低的水准&br&&img src=&/864d6c64f202a9b3a5c66d7650e25ead_b.jpg& data-rawwidth=&600& data-rawheight=&461& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/864d6c64f202a9b3a5c66d7650e25ead_r.jpg&&
”旗舰"Soc中很低的水准
&a href=&///?target=http%3A//& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&br&国外有些比较成熟的解决方案，前后处理在客户端，核心计算放在云端，这个也是CAE以后发展的趋势
国外有些比较成熟的解决方案，前后处理在客户端，核心计算放在云端，这个也是CAE以后发展的趋势
如最高票答案所说。&br&我实际测试过，在小数据集情况下，cpu频率对速度影响越大。核心数基本没有影响。
如最高票答案所说。我实际测试过，在小数据集情况下，cpu频率对速度影响越大。核心数基本没有影响。
我的看法是最后还是CPU的天下, 英特尔现在还不吃掉显卡, 是因为这块肉还不够肥, 不过众核处理器生产线摆在那里, 跟英特尔比烧钱比科研? Are you OK?&br&&br&所以显卡相关的技术看看知道下思路就行了. &br&&br&openmp openmpi, 面包和黄油, 搞并行不懂这两个就跟你不知道ls什么意思一样. 不过未来这俩应用机会大吗? 你光用ls写个脚本试试?
我的看法是最后还是CPU的天下, 英特尔现在还不吃掉显卡, 是因为这块肉还不够肥, 不过众核处理器生产线摆在那里, 跟英特尔比烧钱比科研? Are you OK? 所以显卡相关的技术看看知道下思路就行了. openmp openmpi, 面包和黄油, 搞并行不懂这两个就跟你不知道ls…
可能跑题了, 我只想说最后还是英特尔爸爸教显卡厂商做人. 通用计算API, C语言算不算?
可能跑题了, 我只想说最后还是英特尔爸爸教显卡厂商做人. 通用计算API, C语言算不算?
上午：&br&老黄讲的不错。东西准备充分，干货多多。黄核弹的皮夹克很有特色，严重怀疑老黄是重机爱好者。&br&吴恩达就是来飞水的。&br&下午：&br&IDC - 哥们是来秀英文的，没有干货。&br&贾扬清-科普。但一句话秒震全场：Facebook的Big Sur系统每天都在使用，有几百工程师在上面捣鼓各类DL模型，facebook每月产生600个不同DL模型，然后不断上线迭代。&br&360 - CV，水平也就是CV三头牌水平。&br&B-A-T：来的人都太水，PPT全是字。&br&MS：哥们是个搞科研，算法优化不错。非业内人就听蒙了。&br&京东：AI水平处于ML向DL转化过程中&br&其他人都没任何印象了。
上午：老黄讲的不错。东西准备充分，干货多多。黄核弹的皮夹克很有特色，严重怀疑老黄是重机爱好者。吴恩达就是来飞水的。下午： IDC - 哥们是来秀英文的，没有干货。贾扬清-科普。但一句话秒震全场：Facebook的Big Sur系统每天都在使用，有几百工程师…
作为大致的估计，可以参见 Jeff Dean 的 Large Scale Deep Learning with TensorFlow &a href=&///?target=http%3A//www.slideshare.net/JenAman/large-scale-deep-learning-with-tensorflow& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&slideshare.net/JenAman/&/span&&span class=&invisible&&large-scale-deep-learning-with-tensorflow&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&img src=&/dcca653036_b.jpg& data-rawwidth=&638& data-rawheight=&359& class=&origin_image zh-lightbox-thumb& width=&638& data-original=&/dcca653036_r.jpg&&
作为大致的估计，可以参见 Jeff Dean 的 Large Scale Deep Learning with TensorFlow
已有帐号？
无法登录？
社交帐号登录什么是 GPU 计算?_百度知道}

叫阿莫西中心