将一个自己的C或C++串行程序(360行以上，不要从网上下载)，利用openmp tbb改写成并行程序，

点击联系发帖人 时间：2015-02-28 07:06

openmp fortran

第Z 7 卷!第7 期 Z 004 年 7 月计 !! 算 !! 机 !! 学 !! 报 C ~I NESE J OUR NAL OF CO MP UTERSVol . Z 7 No . 7 J ul y Z 004!机群 0 pen MP 系统的设计与实现吴少刚1) Z)
! 章隆兵 ! 蔡 ! 飞 ! 顾丽红 ! 唐志敏Z) Z) 1)Z)1)C 石油大学C 华东) 计算机与通信工程学院 ! 东营 Z 57061 )Z )C 中国科学院计算技术研究所 ! 北京 100080 )摘 ! 要 !Open MP 以其易用性和支持增量并行的特点成为共享存储体系结构的编程标准 . 目前机群系统已成为高性能计算的主流平台研究机群 Open MP 系统对推进并行应用的开发和普及非常有意义 . 该文作者以软件 DS M 系统 JI AJI A 作为 Open MP 的运行时系统结合一个前端编译器 O MPZ JI A 在机群系统上实现了 Open MP/ JI AJI A 计算环境同时在提高性能方面根据机群系统特点扩展了 Open MP 制导优化了后端运行时库 . 通过 11 个 Open MP 应用作者比较了该计算环境和一个支持 Open MP 的硬件 cc- N U MA 系统C SGI Z 100 ) 的性能 . 结果表明作者的机群 Open MP 系统的 7 机平均加速比为 4 .6Z ;SGI Z 100 系统为 4 .55 二者性能相当 . 关键词 !Open MP ;cc- N U MA ; 软件 DS M 系统; 机群计算;JI AJI A 中图法分类号 TP30ZDesi g n and I mpl e ment ati on of 0 pen MP on C ust er Syst e ms lWU Shao- Gan g 11) Z )) Z)Z Z 1 i Z !Z ~ ANG Lon g- bi n g !CAI Fei !GU Li- ~on g !TANG Zhi- M n))))CColle ge o f Co mPut er and Co mmunic ation engi neeri ng CI nstit ut e o f Co mPuti ng Tec hnol o gyUni uersit y o f Pet role u m C east Chi na ) Dongyi ng Z 57061 ) Beij i ng 100080 )Chi nese a ade my o f Scie nces cAbstract ! The Op en MP Appli cati on Pr o gr a mm n g I nt erf ace C API ) i s an e mer gi n g st andar d f or i ar all el pr o gr a mm n g on shar ed me mor y multi pr ocessor s because of it s ease of use and i ncr e meni p t al a ppr oach t o t he p ar all eli zati on of se C uenti al pr o gr a ms . At pr esent cl ust er s of wor kst ati ons or PCs have been beco m n g t he mai nstr ea m pl atf or m f or hi g h p erf or mance co mp uti n g . It i s i ncr easi i n gl y attr acti ve t o devel o p Op en MP p ar all el a ppli cati ons on cl ust er s yst e ms . Thi s p a p er pr esent s t he desi g n and i mpl e ment ati on of Op en MP co mp uti n g envi r on ment on cl ust er s whi ch i s based on t he co mbi nati on of sof t war e DS M and co mpil er t echnol o gi es . I n or der t o i mpr ove t he s yst e m p erf or mance and enl ar ge t he a ppli cati on r an ge man y met hods ar e i ntr oduced t o ada pt t o cl ust er s archit ect ur e such as Op en MP di r ecti ve ext ensi on r unti me li br ar y o pti m zati on l oo p scheduli n g ali g orit h ms et c . Furt her mor e el even Op en MP pr o gr a ms f r o m so me st andar d bench mar ks have been measur ed on a har d war e cc- N U MA machi ne C SGI Z 100 ) and t he Op en MP/ JI AJI A s yst e m on aut hor s co mmodit y cl ust er of PCs . The ex p eri ment al r esult s sho w t hat t he mean s p eedu p of t he Op en MP/ JI AJI A s yst e m on seven pr ocessor s i s 4 .6Z and t hat of t he SGI Z 100 machi ne i s 4 .55 . Key words ! Op en MP ; cc- N U MA ; sof t war e DS M ; cl u JI AJI A收稿日期:Z 003-09-08 ; 修改稿收到日期:Z 004-05-1Z . 本课题得到国家自然科学基金C ) ~ 国家九七三重点基础研究发展规划项目基金大规模科学计算研究 C G0 ) ~ 中国科学院全国优秀博士学位论文作者专项基金~ 中国科学院计算技术研究所领域前沿青年基金CZ 00Z 6180-7 ) 资助 . 吴少刚男 1973 年生博士讲师主要研究领域为计算机体系结构~ 共享虚拟存储系统~ 并行计算 . E- mail : wsg ! ct .ac .cn . 章隆兵男 1974 年生博士后主要研究领域为计算机系统结构~ 机群计算~ 分布式共享存储系统 . 蔡 ! 飞男 1979 年 i 生博士研究生主要研究领域为机群计算~ 微处理器设计和计算机系统结构 . 顾丽红女 1970 年生硕士讲师主要研究领域为嵌入式系统~ 分布式系统~ W 数据库 . 唐志敏男 1966 年生博士研究员博士生导师主要研究领域为高性能计算机体系结构~ 并行处理和 eb VLSI 设计 .7 期吴少刚等机群 Open MP 系统的设计与实现905作第 7 节总结全文 .l !引!言大规模科学和工程计算应用对高性能计算的需求是无止境的例如气象预报生物信息飞行动力学药物设计油藏模拟等应用都需要 Tfl oa p s & Pfl o p s 级的计算能力并行计算是解决这些挑战性问题的唯一途径 . 然而并行软件开发很困难主要原因是并行程序设计方法和手段还很落后 . 目前主流并行编程模型包括数据并行消息传递和共享变量 . 数据并行的应用范围不广且性能很大程度取决于编译器 . 消息传递已成为分布式存储系统的主要编程模式但是它要求程序员显式地安排消息的发送和接收编程困难并且不支持增量并行 . 共享变量编程模型具有易于编程的特点但是长时间来缺乏像消息传递中的 MPI 或 P V M 那样广为接受的标准程序的可移植性差 . Op en MP 标准委员会于 1997 年推出的 Op en MP 标准 1 有望改变这种局面它得到了业界许多主要软硬件厂商的支持目前已成为共享存储并行编程的实际工业标准 . Op en MP 通过定义编译制导库例程和环境变量规范给程序员提供了支持 Fortr an C C + + 的一组功能强大的高层并行结构和一个增量并行的共享存储程序设计模型能满足很大范围的应用需求 . 该标准在不断地扩充和发展目前最新发布的是 Z .0 版 . 支持增量并行和良好的可编程性使得 Op en MP 成为并行程序设计的主流模型之一 . 目前机群系统已成为主流的并行计算平台尤其是基于 S MP Sy mmetri c Multi- Pr ocessor 结点的机群系统 . 在这种平台上实现 Op en MP 是一个非常有意义的研究它结合了 Op en MP 的易编程性和机群系统的可扩展性将有利于推进并行应用的开发和普及 . 本文介绍我们的机群 Open MP 系统 Open MP JI AJI A 的设计与实现以及提高性能的相关技术 . 其主要贡献是在 JI AJI A 的基础上实现了机群 Op en MP 同时结合软件 DS M D stri but ed Shar ed i 协议和机群系统特点提出了若干性能优 Me mor y 化技术包括合适的制导扩展和后端运行库优化等 . 测试结果表明在我们评测的 11 个应用程序中 8 机平均加速比为 4 .87 . 本文第 Z 节介绍 Op en MP 标准第 3 节具体描述了我们的机群 Op en MP JI AJI A 系统的设计与实现第 4 节介绍了我们针对机群系统特点所采用的一些优化技术第 5 节给出了具体的性能测试结果第 6 节介绍国内外的相关工2 !0 pen MP 介绍目前 Op en MP ARb 发布的分别支持 Fortr an C C + + 的最新说明规范是 Z .0 的版本 . 本文的研究是在机群系统上实现 Op en MP C 版本因此下文所有对 Op en MP 的描述缺省都是针对 Op en MP C Z .0 说明规范 . Op en MP 定义了一个集编译制导库函数和环境变量为一体的集合用来描述 C 程序的共享存储并行机制其目的是提供一个并行编程模型允许并行程序可以在不同厂商的共享存储体系结构的机器上移植 . 该 Op en MP 标准已被许多编译器商家支持 . Op en MP 允许用户创建管理可移植的并行程序 . 编译制导以 SP MD S n gl e Pr o gr a m Multi- Dat a i 结构工作共享结构同步结构扩展了 C 顺序程序模型提供对数据共享和私有化支持库函数和环境变量提供了锁变量和对并行程序运行时行为的控制 . Op en MP 采用 f or k oi n 的并行执行模式 Op en MP 程序首先由 Mast er 线程执行直到碰到第一个并行结构由 p ar all el 制导构成接着由 Mast er 线程产生一组线程且 Mast er 线程成为线程组的主线程 . 除了工作共享结构外每个线程都执行并行动态扩展域中的代码 . 而工作共享结构表明任务被划分成子任务线程组中的每个线程分别执行对应的子任务所有线程在工作共享结构结束处需要隐式同步 . 并行结构执行完后线程组隐式同步接着 Mast er 线程继续执行 . 程序中可以说明多个并行结构所以程序在执行时f or k oi n 多次 .3 !0 pen MP!I A I A 原型系统Op en MP JI AJI A 的基本设计思想是利用软件 DS M 系统 JI AJI A Z 在机群上提供的共享存储界面将 Op en MP 程序映射成等价的 JI AJI A 程序在机群平台上运行 . Op en MP JI AJI A 系统主要包括一个编译处理系统前端和一个支持 f or k oi n 模式的 JI AJI A 运行库后端 . 系统框架如图 1 所示 . 编译处理系统由 C 预处理器 O MPZ JI A 编译器性能优化器以及 SZ C 源码生成器组成其中 C 预处理器和 SZ C 生成器直接取自 SUI F 工具集 O MPZ JI A 编译器由我们自己基于 SUI F 开发性能优化器是我们在系统设计时考虑采用编译分析技术906计 !! 算 !! 机 !! 学 !! 报Z 004 年译处理系统 . 3 .2 ! I A I A 运行库软件 DS M 系统由于结合了共享存储系统的易编程性和机群系统的可扩展性而受到广泛的研究 . 软件 DS M 系统用软件的方法把分布于各结点的多个独立编址的存储器转化为一个统一编址的共享虚拟存储空间在分布式存储系统平台上提供共享存储的编程抽象 . 通常相比消息传递的并行程序而言对应的软件 DS M 并行程序在通信量方面要大一些然而软件 DS M 所提供的共享存储编程环境图 1 !Open MP JI AJI A 系统框架图的可编程性是消息传递所不及的 . JI AJI A 是一个完全建立在操作系统之上的用户级软件 DS M 系统目前支持常见的类 Uni x 平台和 W ndo ws NT 平台 .JI AJI A 的存储组织采用类 i 似硬件 cc- N U MA cache coher ent Non- Unif or m Me mor y Access 方式共享存储空间中的每个地址都有一个确定的宿主 ho me 结点 JI AJI A 采用基于锁的高速缓存一致性协议 3 来维护共享数据在不同处理机中的多个备份的一致性 . 另外 JI AJI A 在提高系统性能方面提出了许多协议优化策略如单写的识别数据自动迁移写向量基于 S MP 的优化数据预取等 . 目前绝大多数软件 DS M 系统都是采用 SP MD 编程模式 JI AJI A 也不例外 . 为了匹配 Op en MP 的 f or k oi n 执行模式我们扩充了 JI AJI A 系统调用接口使得 JI AJI A 支持 f or k oi n 执行模式 .提高性能所加入的模块目前还没有实现 . 后端运行库由基于 SP MD 模式的 JI AJI A 改造而成 . 整个系统处理流程包括由编译系统前端处理 Op en MP 源程序生成等价的软件 DS M 源程序然后通过标准编译器例如 GN U 的 gcc 链接 JI AJI A 运行库生成目标程序在机群平台上运行 . 3 .l ! 编译器 0 MP2 I A 编译器的实现需要定位 Op en MP 和软件 DS M 系统之间的语义间隙 . 首先 Op en MP 假定轻量 li g ht- wei g ht 线程编程模式整个地址空间缺省是共享的除了线程私有栈中的数据外地址空间中的数据可以共享访问而 JI AJI A 采用重量 heav ywei g ht 进程编程模式只有通过特殊分配方式标记为共享的数据才能在处理机之间共享编译器需要处理这种地址空间全部共享和部分共享之间的语义差别 . 其次 Op en MP 中所有全局变量缺省为共享而 JI AJI A 中缺省为私有 . 最后编译器的工作是根据 Op en MP 的语义提取共享数据处理并行区域生成可执行环境由于体系结构的差异 Op en MP 程序直接编译成基于 DS M 系统的并行程序产生令人失望的性能所以支持一些适应机群体系结构特点的制导扩展也是编译器应有的功能 . 我们的 O MPZ JI A 编译器基于斯坦福大学的著名 SUI F 编译工具集在莱斯大学的翻译器框架基础上构成 .SUI F 由一个精小的核心和许多以核心为基础的支持编译分析和优化的遍工具集组成 . 其核心定义了编译器的中间表示提供访问和操作中间表示的编程接口工具集包括 C 和 Fortr an 的前端循环级并行和局部性优化器经过优化的 M PS I 后端和一些编译器开发工具等 . O MPZ JI A 编译器主要由编译制导识别数据环境处理并行任务生成和执行环境构造四个编译遍组成加上之前的 C 预处理器和之后的目标源程序生成两遍构成了整个编4 !0 pen MP!I A I A 性能优化当前的 Op en MP JI AJI A 的实现基本上满足了 Op en MP 的并行语义到 JI AJI A 语义直接映射的要求然而 Op en MP 标准是针对 U MA Unif or m Me mor y Access 共享存储结构制定的由于这种结构不需要考虑数据分布和远程数据访问延迟问题使得 Op en MP 标准对于非 U MA 结构的并行系统不是很有效 . 尤其是在机群这种通信开销较大的环境中这种直接语义对照翻译性能非常低下 . 为了在机群环境中获得满意的性能我们需要对 Op en MP 制导进行扩展以及优化后端运行库 . 4 .l !0 pen MP 制导扩展 4 .1 .1 ! 数据分布制导 Op en MP 标准是针对 U MA 共享存储体系结构制定的不用考虑数据分布然而在分布存储系统中数据分布是影响性能的重要因素在以软件 DSM7 期吴少刚等= 机群 Open MP 系统的设计与实现907为基础的共享存储机群平台上更是如此 . 虽然共享存储编程不需要像消息传递编程那样考虑数据划分~ 但是为了性能需要考虑共享数据在处理间的分布 . 不过数据分布与数据划分是两个不同的概念~ 消息传递编包括程中的数据划分需要改变对被划分对象的引用~ 数组的名字以及数组下标; 而数据分布只改变分配部分~ 不需修改引用部分~ 二者本质是不同的 . 在 cc- N U MA 系统的 Op en MP 实现中~ 如例 [] 5 都 SGI 和 Co mp a C 的系统等~ 引入了数据分布制导来扩展 Op en MP 语言~ 多数这些制导都源自大[] 4针对机群系统结构的特点~ 们提出了两种有我效利用数据局部性的静态调度算法 LbS & Localit y和动态调度算法 LbDS & based Scheduli n g & Localit y&充分体现拥有者计算 ~ based Dy na m c Scheduli n g i 静态 LbS 非常有效~ 而在非的原则 . 在独占环境下~ 独占的元计算环境下~ 些负载极不平衡的应用则某采用动态 LbDS 更有效 . 我们将这两种调度算法通过扩展 Open MP 的循环调度子句的模式供用户使用 . 4 .1 .3 ! 其它制导扩展针对一些特定类型的应用~ AJI A 系统提出了 JI8 许多优化技术~ 例如动态数据预取 [ ]. 动 ho me 迁自 9 10 移 [ ]. 写向量技术 [ ]等 . 这些优化技术对提高特定~PF 语言且与相应的 ~PF 制导的语义相似 . 我们在 Op en MP/ AJI A 实现中也仿效 ~PF ~ 展了扩 JI 不 Op en MP 语言引入数据分布制导~ 过由于软件且 DS M 系统以页为粒度进行数据分布~ JI AJI A 系统基于 ho me 维护数据一致性~ 此在实现数据分因布时需要对齐页且保证数据分配空间连续性~ 据数分布制导的功能受到一些限制 . 4 .1 .Z ! 有效调度算法然 Op en MP 提供了丰富的循环调度算法~ 而这些算法的提出都只是从负载平衡角度考虑而没有考虑数据分布 . 正如前面所述~ 分布存储系统中~ 在数据分布情况和程序访问数据的模式极大地影响性能~ 因此在 Op en MP 的机群实现中~ 计与数据分设布匹配的循环调度算法是提高性能的关键 . 循环调度性能的优劣主要受三个因素的影响= 循环分配开销& p all ocati on over head & 负载不平 . l oo 衡& . Load i mbal ance & 远程数据通信 &e mot e dat a r 开销 . 这三个因素之间是相互冲突 co mmuni cati on & 为了减少远程数据通信的开销~ 应该充分利用处的~ 理机和存储器的局部性 . 如果一个处理机只对分布在本地存储器中的数据进行计算~ 无需进行远程就通信~ 通信开销很小 . 然而一味地考虑数据局部性则可能会引起负载不平衡~ 如假设数据在处理机间例的分布不均匀~ 则严格按照数据局部性就会造成处理机负载不平衡 . 可见数据局部性和负载均衡之间存在一定的矛盾~ 需要权衡折中 . 6 中 Mar kat os 和 Le bl anc 在文献[ ] 分析了硬件共享存储系统中负载平衡和局部性的重要性~ 们他得出的结论是局部性比负载平衡要重要得多 . 其结果表明= 网络的速度越慢~ 部性就越重要 . 由于我局们的目标环境是普通的商用网络互连的机群系统~ 且软件 DS M 系统大多以页作为数据分配和通信的单位~ 通信开销很大~ 因此数据局部性比负载平衡重要得多 . 文献[ ] 7 中也清楚地表明了这一点 .程序性能有很大好处~ 此我们通过扩展 Op en MP 因语言方式由程序员决定是否在系统后端采用这些优化技术 . 我们定义了一个绑定于 p ar all el 制导的 o p该子句在并行区域的入口处打开相应的 ti ons 子句~ 并且在出口处自动关闭 . 优化功能~ 4 .2 ! 运行库优化运行库优化集中在影响系统性能的关键制导和子句的实现上 .r educti on 子句是 Op en MP 的 f or 制导中应用比较多的子句~ 化归约操作是提高程序优当性能的有效途径之一 . 在 Op en MP 语义中~ r e表 ducti on 绑定在 p ar all el 或 f or 制导上~ 示一个全局的归约操作; 当绑定在 secti ons 制导上~ 表示一个部分归约操作~ 且该子句中说明的归约变量为一个然而在许多工程应用中~ 归约变量为向量共享标量~ 的情况比较多~ 以我们在实现中扩展了 Op en MP 所的标准~ 支持 r educti on 子句中说明归约向量 . 在基于软件 DS M 的 Op en MP 实现中~ 了实为现对共享的归约变量的互斥访问~ 常的做法是给通该变量加锁保护 . 我们最初的实现也是采用这种方法~ 然而在软件 DS M 系统中~ 处理机数目较多的在情况下~ 的使用开销比较大~ 如在 JI AJI A 中~ 锁例锁的申请需要全局锁管理器的授权~ 时释放锁需同我要维护一致性 . 为了替换加锁机制~ 们采用类似即 MPI 中的归约方法~ 用传递消息的方式将各线程的分量发送给该共享归约变量的 ho me 所在的那个线程~ 常是 Mast er 线程~ 后由该线程完成相应通然的归约操作 . 这种实现的好处是= 首先消除了引入锁带来的锁管理开销; 次由于各分量在执行归约操其作的处理机上有备份~ 样节省了远程取页. 建这创服务中断等开销 .r educti on 优化前后的性能如 dif f . 图 Z 所示~ 中可以看出~ 机群 Op en MP 中~e从在 r ducti on 的优化效果随处理机数的增加变得更加明908计 !! 算 !! 机 !! 学 !! 报Z 004 年显9 是因为在软件 DS M 系统中9 理机数越多9 这处对锁的竞争越激烈9 致的开销就越大 . 两机情况导下9 优化后时间为优化前的 54 .6 % 5 在 16 机时9 而优化前归约操作开销为 49Z 47 . 7Z # 9 化后为 s 优 16797 .68 # 9 s 为前者的 34 .1 % .每个结点配备 1 Gb 主存 . 结点间采用 100 Mb p s 快速以太网互连 . 操作系统为 Li nux Z .4 .18 9 编译器为采用 gcc Z .96 9 - OZ 级优化 . 与之比较的硬件 cc- N U MA 结构的机器为 SGI 公司于 1999 年推出的 SGI Z 100 服务器9 是一款这支持包括科学工程计算生物信息和视频流媒体服务等计算密集型应用的高性能产品 . 该服务器采用全配置的 4 个结点板 node boar d 集成9 个结点每板支持两个主频为 Z 50 M~z 的 M PS 64- bit I R10000 处理器 . R10000 处理器拥有指令和数据分离的容量各为 3Z Kb 的一级 Cache 9 个 Cache 采每用 Z 路组相联设计9 且每个处理器还拥有一个而图 Z !r educti on 操作优化前后性能比较结 4 Mb 的二级 Cache . 系统配备了 4 Gb 的主存9 点板上的内存峰值带宽为 780 Mb . 操作系统为 I RI X 编译器为 M PSpr o 7 .3 9 - OZ 级优化 . 采用 6 .5 9 I 5 .l ! 实现开销为了理解 Op en MP 制导在 SGI Z 100 和 PC 本文使用文献 11 Cl ust er 两种平台上的实现开销9 中的 m cr obench mar k 程序进行了测试 . 目前我们 i 主要关心同步开销9 以仅使用了其中的同步测试所程序9 结果如图 3 所示 .5 ! 性能测试我们的 PC Cl ust er 由 8 个 PC 结点构成9 个每结点支持两个主频为 700 M~z 的 Penti u m III 处理器. 该处理器拥有指令和数据分离的容量各为每 16 Kb 的一级 Cache 9 个 Cache 采用 Z 路组相联设而且每个处理器还拥有一个Z56 Kb 的二级 Cache . 计9图 3 !Open MP 同步开销SGI Z 100 上的制导 !! 从图 3 中可以看出首先9 开销属于微秒级9 PC Cl ust er 上的制导开销则处而于毫秒级9 充分反映了硬件 cc- N U MA 和软件共这享存储机群在通信性能上的差异 . 其次9 PC 在许多制导的曲线与 barri er Cl ust er 同步开销曲线中9 制导的曲线相类似 . 这主要是因为许多制导都隐含例了对共享数据一致性维护要求9 如在并行区域的入口和出口以及f or 和 si n gl e 制导的出口都需要维护一致性 . 由于我们的数据一致性维护采用 barri er 操作实现9 而在软件 DS M 中 barri er 操作开销比较大9 因此这些曲线都与 barri er 制导曲线类似 . 这也说明优化同步是减少 Op en MP 制导开销的主要途径9 例如同步消除同步弱化技术等 . 另外9 p en MP O 制导在两种平台上的同步开销曲线的变化趋势很类似9 说明就 Op en MP 编程模型来说9 p en MP 这 O 主 JI AJI A 系统和 cc- N U MA 的性质是一样9 要差别体现在性能级别上 . 也就是说9 无论 Cache 一致性是其本质是一样的 . 采用软件实现还是硬件实现9 5 .2 ! 测试程序我们使用了一些被广泛采用的基准程序 N AS 的并行程序集中的蒙特卡罗模拟程序 EP 多网格计算程序 MG 共轭梯度算法求最小特征值程序 CG 57 期吴少刚等机群 Open MP 系统的设计与实现909SPEC O MPZ 001 程序集中的浅水模型程序 Swi m 神经网图像识别程序 Art 和地震模拟程序 EC uake SPL AS ~Z 程序集中的水分子模拟程序 W er 莱 at 斯大学 Op en MP- No w 项目 1Z 提供的计算多个向量正交基程序 GS 逐次超松弛迭代程序 SOR Omni 项目 13 提供的拉普拉斯方程求解程序 L AP 以及我们自己编写的非分块 L U 分解程序 . EP 程序的主要目的是产生一组高斯分布的数对 . 该程序特别适合于并行程序中唯一的通信是在程序的最后进行一次累加操作 . 在程序的主循环处采用 p ar all el r educti on 制导并行化 . MG 程序在固定的边界条件下用 multi gri d 算法在一个三维立方体上求方程 &Z u =u 中u 的近似解 . multi gri d 是一种基于多级范例的快速线性迭代算法可以和常用的离散化技术一起使用其典型应用是求二维或多维椭圆偏微分方程的数值解 . 该算法中主要的共享数据是 17 个三维数组 . 计算的并行部分采用 p ar all el f or 制导不同的节点分别计算当前l evel 对应矩阵的不同横切面相当于将立方体横切成多个大小相等的三维矩阵平均分配给各个节点进行计算对应于在最外层循环划分并行任务在对每个横切面进行计算的时候需要访问与其上下相邻的两个面 . CG 程序采用共轭梯度 con u gat e gr adi ent 算法计算大型对称正定稀疏矩阵的最小特征值其中的稀疏矩阵随机产生 . 该程序可用来测试系统对于非规则应用的远程通信能力程序中多个主循环采用 p ar all el r educti on 制导 . Swi m 程序是一个为天气预报建模的程序它使用有限差分方法求解浅水方程组 shall o w wat er e C uati ons . 程序中定义了 14 个大小相同的共享二维数组每个数组都采用了 bl ock 分布模式制导 . 程序结构分为初始化和迭代模拟两部分 . 每个迭代步中包含 3 个函数调用和一个 r educti on 操作 . Art 程序利用 ART Z Ada pti ve Resonance Theor y Z 神经网络来识别红外图像中的物体 . 程序分训练和识别两个阶段 . 其主要数据结构是 art-Z 神经网络和一个用来记录识别物体匹配度的一维数组 mat -con . 每个处理机拥有负责维护自己的 art-Z 神经网络每个进程的 art-Z 神经网络都是相同的而 mat -con 数组以 bl ock 分布模式在各处理机中共享 . EC uake 程序是一个模拟地震波在大型具有地质多样性的盆地中的转播以推演盆地中任意一点在发生特定的地震事件时受地震波影响所发生的位置变化的程序 . 该程序利用非结构的有限元方法模拟了 1994 年发生在美国南加州 San Fer nando 盆地中的 Nort hri d ge 地震的余震对盆地的影响 . 程序中使用一个 3 维的非结构网格对该盆地中 50k m & 50k m & 10k m 大小的区域的地质结构进行建模 . EC uake 分两个部分初始化部分读取输入文件中的数据包括该区域的地质参数和震源及震中位置等模拟部分包含 3334 个迭代步我们只计算了前 Z 40 个迭代步每个迭代步中主耗时部分是对函数程序 S MVP 的调用计算稀疏矩阵和向量的乘积的并行也是针对该函数 .W er 是一个水分子动力学模拟程序逐步地 at 模拟分子的运动状态 . 其主要的数据结构为一个共享的一维数组每个数组元素记录了一个分子的特性参数包括分子的质心受力位移和 6 个方向的导数等 . W er 采用 p ar all el 制导并行在每个时间 at 步每个处理机都需要计算出本机上的每个分子与其它分子之间的作用力该计算封装在 p ar all el 制导的并行区域内 .f or 制导采用块调度尽可能使用 no wait 子句减少不必要的同步开销 . GS 是一个计算 M 个 N 维向量的正交基的应用 . 在第i 次迭代时首先规格化第i 个向量随后把所有的第j 个向量 j # 与第i 个向量正交化 . 每 i 次迭代的正交化部分采用 p ar all el f or 制导并行执行 . M 个 N 维向量以一个二维数组存放在并行区域中共享 . SOR 程序用红黑逐次超松弛迭代法解偏微分方程 . 数组中的红黑元素交叉每个红元素周围是 4 个黑元素边界元素除外反之亦然 . 在每次迭代中每个数组元素更新为相邻元素的平均值采用 p ar all el f or 制导并行化计算循环 . 红黑数组的元素平均分配在所有处理机上 . L AP 程序用雅可比迭代法求解二维拉普拉斯方程 . 新旧两个二维数组平均分配在所有处理机上 . 每次迭代中先计算旧数组中每个元素的相邻 4 个元素的平均值存放在新数组的对应元素中此步我们采用 p ar all el f or 并行化然后采用 p ar all el f or r educti on 制导并行计算新旧数组迭代误差最后使用了 p ar all el f or 并行更新旧数组 . L U 分解将一个稠密矩阵分解成上三角阵 ! 和下三角阵&. 该程序没有采用块分解算法而是普通的基于行主元的分解 . 在每次迭代中对角线元素所在行处理完后采用 p ar all el f or 制导并行更新当前元素右下角矩阵 . 矩阵以一个二维数组存放分解后的 & 矩阵和 ! 矩阵存放在原来的数组中 . 5 .3 ! 测试结果及分析910计 !! 算 !! 机 !! 学 !! 报Z 004 年表 1 列出了每个应用程序的特性9 括测试规包模和所占用的共享空间 . 其中 NAS 程序集的规模从小到大依次为 S 9 9 9 和 C 3 SPEC O M 而 M A b PLZ 001 程序集的规模依次为 t est 9 ai n 和 r ef . tr表 l ! 应用程序特征程序 EP MG CG Sw m i Art ECua ke 规模 C ass W l C ass A l C ass b l Tr ai n Ref 共享空间 Z 4 Kb 43Z Mb 4Z 8 Mb 191 Mb 55Z Kb 程序 W er at GS LU SOR L AP 规模 17Z 8 分子 4096 &
&4096 共享空间 1 Mb 64 Mb 1Z 8 Mb也需要并行进程间频繁交互 . 享空间只有 0 .5 Mb 9 () 然 3 规则程序 . 这类程序尽管共享数据量大9 而数据访问比较规则9 以通过合适的数据分布策可略挖掘局部性 . 例如 SOR 和 L AP 的访存行为非常采用 bLOCK 数据分布策略可以较好地实现规整9 拥有者计算 . GS 和 L U 的计算模式很相似9 并行 GS 修改本次迭代之后的向量9 L U 只并行修改右下而角矩阵9 采用 CYCLI C 数据分布策略可以很好地实现拥有者计算 . 由于 L U 的每次迭代的计算量递减9 计算负载不平衡9 性能不及 GS . MG 程序的数据其访问模式也比较规则9 但是数据分布不容易对齐9 在而且同步比较多 . A 规模下需要 43Z Mb 的共享空间9 () 4 非规则程序 . 这类程序共享数据量大而且数据访问模式不规则9 很难采取合适的数据分布策略9 导致远程数据访问频繁9 通信量极大 . 例如 CG 程序和 EC uake 程序中都涉及到一个很大的稀疏矩阵和使用的共享空间分别为 4Z 8 Mb 和向量的乘积运算9 数据访问模式不规则 . 355 Mb 9 表 3 列出了 11 个应用程序在多机情况下的计算时间( SGI Z 100 服务器有一个处理器已坏9 注: 我们在测试中只能使用 7 个处理器9 PC Cl ust er 上在我们测试了 8 个处理器时的执行时间) 从表 3 中可 . 以看出9 虽然在 SGI Z 100 和 PC Cl ust er 两种平台上运行是相同规模的同一程序9 而在单处理机运行然时性能相差较大9 要因为:1 ) 译器差异 . M P主 ( 编 I Spr o 7 .3 编译器和 gcc Z .96 编译器采用 OZ 级的优化程度不一样9 前者编译出的目标代码效率比后者高3Z ) ( 体系结构差异9 尽管 SGI Z 100 的 R10000 处但是其一级和二级 Cache 都远大理器的主频比较低9 于机群的 Penti u m III 处理器 . 除了 EP 9 9 i m 9 CG Sw ECuake 和 W ater 5 个程序的机群单处理机性能不及其它 6 个程序都优于后者 . SG Z100 外9 I( 单位:) s7 处理机 SGI 4 .06 18 .16 554 .44 315 .94 6Z 37 .6Z 160 .88 Z 1 .56 515 .65 574 .71 34 .Z 4 77 .37 C ust er l 6 .81 Z 6 .Z 3 7 .70 3990 .Z 7 3Z Z .4Z 31 .41 393 .07 417 .50 15 .Z Z 48 .70 SGI 8 处理机 C ust er l 5 .55 Z 5 .00 Z .76 Z 4 .96 Z 7 .96 369 .77 387 .46 13 .77 43 .614096 & 4096 9 迭代 100 次 1Z 8 Mb 4096 & 4096 9 迭代 100 次 Z 56 MbRef 9 迭代 Z 40 次 355 Mb根据共享数据量和数据访问模式的特点9 们我将上述程序分成四类9 如表 Z 所示 .表 2 ! 应用程序分类应用程序特点数据访问规则数据访问不规则共享数据量大规则程序非规则程序共享数据量小易并行程序易共享程序() 容 1 易并行程序 . 这类程序的共享数据量少9 易开发并行9 而且通信非常少 . 例如计算圆周率以及本文的 EP 程序等 .EP 程序只有 Z 4 Kb 的共享数据9 而且基本没有同步9 只在程序结束时进行少量通信 . () Z 易共享程序 . 这类程序通过一些简单的私有化手段可以使得程序的共享数据较少9 易共享并容行9 然而并行任务间交互需要频繁地更新共享数据9 消息量也不小 . 例如 W er 程序的共享空间只有 at 9 是所有处理机频繁访问共享空间9 对但这 1. 1 Mb 一致性维护协议提出了较高要求 . 还有 Art 程序9 共表 3 ! 应用程序计算时间应用程序 EP MG CG Sw m i Art ECua ke W er at GS LU SOR L AP 1 处理机 SGI Z 6 .Z 5 57 .69 1475 .Z 9 1307 .48 Z
.68 14Z .5Z 5 .36 194 .67 3Z 6 .00 C ust er l 44 .08 55 .16 Z 846 .18 Z Z Z 6 .71 Z
.3Z 156 .88 Z 4 .7Z 90 .05 Z 77 .97 SGI 13 .30 38 .01 91Z .06 837 .61 14470 .Z 8 419 .35 73 .03 1673 .Z 8 994 .16 100 .45 199 .61 Z 处理机 C ust er l Z Z .06 39 .38 5 .74 1Z 154 .03 653 .55 86 .8Z 880 .97 808 .44 4Z .7Z 134 .98 SGI 7 .51 Z Z .Z 7 698 .94 4Z 4 .6Z 9471 .96 Z 19 .06 37 .37 851 .83 709 .83 60 .46 100 .3Z 4 处理机 C ust er l 11 .0Z Z 8 .98 Z .68 67Z 3 .93 45Z .80 47 .93 484 .45 448 .43 Z 3 .00 70 .117 期吴少刚等机群 Open MP 系统的设计与实现911!! 图 4 给出了上述 11 个应用在 SGI Z 100 和 PC Cl ust er 两种平台上的多机加速比 . 由于在两种平台上程序执行的绝对时间存在差异比较加速比是一个合适的方式 . 在上述四类程序中易并行程序 EP 在 SGI Z 100 和 PC Cl ust er 上都获得了接近线性的加速比; 易共享程序 Art 和 W er 在两种平台上的 at 4 机平均加速比分别为 3 .1 和 3 .Z 7 机平均加速比分别为 4 .7 和 5 .Z 由于 JI AJI A 在处理普通访存失效方面作了许多优化这两个程序的多机加速比都比较好; U GS SOR L AP Swi m 和 MG 6 个规则 L程序在两种平台上的 4 机平均加速比分别为 3 .1 和 3 .3 7 机平均加速比分别为 4 .5 和 4 .4 在数据分布得当的情况下规则程序的加速比也比较好; 和 CG EC uake 两个非规则程序在两种平台上的 4 机平均加速比分别为 Z .Z 和 Z .0 7 机平均加速比分别为 3 .1 和 Z .Z 它们的计算和通信比值较小扩展性不好 . 因此对于前三类程序 PC Cl ust er 与 SGI Z 100 的性能相当; 对于非规则程序由于通信开销很大两种平台上的性能都不太理想而且 PC Cl ust er 性能不及 SGI Z 100 .图 4 !Open MP 应用程序多机加速比JI ! ! 从上述分析中可以看出基于 Op en MP/ A的机群系统表现出与硬件 cc- N U MA 相似的共 JI A 享存储结构特点; 在这 11 个比较有代表性的应用方面 Op en MP/ AJI A 系统能获得与硬件 cc- N U MA JI 系统相近的性能能满足一定范围的应用领域; 通信开销是非规则应用性能的决定因素所以适当的硬件支持远程数据访问是软件共享存储机群系统的重要研究方向 .组 13 ]实现了一个基于软件 DS M 系统 scash 的 Op en MP 全集且有条件地扩展了 Op en MP 循环调度和支持数据分布不过性能还不够理想; 美国普渡大学 basu malli k14 ]等人用手动翻译的方式分析了Op en MP 应用在基于软件 DS M 的机群上的性能问从事类似研究的还有瑞典的 Odi n 项目组 15 ]以题; 及美国休斯敦大学等 .6 ! 相关工作针对基于 S MP 的机群系统近年来许多项目组在研究结点间利用 MPI 消息传递\ MP 结点内 S 利用 Op en MP 共享存储的混合编程模式这种两级并行方法充分匹配两种体系结构的特点不过其缺点是对程序员提出了更高的要求需要掌握消息传递和共享存储两种编程方法增加了程序员负担 . 从编程友好性出发采用共享存储编程模式是机群系统的理想编程方法目前在这种平台上的 Op en MP 实现都是以某个软件 DS M 系统作为后端的运行时库 . 美国莱斯大学的 Lu1Z ]7 ! 总结和未来的工作并行处理系统要取得真正成功易用性是重要因素 . 由于机群 Op en MP 结合了 Op en MP 的易用性和机群系统的可扩展性因此机群 Op en MP 的研究对推进并行应用的开发和普及非常有意义 . 本文介绍了基于 JI AJI A 系统的机群 Op en MP 的设计和实现以及提高系统性能的许多优化措施 . 通过对 11 个应用程序的测试我们的机群 Op en MP/ AJI A JI 原型系统获得了与硬件 cc- N U MA 机器( Z 100 ) SGI 相当的性能 . 我们的经验表明机群 Op en MP 的关键问题在于如何提高性能而提高性能的方法主要包括合适的 Op en MP 制导扩展\ 端软件 DS M 系统后优化\ 端编译器的自动优化以及对软件 DS M 协前议和 Op en MP 语义的专门硬件支持等 . 目前我们课题组正在研究有关硬件支持技术而编译器优化技等人最先在机群系统上基于 Tr ead Mar ks 所提供的虚拟 CO MA 平台实现了 Op en MP 子集但是其实现没有很好地结合机群系统特点合适的应用并不多; 本的 Omni 项目日91Z计 !! 算 !! 机 !! 学 !! 报scheduli ng f or ho me-based sof t war e DS M . I n sZ 004 年Pr oceedi ngs of术也是我们今后进一步努力的方向 . 致谢 ! 感谢中国科学院数学与系统科学研究院张林波研究员为我们提供 SGI Z 100 计算平台感谢美国莱斯大学 ~on g hui L U 提供给我们部分测试程序和编译技术指导感谢日本 Omni 项目组提供部分 N AS 的 Op en MP 并行程序集 . 参1 8t he AC M SI GARC ~ Wor kshop on Scheduli ng A gorit h ms f or l Par all el and D st ri but ed Co mputi ng-f r o m Theor y t o Pr acti ce i Gr eece 1 ~u W. W. Zhang F . X . Li u ~ . M. . Dyna m c dat a pr ef et chi i ng i n ho me-based sof t war e DS M . Jour nal of Co mput er Sci s ences and Technol ogy Z 001 16 3 9 ~u W. W. Shi W. Z 31 &Z 41 Tang Z . M. . ~o me m gr ati on i n ho mei Gr eece 1999 16Z &173based sof t war e DS M . I n Pr oceedi ngs of t he 1st Wor kshop on s Sof t war e D st ri but ed Shar ed M mor y i e 10 ~u W. W. Shi W.S . Tang Z . M. . Adapti ve writ e det ecti on Pr oceedi ngs of ~PDC 99考文献i n ho me-based sof t war e DS M . I n s Open MP Archit ect ur e Revi e w boar d . Open MP C and C + + Appli cati on Pr ogr a m I nt erf ace tp Z www .open mp .or g Pr oceed1Z Versi on Z .0 M arch Z 00Z . ht11 Calif or ni a 1999 . Z 7 &38bull J . M. . M easuri ng synchr oni zati on and scheduli ng overheads i n Open MP . I n 105 Lu ~ . do ~u Y . C . Z waenepoel W. . Open MP on net wor ks of Pr oceedi ngs of Superco mputi ng 98 Kusano K . Orl anwor kst ati ons . I n Pr oceedi ngs of t he 1st Eur opean Wor kLund Sweden 1999 99 & shop on Open MP E WO MP 99~u W. W. Shi W.S . Tang Z . M. . JI AJI A A sof t war e DS M syst e m based on a ne w cache coher ence pr ot ocol . I n i ngs of ~PCN Eur ope 99 Amst er da m Z Tang Z . M. Li M. . A l ock-based 97 &109 133~u W. W.Shi W. S .cache coher ence pr ot ocol f or scope consi st ency . Jour nal of Co mput er Sci ence and Technol ogy 1998 13 Z 4 Chandr a R . Chen D . K . Cox R . et al . . Dat a di st ri buti onUSA
Tana ka Y . . Open MP desi gn Lund Sweden
&Sat o M. Sat o M.f or an S MP cl ust er . I n Pr oceedi ngs of t he 1st Eur opean Wor kshop on Open MP E WO MP 99 11Z 14 basu malli k A . M n S .J . i Ei gen mann R . . To war ds Open MP executi on on sof t war e di st ri but ed shar ed me mor y syst e ms . I n Pr oceedi ngs of t he I nt er nati onal Wor kshop on Open MP Experi ences and I mpl e ment ati ons Z 00Z 457 &468 15 br unschen C . WO MPEI 0Z Kyot o Japansupport on di st ri but ed shar ed me mor y multi pr ocessors . I n Pr oceedi ngs of t he AC M SI GPL AN Conf er ence on Pr ogr a mm ng Language Desi gn and I mpl e ment ati on i Vegas 5 5 bi rcsa k J . Cr ai g P . &181 6 M kat os E . P . ar Le bl anc T . J . . Load bal anci ng vs . l ocalit y Pr oceedmanage ment i n shar ed me mor y multi pr ocessors . I n I CPP 9Z 7 Shi W. S . I nnsbr uck Tang Z . M. Aust ri a 199Z Z 58 &Z 67 Cr o well R . et al . . Ext endi ng Open MP 163 f or N U MA machi nes . Sci entifi c Pr ogr a mm ng Z 000 8 3 i PLDI 97 Lasbr orsson M. . Odi n MP CCPA f r ee port abl e Lund SwedenOpen MP i mpl e ment ati on f or C . I n
&1Z 9Pr oceedi ngs of t he 1st Eu-i ngs of t he I nt er nati onal Conf er ence on Par all el Pr ocessi ng ~u W. W. . A mor e pr acti cal l oopr opean Wor kshop on Open MP E WO MP 99Wu Shao- Gang bor n i n 1973 Ph . D . l ect ur er . ~i s r esearch i nt er ests i ncl ude syst e m archit ect ur e sof t war e di stri but ed shar ed me mor y syst e m par all el co mputi ng .CAI Fei bor n i n 1979 and syst e m archit ect ur e . Gu Li- HongPh . D .candi dat e . ~i s r esearch m cr opr ocessor desi gn ii nt er est s i ncl ude cl ust er co mputi ng bor n i n 1970M. S . l ect ur er . ~er r e-search i nt er ests i ncl ude e mbedded syst e m di stri but ed syst e m web dat abase . TANG Zhi- M n bor n i n 1966 i Ph .D . r esearcher Ph .ZHANG Long- Bi ng bor n i n 1974Ph . D .post doct or .D . super vi sor . . ~i s r esearch i nt er ests i ncl ude hi gh perf or mance co mput er archit ect ur e par all el pr ocessi ng .~i s r esearch i nt er est s i ncl ude syst e m archit ect ur e cl ust er co mputi ng sof t war e di stri but ed shar ed me mor y syst e m . Background !Thi s wor k i s support ed by t he Nati onal Nat ur al Sci ence Foundati on of Chi na under Gr ant No .
and ot her f oundati ons . Thi s pr o ect i s f ocused on ho w t o i mpl e ment a hi gh perf or mance Open MP co mputi ng envi r on ment on cl ust ers . The gr oup have devel oped an Open MP syst e m t o war ds cl ust ers pl atf or m na med Open MP JI AJI A by i nt egr ati ngco mpli er and sof t war e di stri but ed shar ed me mor y t echnol ogi es . They ar e st udyi ng so me ot her t echnol ogi es t o achi eve good perf or mance and scal abilit y of t he Open MP JI AJI A syst e m such as t he vari ous pr ogr a mm ng st yl es co mpli er optii m zati on speci al har d war e support i and so on .机群OpenMP系统的设计与实现作者：作者单位：吴少刚，章隆兵，蔡飞，顾丽红，唐志敏吴少刚(石油大学(华东)计算机与通信工程学院,东营,257061;中国科学院计算技术研究所 ,北京,100080)，章隆兵,蔡飞,唐志敏(中国科学院计算技术研究所,北京,100080)，顾丽红(石油大学(华东)计算机与通信工程学院,东营,257061) 计算机学报 CHINESE JOURNAL OF COMPUTERS ) 8次刊名：英文刊名：年，卷(期)：被引用次数：参考文献(15条) 1.Hu W W;Shi W;Tang Z M Home migration in home-based software DSMs 1999 2.Hu W W;Zhang F X;Liu H M Dynamic data prefetching in home-based software DSMs .Shi W.S;Tang Z.M;Hu W.W A more practical loop scheduling for home-based software DSMs 1999 4.Markatos E.P;LeBlanc T.J Load balancing vs. locality management in shared memory multiprocessors 1992 5.Bircsak J;Craig P;Crowell R Extending OpenMP for NUMA machines[外文期刊] .Chandra R;Chen D.K;Cox R Data distribution support on distributed shared memory multiprocessors 1997 7.Brunschen C;Brorsson M OdinMP/CCP: A free portable OpenMP implementation for C 1999 8.Basumallik A;Min S.J;Eigenmann R Towards OpenMP execution on software distributed shared memory systems[外文会议] 2002 9.Sato M;Kusano K;Tanaka Y OpenMP design for an SMP cluster 1999 10.Lu H;Hu Y.C;Zwaenepoel W OpenMP on networks of workstations 1998 11.Bull J.M Measuring synchronization and scheduling overheads in OpenMP 1999 12.Hu W W;Shi W S;Tang Z M Adaptive write detection in home-based software DSMs[外文会议] 1999 13.Hu W W;Shi W S;Tang Z M;Li M A lock-based cache coherence protocol for scope consistency[外文期刊 ] .Hu W W;Shi W S;Tang Z M JIAJIA: A software DSM system based on a new cache coherence protocol 1999 15.OpenMP Architecture Review Board OpenMP C and C++Application Program Interface, Version 2.0 2002引证文献(8条) 1.邵景峰.王凌.任克俭.陈金广基于UML技术的疵点数据管理系统[期刊论文]-山东理工大学学报（自然科学版） .邵景峰.任克俭.党金房.李敏.秦兰双整理车间数据库管理系统的设计与优化[期刊论文]-毛纺科技 .邵景峰.任克俭.党金房.李敏.秦兰双基于.NET的疵点信息管理系统的UML建模[期刊论文]-纺织器材 .秦学勇.刘栋数据仓库的可扩展性研究与设计[期刊论文]-计算机技术与发展 .顾丽红.吴少刚访存密集型应用在SMP机群系统中的性能分析[期刊论文]-小型微型计算机系统 .顾丽红.吴少刚访存密集型应用在SMP机群系统中的性能分析[期刊论文]-小型微型计算机系统 .唐惠新 H.264/AVC实时视频编码器优化和研究[学位论文]硕士 20068.单莹科学计算程序的综合优化技术研究[学位论文]硕士 2005本文链接：http://d..cn/Periodical_jsjxb.aspx
机群OpenMP系统的设计与实现―汇集和整理大量word文档,专业文献,应用文书,考试资料,教学教材,办公文档,教程攻略,文档搜索下载下载,拥有海量中文文档库,关注高价值的实用信息,我们一直在努力,争取提供更多下载资源。}

叫阿莫西中心

将一个自己的C或C++串行程序(360行以上，不要从网上下载)，利用openmp tbb改写成并行程序，

我要回帖

更多关于 openmp fortran 的文章

更多推荐