将一个自己的C或C++串行程序(360行以上,不要从网上下载),利用openmp tbb改写成并行程序,

第Z 7 卷!第7 期 Z 004 年 7 月计 !! 算 !! 机 !! 学 !! 报 C ~I NESE J OUR NAL OF CO MP UTERSVol . Z 7 No . 7 J ul y Z 004!机群 0 pen MP 系统的设计与实现吴少刚1) Z)
! 章隆兵 ! 蔡 ! 飞 ! 顾丽红 ! 唐志敏Z) Z) 1)Z)1)C 石油大学C 华东) 计算机与通信工程学院 ! 东营 Z 57061 )Z )C 中国科学院计算技术研究所 ! 北京 100080 )摘 ! 要 !Open MP 以其易用性和支持增量并行的特点成为共享存储体系结 构 的 编 程 标 准 . 目 前 机 群 系 统 已 成 为 高 性能计算的主流平台 研究机群 Open MP 系统对推进并行应用的开发和普及非常有意义 . 该文作者以软件 DS M 系 统 JI AJI A 作为 Open MP 的运行时系统 结合一个前端编译器 O MPZ JI A 在机群系统上实现了 Open MP/ JI AJI A 计 算环境 同时在提高性能方面根据机群系统 特 点 扩 展 了 Open MP 制 导 优 化 了 后 端 运 行 时 库 . 通 过 11 个 Open MP 应用 作者比较了该计算环境和一个支持 Open MP 的硬件 cc- N U MA 系统C SGI Z 100 ) 的 性 能 . 结 果 表 明 作 者 的 机 群 Open MP 系统的 7 机平均加速比为 4 .6Z ;SGI Z 100 系统为 4 .55 二者性能相当 . 关键词 !Open MP ;cc- N U MA ; 软件 DS M 系统; 机群计算;JI AJI A 中图法分类号 TP30ZDesi g n and I mpl e ment ati on of 0 pen MP on C ust er Syst e ms lWU Shao- Gan g 11) Z )) Z)Z Z 1 i Z !Z ~ ANG Lon g- bi n g !CAI Fei !GU Li- ~on g !TANG Zhi- M n))))CColle ge o f Co mPut er and Co mmunic ation engi neeri ng CI nstit ut e o f Co mPuti ng Tec hnol o gyUni uersit y o f Pet role u m C east Chi na ) Dongyi ng Z 57061 ) Beij i ng 100080 )Chi nese a ade my o f Scie nces cAbstract ! The Op en MP Appli cati on Pr o gr a mm n g I nt erf ace C API ) i s an e mer gi n g st andar d f or i ar all el pr o gr a mm n g on shar ed me mor y multi pr ocessor s because of it s ease of use and i ncr e meni p t al a ppr oach t o t he p ar all eli zati on of se C uenti al pr o gr a ms . At pr esent cl ust er s of wor kst ati ons or PCs have been beco m n g t he mai nstr ea m pl atf or m f or hi g h p erf or mance co mp uti n g . It i s i ncr easi i n gl y attr acti ve t o devel o p Op en MP p ar all el a ppli cati ons on cl ust er s yst e ms . Thi s p a p er pr esent s t he desi g n and i mpl e ment ati on of Op en MP co mp uti n g envi r on ment on cl ust er s whi ch i s based on t he co mbi nati on of sof t war e DS M and co mpil er t echnol o gi es . I n or der t o i mpr ove t he s yst e m p erf or mance and enl ar ge t he a ppli cati on r an ge man y met hods ar e i ntr oduced t o ada pt t o cl ust er s archit ect ur e such as Op en MP di r ecti ve ext ensi on r unti me li br ar y o pti m zati on l oo p scheduli n g ali g orit h ms et c . Furt her mor e el even Op en MP pr o gr a ms f r o m so me st andar d bench mar ks have been measur ed on a har d war e cc- N U MA machi ne C SGI Z 100 ) and t he Op en MP/ JI AJI A s yst e m on aut hor s co mmodit y cl ust er of PCs . The ex p eri ment al r esult s sho w t hat t he mean s p eedu p of t he Op en MP/ JI AJI A s yst e m on seven pr ocessor s i s 4 .6Z and t hat of t he SGI Z 100 machi ne i s 4 .55 . Key words ! Op en MP ; cc- N U MA ; sof t war e DS M ; cl u JI AJI A收稿日期:Z 003-09-08 ; 修改稿收到日期:Z 004-05-1Z . 本课题得到国家自然科学基金C ) ~ 国家 九七三 重点基础研 究 发 展 规 划 项 目基金 大规模科学计算研究 C G0 ) ~ 中国科学院全国优秀博士学位论文作者专项基金~ 中国科学院计 算 技 术 研 究 所 领 域 前 沿 青年基金CZ 00Z 6180-7 ) 资助 . 吴少刚 男 1973 年生 博士 讲师 主要研究领域为计算机体系结构~ 共享虚拟存储系 统~ 并 行 计 算 . E- mail : wsg ! ct .ac .cn . 章隆兵 男 1974 年生 博士后 主要研究领域 为 计 算 机 系 统 结 构~ 机 群 计 算~ 分 布 式 共 享 存 储 系 统 . 蔡 ! 飞 男 1979 年 i 生 博士研究生 主要研究领域为机群计算~ 微处理器设计和计算机系统结构 . 顾丽红 女 1970 年生 硕士 讲师 主 要 研 究 领 域 为 嵌 入 式 系统~ 分布式系统~ W 数据库 . 唐志敏 男 1966 年生 博士 研究员 博士生导师 主 要 研 究 领 域 为 高 性 能 计 算 机 体 系 结 构~ 并 行 处 理 和 eb VLSI 设计 . 7 期吴少刚等 机群 Open MP 系统的设计与实现905作 第 7 节总结全文 .l !引!言大规模科学和工程计算应用对高性能计算的需 求是无止境的 例 如 气 象 预 报 生 物 信 息 飞 行 动 力 学 药物设 计 油 藏 模 拟 等 应 用 都 需 要 Tfl oa p s & Pfl o p s 级的计算能 力 并 行 计 算 是 解 决 这 些 挑 战 性 问题的唯一途径 . 然而并行软件开发很困难 主要原 因是并行程序设计 方 法 和 手 段 还 很 落 后 . 目 前 主 流 并行编程模型包括数据并行 消息传递和共享变量 . 数据并行的应用范 围 不 广 且 性 能 很 大 程 度 取 决 于 编译器 . 消息传递已 成 为 分 布 式 存 储 系 统 的 主 要 编 程模式 但是它要求 程 序 员 显 式 地 安 排 消 息 的 发 送 和接收 编程困难 并 且 不 支 持 增 量 并 行 . 共 享 变 量 编程模型具有易于 编 程 的 特 点 但 是 长 时 间 来 缺 乏 像消息 传 递 中 的 MPI 或 P V M 那 样 广 为 接 受 的 标 准 程 序 的 可 移 植 性 差 . Op en MP 标 准 委 员 会 于 1997 年推出的 Op en MP 标准 1 有望改变这种局面 它得到了业界许多 主 要 软 硬 件 厂 商 的 支 持 目 前 已 成为共享存储并行编程的实际工业标准 . Op en MP 通过定义 编 译 制 导 库 例 程 和 环 境 变 量规范给程序员提供了支持 Fortr an C C + + 的 一 组功能强大的高层并行结构和一个增量并行的共享 存储程序设计模型 能满足很大范围的应用需求 . 该 标准 在 不 断 地 扩 充 和 发 展 目 前 最 新 发 布 的 是 Z .0 版 . 支 持 增 量 并 行 和 良 好 的 可 编 程 性 使 得 Op en MP 成为并行程序设计 的 主 流 模 型 之 一 . 目 前 机 群 系 统 已成 为 主 流 的 并 行 计 算 平 台 尤 其 是 基 于 S MP Sy mmetri c Multi- Pr ocessor 结 点 的 机 群 系 统 . 在 这种平台上 实 现 Op en MP 是 一 个 非 常 有 意 义 的 研 究 它结合了 Op en MP 的易编程 性 和 机 群 系 统 的 可 扩展性 将有利于推进并行应用的开发和普及 . 本 文 介 绍 我 们 的 机 群 Open MP 系 统 Open MP JI AJI A 的设计与实现以及提高性 能 的相 关 技 术 . 其 主 要 贡 献 是 在 JI AJI A 的 基 础 上 实 现 了 机 群 Op en MP 同 时 结 合 软 件 DS M D stri but ed Shar ed i 协议 和 机 群 系 统 特 点 提 出 了 若 干 性 能 优 Me mor y 化技术 包括合适的制导扩展和后端运行库优化等 . 测试结果表 明 在 我 们 评 测 的 11 个 应 用 程 序 中 8 机平均加速比为 4 .87 . 本文第 Z 节介绍 Op en MP 标 准 第 3 节 具 体 描 述 了 我 们 的 机 群 Op en MP JI AJI A 系统 的 设 计 与 实 现 第 4 节 介 绍 了 我 们 针 对 机 群系统特点所采用 的 一 些 优 化 技 术 第 5 节 给 出 了 具体的性能测试结 果 第 6 节 介 绍 国 内 外 的 相 关 工2 !0 pen MP 介绍目前 Op en MP ARb 发 布 的 分 别 支 持 Fortr an C C + + 的 最 新 说 明 规 范 是 Z .0 的 版 本 . 本 文 的 研 究是在机群系统上实 现 Op en MP C 版 本 因 此 下 文 所有对 Op en MP 的 描 述 缺 省 都 是 针 对 Op en MP C Z .0 说明规范 . Op en MP 定义了一 个 集 编 译 制 导 库 函数和环境变量为一 体 的 集 合 用 来 描 述 C 程 序 的 共享存储并行机制 其 目 的 是 提 供 一 个 并 行 编 程 模 型允许并行程序可以在不同厂商的共享存储体系结 构的机器上移植 . 该 Op en MP 标 准已被 许多 编译器 商家支持 . Op en MP 允许用户 创 建 管 理 可 移 植 的 并 行 程 序 . 编译制导以 SP MD S n gl e Pr o gr a m Multi- Dat a i 结构 工作共 享 结 构 同 步 结 构 扩 展 了 C 顺 序 程 序 模型 提供对数据共享和私有化支持 库函数和环境 变量提供 了 锁 变 量 和 对 并 行 程 序 运 行 时 行 为 的 控 制 . Op en MP 采 用 f or k oi n 的 并 行 执 行 模 式 Op en MP 程序首先由 Mast er 线程执行 直到碰到第 一个并行结构 由 p ar all el 制 导 构 成 接 着 由 Mast er 线程产生一 组 线 程 且 Mast er 线 程 成 为 线 程 组 的主线程 . 除了工作共享结构外 每个线程都执行并 行动态扩展域中的 代 码 . 而 工 作 共 享 结 构 表 明 任 务 被划分成子任务 线 程 组 中 的 每 个 线 程 分 别 执 行 对 应的子任务 所有 线 程 在 工 作 共 享 结 构 结 束 处 需 要 隐式同步 . 并行结 构 执 行 完 后 线 程 组 隐 式 同 步 接 着 Mast er 线程继续执行 . 程序中可以说明多个并行 结构 所以程序在执行时f or k oi n 多次 .3 !0 pen MP!I A I A 原型系统Op en MP JI AJI A 的基本 设 计 思 想 是 利 用 软 件 DS M 系 统 JI AJI A Z 在 机 群 上 提 供 的 共 享 存 储 界 面 将 Op en MP 程 序 映 射 成 等 价 的 JI AJI A 程 序 在 机群 平 台 上 运 行 . Op en MP JI AJI A 系 统 主 要 包 括 一个 编 译 处 理 系 统 前 端 和 一 个 支 持 f or k oi n 模 式 的 JI AJI A 运行库后端 . 系统框架如图 1 所示 . 编译 处 理 系 统 由 C 预 处 理 器 O MPZ JI A 编 译 器 性 能 优 化 器 以 及 SZ C 源 码 生 成 器 组 成 其 中 C 预处理 器 和 SZ C 生 成 器 直 接 取 自 SUI F 工 具 集 O MPZ JI A 编译器由我们自己基于 SUI F 开 发 性能 优化器是我们在系统设计时考虑采用编译分析技术 906计 !! 算 !! 机 !! 学 !! 报Z 004 年译处理系统 . 3 .2 ! I A I A 运行库 软件 DS M 系统由于 结 合 了 共 享 存 储 系 统 的 易 编程性和机群系 统 的 可 扩 展 性 而 受 到 广 泛 的 研 究 . 软件 DS M 系统用软件 的 方 法 把 分 布 于 各 结 点 的 多 个独立编址的存储器转化为一个统一编址的共享虚 拟存储空间 在分 布 式 存 储 系 统 平 台 上 提 供 共 享 存 储的编程抽 象 . 通 常 相 比 消 息 传 递 的 并 行 程 序 而 言 对 应 的 软 件 DS M 并 行 程 序 在 通 信 量 方 面 要 大 一些 然 而 软 件 DS M 所 提 供 的 共 享 存 储 编 程 环 境图 1 !Open MP JI AJI A 系统框架图的可编程性是消息传递所不及的 . JI AJI A 是一个 完 全 建 立 在 操 作 系 统 之 上 的 用 户级软件 DS M 系统 目前支持 常见的 类 Uni x 平 台 和 W ndo ws NT 平 台 .JI AJI A 的 存 储 组 织 采 用 类 i 似 硬 件 cc- N U MA cache coher ent Non- Unif or m Me mor y Access 方式 共享存储空 间中的 每 个 地 址 都有一个 确 定 的 宿 主 ho me 结 点 JI AJI A 采 用 基 于锁的高速缓存一致性协议 3 来维护共享数据 在不 同处 理 机 中 的 多 个 备 份 的 一 致 性 . 另 外 JI AJI A 在 提高系统性能方面 提 出 了 许 多 协 议 优 化 策 略 如 单 写的识别 数 据 自 动 迁 移 写 向 量 基 于 S MP 的 优 化 数据 预取等 . 目前 绝大多 数软件 DS M 系统 都是 采用 SP MD 编程模式 JI AJI A 也 不 例 外 . 为 了 匹 配 Op en MP 的 f or k oi n 执 行 模 式 我 们 扩 充 了 JI AJI A 系 统 调 用 接 口 使 得 JI AJI A 支 持 f or k oi n 执 行模式 .提高性能所加入的模块 目前还没有实现 . 后端运行 库由基于 SP MD 模 式 的 JI AJI A 改 造 而 成 . 整 个 系 统处理流程 包 括 由 编 译 系 统 前 端 处 理 Op en MP 源 程序 生 成 等 价 的 软 件 DS M 源 程 序 然 后 通 过 标 准 编译器 例 如 GN U 的 gcc 链 接 JI AJI A 运 行 库 生 成目标程序在机群平台上运行 . 3 .l ! 编译器 0 MP2 I A 编译器的实现 需 要 定 位 Op en MP 和 软 件 DS M 系统 之 间 的 语 义 间 隙 . 首 先 Op en MP 假 定 轻 量 li g ht- wei g ht 线程编程模 式 整 个 地 址 空 间 缺 省 是 共享的 除了线程私有栈中的数据外 地址空间中的 数据 可 以 共 享 访 问 而 JI AJI A 采 用 重 量 heav ywei g ht 进程编程模式 只有通过特殊 分 配方 式 标 记 为共享的数据才能 在 处 理 机 之 间 共 享 编 译 器 需 要 处理这种地址空间全部共享和部分共享之间的语义 差别 . 其次 Op en MP 中 所 有 全 局 变 量 缺 省 为 共 享 而 JI AJI A 中缺省为私有 . 最 后 编 译 器 的 工 作 是 根 据 Op en MP 的语 义 提 取 共 享 数 据 处 理 并 行 区 域 生成可执行环境 由于体系结构的差异 Op en MP 程 序直 接 编 译 成 基 于 DS M 系 统 的 并 行 程 序 产 生 令 人失望的性能 所以 支 持 一 些 适 应 机 群 体 系 结 构 特 点的制导扩展也是编译器应有的功能 . 我们的 O MPZ JI A 编译器基于斯坦 福 大 学 的 著 名 SUI F 编译工 具 集 在 莱 斯 大 学 的 翻 译 器 框 架 基 础上构成 .SUI F 由 一 个 精 小 的 核 心 和 许 多 以 核 心 为基础的支持编译 分 析 和 优 化 的 遍 工 具 集 组 成 . 其 核心定义了编译器 的 中 间 表 示 提 供 访 问 和 操 作 中 间表示的编程 接 口 工 具 集 包 括 C 和 Fortr an 的 前 端 循环级并行和局部 性 优 化 器 经 过 优 化 的 M PS I 后端和 一 些 编 译 器 开 发 工 具 等 . O MPZ JI A 编 译 器 主要由编译制导识别 数据环境处理 并行任务生成 和执行环境构造四个 编 译 遍 组 成 加 上 之 前 的 C 预 处理器和之后的目标源程序生成两遍构成了整个编4 !0 pen MP!I A I A 性能优化当前的 Op en MP JI AJI A 的实现 基本上 满 足 了 Op en MP 的并行语义 到 JI AJI A 语 义 直 接 映 射 的 要 求 然 而 Op en MP 标 准 是 针 对 U MA Unif or m Me mor y Access 共享存储结构制 定的 由 于 这 种 结 构不需要考虑数 据 分 布 和 远 程 数 据 访 问 延 迟 问 题 使得 Op en MP 标 准 对 于 非 U MA 结 构 的 并 行 系 统 不是很有效 . 尤其 是 在 机 群 这 种 通 信 开 销 较 大 的 环 境中 这种直接语 义 对 照 翻 译 性 能 非 常 低 下 . 为 了 在机 群 环 境 中 获 得 满 意 的 性 能 我 们 需 要 对 Op en MP 制导进行扩展以及优化后端运行库 . 4 .l !0 pen MP 制导扩展 4 .1 .1 ! 数据分布制导 Op en MP 标准是针对 U MA 共享存储体系结构 制定的 不 用 考 虑 数 据 分 布 然 而 在 分 布 存 储 系 统 中 数据分布是影响性能的重要因素 在以软件 DSM 7 期吴少刚等= 机群 Open MP 系统的设计与实现907为基础的共享存储机群平台上更是如此 . 虽然共享存 储编程不需要像消息传递编程那样考虑数据划分~ 但 是为了性能需要考虑共享数据在处理间的分布 . 不过 数据分布与数据划分是两个不同的概念~ 消息传递编 包括 程中的数据划分需要改变对被划分对象的引用~ 数组的名字以及数组下标; 而数据分布只改变分配部 分~ 不需修改引用部分~ 二者本质是不同的 . 在 cc- N U MA 系 统 的 Op en MP 实 现 中~ 如 例 [] 5 都 SGI 和 Co mp a C 的系统等~ 引 入 了 数 据 分 布 制 导来 扩 展 Op en MP 语 言~ 多 数 这 些 制 导 都 源 自 大[] 4针对 机 群 系 统 结 构 的 特 点~ 们 提 出 了 两 种 有 我 效利 用 数 据 局 部 性 的 静 态 调 度 算 法 LbS & Localit y和动态调度算法 LbDS & based Scheduli n g & Localit y&充分体现拥有者计算 ~ based Dy na m c Scheduli n g i 静态 LbS 非常有效~ 而在非 的原则 . 在独占环境下~ 独占的元计算环境 下~ 些 负 载 极 不 平 衡 的 应 用 则 某 采用动态 LbDS 更 有 效 . 我 们 将 这 两 种 调 度 算 法 通 过扩展 Open MP 的循环调度子句的模式供用户使用 . 4 .1 .3 ! 其它制导扩展 针对一些特定类型的应 用~ AJI A 系统 提出 了 JI8 许多优化技术~ 例如动 态 数 据 预 取 [ ]. 动 ho me 迁 自 9 10 移 [ ]. 写向量技 术 [ ]等 . 这 些 优 化 技 术 对 提 高 特 定~PF 语言且与相 应 的 ~PF 制 导 的 语 义 相 似 . 我 们 在 Op en MP/ AJI A 实 现 中 也 仿 效 ~PF ~ 展 了 扩 JI 不 Op en MP 语言 引 入 数 据 分 布 制 导~ 过 由 于 软 件 且 DS M 系统以页为 粒 度 进 行 数 据 分 布~ JI AJI A 系 统基于 ho me 维 护 数 据 一 致 性~ 此 在 实 现 数 据 分 因 布时需要对齐页且 保 证 数 据 分 配 空 间 连 续 性~ 据 数 分布制导的功能受到一些限制 . 4 .1 .Z ! 有效调度算法 然 Op en MP 提供了丰 富 的 循 环 调 度 算 法~ 而 这 些算法的提出都只是从负载平衡角度考虑而没有考 虑数据分布 . 正如 前 面 所 述~ 分 布 存 储 系 统 中~ 在 数 据分布情 况 和 程 序 访 问 数 据 的 模 式 极 大 地 影 响 性 能~ 因此在 Op en MP 的 机 群 实 现 中~ 计 与 数 据 分 设 布匹配的循环调度算法是提高性能的关键 . 循 环 调 度 性 能 的 优 劣 主 要 受 三 个 因 素 的 影 响= 循环分配开销& p all ocati on over head & 负 载 不平 . l oo 衡& . Load i mbal ance & 远 程 数 据 通 信 &e mot e dat a r 开销 . 这 三 个 因 素 之 间 是 相 互 冲 突 co mmuni cati on & 为了减少远程数据通信的开销~ 应该充分利用处 的~ 理机和存储器的局 部 性 . 如 果 一 个 处 理 机 只 对 分 布 在本地存储器中的 数 据 进 行 计 算~ 无 需 进 行 远 程 就 通信~ 通信开销很小 . 然而一味地考虑数据局部性则 可能会引起负载不 平 衡~ 如 假 设 数 据 在 处 理 机 间 例 的分布不均匀~ 则严 格 按 照 数 据 局 部 性 就 会 造 成 处 理机负载不平衡 . 可 见 数 据 局 部 性 和 负 载 均 衡 之 间 存在一定的矛盾~ 需要权衡折中 . 6 中 Mar kat os 和 Le bl anc 在文献[ ] 分 析了 硬 件 共享存储系统中负 载 平 衡 和 局 部 性 的 重 要 性~ 们 他 得出的结论是局部 性 比 负 载 平 衡 要 重 要 得 多 . 其 结 果表明= 网络的速 度 越 慢~ 部 性 就 越 重 要 . 由 于 我 局 们的目标环境是普 通 的 商 用 网 络 互 连 的 机 群 系 统~ 且软件 DS M 系统大多 以 页 作 为 数 据 分 配 和 通 信 的 单位~ 通信开销很大~ 因此数据局部性比负载平衡重 要得多 . 文献[ ] 7 中也清楚地表明了这一点 .程序 性 能 有 很 大 好 处~ 此 我 们 通 过 扩 展 Op en MP 因 语言方式由程序员决定是否在系统后端采用这些优 化技术 . 我们定义了一个绑定于 p ar all el 制导的 o p该子句在并行区域的入口处打开相应的 ti ons 子句~ 并且在出口处自动关闭 . 优化功能~ 4 .2 ! 运行库优化 运行库优化集中在影响系统性能的关键制导和 子句的实现 上 .r educti on 子句是 Op en MP 的 f or 制 导中应用比较多的 子 句~ 化 归 约 操 作 是 提 高 程 序 优 当 性能的 有 效 途 径 之 一 . 在 Op en MP 语 义 中~ r e表 ducti on 绑定 在 p ar all el 或 f or 制 导 上~ 示 一 个 全 局的归约操作; 当绑定在 secti ons 制 导上~ 表示 一个 部分归约操作~ 且该 子 句 中 说 明 的 归 约 变 量 为 一 个 然而在许多工程应用中~ 归约变量为向量 共享标量~ 的情 况 比 较 多~ 以 我 们 在 实 现 中 扩 展 了 Op en MP 所 的标准~ 支持 r educti on 子句中说明归约向量 . 在基于软 件 DS M 的 Op en MP 实 现 中~ 了 实 为 现对共享的归约变 量 的 互 斥 访 问~ 常 的 做 法 是 给 通 该变量加锁保护 . 我 们 最 初 的 实 现 也 是 采 用 这 种 方 法~ 然而 在软件 DS M 系统 中~ 处理机 数目 较多的 在 情况 下~ 的 使 用 开 销 比 较 大~ 如 在 JI AJI A 中~ 锁 例 锁的申请需要全局 锁 管 理 器 的 授 权~ 时 释 放 锁 需 同 我 要维护一致 性 . 为 了 替 换 加 锁 机 制~ 们 采 用 类 似 即 MPI 中 的归约方 法~ 用传递 消息 的方式 将各线 程 的分量发送给该共享归约变 量的 ho me 所 在 的 那 个 线程~ 常 是 Mast er 线 程~ 后 由 该 线 程 完 成 相 应 通 然 的归约操作 . 这种实现的好处是= 首先消除了引入锁 带来的锁管理开销; 次 由 于 各 分 量 在 执 行 归 约 操 其 作的处理机 上 有 备 份~ 样 节 省 了 远 程 取 页. 建 这 创 服务中断等开 销 .r educti on 优 化 前 后 的 性 能 如 dif f . 图 Z 所 示~ 中 可 以 看 出~ 机 群 Op en MP 中~e从 在 r ducti on 的优化效 果 随 处 理 机 数 的 增 加 变 得 更 加 明 908计 !! 算 !! 机 !! 学 !! 报Z 004 年显9 是 因 为 在 软 件 DS M 系 统 中9 理 机 数 越 多9 这 处 对锁的竞争 越 激 烈9 致 的 开 销 就 越 大 . 两 机 情 况 导 下9 优化后时 间 为 优 化 前 的 54 .6 % 5 在 16 机 时9 而 优 化 前 归 约 操 作 开 销 为 49Z 47 . 7Z # 9 化 后 为 s 优 16797 .68 # 9 s 为前者的 34 .1 % .每个结 点 配 备 1 Gb 主 存 . 结 点 间 采 用 100 Mb p s 快 速以太网互连 . 操作系统为 Li nux Z .4 .18 9 编译器为 采用 gcc Z .96 9 - OZ 级优化 . 与之比较的硬件 cc- N U MA 结 构的机 器 为 SGI 公司于 1999 年推 出 的 SGI Z 100 服 务 器9 是 一 款 这 支持包括科学工程 计 算 生 物 信 息 和 视 频 流 媒 体 服 务等计算密集型应 用 的 高 性 能 产 品 . 该 服 务 器 采 用 全配置的 4 个 结 点 板 node boar d 集 成9 个 结 点 每 板 支 持 两 个 主 频 为 Z 50 M~z 的 M PS 64- bit I R10000 处理器 . R10000 处 理 器 拥 有 指 令 和 数 据 分 离的 容量各为 3Z Kb 的 一 级 Cache 9 个 Cache 采 每 用 Z 路 组 相 联 设 计9 且 每 个 处 理 器 还 拥 有 一 个 而图 Z !r educti on 操作优化前后性能比较结 4 Mb 的 二 级 Cache . 系 统 配 备 了 4 Gb 的 主 存9 点 板上的内 存 峰 值 带 宽 为 780 Mb . 操 作 系 统 为 I RI X 编译器为 M PSpr o 7 .3 9 - OZ 级优化 . 采用 6 .5 9 I 5 .l ! 实现开销 为 了 理 解 Op en MP 制 导 在 SGI Z 100 和 PC 本文使用 文献 11 Cl ust er 两种平台上的实现开销9 中的 m cr obench mar k 程 序 进 行 了 测 试 . 目 前 我 们 i 主要关心同步开销9 以 仅 使 用 了 其 中 的 同 步 测 试 所 程序9 结果如图 3 所示 .5 ! 性能测试我们的 PC Cl ust er 由 8 个 PC 结 点 构 成9 个 每 结点支持两个主 频 为 700 M~z 的 Penti u m III 处 理 器. 该 处 理 器 拥 有 指 令 和 数 据 分 离 的 容 量 各 为 每 16 Kb 的一 级 Cache 9 个 Cache 采 用 Z 路 组 相 联 设 而且每个处理器还拥有一个Z56 Kb 的二级 Cache . 计9图 3 !Open MP 同步开销SGI Z 100 上 的 制 导 !! 从图 3 中 可 以 看 出 首 先9 开销属于微秒级9 PC Cl ust er 上 的 制 导 开 销 则 处 而 于毫秒级9 充 分 反 映 了 硬 件 cc- N U MA 和 软 件 共 这 享存 储 机 群 在 通 信 性 能 上 的 差 异 . 其 次9 PC 在 许多制导的曲线与 barri er Cl ust er 同步开销曲线中9 制导的曲线相类似 . 这 主 要 是 因 为 许 多 制 导 都 隐 含 例 了对共享数据一致 性 维 护 要 求9 如 在 并 行 区 域 的 入口和出口以及f or 和 si n gl e 制 导 的 出 口 都 需 要 维 护一致性 . 由于我 们 的 数 据 一 致 性 维 护 采 用 barri er 操作实现9 而在 软 件 DS M 中 barri er 操 作 开 销 比 较 大9 因此这些曲 线 都 与 barri er 制 导 曲 线 类 似 . 这 也说明优化同 步 是 减 少 Op en MP 制 导 开 销 的 主 要 途 径9 例如同步消除 同步 弱 化 技 术 等 . 另 外9 p en MP O 制导在两种平台上的同步开销曲线的变化趋势很类 似9 说 明 就 Op en MP 编 程 模 型 来 说9 p en MP 这 O 主 JI AJI A 系统和 cc- N U MA 的性 质 是 一 样9 要 差 别 体现在性能级别上 . 也就是说9 无论 Cache 一致性是 其本质是一样的 . 采用软件实现还是硬件实现9 5 .2 ! 测试程序 我们使用了一些 被 广 泛 采 用 的 基 准 程 序 N AS 的并行程序集中的蒙特卡罗模拟程序 EP 多网格计 算程序 MG 共轭梯 度 算 法 求 最 小 特 征 值 程 序 CG 5 7 期吴少刚等 机群 Open MP 系统的设计与实现909SPEC O MPZ 001 程序 集 中 的 浅 水 模 型 程 序 Swi m 神经网图像识别程序 Art 和地震模 拟 程序 EC uake SPL AS ~Z 程序 集 中 的 水 分 子 模 拟 程 序 W er 莱 at 斯大学 Op en MP- No w 项目 1Z 提供的 计 算多 个 向 量 正交基程序 GS 逐 次 超 松 弛 迭 代 程 序 SOR Omni 项目 13 提供的拉普拉斯方程求解程 序 L AP 以 及 我 们自己编写的非分块 L U 分解程序 . EP 程序的主要 目 的 是 产 生 一 组 高 斯 分 布 的 数 对 . 该程序特别适合于并行 程序中唯一的通信是在 程序的最后进行一 次 累 加 操 作 . 在 程 序 的 主 循 环 处 采用 p ar all el r educti on 制导并行化 . MG 程序在 固 定 的 边 界 条 件 下 用 multi gri d 算 法在一个三维立方体上求方 程 &Z u =u 中u 的 近 似 解 . multi gri d 是一种基于多 级 范 例 的 快 速 线 性 迭 代 算法 可以和常用的离散化技术一起使用 其典型应 用是求二维或多维 椭 圆 偏 微 分 方 程 的 数 值 解 . 该 算 法中主要的共享数据是 17 个三维数组 . 计算的并行 部分采用 p ar all el f or 制导 不 同 的 节 点 分 别 计 算 当 前l evel 对应矩阵的不同横切面 相当于将立方体 横 切成多个大小相等 的 三 维 矩 阵 平 均 分 配 给 各 个 节 点进行计算 对应 于 在 最 外 层 循 环 划 分 并 行 任 务 在对每个横切面进行计算的时候需要访问与其上下 相邻的两个面 . CG 程 序 采 用 共 轭 梯 度 con u gat e gr adi ent 算 法计算大型对称正 定 稀 疏 矩 阵 的 最 小 特 征 值 其 中 的稀疏矩阵随机产 生 . 该 程 序 可 用 来 测 试 系 统 对 于 非规则应用的远程 通 信 能 力 程 序 中 多 个 主 循 环 采 用 p ar all el r educti on 制导 . Swi m 程序 是 一 个 为 天 气 预 报 建 模 的 程 序 它 使用有限差 分 方 法 求 解 浅 水 方 程 组 shall o w wat er e C uati ons . 程 序 中 定 义 了 14 个 大 小 相 同 的 共 享 二 维数组 每个数组都采用 了 bl ock 分布 模 式 制 导 . 程 序结构分为初始化 和 迭 代 模 拟 两 部 分 . 每 个 迭 代 步 中包含 3 个函数调用和一个 r educti on 操作 . Art 程 序 利 用 ART Z Ada pti ve Resonance Theor y Z 神经网络来识别红外图像中的物 体 . 程序 分训练和识别两个阶段 . 其主要数据结构是 art-Z 神 经网络和一个用来记录识别物体匹配度的一维数组 mat -con . 每个处理机拥有负责维 护自 己 的 art-Z 神 经网络 每个进程的 art-Z 神经网络都是相同的 而 mat -con 数组以 bl ock 分布模式在各处理机中共享 . EC uake 程序是一个模拟地震波在 大 型 具 有地 质多样性的盆地中 的 转 播 以 推 演 盆 地 中 任 意 一 点 在发生特定的地震事件时受地震波影响所发生的位置变化的程序 . 该程 序 利 用 非 结 构 的 有 限 元 方 法 模 拟了 1994 年发生在美国南加州 San Fer nando 盆地 中的 Nort hri d ge 地震的余 震 对 盆 地 的 影 响 . 程 序 中 使用 一 个 3 维 的 非 结 构 网 格 对 该 盆 地 中 50k m & 50k m & 10k m 大 小 的 区 域 的 地 质 结 构 进 行 建 模 . EC uake 分两个部分 初始化部分读取输 入文件 中的 数据 包括该区域的地质参数和震源及震中位置等 模拟部分包含 3334 个迭代步 我 们 只 计 算 了 前 Z 40 个迭 代 步 每个迭代步中主耗时部分是对函数 程序 S MVP 的调用 计算 稀 疏 矩 阵 和 向 量 的 乘 积 的并行也是针对该函数 .W er 是一个 水 分 子 动 力 学 模 拟 程 序 逐 步 地 at 模拟分子的运动状 态 . 其 主 要 的 数 据 结 构 为 一 个 共 享的一维数组 每个 数 组 元 素 记 录 了 一 个 分 子 的 特 性参数 包括分子的 质 心 受 力 位 移 和 6 个 方 向 的 导数等 . W er 采 用 p ar all el 制 导 并 行 在 每 个 时 间 at 步 每个处理机都 需 要 计 算 出 本 机 上 的 每 个 分 子 与 其它分子 之 间 的 作 用 力 该 计 算 封 装 在 p ar all el 制 导的并行区域内 .f or 制 导 采 用 块 调 度 尽 可 能 使 用 no wait 子句减少不必要的同步开销 . GS 是一个计 算 M 个 N 维 向 量 的 正 交 基 的 应 用 . 在第i 次迭 代 时 首 先 规 格 化 第i 个 向 量 随 后 把所有的第j 个向量 j # 与第i 个向量正交化 . 每 i 次迭代的正 交 化 部 分 采 用 p ar all el f or 制 导 并 行 执 行 . M 个 N 维向量 以 一 个 二 维 数 组 存 放 在 并 行 区 域中共享 . SOR 程序用 红 黑 逐 次 超 松 弛 迭 代 法 解 偏 微 分 方程 . 数组中的红黑元素交叉 每 个 红 元 素 周 围 是 4 个黑元素 边 界 元 素 除 外 反 之 亦 然 . 在 每 次 迭 代 中 每个数 组 元 素 更 新 为 相 邻 元 素 的 平 均 值 采 用 p ar all el f or 制导并 行 化 计 算 循 环 . 红 黑 数 组 的 元 素 平均分配在所有处理机上 . L AP 程序用 雅 可 比 迭 代 法 求 解 二 维 拉 普 拉 斯 方程 . 新旧两个二维数组平均分配在所有处理机上 . 每次迭代中 先计算 旧 数 组 中 每 个 元 素 的 相 邻 4 个 元素的平均值 存放在新数组的对应元素中 此步我 们采 用 p ar all el f or 并 行 化 然 后 采 用 p ar all el f or r educti on 制导并行计算新旧 数 组 迭 代 误 差 最 后 使 用了 p ar all el f or 并行更新旧数组 . L U 分解将一个稠密矩阵分解 成上三 角阵 ! 和 下三角阵&. 该程序没有采用块 分解算 法 而是 普通 的基于行主元的分解 . 在每次迭代中 对角线元素所 在行处理完后 采用 p ar all el f or 制 导 并 行 更 新 当 前 元素右下角矩阵 . 矩阵以一个二维数组存放 分解后 的 & 矩阵和 ! 矩阵存放在原来的数组中 . 5 .3 ! 测试结果及分析 910计 !! 算 !! 机 !! 学 !! 报Z 004 年表 1 列 出 了 每 个 应 用 程 序 的 特 性9 括 测 试 规 包 模和所占 用 的 共 享 空 间 . 其 中 NAS 程 序 集 的 规 模 从小 到 大 依 次 为 S 9 9 9 和 C 3 SPEC O M 而 M A b PLZ 001 程序集的规模依次为 t est 9 ai n 和 r ef . tr表 l ! 应用程序特征程序 EP MG CG Sw m i Art ECua ke 规模 C ass W l C ass A l C ass b l Tr ai n Ref 共享 空间 Z 4 Kb 43Z Mb 4Z 8 Mb 191 Mb 55Z Kb 程序 W er at GS LU SOR L AP 规模 17Z 8 分子 4096 &
&4096 共享 空间 1 Mb 64 Mb 1Z 8 Mb也需要并行进程间频繁交互 . 享空间只有 0 .5 Mb 9 () 然 3 规则程序 . 这 类 程 序 尽 管 共 享 数 据 量 大9 而数据访问比较规 则9 以 通 过 合 适 的 数 据 分 布 策 可 略挖掘 局 部 性 . 例 如 SOR 和 L AP 的 访 存 行 为 非 常 采用 bLOCK 数 据 分 布 策 略 可 以 较 好 地 实 现 规整9 拥有者计算 . GS 和 L U 的计算模式很相似9 并行 GS 修改 本 次 迭 代 之 后 的 向 量9 L U 只 并 行 修 改 右 下 而 角矩阵9 采用 CYCLI C 数 据 分 布 策 略 可 以 很 好 地 实 现拥有者计算 . 由于 L U 的每次迭代的计算量 递减9 计算负载不平衡9 性 能 不 及 GS . MG 程 序 的 数 据 其 访问模式也比较规则9 但是数据分布不容易对齐9 在 而且同步比较多 . A 规模下需要 43Z Mb 的共享空间9 () 4 非规则程序 . 这类程序共享数据量大而且数 据访问模式不规则9 很难采取合适的数据分布策略9 导致远程数据访问频繁9 通信量 极大 . 例 如 CG 程序 和 EC uake 程序中都涉 及 到 一 个 很 大 的 稀 疏 矩 阵 和 使用的共享空间分别为 4Z 8 Mb 和 向量的乘积运算9 数据访问模式不规则 . 355 Mb 9 表 3 列 出 了 11 个 应 用 程 序 在 多 机 情 况 下 的 计 算时间( SGI Z 100 服务 器 有 一 个 处 理 器 已 坏9 注: 我 们在测试中只能使用 7 个 处 理 器9 PC Cl ust er 上 在 我们测试了 8 个处理器时的执行时间) 从表 3 中可 . 以看出9 虽然在 SGI Z 100 和 PC Cl ust er 两种平台上 运行是相同规模的 同 一 程 序9 而 在 单 处 理 机 运 行 然 时性能 相 差 较 大9 要 因 为:1 ) 译 器 差 异 . M P主 ( 编 I Spr o 7 .3 编译器和 gcc Z .96 编译器采用 OZ 级的优 化程度不一样9 前者 编 译 出 的 目 标 代 码 效 率 比 后 者 高3Z ) ( 体系结 构差异9 尽管 SGI Z 100 的 R10000 处 但是其一级和二级 Cache 都远大 理器的主频比较低9 于 机 群 的 Penti u m III 处 理 器 . 除 了 EP 9 9 i m 9 CG Sw ECuake 和 W ater 5 个程序的机群单处理 机性 能不及 其它 6 个程序都优于后者 . SG Z100 外9 I( 单位:) s7 处理机 SGI 4 .06 18 .16 554 .44 315 .94 6Z 37 .6Z 160 .88 Z 1 .56 515 .65 574 .71 34 .Z 4 77 .37 C ust er l 6 .81 Z 6 .Z 3 7 .70 3990 .Z 7 3Z Z .4Z 31 .41 393 .07 417 .50 15 .Z Z 48 .70 SGI 8 处理机 C ust er l 5 .55 Z 5 .00 Z .76 Z 4 .96 Z 7 .96 369 .77 387 .46 13 .77 43 .614096 & 4096 9 迭代 100 次 1Z 8 Mb 4096 & 4096 9 迭代 100 次 Z 56 MbRef 9 迭代 Z 40 次 355 Mb根据 共 享 数 据 量 和 数 据 访 问 模 式 的 特 点9 们 我 将上述程序分成四类9 如表 Z 所示 .表 2 ! 应用程序分类应用程序特点 数据访问规则 数据访问不规则 共享数据量大 规则程序 非规则程序 共享数据量小 易并行程序 易共享程序() 容 1 易并行程 序 . 这 类 程 序 的 共 享 数 据 量 少9 易开发并行9 而且通信非常少 . 例如计算圆周率以及 本文的 EP 程序等 .EP 程序只有 Z 4 Kb 的共享数据9 而且基本没有同步9 只在程序结束时进行少量通信 . () Z 易共享程序 . 这类程序通过一些简单的私有 化手段可以使得程 序 的 共 享 数 据 较 少9 易 共 享 并 容 行9 然而并行任务间交互需要频繁地更新共享数据9 消息量 也 不 小 . 例 如 W er 程 序 的 共 享 空 间 只 有 at 9 是 所 有 处 理 机 频 繁 访 问 共 享 空 间9 对 但 这 1. 1 Mb 一致性维护协议提出了较高要求 . 还有 Art 程序9 共表 3 ! 应用程序计算时间应用 程序 EP MG CG Sw m i Art ECua ke W er at GS LU SOR L AP 1 处理机 SGI Z 6 .Z 5 57 .69 1475 .Z 9 1307 .48 Z
.68 14Z .5Z 5 .36 194 .67 3Z 6 .00 C ust er l 44 .08 55 .16 Z 846 .18 Z Z Z 6 .71 Z
.3Z 156 .88 Z 4 .7Z 90 .05 Z 77 .97 SGI 13 .30 38 .01 91Z .06 837 .61 14470 .Z 8 419 .35 73 .03 1673 .Z 8 994 .16 100 .45 199 .61 Z 处理机 C ust er l Z Z .06 39 .38 5 .74 1Z 154 .03 653 .55 86 .8Z 880 .97 808 .44 4Z .7Z 134 .98 SGI 7 .51 Z Z .Z 7 698 .94 4Z 4 .6Z 9471 .96 Z 19 .06 37 .37 851 .83 709 .83 60 .46 100 .3Z 4 处理机 C ust er l 11 .0Z Z 8 .98 Z .68 67Z 3 .93 45Z .80 47 .93 484 .45 448 .43 Z 3 .00 70 .11 7 期吴少刚等 机群 Open MP 系统的设计与实现911!! 图 4 给 出 了 上 述 11 个 应 用 在 SGI Z 100 和 PC Cl ust er 两种平台上的多机加速比 . 由 于 在 两种 平 台 上程序执行的绝对 时 间 存 在 差 异 比 较 加 速 比 是 一 个合适的方式 . 在上 述 四 类 程 序 中 易 并 行 程 序 EP 在 SGI Z 100 和 PC Cl ust er 上 都 获 得 了 接 近 线 性 的 加速比; 易共享程 序 Art 和 W er 在 两 种 平 台 上 的 at 4 机平均加速比分别为 3 .1 和 3 .Z 7 机 平 均 加 速 比 分别为 4 .7 和 5 .Z 由于 JI AJI A 在处 理 普 通访 存 失 效方面作了许多优 化 这 两 个 程 序 的 多 机 加 速 比 都 比较好; U GS SOR L AP Swi m 和 MG 6 个规则 L程序在两种平台上的 4 机平均加速比分别为 3 .1 和 3 .3 7 机平均加速比分别为 4 .5 和 4 .4 在数据分布 得当的情况下 规则 程 序 的 加 速 比 也 比 较 好; 和 CG EC uake 两个非规则 程 序 在 两 种 平 台 上 的 4 机 平 均 加速比分 别 为 Z .Z 和 Z .0 7 机 平 均 加 速 比 分 别 为 3 .1 和 Z .Z 它们的 计 算 和 通 信 比 值 较 小 扩 展 性 不 好 . 因此 对于前 三 类 程 序 PC Cl ust er 与 SGI Z 100 的性能相当; 对于 非 规 则 程 序 由 于 通 信 开 销 很 大 两种平台上的性能都 不 太 理 想 而 且 PC Cl ust er 性 能不及 SGI Z 100 .图 4 !Open MP 应用程序多机加速比JI ! ! 从 上 述 分 析 中 可 以 看 出 基 于 Op en MP/ A的机群系统表现 出 与 硬 件 cc- N U MA 相 似 的 共 JI A 享存储结构特点; 在这 11 个比较有代表性的应用方 面 Op en MP/ AJI A 系 统能获得与 硬 件 cc- N U MA JI 系统相近的性能 能满足一定范围的应用领域; 通信 开销是非规则应用 性 能 的 决 定 因 素 所 以 适 当 的 硬 件支持远程数据访问是软件共享存储机群系统的重 要研究方向 .组 13 ]实 现 了 一 个 基 于 软 件 DS M 系 统 scash 的 Op en MP 全集 且有条件地 扩 展 了 Op en MP 循 环 调 度和支持数据分布 不过性能还不够理想; 美国普渡 大学 basu malli k14 ]等人用手动翻译的方式分析了Op en MP 应用 在基于 软件 DS M 的机 群上的 性能 问 从事类似 研 究 的 还 有 瑞 典 的 Odi n 项 目 组 15 ]以 题; 及美国休斯敦大学等 .6 ! 相关工作针对 基 于 S MP 的 机 群 系 统 近 年 来 许 多 项 目 组在研究结 点 间 利 用 MPI 消 息 传 递\ MP 结 点 内 S 利用 Op en MP 共享存储的混合编 程 模 式 这 种 两 级 并行方法充分匹配 两 种 体 系 结 构 的 特 点 不 过 其 缺 点是对程序员提出 了 更 高 的 要 求 需 要 掌 握 消 息 传 递和共享存储两种编程方法 增加了程序员负担 . 从 编程友好性出发 采 用 共 享 存 储 编 程 模 式 是 机 群 系 统的 理 想 编 程 方 法 目 前 在 这 种 平 台 上 的 Op en MP 实现都是以某个软件 DS M 系 统 作 为 后 端 的 运 行 时 库 . 美国莱斯 大 学 的 Lu1Z ]7 ! 总结和未来的工作并行 处 理 系 统 要 取 得 真 正 成 功 易 用 性 是 重 要 因素 . 由于机群 Op en MP 结合了 Op en MP 的易用性 和机群系统的可扩展性 因 此 机 群 Op en MP 的 研 究 对推进并行应用的 开 发 和 普 及 非 常 有 意 义 . 本 文 介 绍了基于 JI AJI A 系统的机群 Op en MP 的设 计和实 现 以及提高 系 统 性 能 的 许 多 优 化 措 施 . 通 过 对 11 个应 用 程 序 的 测 试 我 们 的 机 群 Op en MP/ AJI A JI 原型系统获得了与硬件 cc- N U MA 机器( Z 100 ) SGI 相当的性能 . 我们的经验表 明 机 群 Op en MP 的 关 键 问题在于如何提高 性 能 而 提 高 性 能 的 方 法 主 要 包 括合 适 的 Op en MP 制 导 扩 展\ 端 软 件 DS M 系 统 后 优化\ 端 编 译 器 的 自 动 优 化 以 及 对 软 件 DS M 协 前 议和 Op en MP 语义的专门硬件支 持 等 . 目 前 我 们 课 题组正在研究有关 硬 件 支 持 技 术 而 编 译 器 优 化 技等人最先在机群系统上基于 Tr ead Mar ks 所 提 供 的 虚 拟 CO MA 平 台 实 现 了 Op en MP 子集 但是其实现没有 很 好 地 结 合 机 群 系统 特 点 合 适 的 应 用 并 不 多; 本 的 Omni 项 目 日 91Z计 !! 算 !! 机 !! 学 !! 报scheduli ng f or ho me-based sof t war e DS M . I n sZ 004 年Pr oceedi ngs of术也是我们今后进一步努力的方向 . 致谢 ! 感谢中国科学院数学与系统科学研究院张林 波研究员为我们提供 SGI Z 100 计算平台 感谢美国 莱斯大学 ~on g hui L U 提供给我们部分测试程序和 编译 技 术 指 导 感 谢 日 本 Omni 项 目 组 提 供 部 分 N AS 的 Op en MP 并行程序集 . 参1 8t he AC M SI GARC ~ Wor kshop on Scheduli ng A gorit h ms f or l Par all el and D st ri but ed Co mputi ng-f r o m Theor y t o Pr acti ce i Gr eece 1 ~u W. W. Zhang F . X . Li u ~ . M. . Dyna m c dat a pr ef et chi i ng i n ho me-based sof t war e DS M . Jour nal of Co mput er Sci s ences and Technol ogy Z 001 16 3 9 ~u W. W. Shi W. Z 31 &Z 41 Tang Z . M. . ~o me m gr ati on i n ho mei Gr eece 1999 16Z &173based sof t war e DS M . I n Pr oceedi ngs of t he 1st Wor kshop on s Sof t war e D st ri but ed Shar ed M mor y i e 10 ~u W. W. Shi W.S . Tang Z . M. . Adapti ve writ e det ecti on Pr oceedi ngs of ~PDC 99考文献i n ho me-based sof t war e DS M . I n s Open MP Archit ect ur e Revi e w boar d . Open MP C and C + + Appli cati on Pr ogr a m I nt erf ace tp Z www .open mp .or g Pr oceed1Z Versi on Z .0 M arch Z 00Z . ht11 Calif or ni a 1999 . Z 7 &38bull J . M. . M easuri ng synchr oni zati on and scheduli ng overheads i n Open MP . I n 105 Lu ~ . do ~u Y . C . Z waenepoel W. . Open MP on net wor ks of Pr oceedi ngs of Superco mputi ng 98 Kusano K . Orl anwor kst ati ons . I n Pr oceedi ngs of t he 1st Eur opean Wor kLund Sweden 1999 99 & shop on Open MP E WO MP 99~u W. W. Shi W.S . Tang Z . M. . JI AJI A A sof t war e DS M syst e m based on a ne w cache coher ence pr ot ocol . I n i ngs of ~PCN Eur ope 99 Amst er da m Z Tang Z . M. Li M. . A l ock-based 97 &109 133~u W. W.Shi W. S .cache coher ence pr ot ocol f or scope consi st ency . Jour nal of Co mput er Sci ence and Technol ogy 1998 13 Z 4 Chandr a R . Chen D . K . Cox R . et al . . Dat a di st ri buti onUSA
Tana ka Y . . Open MP desi gn Lund Sweden
&Sat o M. Sat o M.f or an S MP cl ust er . I n Pr oceedi ngs of t he 1st Eur opean Wor kshop on Open MP E WO MP 99 11Z 14 basu malli k A . M n S .J . i Ei gen mann R . . To war ds Open MP executi on on sof t war e di st ri but ed shar ed me mor y syst e ms . I n Pr oceedi ngs of t he I nt er nati onal Wor kshop on Open MP Experi ences and I mpl e ment ati ons Z 00Z 457 &468 15 br unschen C . WO MPEI 0Z Kyot o Japansupport on di st ri but ed shar ed me mor y multi pr ocessors . I n Pr oceedi ngs of t he AC M SI GPL AN Conf er ence on Pr ogr a mm ng Language Desi gn and I mpl e ment ati on i Vegas 5 5 bi rcsa k J . Cr ai g P . &181 6 M kat os E . P . ar Le bl anc T . J . . Load bal anci ng vs . l ocalit y Pr oceedmanage ment i n shar ed me mor y multi pr ocessors . I n I CPP 9Z 7 Shi W. S . I nnsbr uck Tang Z . M. Aust ri a 199Z Z 58 &Z 67 Cr o well R . et al . . Ext endi ng Open MP 163 f or N U MA machi nes . Sci entifi c Pr ogr a mm ng Z 000 8 3 i PLDI 97 Lasbr orsson M. . Odi n MP CCPA f r ee port abl e Lund SwedenOpen MP i mpl e ment ati on f or C . I n
&1Z 9Pr oceedi ngs of t he 1st Eu-i ngs of t he I nt er nati onal Conf er ence on Par all el Pr ocessi ng ~u W. W. . A mor e pr acti cal l oopr opean Wor kshop on Open MP E WO MP 99Wu Shao- Gang bor n i n 1973 Ph . D . l ect ur er . ~i s r esearch i nt er ests i ncl ude syst e m archit ect ur e sof t war e di stri but ed shar ed me mor y syst e m par all el co mputi ng .CAI Fei bor n i n 1979 and syst e m archit ect ur e . Gu Li- HongPh . D .candi dat e . ~i s r esearch m cr opr ocessor desi gn ii nt er est s i ncl ude cl ust er co mputi ng bor n i n 1970M. S . l ect ur er . ~er r e-search i nt er ests i ncl ude e mbedded syst e m di stri but ed syst e m web dat abase . TANG Zhi- M n bor n i n 1966 i Ph .D . r esearcher Ph .ZHANG Long- Bi ng bor n i n 1974Ph . D .post doct or .D . super vi sor . . ~i s r esearch i nt er ests i ncl ude hi gh perf or mance co mput er archit ect ur e par all el pr ocessi ng .~i s r esearch i nt er est s i ncl ude syst e m archit ect ur e cl ust er co mputi ng sof t war e di stri but ed shar ed me mor y syst e m . Background !Thi s wor k i s support ed by t he Nati onal Nat ur al Sci ence Foundati on of Chi na under Gr ant No .
and ot her f oundati ons . Thi s pr o ect i s f ocused on ho w t o i mpl e ment a hi gh perf or mance Open MP co mputi ng envi r on ment on cl ust ers . The gr oup have devel oped an Open MP syst e m t o war ds cl ust ers pl atf or m na med Open MP JI AJI A by i nt egr ati ngco mpli er and sof t war e di stri but ed shar ed me mor y t echnol ogi es . They ar e st udyi ng so me ot her t echnol ogi es t o achi eve good perf or mance and scal abilit y of t he Open MP JI AJI A syst e m such as t he vari ous pr ogr a mm ng st yl es co mpli er optii m zati on speci al har d war e support i and so on . 机群OpenMP系统的设计与实现作者: 作者单位: 吴少刚, 章隆兵, 蔡飞, 顾丽红, 唐志敏 吴少刚(石油大学(华东)计算机与通信工程学院,东营,257061;中国科学院计算技术研究所 ,北京,100080), 章隆兵,蔡飞,唐志敏(中国科学院计算技术研究所,北京,100080), 顾丽 红(石油大学(华东)计算机与通信工程学院,东营,257061) 计算机学报 CHINESE JOURNAL OF COMPUTERS ) 8次刊名: 英文刊名: 年,卷(期): 被引用次数:参考文献(15条) 1.Hu W W;Shi W;Tang Z M Home migration in home-based software DSMs 1999 2.Hu W W;Zhang F X;Liu H M Dynamic data prefetching in home-based software DSMs .Shi W.S;Tang Z.M;Hu W.W A more practical loop scheduling for home-based software DSMs 1999 4.Markatos E.P;LeBlanc T.J Load balancing vs. locality management in shared memory multiprocessors 1992 5.Bircsak J;Craig P;Crowell R Extending OpenMP for NUMA machines[外文期刊] .Chandra R;Chen D.K;Cox R Data distribution support on distributed shared memory multiprocessors 1997 7.Brunschen C;Brorsson M OdinMP/CCP: A free portable OpenMP implementation for C 1999 8.Basumallik A;Min S.J;Eigenmann R Towards OpenMP execution on software distributed shared memory systems[外文会议] 2002 9.Sato M;Kusano K;Tanaka Y OpenMP design for an SMP cluster 1999 10.Lu H;Hu Y.C;Zwaenepoel W OpenMP on networks of workstations 1998 11.Bull J.M Measuring synchronization and scheduling overheads in OpenMP 1999 12.Hu W W;Shi W S;Tang Z M Adaptive write detection in home-based software DSMs[外文会议] 1999 13.Hu W W;Shi W S;Tang Z M;Li M A lock-based cache coherence protocol for scope consistency[外文期刊 ] .Hu W W;Shi W S;Tang Z M JIAJIA: A software DSM system based on a new cache coherence protocol 1999 15.OpenMP Architecture Review Board OpenMP C and C++Application Program Interface, Version 2.0 2002引证文献(8条) 1.邵景峰.王凌.任克俭.陈金广 基于UML技术的疵点数据管理系统[期刊论文]-山东理工大学学报(自然科学版) .邵景峰.任克俭.党金房.李敏.秦兰双 整理车间数据库管理系统的设计与优化[期刊论文]-毛纺科技 .邵景峰.任克俭.党金房.李敏.秦兰双 基于.NET的疵点信息管理系统的UML建模[期刊论文]-纺织器材 .秦学勇.刘栋 数据仓库的可扩展性研究与设计[期刊论文]-计算机技术与发展 .顾丽红.吴少刚 访存密集型应用在SMP机群系统中的性能分析[期刊论文]-小型微型计算机系统 .顾丽红.吴少刚 访存密集型应用在SMP机群系统中的性能分析[期刊论文]-小型微型计算机系统 .唐惠新 H.264/AVC实时视频编码器优化和研究[学位论文]硕士 2006 8.单莹 科学计算程序的综合优化技术研究[学位论文]硕士 2005本文链接:http://d..cn/Periodical_jsjxb.aspx
机群OpenMP系统的设计与实现―汇集和整理大量word文档,专业文献,应用文书,考试资料,教学教材,办公文档,教程攻略,文档搜索下载下载,拥有海量中文文档库,关注高价值的实用信息,我们一直在努力,争取提供更多下载资源。}

我要回帖

更多关于 openmp fortran 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信