什么叫粒度分布系统的并行性？粗粒度并行和细粒度并行有何区别？

点击联系发帖人 时间：2012-05-12 17:56

细粒度

君，已阅读到文档的结尾了呢~~
计算机组成原理第八章课后部分答案
扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
计算机组成原理第八章课后部分答案
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口注：段寻址方式由硬件隐含实现；完成，对用户是透明的；方案三：在采用单字长指令（16位）格式时，还可通；大到4M；硬件设页面寄存器PR（16位），用来存放页面地址；（8）为使一条转移指令能转移到主存的任一位置，寻；总之，不论采取何种方式，最终得到的实际地址应是2；19.某CPU内有32个32位的通用寄存器，设计；（1）如果主存可直接或间接寻址，采用寄存器―存储
注：段寻址方式由硬件隐含实现。在编程指定的寻址过程完成、EA产生之后由硬件自动
完成，对用户是透明的。
方案三：在采用单字长指令（16位）格式时，还可通过页面寻址方案使指令寻址范围扩
大到4M。安排如下：
硬件设页面寄存器PR（16位），用来存放页面地址。指令寻址方式中增设页面寻址。当需要使指令寻址范围扩大到4M时，编程选择页面寻址方式，则：EA =（PR）‖A （有效地址=页面地址“拼接”6位形式地址），这样得到22位有效地址。
（8）为使一条转移指令能转移到主存的任一位置，寻址范围须达到4M，除了采用(7) 方案一中的双字长一地址指令的格式外，还可配置22位的基址寄存器或22位的变址寄存器，使EA = (BR) + A （BR为22位的基址寄存器)或EA =（IX）+ A(IX为22位的变址寄存器)，便可访问4M存储空间。还可以通过16位的基址寄存器左移6位再和形式地址A相加，也可达到同样的效果。
总之，不论采取何种方式，最终得到的实际地址应是22位。
19. 某CPU内有32个32位的通用寄存器，设计一种能容纳64种操作的指令系统。假设指令字长等于机器字长，试回答以下问题：
（1）如果主存可直接或间接寻址，采用寄存器―存储器型指令，能直接寻址的最大存储空间是多少？画出指令格式并说明各字段的含义。
（2）在满足（1）的前提下，如果采用通用寄存器作基址寄存器，则上述寄存器―存储器型指令的指令格式有何特点？画出指令格式并指出这类指令可访问多大的存储空间？解：（1）如采用RS型指令，则此指令一定是二地址以上的地址格式，指令格式如下：
操作码字段OP占6位，因为2&=64；
寄存器编号R占5位，因为2&=32；
间址位I占1位，当I=0，存储器寻址的操作数为直接寻址，当I=1时为间接寻址；形式地址A占20位，可以直接寻址2字。
（2）如采用基址寻址，则指令格式中应给出基址寄存器号，以指定哪一个通用寄存器用作基址寄存器。指令格式变为：
增加寻址特征位X，当X=1时，以目标寄存器R作为基址寄存器进行基址寻址。
基址寻址可访问存储空间为：2字。
2. 什么是指令周期？指令周期是否有一个固定值？为什么？解：指令周期是指取出并执行完一条指令所需的时间。
由于计算机中各种指令执行所需的时间差异很大，因此为了提高CPU运行效率，即使在同步控制的机器中，不同指令的指令周期长度都是不一致的，也就是说指令周期对于不同的指令来说不是一个固定值。
4. 设CPU内有下列部件：PC、IR、SP、AC、MAR、MDR和CU。
（1）画出完成间接寻址的取数指令LDA@X（将主存某地址单元X的内容取至AC中）的数据流（从取指令开始）。
（2）画出中断周期的数据流。
解：CPU中的数据流向与所采用的数据通路结构直接相关，不同的数据通路中的数据流是不一样
的。常用的数据通路结构方式有直接连线、单总线、双总线、三总线等形式，目前大多采用总线结构，直接连线方式仅适用于结构特别简单的机器中。
为简单起见，本题采用单总线将题中所给部件连接起来，框图如下：
（1）LDA@X指令周期数据流程图：
（2）中断周期流程图如下：
注：解这道题有两个要素，首先要根据所给部件设计好数据通路，即确定信息流动的载体。其次选择好描述数据流的方法，无论采用什么样的表达方式，其关键都要能清楚地反映数据在通路上流动的顺序，即强调一个“流”字。较好的表达方式是流程图的形式。
5. 中断周期前是什么阶段？中断周期后又是什么阶段？在中断周期CPU应完成什么操作？答：中断周期前是执行周期，中断周期后是取指周期。在中断周期，CPU应完成保存断点、将中断向量送PC和关中断等工作。
7. 什么叫系统的并行性？粗粒度并行和细粒度并行有何区别？
答：所谓并行性包含同时性和并发性。同时性是指两个或两个以上的事件在同一时刻发生，并发性是指两个或多个事件在同一时间段发生。即在同一时刻或同一时间段内完成两个或两个以上性质相同或性质不同的功能，只要在时间上存在相互重叠，就存在并行性。
并行性又分为粗粒度并行和细粒度并行两类。粗粒度并行是指在多个处理机上分别运行多个进程，由多台处理机合作完成一个程序，一般用算法实现。细粒度并行是指在处理机的指令级和操作级的并行性。
8. 什么是指令流水？画出指令二级流水和四级流水的示意图，它们中哪个更能提高处理机速度，为什么？
答：指令流水是指将一条指令的执行过程分为n个操作时间大致相等的阶段，每个阶段由一个独立的功能部件来完成，这样n个部件就可以同时执行n条指令的不同阶段，从而大大提高CPU的吞吐率。
指令二级流水和四级流水示意图如下：
EX，WRIF，ID
EX，WRIF，ID
二级指令流水示意图
四级指令流水示意图
四级流水更能提高处理机的速度。分析如下：
假设IF、ID、EX、WR每个阶段耗时为t，则连续执行n条指令
采用二级流水线时，耗时为：4t+(n-1)2t=(2n+2)t 采用四级流水线时，耗时为：4t+(n-1)t=(n+3)t
在n&1时，n+3&2n+2，可见四级流水线耗时比二级流水线耗时短，因此更能提高处理
17. 在中断系统中INTR、INT、EINT三个触发器各有何作用？
解：INTR――中断请求触发器，用来登记中断源发出的随机性中断请求信号，以便为CPU查询中断及中断排队判优线路提供稳定的中断请求信号。
EINT――中断允许触发器，CPU中的中断总开关。当EINT=1时，表示允许中断（开中断），当EINT=0时，表示禁止中断（关中断）。其状态可由开、关中断等指令设置。
INT――中断标记触发器，控制器时序系统中周期状态分配电路的一部分，表示中断周期标记。当INT=1时，进入中断周期，执行中断隐指令的操作。
24. 现有A、B、C、D四个中断源，其优先级由高向低按A、B、C、D顺序排列。若中断服务程序的执行时间为20μs，请根据下图所示时间轴给出的中断源请求中断的时刻，画出CPU执行程序的轨迹。
解：A、B、C、D的响优先级即处理优先级。CPU执行程序的轨迹图如下：
25. 某机有五个中断源L0、L1、L2、 L3、L4，按中断响应的优先次序由高向低排序为L0? L1?L2?L3?L4，根据下示格式，现要求中断处理次序改为L1?L4?L2?L0?L3，根据下面的格式，写出各中断源的屏蔽字。解：各中断源屏蔽状态见下表：
表中：设屏蔽位=1，表示屏蔽；屏蔽位=0，表示中断开放。
26. 设某机配有A、B、C三台设备，其优先顺序按A?B?C降序排列，为改变中断处理次序，它们的中断屏蔽字设置如下：
断服务程序的执行时间均为20? s。
请按下图所示时间轴给出的设备请求中断的时刻，画出CPU执行程序的轨迹。设A、B、C中解：A、B、C设备的响应优先级为A最高、B次之、C最低，处理优先级为A最高、C次之、B最低。CPU执行程序的轨迹图如下：
A请求B请求C请求
2. 控制单元的功能是什么？其输入受什么控制？
答：控制单元的主要功能是发出各种不同的控制信号。其输入受时钟信号、指令寄存器的操作码字段、标志和来自系统总线的控制信号的控制。
3. 什么是指令周期、机器周期和时钟周期？三者有何关系？答：CPU每取出并执行一条指令所需的全部时间叫指令周期；
机器周期是在同步控制的机器中，执行指令周期中一步相对完整的操作（指令步）所需时间，通常安排机器周期长度等于主存周期；
时钟周期是指计算机主时钟的周期时间，它是计算机运行时最基本的时序单位，对应完成一个微操作所需时间，通常时钟周期等于计算机主频的倒数。 4. 能不能说机器的主频越快，机器的速度就越快，为什么？
解：不能说机器的主频越快，机器的速度就越快。因为机器的速度不仅与主频有关，还与数据通路结构、时序分配方案、ALU运算能力、指令功能强弱等多种因素有关，要看综合效果。 5. 设机器A的主频为8MHz，机器周期含4个时钟周期，且该机的平均指令执行速度是0.4MIPS，试求该机的平均指令周期和机器周期，每个指令周期中含几个机器周期？如果机器B的主频为12MHz，且机器周期也含4个时钟周期，试问B机的平均指令执行速度为多少MIPS?
解：先通过A机的平均指令执行速度求出其平均指令周期，再通过主频求出时钟周期，然后进一步求出机器周期。B机参数的算法与A机类似。计算如下：
A机平均指令周期=1/0.4MIPS=2.5μs A机时钟周期=1/8MHz=125ns
A机机器周期=125ns×4=500ns=0.5μs
A机每个指令周期中含机器周期个数=2.5μs÷0.5μs=5个 B机时钟周期 =1/12MHz?83ns B机机器周期 =83ns×4=332ns
设B机每个指令周期也含5个机器周期，则： B机平均指令周期=332ns×5=1.66μs
B机平均指令执行速度=1/1.66μs=0.6MIPS
结论：主频的提高有利于机器执行速度的提高。
6. 设某机主频为8MHz，每个机器周期平均含2个时钟周期，每条指令平均有4个机器周期，试问该机的平均指令执行速度为多少MIPS？若机器主频不变，但每个机器周期平均含4个时钟周期，每条指令平均有4个机器周期，则该机的平均指令执行速度又是多少MIPS？由此可得出什么结论？
解：先通过主频求出时钟周期，再求出机器周期和平均指令周期，最后通过平均指令周期的倒数求出平均指令执行速度。计算如下：
时钟周期=1/8MHz=0.125×10s 机器周期=0.125×10s×2=0.25×10s 平均指令周期=0.25×10s×4=10s 平均指令执行速度=1/10s=1MIPS
当参数改变后：机器周期= 0.125×10s×4=0.5×10s 平均指令周期=0.5×10s×4=2×10s 平均指令执行速度=1/（2×10s） =0.5MIPS
三亿文库包含各类专业文献、中学教育、高等教育、各类资格考试、应用写作文书、生活休闲娱乐、行业资料、幼儿教育、小学教育、专业论文、12计算机组成原理第2版唐朔飞答案等内容。　
　计算机组成原理第2版唐朔飞答案_理学_高等教育_教育专区暂无评价|0人阅读|0次下载|举报文档计算机组成原理第2版唐朔飞答案_理学_高等教育_教育专区。计算机组成原理... 　计算机组成原理第二版课后习题答案全-唐朔飞.doc(文档)_理学_高等教育_教育专区...(2 )设计一个电路,实现下列操作: T0时刻完成D→总线; T1时刻完成总线→A... 　计算机组成原理-第二版-唐朔飞著-课后习题详解(1)_院校资料_高等教育_教育专区。哈哈哈,课后答案来一发,计科学生的福音啊。。第1 章计算机系统概论 1. 什么... 　《计算机组成原理》计算机组成原理》(第二版) 第二版)唐朔飞编著第一章 1. 什么是计算机系统、计算机硬件和计算机软件?硬件和软件哪个更重要? 解:P3 计算机... 　计算机组成原理-第二版-唐朔飞著-课后习题详解_工学_高等教育_教育专区。第 1...设机器数采用一位符号位,答案均用十进制表示。 (1)无符号数; (2)原码表示... 　哈工大(威海)计算机组成原理答案(唐朔飞第二版)_工学_高等教育_教育专区。老师...CS (2)地址空间分配图: RAM0:0000H-1FFFH RAM1:2000H-3FFFH RAM2:4000H... 　计算机组成原理第2版唐朔飞答案1 隐藏&& 第1 章计算机系统概论... 1 第 2 章计算机的发展及应用 ...... 　计算机组成原理作业1-10章答案(唐朔飞)(第二版)_工学_高等教育_教育专区。计算机组成原理课后习题答案(唐朔飞)第二版第一章计算机系统概论 1. 什么是计算机系统... 　计算机组成原理第五章部分课后题答案(唐朔飞版)_电子/电路_工程科技_专业资料。...通常 DMA 与主存交换数据是采用如下三种方法: (1)停止 CPU 访问主存 (2)...并行计算中的粒度
我的图书馆
并行计算中的粒度
并发和并行：今天和师妹讨论问题，师妹说到了现在要做的一个项目。要做大规模的并行模拟事件的模拟。问我是否可以在GPU上实现。我们这里拿一群人来分一盒饼干来做例子。一群人要怎么来分这些饼干啦？这里有M个饼干，有N个人要分这个饼干。并发，就是每一个哪一个小饼干，然后各自吃各自的饼干，然后每一轮N个人就分掉了N个饼干。当然这里假设M比N大。并行，就是N个人同时先把一个饼干分了，吃完以后再接着分下面的M-1个饼干，这样再接下去就把饼干吃完了。这样看起来并发就比并行好了，因为每一个问题都是独立的，并发到N个处理器上面，就可以单独处理了。但是这里有两个问题，第一个是M很小的时候，N很大，这个时候就可以采用并行的方式，让一个饼干分成很多小块，让N个人来先把一个饼干先吃完。还有当一个饼干很大的时候，一个人要吃很久才能吃完，那也可以采用并行的方式，后处理完一个还以先得到一个的结果，剩下来的慢慢处理，这个时候采用并发要等所有的处理完了才能看到整个结果，所以不一定好使。对于并行和并发我到认为并不需要去死记硬背这些名词，只要记住并行计算，其实就是不同粒度的并发处理。有粗粒度的，有细粒度的，不同粒度里面还可以包含不同的饼干，有巧克力饼干、有花生饼干、酥性饼干、韧性饼干、发酵（苏打）饼、薄脆饼干、曲奇饼干、夹心饼干、威化饼干、蛋圆饼干、蛋卷、黏花饼干、水泡饼干，不同的饼干也可以同时吃，所以不要讲究太多的并发或者并行，选择最适合当前的硬件架构的方法，使用最得心应手的方法，就可以了。对于现在的GPU来讲，并行可能是比较好的选择，至少CUDA架构更适合做并行的工作，并发的工作也可以，不过得看应用，如果是并发的每一个的粒度不太一样，就需要不同的thread group同步等待，在并编程中，很忌讳等待问题，这样就成了让很多人的饼都吃完了，还看着你在吃饼，大家也只能等你把饼吃完了以后再去拿盘子里面的饼，这样会让很多人不爽的！所以尽量做到硬件上的运行是均匀的，让硬件饱和抱起来，这样不管是并发还是并行，都可以让任务尽快的完成。上面讨论的都是并行并非或者粒度的一些概念性的东西，我们可以看看硬件的并发，现在我们可以把这个架构分成三层，一个是集群层面，看么一个节点的工作这个就可以算是粗粒度，然后是每一个节点内的的每一个core或者GPU内部，这个可以算是细粒度的并行。在每一个层面都需要有好的算法来选择粒度的划分，如果把要处理的数据看做是一对面粉，那就需要选择最优的流程来做饼干，然后选择最好的分配方法分给大家。数据的划得根据每一个处理节点的处理能力，还要考虑每一个节点的传输效率，精良做到有一部分面粉在和面，有一部分面粉在烤饼干，还有一部分饼干已经可以吃了，还有就是吃完了……这样尽量让网络带宽最优，使用率最好，然后每一个硬件的处理能力都发挥到极致，这就是达到了整个系统的最优化。从实践中，你会发现，最好的分派算法，粗粒度的算法选得好，性能会提高的倍数是最好的，越到细粒度越难调优，所以算法是关键。并发和并行：今天和师妹讨论问题，师妹说到了现在要做的一个项目。要做大规模的并行模拟事件的模拟。问我是否可以在GPU上实现。我们这里拿一群人来分一盒饼干来做例子。一群人要怎么来分这些饼干啦？这里有M个饼干，有N个人要分这个饼干。并发，就是每一个哪一个小饼干，然后各自吃各自的饼干，然后每一轮N个人就分掉了N个饼干。当然这里假设M比N大。并行，就是N个人同时先把一个饼干分了，吃完以后再接着分下面的M-1个饼干，这样再接下去就把饼干吃完了。这样看起来并发就比并行好了，因为每一个问题都是独立的，并发到N个处理器上面，就可以单独处理了。但是这里有两个问题，第一个是M很小的时候，N很大，这个时候就可以采用并行的方式，让一个饼干分成很多小块，让N个人来先把一个饼干先吃完。还有当一个饼干很大的时候，一个人要吃很久才能吃完，那也可以采用并行的方式，后处理完一个还以先得到一个的结果，剩下来的慢慢处理，这个时候采用并发要等所有的处理完了才能看到整个结果，所以不一定好使。对于并行和并发我到认为并不需要去死记硬背这些名词，只要记住并行计算，其实就是不同粒度的并发处理。有粗粒度的，有细粒度的，不同粒度里面还可以包含不同的饼干，有巧克力饼干、有花生饼干、酥性饼干、韧性饼干、发酵（苏打）饼、薄脆饼干、曲奇饼干、夹心饼干、威化饼干、蛋圆饼干、蛋卷、黏花饼干、水泡饼干，不同的饼干也可以同时吃，所以不要讲究太多的并发或者并行，选择最适合当前的硬件架构的方法，使用最得心应手的方法，就可以了。对于现在的GPU来讲，并行可能是比较好的选择，至少CUDA架构更适合做并行的工作，并发的工作也可以，不过得看应用，如果是并发的每一个的粒度不太一样，就需要不同的thread group同步等待，在并编程中，很忌讳等待问题，这样就成了让很多人的饼都吃完了，还看着你在吃饼，大家也只能等你把饼吃完了以后再去拿盘子里面的饼，这样会让很多人不爽的！所以尽量做到硬件上的运行是均匀的，让硬件饱和抱起来，这样不管是并发还是并行，都可以让任务尽快的完成。上面讨论的都是并行并非或者粒度的一些概念性的东西，我们可以看看硬件的并发，现在我们可以把这个架构分成三层，一个是集群层面，看么一个节点的工作这个就可以算是粗粒度，然后是每一个节点内的的每一个core或者GPU内部，这个可以算是细粒度的并行。在每一个层面都需要有好的算法来选择粒度的划分，如果把要处理的数据看做是一对面粉，那就需要选择最优的流程来做饼干，然后选择最好的分配方法分给大家。数据的划得根据每一个处理节点的处理能力，还要考虑每一个节点的传输效率，精良做到有一部分面粉在和面，有一部分面粉在烤饼干，还有一部分饼干已经可以吃了，还有就是吃完了……这样尽量让网络带宽最优，使用率最好，然后每一个硬件的处理能力都发挥到极致，这就是达到了整个系统的最优化。从实践中，你会发现，最好的分派算法，粗粒度的算法选得好，性能会提高的倍数是最好的，越到细粒度越难调优，所以算法是关键。
TA的最新馆藏[转]&[转]&[转]&[转]&[转]&您的位置： >
来源：　　作者：廖小兵;汪芳宗;杨萌;
基于高斯方法及Sherman-Morrison公式的暂态稳定性并行计算方法　 0引言并行计算是实现大规模电力系统暂态稳定性实时分析计算的有效途径[1-2]。并行计算的基本思路是将一个复杂的计算任务分解成为多个较为独立的子任务,而后将其分配给不同的计算节点,以此实现多个子任务的并行计算。迄今为止,有关电力系统暂态稳定性的并行计算,已有众多的研究结果[3-7]。概括起来,所提出的并行计算方法大致可以分为3类:空间并行[3-4]、时间并行[5-6]以及时间-空间并行。空间并行计算主要是基于网络分割、矩阵分块或矩阵分裂思想,属于粗粒度并行方法,另外一类是基于矢量并行计算的细粒度空间并行方法。关于粗粒度空间并行,已有较多的研究成果,而随着GPU(GraphicsProcessing Unit)并行计算技术的兴起,细粒度空间并行方法也在电力系统并行计算中得到了应用[7-8]。时间并行的基本思路是利用数值积分方法同时在多个时间点上进行求解。很易理解,时间并行属于粗粒度并行方法。尽管利用传统的单步或单级数值积分方法,例如隐式梯形积分方法,也可以在多个时间点上同时进行求解,但严格地讲,传统的单步或单级数值积分方法其本身并不具备时间并行特性。相比较而言,多级隐式Runge-Kutt(本文共计8页)　　　　　　　　　　
相关文章推荐
看看这些杂志对你有没有帮助...
单期定价：16.00元/期全年定价：12.80元/期　共307.20元
　　　　　　}

叫阿莫西中心