谁有love shuffle 百度云百度云急求

您的位置:
Spark技术解析及在百度开放云BMR应用实践
日 16:43:36 | 作者:佚名 | 来源:CSDN
摘要:日,一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙?光、百度美国研发中心高级架构师刘少山四位专家联手打造。
在2014 Sort Benchmark国际大赛上,成功夺冠,其幕后英雄无疑卓越的Shuffle机制,在孙光的分享中,我们对Shuffle的发展、细节和未来有了一次深度的接触。
Shuffle简介
孙光表示,简单来说,Shuffle就是按照一定的分组和规则Map一个数据,然后传入Reduce端。不管对于MapReduce还是Spark,Shuffle都是一个非常重要的阶段。然而,虽然Shuffle解决的问题相同,但是在Spark和MapReduce中,Shuffle流程(具体时间和细节)仍然存在一定的差别:
Baidu Shuffle发展历程
通过孙光了解到,Shuffle在百度的发展主要包括两个阶段:跟随社区和独立发展。从2008年百度的MapReduce/Hadoop起步开始,百度就开始跟随社区,使用社区版本,期间的主要工作包含Bug修复和性能优化两个方面(增加内存池、减少JVMGC,传输Server由Jetty换Netty,及批量传输、聚合数据等方面)。
分离了shuffle和Map/Reduce
在2012年开始,Baidu Shuffle开启独立发展阶段,主要源于下一代离线计算系统的开发,Shuffle被抽离为独立的ShuffleService服务,从而提高了集群资源的利用率。
截止此时,不管是社区版本(MapReduce/Spark),还是百度研发的ShuffleService,它们都是基于磁盘的PULL模式。基于磁盘,所有Map的数据都会放到磁盘,虽然Spark号称内存计算,但是涉及到Shuffle时还是会写磁盘。基于PULL,所有数据在放到Map端的磁盘之后,Reduce在使用时还需要主动的拉出来,因此会受到两个问题影响:首先,业务数据存储在Map端的服务器上,机器宕机时会不可避免丢失数据,这一点在大规模分布式集群中非常致命;其次,更重要的是,Shuffle阶段会产生大量的磁盘寻道(随机读)和数据重算(中间数据存在本地磁盘),举个例子,某任务有1百万个Map,1万个Reduce,如果一次磁盘寻道的时间是10毫秒,那么集群总共的磁盘寻道时间= 1000000 ×10000 ×0.01 = 1亿秒。
New Shuffle
基于这些问题,百度设计了基于内存的PUSH模式。新模式下,Map输出的数据将不落磁盘,并在内存中及时地Push给远端的Shuffle模块,从而将获得以下提升:
New Shuffle的优势
New Shuffle架构
如图所示,蓝色部分为New Shuffle部分,主要包含两个部分:数据写入和读取的API,Map端会使用这个接口来读取数据,Reduce会使用这个接口来读取数据;其次,最终重要的是,服务器端使用了典型的主从架构,用多个shuffle工作者节点来shuffle数据。同时,在系统设计中,Master非常有利于横向扩展,让shuffle不会成为整个分布式系统的瓶颈。
让New Shuffle模块专注于shuffle,不依赖于外部计算模块,从而计算模块可以专注于计算,同时还避免了磁盘IO。然而New Shuffle带来的问题也随之暴漏,其中影响比较重要的两个就是:慢节点和数据重复。
慢节点。以shuffle写入过程中出现慢节点为例,通常包含两个情况。首先,Shuffle自身慢节点,对比社区版本中只会影响到一个task,New Shuffle中常常会影响到一片集群。在这里,百度为每个Shuffle节点都配置了一个从节点,当Map检测到一个慢节点时,系统会自动切换到从节点。其次,DFS出现慢节点,这个情况下(+本站微信networkworldweixin),Shuffle的从节点只能起到缓解作用。这种情况下,首先DFS系统会自动检测出慢节点,并进行替换。比如,传统的HDFS会以pipeline的形式进行写入,而DFS则转换为分发写。
在此之外,New Shuffle还需要解决更多问题,比如资源共享和隔离等。同时,基于New Shuffle的机制,New Shuffle还面临一些其他挑战,比如Reduce全启动、数据过于分散、对DFS压力过大、连接数等等。
数据重复。如上图所示,这些问题主要因为New Shuffle对上层组件缺少感知,这个问题的解决主要使用task id和block id进行。
New Shuffle展望
孙光表示,New Shuffle使用了通用的Writer和Reader接口,当下已经支持百度MR和DCE(DAG、C++),同时即将对开源Spark提供支持。在未来,New Shuffle无疑将成为更通用的组件,支持更多的计算模型。
百度美国硅谷研发中心高级架构师刘少山――Fast big data analytics with Spark on Tachyon
Tachyon是一个分布式的内存文件系统,可以在集群里以访问内存的速度来访问存在Tachyon里的文件。Tachyon是架构在分布式文件存储和上层各种计算框架之间的中间件,主要负责将那些不需要落到DFS里的文件,落到分布式内存文件系统中,从而达到共享内存,以提高效率。1月10日下午的最后一场分享中,刘少山带来了一场Tachyon的深入解析。
Tachyon和Spark
刘少山表示,在Spark使用过程中,用户经常困扰于3个问题:首先,两个Spark 实例通过存储系统来共享数据,这个过程中对磁盘的操作会显著降低性能;其次,因为Spark崩溃所造成的数据丢失;最后,垃圾回收机制,如果两个Spark实例需求同样的数据,那么这个数据会被缓存两次,从而造成很大的内存压力,更降低性能。
使用Tachyon,存储可以从Spark中分离处理,让其更专注于计算,从而避免了上述的3个问题。
Tachyon架构
刘少山从Spark的角度分享了Tachyon的部署。在与Spark搭配使用时,系统会建立一个Tachyon的job,通过Tachyon Client来访问同一个机器上的Tachyon Worker,也就是机器上的内存。而Tachyon Client则会与Tachyon Master交互,来清楚每个分节点所包含的数据。由此可见,在整个Tachyon 系统中,Master、Client和Worker为最重要的三个部分。
Tachyon Master。Master主要部件是Inode和Master Worker Info:Inode会负责系统的监视,Master Worker Info则存储了所有Worker的信息。
Tachyon Worker。Worker主要负责存储,其中Worker Storage是最主要的数据结构,包含Local data folder和Under File System两个部分。其中Local data folder表示存在本地的Tachyon文件,Under File System则负责从HDFS中读取Worker中未发现的数据。
Tachyon Client。Client为上层用户提供了一个透明的机制,其TachyonFS接口负责数据请求。每个Client中有多个Tachyon File,其中Block In Stream负责文件读取(Local Block In Stream负责本地机器读取,Remote Block In Stream则负责读取远程机器);Block Out Stream主要负责将文件写到本地机器上。在Client上,Master Client会与Master交互,Worker Client则与Client交互。
Tachyon在百度
为什么要使用Tachyon,刘少山指出,在百度,计算集群和存储集群往往不在同一个地理位置的数据中心,在分析时,远程数据读取将带来非常高的延时,特别是ad-hoc查询。因此,将Tachyon作为一个传输缓存层,百度通常会将之部署在计算集群上。首次查询时,数据会从远程存储取出,而在以后的查询中,数据就会从本地的Tacnyon上读取,从而大幅的改善了延时。
在百度,Tachyon的部署还处于初始阶段,大约部署了50台机器,主要服务于ad-hoc查询。
实践中遭遇的挑战
通过刘少山了解到,Tachyon的使用过程并不是一帆风顺,比如:因为Tachyon需求对Block完全读取,从而可能造成Blocks并未被缓存;有时候,虽然scheduler已经确认了数据存在本地,Spark workers仍然从远程blocks读取,而缓存命中率也只有可怜的33%(如果你需要的是2号block,Tachyon会分别从1、2、3号block读取,从而将block读取了3份)。因此,刘少山表示,如果要使用好Spark与Tachyon,一定要对用例和Tachyon进行充分的了解。
分享最后,刘少山还介绍了Hierarchical Storage Feature特性以及百度未来的工作,其中包括缓存替换策略等。
参考资料1.:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
...2.:是一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复...
[责任编辑:行云之路 ]
正在加载...
我也说几句
汇编一周来国内外网络和IT行业发生的焦点新闻,精挑细选,第一时间推送独家采写的深度报道和热点专题,深入挖掘新闻事件背后的故事,剖析新闻事件的来龙去脉,让读者准确把握业界的发展态势。
汇集存储频道每周精华内容,让您在最短的时间内,以最便捷的方式获取权威的购买指南,专家博客,皆汇聚在此。
定期为您带来深入权威的网络,交换机,路由器,无线,通信领域信息服务,涵盖产品,技术,新闻,应用案例,评测,购买指南,专栏,技巧等多个方面的信息。与企业网络相关的一切,尽在网络通信邮件,您怎可错过?
新一代数据中心建设管理最新信息快递――聚焦新一代绿色数据中心的设计、建设、运营和管理,汇集业界专家与用户的最精粹观点,展示国内外数据中心经典案例!
定期为您带来安全领域权威专业的产品,技术,新闻,应用案例,评测,购买指南等信息,保护您在网络畅游之时不受病毒的威胁,企业运行之际减少安全的风险。一份邮件在手,一份安全在心!
深入、专业关注云计算相关的技术与实践,范围覆盖私有云建设、公有云服务运营、开源云平台发展、重要云服务商动态等领域,面向企业CIO和IT经理提供深度原创报道,以及云计算、云服务领域最新的市场资讯。
汇集软件频道每周精华内容,让您在最短的时间内,以最便捷的方式获取权威的企业软件新闻,SOA,SaaS,BI,ERP,开源技术,产品,技巧等全方面的实用资讯。还犹豫什么,这就开始体验一下吧!
深入、专业关注大数据相关的技术与实践,提供Hadoop、NoSQL等领域的最新技术资讯,定期发布由业界专家撰写的大数据专栏文章,面向企业CIO、IT经理、DBA提供深度原创报道,以及大数据领域的最新市场资讯。
汇集服务器频道每周精华内容,让您在最短的时间内,以最便捷的方式获取权威的服务器虚拟化,刀片服务器,操作系统,大型机,服务器芯片信息,最新最全的服务器技巧,购买指南,专家博客,皆汇聚在此。
网界网网络学院频道,内容涵盖移动互联,技术开发,Web前端,安全,网络通信,云计算,数据中心,存储,服务器,软件等内容。
订阅过的用户,全部取消选择,可取消订阅
热点排行周月
应用案例的爆炸性增长也促进了云分析的增长。不过,真的能够确认云是IT...
五年前,Hadoop用可以解决所有大数据难题的身份杀入主流市场。如今尘埃...
[10 Things]别奢望大数据会为你做这1...
网络世界移动客户端网界网微信订阅号编程 black jack(急求!Some Rules of the Game To make the simulation simpler than the normal game of play,only the followings rules are observed:1) One deck of card will be used – 522) You have to re-shuffle the cards at the start of a g_百度作业帮
编程 black jack(急求!Some Rules of the Game To make the simulation simpler than the normal game of play,only the followings rules are observed:1) One deck of card will be used – 522) You have to re-shuffle the cards at the start of a g
编程 black jack(急求!Some Rules of the Game To make the simulation simpler than the normal game of play,only the followings rules are observed:1) One deck of card will be used – 522) You have to re-shuffle the cards at the start of a game if more than 26 c3) The value of card is the points of the card except the “Ace” which can either be 1 or 11,the value of all face card is 10;4) The Dealer will HIT on 16 and below,and STAND on 175) If the scores are equal,the D6) If the Player wins with a “Black Jack”,the Deal Black Jack means a two card combination of an Ace and a F
有些游戏规则为了使模拟比发挥正常游戏简单,只有在遵守下列规则:1)一卡将使用甲板- 52张;2)您必须重新在一个游戏开始洗牌,如果超过26张了作用;3)卡的值是除“王牌”的可以是1或11日,都面临着卡的价值在卡点为10;4)经销商将达到16以下,站在17或以上;5)如果得分相等,则经销商双赢;6)如果玩家的“黑杰克”,经销商必须支付双倍;黑杰克指的牌和面部卡双卡组合冠军;爱我就收藏我,管我明天是谁的新娘。
百度云一下
百度云一下
当前位置:
/ 资源详情
: rsvmxgihgAhb
个人说明  该会员暂无个人说明
该专辑暂无相关内容描述
该专辑暂无相关内容描述
该专辑暂无相关内容描述
一个有着中国、菲律宾、法国和美国的混血血统的女神,超爱。。。
该专辑暂无相关内容描述
全套视屏教程请加联系Q
该专辑暂无相关内容描述
耽美广播剧 白芷.
该会员暂无个人说明
get back in the meds ,buddy
我就是我,不屈服于这个世界
该会员暂无个人说明
该会员暂无个人说明
57百度云搜索不存储任何资源,网站资源来自57百度云蜘蛛程序对百度网盘资源的爬取,只作交流和学习使用,如有侵权和非法不良信息,请联系百度网盘举报删除,删除资源后本站收录的资源分享链接也将自动失效。如有疑问,也可联系我们。联系邮箱: 联系QQ:
SpiderDisk For BIDU beta1.0 |
Powered By
本次执行耗时:0.005992s你的位置: >
> Pinball Shuffle v1.07 MacOSX Retail-CORE
inball Shuffle是一款令人惊叹的桌面弹球游戏!异常出色的游戏画面,极致逼真的游戏音效,绝对让你有如玩真实桌面弹球般的畅爽!
游戏特点:
与电脑桌面弹球媲美的游戏!
游戏中可以调节游戏音量!
游戏中可以调节速度快慢!
游戏会自动记录最高分!
CORE has released “Pinball Shuffle” for MacOSX. If you’re a big fan of old-school style pinball then Pinball Shuffle is for you!
Description: Stabb Gunner Pinball is BACK! Pinball Shuffle is the follow up to Pinball Massacre, the first round in the epic pinball battle. Like the first table, this is a high octane arcade style pinball game. Table One brought never before seen pinball innovations like MASSACRE MODE and the addition of the LEVEL BALL. This time around, you’re also going to need to ratchet up your game for BOSS BATTLES.
What’s New in Version 1.07:
Less memory usage
New affiliate links
Requires Mac OS 10.7+
Release Name: Pinball.Shuffle.v1.07.MacOSX.Retail-CORE Size: 38.05 MB Links:
Download uploaded
Download 百度云
与本文相关的文章求动漫shuffle的百度云资源,谢谢_百度知道
求动漫shuffle的百度云资源,谢谢
手机百度云在哪里搜索资源?自己百度网盘里面太多资源文件,那么有什么办法可以快速搜到指定文件呢?手机百度云在哪里搜索资源 手机百度云搜索资源方法-搜索自己的文件打开手机百度云客户端,调出菜单栏,可以看到“搜索”按钮。点击“搜索”之后即可开始搜索自己百度云里的文件。
其他类似问题
为您推荐:
shuffle的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁}

我要回帖

更多关于 shuffle百度云 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信