Google大数据：怎样构建一支足球队完美球队

点击联系发帖人 时间：2017-11-06 03:12

一支足球队

Google打造云中Hadoop便捷版，强势对抗AWS
发表于 09:55|
来源Gigaom|
作者Jonathan Bingham
摘要：开发人员现在已经能够很轻松的在Google计算虚拟机上进行Hadoop操作了，理论上，Google Cloud Storage Hadoop的预览版将使开发人员不用再花大力气去管理集群和文件系统。这将对AWS和它的EC2造成很大冲击。
Google Compute Engine 的虚拟机提供了一种快速、可靠的方式来运行&Apache Hadoop。如今，Google 正在努力通过Google Cloud
Storage Hadoop预览版更简单的在
Google Cloud Platform&上运行Hadoop，这样你就可以更加专注于数据处理逻辑而不是集群管理和文件系统。
下图是Hadoop在Google Cloud Platform上的图解。在Google Cloud Storage上存储数据时HDFS、NameNode是可选的。
在十年前，从Google第一次介绍了Google File System (GFS)——Hadoop
Distributed File System（HDFS）的基础——Google一直在努力改善Google大数据处理的存储系统。最新的成果是Colossus。
今天的发行版本提供了准确的——使用了一个简单的连接器库，Hadoop现在可以直接地在Google Cloud Storage运行——一个对象存储创建在Colossus上。这意味着你在大数据处理时可以从Google的这项技术中获益。
下面是用Google Cloud Storage运行Hadoop的优势：
兼容性：Google Cloud Storage connector for Hadoop 代码兼容Hadoop。只要将URL指向你的数据就可以。
快速启动：数据准备处理。当你的数据复制到HDFS以及NameNode，你不必等待过长时间来结束这个安全模式。同时，你也不需要花费数据复制VM时间。
更高的可用性和可扩展性：&Google Cloud Storage比HDFS具有更高的可用性，因为它有独立的Compute
Nodes和NameNode。如果虚拟机拒绝（或云禁止、崩溃）你的数据还在。
低成本：包括存储和计算：存储，因为没有必要维护两份数据，一个用于备份，另一个用于运行Hadoop；计算，因为你不需要仅仅为服务数据而保持VM一直运行。同时，它是以分钟计费，你可以在多个内核上更快的运行Hadoop，并且你的成本不再是四舍五入为一个小时来计算。
没有存储管理开销：鉴于HDFS需要日常维护——比如文件系统校验、重整、升级、反转和NameNode重启——Google Cloud
Storage只需要为计算付费。你的数据是安全和一致的，不需要更多的努力。
互通性：通过在Google Cloud Storage保管你的数据，你可以从Google上其它已经完美融合的服务中获益。
性能：由于有了Google Cloud Storage，Google的基础设施将会比HDFS提供更高的性能——因为它没有管理和维护开销。
如果想了解Google
Cloud Platform到底有哪些优势，可以访问这个。
Google很乐意听到你关于如何更好的在Google Cloud Platform运行Hadoop和MapReduce的反馈和想法。写在最后：为了与该领域的主要对手 AWS及其EC2竞争，Google已经通过增加一系列得新特性来巩固其平台优势，包括更先进的路由、高达10TB的大型永久磁盘、更新App
Engine托管服务以及降低成本等。可以预测，这些措施将使Google获得数十亿美元的基础设施市场，同时，我们期待Google能够为App继续开放更大的空间。
原文链接：
&（编译/魏伟审校/仲浩）
推荐阅读相关主题：
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号：CSDNnews
相关热门文章拒绝访问 | www.codesec.net | 百度云加速
请打开cookies.
此网站 (www.codesec.net) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(3b94f75d100d43bf-ua98).
重新安装浏览器，或使用别的浏览器中国领先的IT技术网站
51CTO旗下网站
Google打造新大数据系统Mesa
Google最近发表了一篇有关大数据系统的论文，讨论了一个名为Mesa的数据仓库系统，它能处理近实时数据，即使在整个数据中心断线后还能正常工作。Google工程师将在下月于中国举行的超大型数据库会议上，提交一篇有关Mesa的论文。
作者：佚名来源：雷锋网| 09:39
Mesa是什么
先行发布的论文摘要可以让我们对Mesa一窥究竟：
Mesa是一个高度可扩展的分析数据仓库系统，能存储与Google广告业务有关的关键测量数据。Mesa能满足复杂和具有挑战性的用户与系统需求，包括近实时数据提取和查询，同时在海量数据和查询量中保持高可用性、可靠性、容错率和扩展性。Mesa每秒能处理数百万行更新，每天进行数十亿查询抓取数万亿行数据。Mesa能进行跨数据中心复制，即使在整个数据中心故障时，也能以低延迟返回一致和可重复的查询结果。
本质上来说，Mesa是一个ACID式数据库(即，如果有人进行查询，就会得到相应数据)，速度快，规模大，可靠性强。它被设计为处理与Google广告业务有关的需求(服务内部用户，以及消费者的前端查询服务)，但也能作为一般数据仓库系统，供其他用途。
与其他产品有何区别
当然，Google早就拥有自己的数据系统，比如BigTable、Megastore、Spanner和F1。但BigTable无法提供必要的原子性;Megastore、Spanner和F1在跨区域数据上能保证一致性，却无法满足峰值更新吞吐量需求。当然，Mesa在元数据存储和维护上利用了之前的技术。
另外Google自身的Dremel，以及Facebook 与Twitter数据系统，一般只用作处理批量数据装载，而不是像 Mesa那样即时处理数据。而且，目前的商业产品或产品系统均不能用来管理跨数据中心的重复数据，这些系统也并非基于云技术，灵活性也不强。它们对动态条款和资源置换的适应性也很弱，无法处理数据负载波动。
不只是一个数据库
Mesa比较值得注意的一点是其硬件。之前的系统都使用价格昂贵的企业级硬件，但Mesa使用Google的标准云设施，均由自己设计和建立。
长期来看，Mesa不只是一个数据仓库系统。像Hadoop那样的社区也在密切关注Google的新动向，这可能会代表一波技术潮流。另外，从云计算角度看，这会加剧与亚马逊和微软云服务的竞争，进一步拉低市场价格。Google一直以高精尖技术闻名，这一次Mesa估计也会拉开其与同类公司的距离。
【责任编辑： TEL：（010）】
大家都在看猜你喜欢
头条头条热点头条头条
24H热文一周话题本月最赞
讲师：30976人学习过
讲师：251680人学习过
讲师：171354人学习过
精选博文论坛热帖下载排行
本书从计算机网络安全的概念入手，分析了单机节点、单一网络、互联网络和开放互联网络的基本安全问题，并对计算机网络安全体系架构和安全机...
订阅51CTO邮刊您好， []|
谷歌风投基金建数据科学团队发展大数据业务
腾讯科技讯（童云）北京时间4月12日消息，由提供融资的独立风投基金Google Ventures正在筹建内部数据团队，这个团队是该基金投资哲学的核心。Google Ventures最新聘用的一名员工是Hazem Adam Ghobarah，他与该基金的其他许多员工一样也曾是谷歌雇员。Ghobarah曾在谷歌供职六年，最近的职位是广告部门定量研究和建模团队成员。在加入Google Ventures以后，他将寻找数据分析业务领域中的投资机会，并与该基金目前投资的一些公司合作找出搜集及利用大量信息的方法。Google Ventures董事总经理比尔·马瑞斯（Bill Maris）称：“这是我们正在组建的完整团队的一部分。”业界人士指出，对于由谷歌创立的这家风投基金来说，进军大数据行业并不令人感到惊讶。对新兴的大数据行业而言，谷歌、和等网络先驱都在创造这个行业的问题上起到了至关重要的作用。通过追踪用户点击和成千上万的计算机服务器协同工作的行为等数据，它们积累了海量的数据。此外，它们还从电子邮件等非传统来源那里抓取了大量信息，促使其创建了Hadoop和MapReduce等所谓的“非结构化”数据库软件。谷歌用来分析网络流量以作出模型预测的方法正日益被应用于其他领域。Ghobarah认为，生物学是一个吸引力日益增强的领域。他表示：“我们正重新开始对生命科学领域进行投资”，“在给定的一年中，病理学的幻灯片数量可能会达到2亿张；如果把这些数据放到网上，那么就会变成一个大数据的问题”。Google Ventures并非唯一正在加速发展大数据业务的风投基金。美国职业社交网站LinkedIn创始人雷德·霍夫曼(Reid Hoffman)合伙的Greylock Partners基金也已聘用DJ Patil为数据科学家，DJ Patil原本也在LinkedIn供职。此外，风投基金Andreessen Horowit已在多个互联网部门中进行了投资，其中包括实时数据交易市场Factual等。
[责任编辑：lincelkong]
(请登录发言，并遵守)
如果你对科技频道有任何意见或建议，请到交流平台反馈。【】
新闻排行财经科普数码科技
Copyright & 1998 - 2017 Tencent. All Rights Reserved刘奇：如何使用HBase构建NewSQL？-CSDN大数据
刘奇：如何使用HBase构建NewSQL？
目前主流的数据库或者NoSQL要么在CAP里面选择AP，比较典型的例子是Cassandra，要么选择CP比如HBase，这两个是目前用得非常多的NoSQL的实现。我们的价值观一定认为未来是分布式的，一定是尽量倾向于全部都拥有，大部分情况下取舍都是HA，主流的比较顶级的数据库都会选择C，分布式系统一定逃不过P，所以A就只能选择HA。现在主要领域是数据库的开发，完全分布式，主要方向和谷歌的F1方向非常类似。目前看NewSQL代表未来(Google Spanner、F1、FoundationDB)，HBase在国内有六个Committer，在目前主流的开源数据库里面几乎是最强的阵容。大家选型的时候会有一个犹豫，到底应该选择HBase还是选Cassandra。根据应用场景，如果需要一致性，HBase一定是你最好的选择，我推荐HBase。它始终保持强一致，我们非常喜欢一致性，丧失一致性的时候有些错误会特别诡异，很难查。对于Push-down特性的设计其实比较好，全局上是一个巨大的分布式数据库，但是逻辑上是分成了一个个Region，Region在哪台机器上是明确的。比如要统计记录的条数，假设数据分布在整个系统里面，对数十亿记录做一个求和操作，就是说不同的机器上都要做一个sum，把条件告诉他要完成哪些任务，他给你任务你再汇总，这是典型的分布式的 MPP，做加速的时候是非常有效的。2015年HBaseConf 上面有一句总结: “Nothing is hotter than SQL-on-Hadoop, and now SQL-on- HBase is fast approaching equal hotness status”，实际上SQL-on-HBase 也是非常火。因为 Schema Less 没有约束其实是很吓人的一件事情，当然没有约束也比较爽，就是后期维护十分痛苦，规模进一步扩大了之后又需要迁移到 SQL。现在无论从品质还是速度上要求已经越来越高，拥有SQL的同时还希望有ACID的东西(OLAP一般不追求一致性)。所以TiDB在设计时就强调这样的特点：始终保持分布式事务的支持，兼容MySQL协议。无数公司在SQL遇到Scale问题的时候很痛苦地做出了选择，比如迁移到HBase，Cassandra MongoDB已经看过太多的公司做这种无比痛苦的事情，现在不用痛苦了，直接迁过来，直接把数据导进来就OK了。TiDB最重要的是关注OLTP，对于互联网业务来说通常是在毫秒级内就需要返回一个结果。我们到目前为止开发了六个月，开源了两个月。昨天晚上TiDB达到了第一个Alpha的阶段，现在可以拥有一个强大的数据库：支持分布式事务，始终保持同步的复制，强大的按需Scale能力，无阻塞的Schema变更。发布第一个Alpha版本的时候以前的质疑都会淡定下来，因为你可以阅读每一行代码，体验每个功能。选择这个领域也是非常艰难的决定，实在太Hardcore了，当初Google Spanner也做了5年。不过我们是真爱，我们就是技术狂，就是要解决问题，就是要挑大家最头痛的问题去解决。好在目前阿里的OceanBase给我们服了颗定心丸，大家也不会质疑分布式关系型数据库是否可行。TiDB名字由来为什么叫TiDB？大家起名字的时候特别喜欢用希腊神话里面的人物，但几乎所有的希腊神话人物的名字都被别的项目使用了，后来我们就找了化学元素周期表（理工科男与生俱来的特征），化学元素周期表里找到一个不俗且又能代表我们数据库特性的元素-Ti 。Ti是航空航天及航海里面很重要的设备都会用到的，特别稳定，也比较贵。TiDB的系统架构图TiDB怎么支持MySQL这个协议？这里会有一个协议解析层，它的作用就是去分析MySQL协议，转成内部可以识别的分发给自己的SQL Layer。当SQL Layer 拿到这个语句之后会把它拆成对应的分布式KV操作，所以这里会有一个Transactional KV Storage。接下来是在KV基础上增加事务的支持，再往上是普通的KV操作，理论上KV选什么都可以，如果选的是HBase有一个好处，它本身就是分布式，省掉分布式的工作。目前我们在小米的Themis基础上做了些优化和改进，和我们TiDB做了一个很好的结合。后期我们有一个计划，准备自己重写一套底层的分布式KV，把HBase换掉。因为HBase对于Container不友好，加上GC也是让人比较讨厌的问题，压力比较大的时候GC延迟会加长。Google Percolator实现方式HBase上面分布式事务典型的设计，先来说一下Goolge Percolator 内部实现，看架构图：Goolge Percolator内部实现分布式事务基本设计是在上面这个 Percolator层，Timestamp Oracle 可以保证严格的递增。Percolator是在KV上的实现，它对于SQL的角度考虑比较少，有一个隔离级别的问题，很典型的是Snapshot Isolation, SQL 语句落在KV上的实现，如果只有Snapshot Isolation的话隔离级别就太低了。此外，这个模型还有其它的问题。比如，它每秒能分配多少个递增的Timestamp？Google分享的一个slides的数据，每秒200万，小米也开源了自己的实现，每秒60万，我们前一阵也写了一个每秒400万，优化一下可以达到800万。因为Timestamp业务特别简单，所以可以做针对性的优化，当然很少有业务能跑到这个级别的事务。Yahoo OMID的实现雅虎的OMID实现，架构图如下：雅虎的OMID实现除了Timestamp的职能，TSO还维护更多信息用于检测事务冲突。TSO是整个Omid系统的单点，如果一个系统只需要一个单点，单点做得越少就能获得越多的性能，也更容易优化。下图是它的分布式事务的执行过程：假设现在要发起一个分布式事务，第一个事情是拿Start TS，再去做你的读写操作，做读写操作的时候会把Key都记下来。Commit的时候要先冲突检测，这就是TSO 要做的更多的事情，更具体的细节请参考Omid 的论文或者 &&从零开始写分布式数据库&&一书。谷歌的Spanner，细节非常多，引用的论文有40多篇，很吓人，有些引用的论文也非常经典，很值得一读。Spanner已经不再使用NTP了，需要用一个有信心的靠谱的方式来同步时间。内部也说不再用NTP做时间的维护，GPS是非常简单便宜的方式，GPS是大家使用滴滴打车时用于得到定位信息的。GPS还给了当前精确的时钟信息，有软件可以把这个检测出来，可以直接使用它的这个信号来同步时间。使用GPS信号的好处很明显，随便在哪个山区都有GPS信号，但不一定能收到基站的信号，同时它的精度也非常高。TiDB的技术选型再来说说TiDB的一些技术选型的例子。选择MySQL协议后会做一些取舍，有些地方不完全按Google F1去做设计的。Google F1里做的比较好的是非常经典的Non-blocking schema changes。比如现在要加一个索引，如果横跨数十台机器，数十亿条记录，加索引的速度是非常慢的，那么这个过程必须是不阻塞的，不影响正在运行的业务的。因为在建立索引的同时需要修改别的地方，所以要做一个原子的提交，细节上还要处理事务冲突的错误。F1有并发的图，我们刚才提到HBase里通过Push-down可以把一些计算下推到对应的节点上去。但由于F1依赖Spanner，而Spanner会频繁地做Reblancing，会把数据不断的移动，所以它在上面很难基于range信息一次做最优的决策。SQL如何映射分布式KV？SQL到底是怎么映射到分布式KV上？现在HBase分层分得更加清楚，SQL层不太关心下面到底用什么，在乎的是接口。映射的过程，假设User Table里面有个Email，我们存储的时候是用ID做它的标识，这有很多的好处，比如删掉再重新添加一样的，它要生成不同的ID。在数十亿条记录的情况下删除一个Table，删除的过程完全可以由Map-Reduce异步去做。为什么提供MySQL协议的支持？如果重新写一个数据库会遇到一个很大的问题，大家凭什么相信你是对的，数据库需要时间需要测试，好在你接入MySQL协议，你可以经过和MySQL一样严谨的测试。但如果是自己完全写一个，不借用它的协议，不借用它的语法，没有测试，大家凭什么相信你是对的。现在这个时代没有Communit是很可怕的，闭门造车很容易走偏。TiDB现在可以让用户一行代码都不改，跑WordPress等，还支持很多的ORM，这些ORM可以直接用，用户的代码一行不改可以直接迁过来，完全拥有水平扩展的能力，完全拥有分布式事务的支持。前TiDB在Github上2800+star。个人简介：刘奇，开源分布式数据库TiDB创始人，Codis项目创始人，分布式系统专家。曾任豌豆荚，京东资深系统架构师。同时也是知名的Go语言专家和Redis专家。现从事开源的分布式NewSQL数据库TiDB（受Google F1启发）的开发。擅长高并发、大规模、分布式数据库系统架构设计，微博（@goroutine）。
本站内容来自网友分享，如果侵犯了您的权益，请告诉我们!QQ:}

叫阿莫西中心