大数据行业应用是什么专业

摘要:从11月7日到12月7日,在短短一个月左右的时间,我们得到来自全国各地3326位热心用户的支持,并从中挑选数十位朋友赠予丰厚大奖,下面我们来一起看下本次调查为我们揭示的大数据行业,以及那些获奖的小伙伴们。
揭开大数据生态圈背后的真相,切实了解开发者对大数据平台的需求,用真实数据分析大数据行业发展趋势及产品方向。近日,在2014中国大数据技术大会召开前夕,CSDN特推出针对大数据初创企业的和针对大数据从业者的&&活动,旨在更全方位地洞察中国大数据产业现状,为大数据技术从业者和创业者们提供良好的参考与建议。
历经3个月的激烈争夺,凭借着创新的产品设计,贴近需求的技术实践,经过专家委员会的层层筛选,8家大数据初创企业脱颖而出,获得的称号,并受邀在BDTC2014大会上展示他们的技术。恭喜!
日志易杭州沃趣网络科技有限公司一点资讯九次方大数据北京优立方科技有限公司北京数人科技有限公司聚道科技量化派
调查方面,从11月7日到12月7日,在短短一个月左右的时间,我们得到来自全国各地3326位热心用户的支持,并从中挑选数十位朋友赠予丰厚大奖。下面一起看下本次调查为我们揭示的大数据行业,以及那些获奖的小伙伴们。
公司使用大数据的基本情况
时至今日,无论你是来自互联网行业、通信行业,还是金融行业、服务业或是零售业,相信都不会对大数据感到陌生。据调查报告显示,32.5%的公司正在搭建大数据平台,处于测试阶段;29.5%的公司已经在生产环境实践大数据,并有成功的用例/产品;24.5%的公司已经做了足够的了解,开发准备就绪;基本不了解的只占3000+用户的13.5%。
现有公司大数据的使用情况&
其中,大家对大数据平台提出的的主要需求有:36.5%是进行海量数据的离线处理,比如大数据BI;23.2%是为了大量数据的实时处理,比如在线交互式分析;40.3%的公司的大数据平台则同时负责这两种业务。
大数据平台主要负责的业务&
传统观念下,大数据往往是大型互联网公司的玩物。然而,通过本次调查,我们却发现在那些对大数据平台有需求的公司中,研发团队规模远没有我们想象的大,29.11%的研发团队仅有1-10人,次居第二的10-50人的规模占到了25.77%,两种规模的研发团队就超过了一半。可见,当下大数据的需求已不止步于大型公司。&
研发团队规模&
从传统架构到大数据时代应用程序架构的转变往往都会遇到一些问题和挑战。在对计算框架门槛调查中,非专业人士难于入手这一难题的比例达到了46.5%,这对企业人才的培训提出了迫切的要求。&
当下计算框架使用过程中存在的问题&
打造大数据平台需要企业克服诸多问题和挑战,尤其是安全性和可靠性方面。&
大数据平台打造的主要挑战
大数据技术现状
大数据技术在开发者或从业人员的应用中逐步走向成熟,这些成熟的技术在开发人员的探索中得到了初步的稳定发展,公司的使用便是对这些技术的肯定。包括开发语言,数据分析语言、数据库等在内的大数据工具,究竟哪个更适合自己的业务,相信开发者们都有自己的评判标准。
在众多的开发语言中,大数据平台开发者们尤为青睐Java,占到了总比例的65%, 远远超过其他开发语言。值得一提的是,Hadoop本身就由Java实现的。
大数据开发语言
在大数据分析语言中,SQL的使用比例达到了64%,是R语言使用者人数的2倍之多。我们从中不难看出SQL-on-XXX项目的前景;同时从R的支持率上,也看到了更多非技术人员,比如数据分析师对低门槛分析类语言的需求。
大数据分析通常用的语言
在大数据存储上,HBase则以67.55%的比例位居榜首,远超其他数据仓库,当然这点与Hadoop原生支持是分不开的。
大数据存储中适合的数据库
对存储在HBase或Cassandra这样NOSQL数据库中的数据进行复杂查询,Solr、Elasticsearch、Splunk等主流的搜索引擎差距并不大。
对存储在NOSQL数据库中的数据进行复杂查询,比较合适的工具
大数据未来发展
诚如上文所说,许多对大数据有需求的公司并不一定具备强大的研发团队,在大数据处理过程中往往遭遇众多挑战。那么,在面临这些挑战时,开发者最迫切需要的是什么?
为了解决公司中的实际问题,39.28%的人希望拥有更犀利和通用的计算框架;37.88%的人希望能拥有更好的数据挖掘算法;21.59%的人则对保障性更高的运维有了更多的期盼。
为了解决公司的实际问题,最希望拥有的新技术
良好的大数据计算平台能够有效地支撑企业的海量数据,对于下一代通用大数据技术平台,Spark和Hadoop是公司的主要选择。同时,我们也看到了新贵Spark的发展前景,对比老将Hadoop,差距也仅有3.7%。
人们看好的下一代通用大数据计算平台
现有公司中,大数据平台已包含的部件位居前三的主要是SQL数据库(90.3%)、NoSQL数据库(50.7%)和HDFS(47.2%),在此基础上,公司计划添加的部件主要包含SQL数据库(57.2%)、Spark(41.5%)和NoSQL数据库(26.9%)。从各公司已有大数据部件和计划添加的部件可以看出,SQL数据库和NoSQL数据库在公司的大数据平台中发挥了重要的作用,得到了各公司的青睐。
现有大数据平台已包含的部件 &&
&现有大数据平台计划添加的部件
为了获取更高的收益,企业在前期需要进行有效地成本投入,对大数据平台的投资,公司更加不会吝啬,其中被调查的人群中,45.7%的人所在企业有追加投资大数据平台的打算,同时,公司也期望能够通过多种途径完善大数据平台,主要的完善途径包括基于开源平台自主研发、购买成熟的解决方案,使用公有云。
企业期望完善大数据平台的途径
使用公有云也是企业期望完善大数据平台的有效途径之一,在选择公有云平台方面,企业也面临着很大的倾向性,45.26%的人将阿里云作为首选。
公有云平台的选择
大数据技术培训
技术培训能够对开发者起到一定的指导作用,使得听众可以系统全面的把握新技术的知识脉络,了解技术的发展趋势。在此次调查活动中,69.4%的被调查者表示从未参加过大数据平台构建的技术培训。对于技术培训的形式,49%的人希望是线上培训,收费,成系列型的大数据解决方案,专攻一个方向,解决实际问题;37%的被调查者还是希望免费进行技术培训,即使不成系列,无论是线上线下,能听一节是一节。虽然收费在一定程度上影响了开发者对大数据技术培训的热情,但是能够切实解决实际问题,得到技术和能力的提升,仍是相关技术人员追求的培训目标。
更适合的技术培训形式
那么,对开发者来说,大家特别期望从技术培训中获取的知识又会是什么?
大数据领域,迫切学习或参加培训的新技术
根据本次调查,我们不难发现,大数据仍然只在少数公司的生产环境投入使用,造成这个情况的原因主要有两个:首先,当下的大数据计算框架在使用上仍然存在很高的门槛;其次,受限于公司研发团队的实力。在大数据平台打造上,大部分机构都期望通过自主研发来完成这个过程,同时也期望获得更符合使用习惯的计算框架,比如SQL。同时,在自主研发和购买解决方案添加大数据属性之外,很多机构将注意力集中到云计算,其中国内云供应商阿里云45.26%的得票率更是值得欣慰。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:67537次
积分:1042
积分:1042
排名:千里之外
原创:15篇
转载:90篇
(1)(2)(8)(1)(7)(3)(1)(16)(2)(21)(5)(5)(2)(13)(14)(21)(1)(6)(2)(15)(5)(4)六大优势>>>
两大学科优势整合
华南区首家985高校开设云计算与大数据硕士项目,从技术统筹、数据分析等课程开展人才培育,2014级首届云计算大数据专业成功录取65名学员,2015级成功录取101名学员
知名企业实践平台
提供国内外主流云计算和大数据实验平台,满足学生的动手实践。学校联合慧科教育与Amazon、百度、腾讯、阿里云、IBM、中国移动、微软等诸多企业深度合作
国内外顶级专家授课
师从多名中外顶尖云计算架构师和大数据分析师,以及行业专家组成师资团队,结合各自领域的亲身实战经验,深入浅出地讲授云计算和大数据在行业内的应用
学历、学位双证
优质校友资源
有本科毕业于浙大、复旦、中大等高校学员;有现就职BAT、三大运营商、四大银行等名企学员;更有老板、总经理等高管职位学员
丰富办学经验
已成功举办两届云计算与大数据硕士班,积累丰富的教学和实践经验
课程体系>>>
本专业课程使学习者熟悉云计算平台技术、云服务技术、移动开发与架构、软件架构、人机交互设计等云计算领域的核心技术与应用,同时掌握大数据技术框架和生态系统,大数据的架构原理和使用场景。能够很好的结合云计算和大数据实现综合应用处理、数据分析等相关技术的广泛应用,协助企业决策者制定合适的技术路线或者业务发展图,使企业适应行业发展需求。为云计算产业和大数据产业的发展输出高水平、复合型精英人才,推动国家战略新兴产业的蓬勃发展。
实践平台>>>
华南理工大学和慧科教育(国家工信部CSIP移动云计算教育培训中心授权单位)联合多家有影响力的IT知名企业,共同承建了服务于云计算与大数据应用的多个实践平台。
云计算实践平台方面,联合国家工信部移动云计算教育培训中心及国内外行业领先企业(联想、爱立信、HTC等),一起组建企业级移动云计算实验室,并且结合企业真实项目,专门开设“综合应用开发实践”课程,由企业派遣项目经理或者项目开发工程师现场指导学生进行开发训练,让学生真正动手做实验,同时为企业培养和选拔云计算领域的相关人才。
大数据实践平台方面从硬件、软件和数据源等方面,为学生提供包括计算资源、企业数据、教学案例、实习项目、研究课题在内的大量实践实习资源,并由来自于诸多名企(百度、腾讯、微软、阿里云等)的业界专家亲自带领学生完成商业数据的分析、开发及应用等工作内容,在产学研一体化的推动下形成一个良好的大数据专业教学实践生态环境。
熟悉百度移动云开发平台(BAE),理解其在PaaS层面上的云存储、云数据库、云消息、虚拟机、应用引擎等云服务组件;学习使用架构在SaaS上的搜索API、地图API、相册API来开发移动应用,深度体会开放的百度BAE在大数据、云计算方面的核心技术体现。
通过AWS程序访问Amazon的计算基础设施,练习使用Amazon多年来一直在构建和调整的健壮的云计算平台,重点体验其为满足大多数系统核心需求所提供的基本服务,包括存储、计算、消息传递和数据集。
在硬件上,基于大数据进行实时的数据集分析需要像MapReduce等一样的框架来向数十、数百或甚至数千的电脑分配工作,由此对服务器平台有很高的要求。目前,华工计算机科学与工程学院、慧科教育、百度公司累计提供上前台服务器,共同组建了庞大的数据处理中心,为进行大数据领域的研究与实践搭建了共享的多层面IT平台,共同服务于大数据技术专业的实践与研究。
大数据技术离不开海量数据源,大数据实践平台上部署了多个企业级数据源,其中包括社交网络数据(人人网、开心网和新浪微博的真实数据约在10T左右)、交通数据网(6T左右)、百度、阿里云等名企的完整的海量数据,学生可在平台上展开数据信息交易、数据挖掘、数据统计与分析等应用,不断提升运用、解释、挖掘数据的能力。
在硬件上,基于大数据进行实时的数据集分析需要像MapReduce等一样的框架来向数十、数百或甚至数千的电脑分配工作,由此对服务器平台有很高的要求。目前,华工计算机科学与工程学院、慧科教育、百度公司累计提供上前台服务器,共同组建了庞大的数据处理中心,为进行大数据领域的研究与实践搭建了共享的多层面IT平台,共同服务于大数据技术专业的实践与研究。
师资团队>>>
陈滢 专业主任IBM原中国研究院副院长
2011年“江苏省高层次 创新创业人才引进计划”引进人才,2012年南京市“321科技领军人物”。在国内外学术期刊和会议上发表论文60余篇,在美国和其他国家获得专利40余项。合著有《虚拟化与云计算》等四部云计算书籍。陈滢博士任职IBM时领导团队在中国推广智慧地球和云计算等重大战略项目, 获得12个专利白金奖。
教授,博士生导师,“广东高校大数据智能信息处理与安全工程技术研究中心”主任,华南理工大学“多媒体技术与图形图像处理”学术团队负责人,教育部计算机教学指导委员会委员、广东省计算机学会理事长、广东省“千百十人才工程”省级骨干教师。
教授,博士生导师,教育部“新世纪优秀人才”,“广东省大数据分析与处理工程技术研究中心”主任,华南理工大学“视听觉与服务计算”学术团队负责人,广东省“千百十”省级培养对象,国际IEEE会员和ACM高级会员,中国计算机学会高级会员。
教授,博士生导师,华南理工大学“移动软件开发环境”学术团队负责人。1996年毕业于中国科学院计算技术研究所,获博士学位。主要研究兴趣为图像处理与模式识别、移动多媒体计算、运动图像分析分析、人脸识别、智能视觉监控等。
教授,博士生导师,现任广东省计算机网络重点实验室副主任等职,华南理工大学高性能计算与海量信息处理学术团队负责人。在国内外学术期刊和国际学术会议发表SCI/EI索引学术论文60多篇,主持开发Matrix智能邮件处理系统,木棉搜索引擎等。
教授、博士生导师。发表论文80余篇(三大索引50余篇),出版学术专著和教材4部,获得软件著作权24项、申请发明专利65项,作为项目负责人或主要完成人,承担过多项国家科技部、教育部、地方政府、企事业单位委托科研项目。
教授、博士生导师。国际IEEE会员,中国计算机学会会员,同时担任《IET Software》等期刊审稿员,曾在微软公司从事高级应用开发顾问和高级系统分析师等工作。
全面负责百度云的技术产品研发、对外合作与生态系统建设等工作;中国计算机学会大数据专委会委员。国家863中国云“以支撑搜索服务为主的网络操作系统”项目负责人,发改委、工信部、财政部“云计算示范专项”项目负责人,中国计算机学会大数据专委会委员。
毕业于清华大学电子工程与应用电子技术系,中国惠普企业服务事业部首席技术官(CTO),拥有超过17年的 IT 从业经验,先后在思科、IBM担任IT架构师,主要研究方:数据中心管理及转型、云计算以及虚拟化。
美国伊利诺伊大学Urbana-Champaign分校计算机科学博士,曾任微软研究院华盛顿州雷德蒙市研究员及经理,雅虎公司高级研究科学家。主要研究领域包括PB规模的数据挖掘、统计机器学习、信息检索、推荐系统、Web应用程序、分布式计算、软件可靠性等。
EMC云计算高级架构师,曾就职于HP、中国网通等国内外知名IT公司,拥有12年云计算开发经验。目前研究领域为虚拟化、存储以及云计算。
IBM大中华区系统与技术集团高级云解决方案顾问,兼任SystemX云计算产品的产品经理,负责云计算解决方案的销售、业务拓展 。有丰富的虚拟化、云计算产品设计和实施经验。
毕业于美国卡内基梅隆大学计算机机器人专业,获博士学位。现任北京丰牵云启技术有限公司CEO主要研究领域包括云存储、分布式计算等。主要研究领域包括云存储、分布式计算等。
毕业于加州大学伯克利分校计算机科学系,获博士学位。近年来在面向服务计算领域表现活跃且建树颇多,已在IEEE Transactions、Communications of the ACM、IEEE Software等国际期刊以及ICSM、QSIC、COMPSAC等国际会议上发表论文300多篇。
上海交通大学计算机科学与工程系博士。近几年来共发表国际论文70余篇,申请美国发明专利8项、中国专利4项。40余篇论文被发表在诸多国际期刊。研究成果被国际同行他引1400余次,其中迁移学习研究处于国际领先水平,MIT(麻省理工学院) Technology Review对此研究成果进行过报道。
博士生导师。于2009年加入微软亚洲研究院;2000年到2009年与IBM的TJ Watson在研究中心工作。于2000年在加利福尼亚大学获得计算机科学的博士学位。研究兴趣主要包括数据库语言和系统、数据读取方法、数据外包、数据挖掘、以及语义数据库和RDF存储。
就业前景>>>
优质校友>>>
办学成果>>>
日该专业发布以来,仅28天时间,参加考试学员就过百人,最终首届云计算与大数据专业方向成功自录取65名学员。他们都来自于非常优秀都企业,诸如阿里、华为、三大运营商、银行及很多互联网企业。
2015年,从14年录取65人上升到101人。他们都来自于非常优秀都企业,诸如南航、爱立信、唯品会、亚信、电网、邮政、三大运营商及很多互联网企业。
【报名地点】
广州市天河区华南理工大学五山校区1号楼308室
【乘车路线】
地铁:乘坐地铁三号线至五山地铁C出口步行约500米至1号楼308室
公交:乘坐公交至华工大总站下车步行约500米至1号楼308室
【咨询电话】
办公室:020-
华工云计算大数据公众号
&nbsp 扫一扫,马上咨询您的位置: >> 正文
哪些专业好找工作?大数据告诉你
昨日,市教委公布了我市2016届普通高校毕业生就业情况报告。2016年,重庆共有普通高校毕业生约20.75万人,截至日,2016届普通高校毕业生就业率为89.09%,与2015届同比上升0.11%。其中,女生就业情况总体优于男生,就业人数比男生多1.6万人,就业率略高于男生。
2016年重庆毕业生约20.75万人,其中,专科毕业生8.10万人(39.04%),本科毕业生11.12万人(53.58%),毕业研究生1.53万人(7.38%),超60%的毕业生选择留渝就业。根据重庆市教委统计数据,毕业生主要在企业就业,占已就业毕业生的74.22%,其中63.59%在非国有企业就业;事业单位就业人数也较多,占11.4%。
从行业分布来看,主要在建筑、信息传输(软件和信息技术)服务、制造、教育和批发(零售)业等行业就业。
研究生 控制科学与工程就业率最高
2016届毕业研究生约1.53万人,截至日,就业率为82.37%。毕业研究生中,人数最多的学科大类为工学,超研究生总数30%,法学、医学和管理学人数也较多,均在10%以上。
就业率95%以上的专业
序号 专业名称就业率
1 控制科学与工程 100%
2 信息与通信工程99.58%
3 车辆工程99.51%
4 工商管理99.48%
5 电气工程97.03%
序号 专业名称就业率
6计算机技术96.77%
7儿科学96.64%
8控制工程96.55%
9电子与通信工程96.33%
10机械工程96.32%
本科生 资产评估专业就业率最高
2016届本科毕业生约11.12万人,截至日,就业率为87.65%。本科毕业人数最多的前5位专业分别是英语、会计学、艺术设计、法学和汉语言文学。
就业率95%以上的专业
序号 专业名称就业率
1 资产评估99.04%
2 动物医学98.91%
3 地理科学98.06%
4 日语97.09%
5 动物科学96.96%
6 工程造价96.86%
7 知识产权96.62%
序号 专业名称就业率
8舞蹈学96.01%
9艺术教育96.01%
10建筑环境与设备工程96%
11信息与计算科学95.65%
12物联网工程95.34%
13法语95.27%
14表演95.25%
各专业大类就业率
都在90%以上
2016届专科毕业生约8.10万人,截至日,就业率为92.33%。专科毕业生各专业大类就业率均在90%以上,其中生化与药品大类最高,就业率超98%。从专业来看,电信商务和中药的就业率达100%,就业率85%以下的专业仅有一个:语文教育,81.79%。
[] [] []
[责任编辑: 彭祎琦]
新华网重庆频道编辑部 电话:023-
扫描二维码 关注更多重庆精彩
“重庆正事儿”,戳一戳就知道重庆的大事儿!
重庆评论 |大数据是什么意思
查看: 8806|
摘要:   大数据(Big Data)   大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety ...
  大数据(Big Data)
  大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。
  大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结构化数据(如文本、图像、声音、视频等数据)。这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成。在大数据之中,有价值的信息往往深藏其中。这就需要对大数据的处理速度要非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的信息。在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数据剔除,利用真实的数据来分析得出真实的结果。
  大数据分析(Big Data Analysis)
  大数据,表面上看就是大量复杂的数据,这些数据本身的价值并不高,但是对这些大量复杂的数据进行分析处理后,却能从中提炼出很有价值的信息。对大数据的分析,主要分为五个方面:可视化分析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)和数据质量管理(Data Quality Management)。
  可视化分析是普通消费者常常可以见到的一种大数据分析结果的表现形式,比如说百度制作的“百度地图春节人口迁徙大数据”就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观形象的图表,使其能够更加容易的被普通消费者所接受和理解。
  数据挖掘算法是大数据分析的理论核心,其本质是一组根据算法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析,挖掘出以前未知的两者间的联系,并利用这种联系,提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。
  预测性分析能力是大数据分析最重要的应用领域。从大量复杂的数据中挖掘出规律,建立起科学的事件模型,通过将新的数据带入模型,就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域,用于股票预测或气象预测等。
  语义引擎是机器学习的成果之一。过去,计算机对用户输入内容的理解仅仅停留在字符阶段,不能很好的理解输入内容的意思,因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析,让计算机从中自我学习,可以使计算机能够尽量精确的了解用户输入内容的意思,从而把握住用户的需求,提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。
  数据质量管理是大数据在企业领域的重要应用。为了保证大数据分析结果的准确性,需要将大数据中不真实的数据剔除掉,保留最准确的数据。这就需要建立有效的数据质量管理系统,分析收集到的大量复杂的数据,挑选出真实有效的数据。
  分布式计算(Distributed Computing)
  对于如何处理大数据,计算机科学界有两大方向:第一个方向是集中式计算,就是通过不断增加处理器的数量来增强单个计算机的计算能力,从而提高处理数据的速度。第二个方向是分布式计算,就是把一组计算机通过网络相互连接组成分散系统,然后将需要处理的大量数据分散成多个部分,交由分散系统内的计算机组同时计算,最后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算机的计算能力不强,但是由于每个计算机只计算一部分数据,而且是多台计算机同时计算,所以就分散系统而言,处理数据的速度会远高于单个计算机。
  过去,分布式计算理论比较复杂,技术实现比较困难,因此在处理大数据方面,集中式计算一直是主流解决方案。IBM的大型机就是集中式计算的典型硬件,很多银行和政府机构都用它处理大数据。不过,对于当时的互联网公司来说,IBM的大型机的价格过于昂贵。因此,互联网公司的把研究方向放在了可以使用在廉价计算机上的分布式计算上。
  服务器集群(Server Cluster)
  服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。因此,从外部看,这群服务器表现为一台虚拟的服务器,对外提供统一的服务。
  尽管单台服务器的运算能力有限,但是将成百上千的服务器组成服务器集群后,整个系统就具备了强大的运算能力,可以支持大数据分析的运算负荷。Google,Amazon,阿里巴巴的计算中心里的服务器集群都达到了5000台服务器的规模。
  大数据的技术基础:MapReduce、Google File System和BigTable
  2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。
  MapReduce是分布式计算框架,GFS(Google File System)是分布式文件系统,BigTable是基于Google File System的数据存储系统,这三大组件组成了Google的分布式计算模型。
  Google的分布式计算模型相比于传统的分布式计算模型有三大优势:首先,它简化了传统的分布式计算理论,降低了技术实现的难度,可以进行实际的应用。其次,它可以应用在廉价的计算设备上,只需增加计算设备的数量就可以提升整体的计算能力,应用成本十分低廉。最后,它被Google应用在Google的计算中心,取得了很好的效果,有了实际应用的证明。
  后来,各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统,Google的这三篇论文也就成为了大数据时代的技术核心。
  主流的三大分布式计算系统:Hadoop,Spark和Storm
  由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。
  Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。
  Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
  不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。
  Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。
  Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。
  Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。
上一篇:下一篇:
Powered by &
这里是—这里可以学习 —这里是。
栏目导航:}

我要回帖

更多关于 大数据专业报哪个大学 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信