如何学习做蛋糕 Spark

点击联系发帖人 时间：2016-04-16 05:39

雅思培训学习

其实北京一年，我也一直在考虑我回所到底研究什么方向，但都只是停留在想想的层次，最终也没什么结果，回来老师问了我的想法说，学分布式计算吧，读博也可以，找工作也好找，文章也好发，我一想，这感情好啊，既符合我搞开发的兴趣，文章也不难发，毕业了还有两个选择，简直是三全其美啊。虽然老师给了我两个月的时间考虑，但是我基本就决定了，我一定要研究这个方向，于是就有了接下来的话题。
1.北京打了一年酱油刚回来、什么都不会。
2.即将面临开题、压力山大。
3.老板告诉我学这个需要高智商，需要学很多东西，需要能坚持下去。
就在这样的背景下，开始了我的受虐之路
自认为编程基础还不错的我就被虐的像个计算机小白一样。
以前你服务器接触的是什么类型，Linux?
没有，没接触过。
以前你都是用什么写网页的？
javascript。
contOS你了解吗？
昨天在网上刚看到过。
那天我被自己并不能听的懂的英语视频毒害了一天。
（下午我终于拿到自己的电脑了，但是为什么是Linux操作系统？我悲剧的发现自己不知道怎么切换到中文输入法。）
这一天我被老师叫去继续向魏老师学习，我坐在旁边很迷茫的看着投影，不知道魏老师在干什么。后面我就自己上网查资料去了，看了无数的hadoop安装教程，但是最让我纠结的还是谁能告诉我centOS,ubuntu,hadoop，
docker，VM这些东西到底什么关系啊，
这是一个在centOS上安装hadoop的步骤，看到它我首先想的是：不是说安装hadoop么，怎么又成为CDH了，CDH又是什么鬼？然后是：安装centOS？centOS不是个操作系统么，怎么都安装vmware了才安装操作系统，没有操作系统vmware是怎么安装的？相比之下后面的几步倒是好理解了。
那天我被这样简单到白痴的问题折磨了一整天。
第三天我在网上找了一个教程决定自己装。
这是一个基于Docker安装hadoop分布式集群的教程，写的很详细，我几乎照着它一路就作下去了。遗憾的是这一天还是没弄好。（吐嘈一下，我觉得后面这两天限制的进度的最大因素是那里的网太慢了）
第四天，花了一上午的时间终于照着教程做完了，我不知道算不算做好了，拿去专门找魏老师认证了一下，当他告诉我应该算好了的时候，我的想法是好像也不难啊，为什么吴老师给我看的教程写的那么复杂。
晚上回到办公室把自己做的成果拿出来看了又看，激动之余发现我的结果好像和教程不太一样，我执行hadoop dfsadmin -report这个命令后虽然没有报错，但显示我的datanode为0 （正确的应该是2）为了这个问题我把原来做好的容器删了又做了一次，结果还是不对，最后查了好多资料发现原因是我没有修改两个slave的slaves文件。
hadoop布署好之后我想是不是该装spark了（因为我告诉老师hadoop之后他问了我一句：”Spark也装好了？”）。
有了hadoop的前车之鉴，找个教程直接开装spark。
虽然照着这个教程做完了，不过这个写的有点简单，中间我都是自己估摸的做的，最终也做完了，但打开spark-shell老是报错，一直找不到错误又重新找了个教程——
最终照着这个教程完成了spark的布署
回想了自己安装spark、hadoop的过程，虽然不是一帆风顺，但也不算历尽磨难。hadoop花了两天的时间，算上解决后面的小问题（没有datanode）不到三天的时间，而spark花了一天时间就装好了。
在动手做的过程中，前面让我迷茫的问题也迎刃而解了。看来任何事情还是要动手啊。
我想，前两天之所以后迷茫应该是干任何一行都要经历的入门阶段吧（虽然我现在也不算入门），回想自己刚开始学编程不也是那样。那个时候，听到的一些名词都是新的，每一点进步是千难万难。虽然如此，我想我会继续下去并努力取得成功。
五、再迷茫
hadoop、spark都装好了，但是在查资料的过程中，我又看到很多新名词，所以我再次迷茫了。yarn,zookeeper,hbase,hive,standalon这些都是什么鬼？和hadoop有什么关系？我要不要进一步了解？刚才和魏老师交流了，他让我先了解就行了，以后用的时候自然会知道。
时间仓促，保安都上来赶人了，就写到这儿吧。
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：8927次
排名：千里之外
原创：28篇
转载：11篇
(1)(3)(2)(6)(1)(1)(1)(23)　　　　　　　　王家林国内第一个 Spark系列视频课程　　《大数据Spark实战之路》　　第一阶段：熟练的掌握Scala语言　　学习地址：/pack/view/id-124.html 　　第二阶段：精通Spark平台本身提供给开发者API　　学习地址：/pack/view/id-146.html 　　第三阶段：精通Spark内核　　学习地址：/pack/view/id-148.html 　　第四阶段：掌握基于Spark上的核心框架的使用　　学习地址：/pack/view/id-149.html 　　第五阶段：商业级别大数据中心黄金组合：Hadoop+ Spark　　学习地址：/pack/view/id-150.html 　　第六阶段：Spark源码完整解析和系统定制　　学习地址：/pack/view/id-151.html
楼主发言：1次发图： | 更多
　　真好啊　　
　　国内首部系统性介绍Scala语言培训课程：/course/12　　课程介绍　　一、课程用到的软件：java 1.7.0_79，Scala 2.10.4，Scala IDE for eclipse，IntelliJ IDEA Community Edition 14.1.4　　二、课程涉及到的技术点：　　1.Scala基础特性，主要介绍Scala语言入门基础，包括Scala基本数据类型、函数、控制结构　　2.Scala中级特性，主要介绍Scala面向对象编程、函数式编程技术，包括类、对象、继承等　　3.Scala高级特性，主要介绍工程实践中常用的Scala高级编程技术，包括类型参数、泛型与注解、隐式参数与隐式转换、Scala并发编程、数据库编程、Scala操纵XML、Scala服务器脚本编程等。　　三、课程目标：　　Scala作为当今大数据分析与处理工程实践中应用最为广泛的编程语言，其编写的代码简洁、优雅、高效使其备受关注，“If I were to pick a language to use today other than Java, it would be Scala.” —James Gosling　　在当前的大数据浪潮中，Spark分布式内存计算框架是当前大数据处理技术的明星，该享誉世界的大数据开源框架正是用Scala语言开发的，这足以说明其Scala语言的魅力，相信在未来的若干年，Scala将成为大数据处理技术中最重要、使用最广泛的编程语言，本课程的目的在于系统性地介绍Scala编程语言，掌握了Scala语言，你就拿到了大数据处理领域的钥匙，能够轻松上手Spark应用程序开发，笑傲大数据处理技术。学完本课程，你可以掌握：　　1.能够利用Scala进行面向对象编程，开发复杂的应用程序　　2.能够熟练应用Scala的模式匹配技术　　3.能够熟练掌握和应用Scala中的隐式参数与隐式转换　　4.能够熟练掌握Scala的类型系统　　5.能够快速上手Spark应用程序开发　　四、课程大纲：　　Scala入门到精通——第1课、Scala语言初步　　Scala入门到精通——第2课、Scala基本类型及操作、程序控制结构　　Scala入门到精通——第3课、Array、List　　Scala入门到精通——第4课、Set、Map、Tuple、队列操作实战　　Scala入门到精通——第5课、函数与闭包　　Scala入门到精通——第6课、类和对象（一）　　Scala入门到精通——第7课、类和对象（二）　　Scala入门到精通——第8课、包和引入　　Scala入门到精通——第9课、继承与组合　　Scala入门到精通——第10课、Scala类层次结构、Traits初步　　Scala入门到精通——第11课、Trait进阶　　Scala入门到精通——第12课、I/O与正则表达式　　Scala入门到精通——第13课、高阶函数　　Scala入门到精通——第14课、Case Class与模式匹配（一）　　Scala入门到精通——第15课、Case Class与模式匹配（二）　　Scala入门到精通——第16课、泛型与注解　　Scala入门到精通——第17课、类型参数（一）　　Scala入门到精通——第18课、隐式转换与隐式参数（一）　　Scala入门到精通——第19课、隐式转换与隐式参数（二）　　Scala入门到精通——第20课、类型参数（二）　　Scala入门到精通——第21课、类型参数（三）　　Scala入门到精通——第22课、高级类型（一）　　Scala入门到精通——第23课、高级类型（二）　　Scala入门到精通——第24课、高级类型（三）　　Scala入门到精通——第25课、提取器（Extractor）　　Scala入门到精通——第26课、Scala并发编程基础　　Scala入门到精通——第27课、Scala操纵 XML　　Scala入门到精通——第28课、Scala与JAVA互操作　　Scala入门到精通——第29课、Scala数据库编程　　Scala入门到精通——第30课、Scala脚本编程与结束语
　　Scala、Spark史上最全面、最详细、最彻底的一整套视频全集（特别是机器学习、Spark Core解密、Spark性能优化、Spark面试宝典、Spark项目案例等）。不要问我是谁，请叫我雷锋！！！　　　　百度网盘链接：/s/1cFqjQu　　（如果链接失效或需要后续的更多资源，请联系QQ或者微信号：DT或拨打电话获取上述资料）　　如果您网速太慢，迫不及待的想观看上述视频，我们在视频网站上已经免费上传发布了，链接如下：　　（1）《DT大数据梦工厂大数据spark蘑菇云Scala语言全集（持续更新中）》　　/plcover/rd3LTMjBpZA　　（2）《Spark零基础视频：从零起步到调通第一个Wordcount》　　/plcover/IB9YwzdU8f0/　　（3）《大数据Spark内核core源码解密》　　/plcover/JdpoUtqxmNs　　（4）《大数据spark性能优化》　　/plcover/c74-UW2DP7o/　　（5）《Spark SQL从零起步彻底精通彻底实战》　　/plcover/nhBqWLH2Asc/　　（6）《Spark Streaming从零起步》　　/plcover/nRM-f151vp0/　　（7）《大数据Spark电商广告点击综合案例》　　/playlist_show/id_.html　　（8）《大数据Spark Streaming大型Spark项目性能优化》　　/plcover/nMCMdKHtj4I/bid=03&pid=29&resourceId=_0_29　　（9）《大数据Spark Streaming源码疯狂解密系列》　　/plcover/f0AK_UVxwoQ/?bid=03&pid=29&resourceId=_0_29　　（10）《Spark面试宝典（数据倾斜、性能调优等）》　　/plcover/yBrSt2Vz8G8/　　（11）《Spark源码大师之路之源码解析与阅读全集》　　/plcover/hlFqt6k1xUc/　　（12）《大数据JVM优化系列》　　/plcover/hzJp87qXtBA/　　（13）《大数据Spark 机器学习系列》　　/plcover/zNefiPmqLW8/　　注：如果链接失效或需要后续的更多资源，请联系QQ或者微信号：DT 获取上述资料！
　　@南街村方便面-19 19:18:01　　Scala、Spark史上最全面、最详细、最彻底的一整套视频全集（特别是机器学习、Spark Core解密、Spark性能优化、Spark面试宝典、Spark项目案例等）。不要问我是谁，请叫我雷锋！！！　　　　百度网盘链接：/s/1cFqjQu　　（如果链接失效或需要后续的更多资源，请联系QQ或者微信号：DT或拨打电话获取上述资料）　　如......　　-----------------------------　　（3）《大数据Spark内核core源码解密》　　/plcover/JdpoUtqxmNs/
　　Spark全面精讲（基于Spark2版本+含Spark调优+超多案例）　　课程观看地址：/course/149　　课程出自学途无忧网：/　　课程分五个阶段，共115课时！　　第一阶段 Spark内核深度剖析　　第00节课-课程特色和学习方式　　第一节课-Spark概述（四大特性）　　第二节课-Spark入门　　第三节课-什么是RDD？　　第四节课-spark架构　　第五节课-linux环境准备（虚拟机，linux）　　第六节课-hadoop环境准备　　第七节课-spark环境准备　　第八节课-spark开发环境搭建（java，scala）　　第八节课-补充-maven打包　　第九节课-spark任务提交　　第十节课--Historyserver配置　　第十一节课--RDD的创建方式　　第十二节课--Transformation和action原理剖析　　第十三节课--map，filter，flatMap算子演示（java版）　　第十四节课--groupByKey,reduceByKey,sortByKey算子演示（java版）　　第十五节课--join，cogroup,union算在演示（java版本）　　第十六节课--Intersection，Distinct，Cartesian算子演示（java版本）　　第十七节课--mapPartition，reparation，coalesce算子演示（java版）　　第十八节课--sample，aggregateByke算子演示（java版本）　　第十九节课--mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示（java）　　第二十节课--action算子演示（java版）　　第二十一节课--map,filter,flatMap,groupByKey,reduceByKey,sortByKey算子演示（scala)　　第二十二节课--join,cogroup,union,intersection,distinct,cartesian算子演示（scala)　　第二十三节课--mapPartitions,reparition,coalesce,sample,aggregateByKey算子演示(scala)　　第二十四节课-mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(scala)　　第二十五节课-RDD持久化（tachyon）　　第二十六节课--共享变量（广播变量，累加变量）　　第二十七节课-Spark on YARN模式（cluster,client）　　第二十八节课-窄依赖和宽依赖　　第二十九节课--Shuffle原理剖析　　第三十节课--stage划分原理剖析　　第三十一节课-Spark任务调度　　第三十二节课--综合案例一TopN（scala）　　第三十三节课--综合案例二日志分析上(scala)　　第三十三节课--综合案例二日志分析下(scala)　　第三十四节课--spark2内核新特性　　第二阶段 Spark调优　　第三十五节课-Spark调优概述　　第三十六节课-开发调优(1)　　第三十七节课-开发调优(2)　　第三十八节课-开发调优(3)　　第三十九节课-开发调优(4)　　第四十节课-开发调优(5)　　第四十一节课-开发调优(6)　　第四十二节课-开发调优(7)　　第四十三节课-开发调优(8)　　第四十四节课-开发调优(9)　　第四十五节课-数据本地化　　第四十六节课-数据倾斜原理　　第四十七节课-数据倾斜解决方案一　　第四十八节课-数据倾斜解决方案二　　第四十九节课-数据倾斜解决方案三　　第五十节课-数据倾斜解决方案四　　第五十一节课-数据倾斜解决方案五　　第五十二节课-数据倾斜解决方案六　　第五十三节课-数据倾斜解决方案七　　第五十四节课-shuffle调优　　第五十五节课-Spark资源模型　　第五十六节课-资源调优　　第五十七节课-Spark JVM调优(1)　　第五十八节课-Spark JVM调优(2)　　第五十九节课-Spark JVM调优(3)　　第六十节课-Spark JVM调优(4)　　第六十一节课-Spark JVM调优(5)　　第六十二节课-spark调优总结　　第三阶段 SparkSQL精讲　　第六十三节课-SparkSQL前世今生　　第六十四节课-Dataframe使用　　第六十五节课-Reflection方式将RDD转换成Dataframe　　第六十六节课-Programmatically方式将RDD转换成DataFrame　　第六十七节课-DataFreme VS RDD　　第六十八节课-数据源之数据load和save　　第六十九节课-数据源之parquetfile操作　　第七十节课-数据源之JSON数据　　第七十一节-课数据源之JDBC　　第七十二节课-数据源之Hive table-hive环境搭建　　第七十三节课-数据源之Hive table-spark环境集成　　第七十四节课-数据源之Hive table-使用　　第七十五节课-数据源之HBase环境准备　　第七十六节课-数据源之HBase　　第七十七节课-Thriftserver使用　　第七十八节课-UDF开发　　第七十九节课-UADF开发　　第八十节课-开窗函数　　第八十一节课-groupBy和agg函数使用　　第八十二节课-综合案例一（日志分析）　　第八十三节课-综合案例二(用户行为分析)-1　　第八十四节课-综合案例二(用户行为分析)-2　　第八十五节课-综合案例二(用户行为分析)-3　　第八十六节课-综合案例二(用户行为分析)-4　　第八十七节课-综合案例二(用户行为分析)-5　　第四阶段 SparkStreaming精讲　　第八十八节课-Spark Streaming工作原理　　第八十九节课-Spark Streaming入门案例　　第九十节课-Spark Streaming HDFS WordCount例子演示　　第九十一节课-Spark Streaming之updateStateByKey　　第九十二节课-Spark Streaming之mapWithState　　第九十三节课-Spark Streaming之transform　　第九十四节课-Spark Streaming之window操作　　第九十五节课-Spark Streaming之foreachRDD　　第九十六节课-Spark Streaming之flume原理介绍　　第九十七节课-Spark Streaming之flume搭建　　第九十八节课-Spark Streaming之flume集成　　第九十九节课-Spark Streaming之kafka原理介绍　　第一百节课-Spark Streaming之kafka集成　　第一百零一节课-Spark Streaming之kafka集群部署　　第一百零二节课-Spark Streaming之综合案例TopN实时统计　　第一百零三节课-Spark Streaming之Driver HA配置　　第五阶段 Spark2新特性　　第一百零四节课-Spark2新特性之 Spark2设计目标-更容易、更快速、更智能　　第一百零五节课-Spark2 新特性之SparkSQL变化之 SparkSession　　第一百零六节课-Spark2新特性之whole-stage code generation和vectorization技术剖析　　第一百零七节课-Spark2 新特性之RDD，DataFream 和DataSet关系　　第一百零八节课-Spark2 新特性之DataSet Transformation演示（1）　　第一百零九节课-Spark2 新特性之DataSet Action演示（2）　　第一百一十节课-Spark2 新特性之DataSet 基本操作演示（3）　　第一百一十一节课-Spark2 新特性之DataSet[untyped ] 基本操作演示（4）　　第一百一十二节课-Spark2 新特性之DataSet其它功能演示（5）　　第一百一十三节课-Spark2 新特性之 Structured Streaming设计目标　　第一百一十四节课-Spark2 新特性之 Structured Streaming原理剖析　　第一百一十五节课-Spark2 新特性之 Structured Streaming 案例演示　　相关课程推荐：　　深入浅出Spark机器学习实战（用户行为分析）　　课程观看地址：/course/144　　Spark+Kafka 实时流机器学习实战　　课程观看地址：/course/147
请遵守言论规则，不得违反国家法律法规回复(Ctrl+Enter)大数据（6）
Hadoop、spark都是一个生态，2者是一个互补的关系，2者有很多相似的部分。
hadoop实现了一个分布式文件系统-高延迟批处理大吞吐-hadoop的mapreduce程序用Java写
Spark基于内存计算的开源的集群计算平台-低延迟小文件处理-spark的mapreduce程序用scala写
学习spark最好有些hadoop的知识，至少目前hadoop是大数据的既定事实标准，spark要处理的数据大部分是在hadoop上，如HDFS、hive、hbase；还有spark standalone集群在生产上很少使用，一般都是将Spark应用程序发布在YARN或MESOS上。另外spark发展很快，几大hadoop厂商纷纷将一些项目转向spark。
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：59693次
积分：1215
积分：1215
排名：千里之外
原创：51篇
转载：62篇
(1)(3)(3)(16)(30)(15)(3)(2)(1)(3)(6)(2)(6)(1)(3)(4)(12)(6)}

叫阿莫西中心