如何学习做蛋糕 Spark

其实北京一年,我也一直在考虑我回所到底研究什么方向,但都只是停留在想想的层次,最终也没什么结果,回来老师问了我的想法说,学分布式计算吧,读博也可以,找工作也好找,文章也好发,我一想,这感情好啊,既符合我搞开发的兴趣,文章也不难发,毕业了还有两个选择,简直是三全其美啊。虽然老师给了我两个月的时间考虑,但是我基本就决定了,我一定要研究这个方向,于是就有了接下来的话题。
1.北京打了一年酱油刚回来、什么都不会。
2.即将面临开题、压力山大。
3.老板告诉我学这个需要高智商,需要学很多东西,需要能坚持下去。
就在这样的背景下,开始了我的受虐之路
自认为编程基础还不错的我就被虐的像个计算机小白一样。
以前你服务器接触的是什么类型,Linux?
没有,没接触过。
以前你都是用什么写网页的?
javascript。
contOS你了解吗?
昨天在网上刚看到过。
那天我被自己并不能听的懂的英语视频毒害了一天。
(下午我终于拿到自己的电脑了,但是为什么是Linux操作系统?我悲剧的发现自己不知道怎么切换到中文输入法。)
这一天我被老师叫去继续向魏老师学习,我坐在旁边很迷茫的看着投影,不知道魏老师在干什么。后面我就自己上网查资料去了,看了无数的hadoop安装教程,但是最让我纠结的还是谁能告诉我centOS,ubuntu,hadoop,
docker,VM这些东西到底什么关系啊,
这是一个在centOS上安装hadoop的步骤,看到它我首先想的是:不是说安装hadoop么,怎么又成为CDH了,CDH又是什么鬼?然后是:安装centOS?centOS不是个操作系统么,怎么都安装vmware了才安装操作系统,没有操作系统vmware是怎么安装的?相比之下后面的几步倒是好理解了。
那天我被这样简单到白痴的问题折磨了一整天。
第三天我在网上找了一个教程决定自己装。
这是一个基于Docker安装hadoop分布式集群的教程,写的很详细,我几乎照着它一路就作下去了。遗憾的是这一天还是没弄好。(吐嘈一下,我觉得后面这两天限制的进度的最大因素是那里的网太慢了)
第四天,花了一上午的时间终于照着教程做完了,我不知道算不算做好了,拿去专门找魏老师认证了一下,当他告诉我应该算好了的时候,我的想法是好像也不难啊,为什么吴老师给我看的教程写的那么复杂。
晚上回到办公室把自己做的成果拿出来看了又看,激动之余发现我的结果好像和教程不太一样,我执行hadoop dfsadmin -report这个命令后虽然没有报错,但显示我的datanode为0 (正确的应该是2)为了这个问题我把原来做好的容器删了又做了一次,结果还是不对,最后查了好多资料发现原因是我没有修改两个slave的slaves文件。
hadoop布署好之后我想是不是该装spark了(因为我告诉老师hadoop之后他问了我一句:”Spark也装好了?”)。
有了hadoop的前车之鉴,找个教程直接开装spark。
虽然照着这个教程做完了,不过这个写的有点简单,中间我都是自己估摸的做的,最终也做完了,但打开spark-shell老是报错,一直找不到错误又重新找了个教程——
最终照着这个教程完成了spark的布署
回想了自己安装spark、hadoop的过程,虽然不是一帆风顺,但也不算历尽磨难。hadoop花了两天的时间,算上解决后面的小问题(没有datanode)不到三天的时间,而spark花了一天时间就装好了。
在动手做的过程中,前面让我迷茫的问题也迎刃而解了。看来任何事情还是要动手啊。
我想,前两天之所以后迷茫应该是干任何一行都要经历的入门阶段吧(虽然我现在也不算入门),回想自己刚开始学编程不也是那样。那个时候,听到的一些名词都是新的,每一点进步是千难万难。虽然如此,我想我会继续下去并努力取得成功。
五、再迷茫
hadoop、spark都装好了,但是在查资料的过程中,我又看到很多新名词,所以我再次迷茫了。yarn,zookeeper,hbase,hive,standalon这些都是什么鬼?和hadoop有什么关系?我要不要进一步了解?刚才和魏老师交流了,他让我先了解就行了,以后用的时候自然会知道。
时间仓促,保安都上来赶人了,就写到这儿吧。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:8927次
排名:千里之外
原创:28篇
转载:11篇
(1)(3)(2)(6)(1)(1)(1)(23)        王家林 国内第一个 Spark系列视频课程  《大数据Spark实战之路》  第一阶段:熟练的掌握Scala语言  学习地址:/pack/view/id-124.html   第二阶段:精通Spark平台本身提供给开发者API  学习地址:/pack/view/id-146.html   第三阶段:精通Spark内核  学习地址:/pack/view/id-148.html   第四阶段:掌握基于Spark上的核心框架的使用  学习地址:/pack/view/id-149.html   第五阶段:商业级别大数据中心黄金组合:Hadoop+ Spark  学习地址:/pack/view/id-150.html   第六阶段:Spark源码完整解析和系统定制  学习地址:/pack/view/id-151.html
楼主发言:1次 发图: | 更多
  真好啊  
  国内首部系统性介绍Scala语言培训课程 :/course/12  课程介绍   一、课程用到的软件:java 1.7.0_79,Scala 2.10.4,Scala IDE for eclipse,IntelliJ IDEA Community Edition 14.1.4  二、课程涉及到的技术点:  1.Scala基础特性,主要介绍Scala语言入门基础,包括Scala基本数据类型、函数、控制结构  2.Scala中级特性,主要介绍Scala面向对象编程、函数式编程技术,包括类、对象、继承等  3.Scala高级特性,主要介绍工程实践中常用的Scala高级编程技术,包括类型参数、泛型与注解、隐式参数与隐式转换、Scala并发编程、数据库编程、Scala操纵XML、Scala服务器脚本编程等。  三、课程目标:  Scala作为当今大数据分析与处理工程实践中应用最为广泛的编程语言,其编写的代码简洁、优雅、高效使其备受关注,“If I were to pick a language to use today other than Java, it would be Scala.” —James Gosling  在当前的大数据浪潮中,Spark分布式内存计算框架是当前大数据处理技术的明星,该享誉世界的大数据开源框架正是用Scala语言开发的,这足以说明其Scala语言的魅力,相信在未来的若干年,Scala将成为大数据处理技术中最重要、使用最广泛的编程语言,本课程的目的在于系统性地介绍Scala编程语言,掌握了Scala语言,你就拿到了大数据处理领域的钥匙,能够轻松上手Spark应用程序开发,笑傲大数据处理技术。学完本课程,你可以掌握:  1.能够利用Scala进行面向对象编程,开发复杂的应用程序  2.能够熟练应用Scala的模式匹配技术  3.能够熟练掌握和应用Scala中的隐式参数与隐式转换  4.能够熟练掌握Scala的类型系统  5.能够快速上手Spark应用程序开发  四、课程大纲:  Scala入门到精通——第1课、Scala语言初步  Scala入门到精通——第2课、Scala基本类型及操作、程序控制结构  Scala入门到精通——第3课、Array、List  Scala入门到精通——第4课、Set、Map、Tuple、队列操作实战  Scala入门到精通——第5课、函数与闭包  Scala入门到精通——第6课、类和对象(一)  Scala入门到精通——第7课、类和对象(二)  Scala入门到精通——第8课、包和引入  Scala入门到精通——第9课、继承与组合  Scala入门到精通——第10课、Scala类层次结构、Traits初步  Scala入门到精通——第11课、Trait进阶  Scala入门到精通——第12课、I/O与正则表达式  Scala入门到精通——第13课、高阶函数  Scala入门到精通——第14课、Case Class与模式匹配(一)  Scala入门到精通——第15课、Case Class与模式匹配(二)  Scala入门到精通——第16课、泛型与注解  Scala入门到精通——第17课、类型参数(一)  Scala入门到精通——第18课、隐式转换与隐式参数(一)  Scala入门到精通——第19课、隐式转换与隐式参数(二)  Scala入门到精通——第20课、类型参数(二)  Scala入门到精通——第21课、类型参数(三)  Scala入门到精通——第22课、高级类型 (一)  Scala入门到精通——第23课、高级类型 (二)  Scala入门到精通——第24课、高级类型 (三)  Scala入门到精通——第25课、提取器(Extractor)  Scala入门到精通——第26课、Scala并发编程基础  Scala入门到精通——第27课、Scala操纵 XML  Scala入门到精通——第28课、Scala与JAVA互操作  Scala入门到精通——第29课、Scala数据库编程  Scala入门到精通——第30课、Scala脚本编程与结束语
  Scala、Spark史上最全面、最详细、最彻底的一整套视频全集(特别是机器学习、Spark Core解密、Spark性能优化、Spark面试宝典、Spark项目案例等)。不要问我是谁,请叫我雷锋!!!    百度网盘链接:/s/1cFqjQu  (如果链接失效或需要后续的更多资源,请联系QQ或者微信号:DT或拨打电话获取上述资料)  如果您网速太慢,迫不及待的想观看上述视频,我们在视频网站上已经免费上传发布了,链接如下:  (1) 《DT大数据梦工厂大数据spark蘑菇云Scala语言全集(持续更新中)》  /plcover/rd3LTMjBpZA  (2) 《Spark零基础视频:从零起步到调通第一个Wordcount》  /plcover/IB9YwzdU8f0/  (3)《大数据Spark内核core源码解密》  /plcover/JdpoUtqxmNs  (4)《大数据spark性能优化》  /plcover/c74-UW2DP7o/  (5)《Spark SQL从零起步彻底精通彻底实战》  /plcover/nhBqWLH2Asc/  (6)《Spark Streaming从零起步》  /plcover/nRM-f151vp0/  (7)《大数据Spark电商广告点击综合案例》  /playlist_show/id_.html  (8)《大数据Spark Streaming大型Spark项目性能优化》  /plcover/nMCMdKHtj4I/bid=03&pid=29&resourceId=_0_29  (9)《大数据Spark Streaming源码疯狂解密系列》  /plcover/f0AK_UVxwoQ/?bid=03&pid=29&resourceId=_0_29  (10)《Spark面试宝典(数据倾斜、性能调优等)》  /plcover/yBrSt2Vz8G8/  (11)《Spark源码大师之路之源码解析与阅读全集》  /plcover/hlFqt6k1xUc/  (12)《大数据JVM优化系列》  /plcover/hzJp87qXtBA/  (13)《大数据Spark 机器学习系列》  /plcover/zNefiPmqLW8/  注:如果链接失效或需要后续的更多资源,请联系QQ或者微信号:DT 获取上述资料!
  @南街村方便面-19 19:18:01  Scala、Spark史上最全面、最详细、最彻底的一整套视频全集(特别是机器学习、Spark Core解密、Spark性能优化、Spark面试宝典、Spark项目案例等)。不要问我是谁,请叫我雷锋!!!    百度网盘链接:/s/1cFqjQu  (如果链接失效或需要后续的更多资源,请联系QQ或者微信号:DT或拨打电话获取上述资料)  如......  -----------------------------  (3)《大数据Spark内核core源码解密》  /plcover/JdpoUtqxmNs/
  Spark全面精讲(基于Spark2版本+含Spark调优+超多案例)  课程观看地址:/course/149  课程出自学途无忧网:/  课程分五个阶段,共115课时!  第一阶段 Spark内核深度剖析  第00节课-课程特色和学习方式  第一节课-Spark概述(四大特性)  第二节课-Spark入门  第三节课-什么是RDD?  第四节课-spark架构  第五节课-linux环境准备(虚拟机,linux)  第六节课-hadoop环境准备  第七节课-spark环境准备  第八节课-spark开发环境搭建(java,scala)  第八节课-补充-maven打包  第九节课-spark任务提交  第十节课--Historyserver配置  第十一节课--RDD的创建方式  第十二节课--Transformation和action原理剖析  第十三节课--map,filter,flatMap算子演示(java版)  第十四节课--groupByKey,reduceByKey,sortByKey算子演示(java版)  第十五节课--join,cogroup,union算在演示(java版本)  第十六节课--Intersection,Distinct,Cartesian算子演示(java版本)  第十七节课--mapPartition,reparation,coalesce算子演示(java版)  第十八节课--sample,aggregateByke算子演示(java版本)  第十九节课--mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(java)  第二十节课--action算子演示(java版)  第二十一节课--map,filter,flatMap,groupByKey,reduceByKey,sortByKey算子演示(scala)  第二十二节课--join,cogroup,union,intersection,distinct,cartesian算子演示(scala)  第二十三节课--mapPartitions,reparition,coalesce,sample,aggregateByKey算子演示(scala)  第二十四节课-mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(scala)  第二十五节课-RDD持久化(tachyon)  第二十六节课--共享变量(广播变量,累加变量)  第二十七节课-Spark on YARN模式(cluster,client)  第二十八节课-窄依赖和宽依赖  第二十九节课--Shuffle原理剖析  第三十节课--stage划分原理剖析  第三十一节课-Spark任务调度  第三十二节课--综合案例一TopN(scala)  第三十三节课--综合案例二日志分析上(scala)  第三十三节课--综合案例二日志分析下(scala)  第三十四节课--spark2内核新特性  第二阶段 Spark调优  第三十五节课-Spark调优概述  第三十六节课-开发调优(1)  第三十七节课-开发调优(2)  第三十八节课-开发调优(3)  第三十九节课-开发调优(4)  第四十节课-开发调优(5)  第四十一节课-开发调优(6)  第四十二节课-开发调优(7)  第四十三节课-开发调优(8)  第四十四节课-开发调优(9)  第四十五节课-数据本地化  第四十六节课-数据倾斜原理  第四十七节课-数据倾斜解决方案一  第四十八节课-数据倾斜解决方案二  第四十九节课-数据倾斜解决方案三  第五十节课-数据倾斜解决方案四  第五十一节课-数据倾斜解决方案五  第五十二节课-数据倾斜解决方案六  第五十三节课-数据倾斜解决方案七  第五十四节课-shuffle调优  第五十五节课-Spark资源模型  第五十六节课-资源调优  第五十七节课-Spark JVM调优(1)  第五十八节课-Spark JVM调优(2)  第五十九节课-Spark JVM调优(3)  第六十节课-Spark JVM调优(4)  第六十一节课-Spark JVM调优(5)  第六十二节课-spark调优总结  第三阶段 SparkSQL精讲  第六十三节课-SparkSQL前世今生  第六十四节课-Dataframe使用  第六十五节课-Reflection方式将RDD转换成Dataframe  第六十六节课-Programmatically方式将RDD转换成DataFrame  第六十七节课-DataFreme VS RDD  第六十八节课-数据源之数据load和save  第六十九节课-数据源之parquetfile操作  第七十节课-数据源之JSON数据  第七十一节-课数据源之JDBC  第七十二节课-数据源之Hive table-hive环境搭建  第七十三节课-数据源之Hive table-spark环境集成  第七十四节课-数据源之Hive table-使用  第七十五节课-数据源之HBase环境准备  第七十六节课-数据源之HBase  第七十七节课-Thriftserver使用  第七十八节课-UDF开发  第七十九节课-UADF开发  第八十节课-开窗函数  第八十一节课-groupBy和agg函数使用  第八十二节课-综合案例一(日志分析)  第八十三节课-综合案例二(用户行为分析)-1  第八十四节课-综合案例二(用户行为分析)-2  第八十五节课-综合案例二(用户行为分析)-3  第八十六节课-综合案例二(用户行为分析)-4  第八十七节课-综合案例二(用户行为分析)-5  第四阶段 SparkStreaming精讲  第八十八节课-Spark Streaming工作原理  第八十九节课-Spark Streaming入门案例  第九十节课-Spark Streaming HDFS WordCount例子演示  第九十一节课-Spark Streaming之updateStateByKey  第九十二节课-Spark Streaming之mapWithState  第九十三节课-Spark Streaming之transform  第九十四节课-Spark Streaming之window操作  第九十五节课-Spark Streaming之foreachRDD  第九十六节课-Spark Streaming之flume原理介绍  第九十七节课-Spark Streaming之flume搭建  第九十八节课-Spark Streaming之flume集成  第九十九节课-Spark Streaming之kafka原理介绍  第一百节课-Spark Streaming之kafka集成  第一百零一节课-Spark Streaming之kafka集群部署  第一百零二节课-Spark Streaming之综合案例TopN实时统计  第一百零三节课-Spark Streaming之Driver HA配置  第五阶段 Spark2新特性  第一百零四节课-Spark2新特性之 Spark2设计目标-更容易、更快速、更智能  第一百零五节课-Spark2 新特性之SparkSQL变化之 SparkSession  第一百零六节课-Spark2新特性之whole-stage code generation和vectorization技术剖析  第一百零七节课-Spark2 新特性之RDD,DataFream 和DataSet关系  第一百零八节课-Spark2 新特性之DataSet Transformation演示(1)  第一百零九节课-Spark2 新特性之DataSet Action演示(2)  第一百一十节课-Spark2 新特性之DataSet 基本操作演示(3)  第一百一十一节课-Spark2 新特性之DataSet[untyped ] 基本操作演示(4)  第一百一十二节课-Spark2 新特性之DataSet其它功能演示(5)  第一百一十三节课-Spark2 新特性之 Structured Streaming设计目标  第一百一十四节课-Spark2 新特性之 Structured Streaming原理剖析  第一百一十五节课-Spark2 新特性之 Structured Streaming 案例演示  相关课程推荐:  深入浅出Spark机器学习实战(用户行为分析)   课程观看地址:/course/144  Spark+Kafka 实时流机器学习实战  课程观看地址:/course/147
请遵守言论规则,不得违反国家法律法规回复(Ctrl+Enter)大数据(6)
Hadoop、spark都是一个生态,2者是一个互补的关系,2者有很多相似的部分。
hadoop实现了一个分布式文件系统-高延迟批处理大吞吐-hadoop的mapreduce程序用Java写
Spark基于内存计算的开源的集群计算平台-低延迟小文件处理-spark的mapreduce程序用scala写
学习spark最好有些hadoop的知识,至少目前hadoop是大数据的既定事实标准,spark要处理的数据大部分是在hadoop上,如HDFS、hive、hbase;还有spark standalone集群在生产上很少使用,一般都是将Spark应用程序发布在YARN或MESOS上。另外spark发展很快,几大hadoop厂商纷纷将一些项目转向spark。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:59693次
积分:1215
积分:1215
排名:千里之外
原创:51篇
转载:62篇
(1)(3)(3)(16)(30)(15)(3)(2)(1)(3)(6)(2)(6)(1)(3)(4)(12)(6)}

我要回帖

更多关于 雅思培训学习 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信