其实北京一年,我也一直在考虑我回所到底研究什么方向,但都只是停留在想想的层次,最终也没什么结果,回来老师问了我的想法说,学分布式计算吧,读博也可以,找工作也好找,文章也好发,我一想,这感情好啊,既符合我搞开发的兴趣,文章也不难发,毕业了还有两个选择,简直是三全其美啊。虽然老师给了我两个月的时间考虑,但是我基本就决定了,我一定要研究这个方向,于是就有了接下来的话题。
1.北京打了一年酱油刚回来、什么都不会。
2.即将面临开题、压力山大。
3.老板告诉我学这个需要高智商,需要学很多东西,需要能坚持下去。
就在这样的背景下,开始了我的受虐之路
自认为编程基础还不错的我就被虐的像个计算机小白一样。
以前你服务器接触的是什么类型,Linux?
没有,没接触过。
以前你都是用什么写网页的?
javascript。
contOS你了解吗?
昨天在网上刚看到过。
那天我被自己并不能听的懂的英语视频毒害了一天。
(下午我终于拿到自己的电脑了,但是为什么是Linux操作系统?我悲剧的发现自己不知道怎么切换到中文输入法。)
这一天我被老师叫去继续向魏老师学习,我坐在旁边很迷茫的看着投影,不知道魏老师在干什么。后面我就自己上网查资料去了,看了无数的hadoop安装教程,但是最让我纠结的还是谁能告诉我centOS,ubuntu,hadoop,
docker,VM这些东西到底什么关系啊,
这是一个在centOS上安装hadoop的步骤,看到它我首先想的是:不是说安装hadoop么,怎么又成为CDH了,CDH又是什么鬼?然后是:安装centOS?centOS不是个操作系统么,怎么都安装vmware了才安装操作系统,没有操作系统vmware是怎么安装的?相比之下后面的几步倒是好理解了。
那天我被这样简单到白痴的问题折磨了一整天。
第三天我在网上找了一个教程决定自己装。
这是一个基于Docker安装hadoop分布式集群的教程,写的很详细,我几乎照着它一路就作下去了。遗憾的是这一天还是没弄好。(吐嘈一下,我觉得后面这两天限制的进度的最大因素是那里的网太慢了)
第四天,花了一上午的时间终于照着教程做完了,我不知道算不算做好了,拿去专门找魏老师认证了一下,当他告诉我应该算好了的时候,我的想法是好像也不难啊,为什么吴老师给我看的教程写的那么复杂。
晚上回到办公室把自己做的成果拿出来看了又看,激动之余发现我的结果好像和教程不太一样,我执行hadoop dfsadmin -report这个命令后虽然没有报错,但显示我的datanode为0 (正确的应该是2)为了这个问题我把原来做好的容器删了又做了一次,结果还是不对,最后查了好多资料发现原因是我没有修改两个slave的slaves文件。
hadoop布署好之后我想是不是该装spark了(因为我告诉老师hadoop之后他问了我一句:”Spark也装好了?”)。
有了hadoop的前车之鉴,找个教程直接开装spark。
虽然照着这个教程做完了,不过这个写的有点简单,中间我都是自己估摸的做的,最终也做完了,但打开spark-shell老是报错,一直找不到错误又重新找了个教程——
最终照着这个教程完成了spark的布署
回想了自己安装spark、hadoop的过程,虽然不是一帆风顺,但也不算历尽磨难。hadoop花了两天的时间,算上解决后面的小问题(没有datanode)不到三天的时间,而spark花了一天时间就装好了。
在动手做的过程中,前面让我迷茫的问题也迎刃而解了。看来任何事情还是要动手啊。
我想,前两天之所以后迷茫应该是干任何一行都要经历的入门阶段吧(虽然我现在也不算入门),回想自己刚开始学编程不也是那样。那个时候,听到的一些名词都是新的,每一点进步是千难万难。虽然如此,我想我会继续下去并努力取得成功。
五、再迷茫
hadoop、spark都装好了,但是在查资料的过程中,我又看到很多新名词,所以我再次迷茫了。yarn,zookeeper,hbase,hive,standalon这些都是什么鬼?和hadoop有什么关系?我要不要进一步了解?刚才和魏老师交流了,他让我先了解就行了,以后用的时候自然会知道。
时间仓促,保安都上来赶人了,就写到这儿吧。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:8927次
排名:千里之外
原创:28篇
转载:11篇
(1)(3)(2)(6)(1)(1)(1)(23) 王家林 国内第一个 Spark系列视频课程 《大数据Spark实战之路》 第一阶段:熟练的掌握Scala语言 学习地址:/pack/view/id-124.html 第二阶段:精通Spark平台本身提供给开发者API 学习地址:/pack/view/id-146.html 第三阶段:精通Spark内核 学习地址:/pack/view/id-148.html 第四阶段:掌握基于Spark上的核心框架的使用 学习地址:/pack/view/id-149.html 第五阶段:商业级别大数据中心黄金组合:Hadoop+ Spark 学习地址:/pack/view/id-150.html 第六阶段:Spark源码完整解析和系统定制 学习地址:/pack/view/id-151.html
楼主发言:1次 发图: | 更多
真好啊
国内首部系统性介绍Scala语言培训课程 :/course/12 课程介绍 一、课程用到的软件:java 1.7.0_79,Scala 2.10.4,Scala IDE for eclipse,IntelliJ IDEA Community Edition 14.1.4 二、课程涉及到的技术点: 1.Scala基础特性,主要介绍Scala语言入门基础,包括Scala基本数据类型、函数、控制结构 2.Scala中级特性,主要介绍Scala面向对象编程、函数式编程技术,包括类、对象、继承等 3.Scala高级特性,主要介绍工程实践中常用的Scala高级编程技术,包括类型参数、泛型与注解、隐式参数与隐式转换、Scala并发编程、数据库编程、Scala操纵XML、Scala服务器脚本编程等。 三、课程目标: Scala作为当今大数据分析与处理工程实践中应用最为广泛的编程语言,其编写的代码简洁、优雅、高效使其备受关注,“If I were to pick a language to use today other than Java, it would be Scala.” —James Gosling 在当前的大数据浪潮中,Spark分布式内存计算框架是当前大数据处理技术的明星,该享誉世界的大数据开源框架正是用Scala语言开发的,这足以说明其Scala语言的魅力,相信在未来的若干年,Scala将成为大数据处理技术中最重要、使用最广泛的编程语言,本课程的目的在于系统性地介绍Scala编程语言,掌握了Scala语言,你就拿到了大数据处理领域的钥匙,能够轻松上手Spark应用程序开发,笑傲大数据处理技术。学完本课程,你可以掌握: 1.能够利用Scala进行面向对象编程,开发复杂的应用程序 2.能够熟练应用Scala的模式匹配技术 3.能够熟练掌握和应用Scala中的隐式参数与隐式转换 4.能够熟练掌握Scala的类型系统 5.能够快速上手Spark应用程序开发 四、课程大纲: Scala入门到精通——第1课、Scala语言初步 Scala入门到精通——第2课、Scala基本类型及操作、程序控制结构 Scala入门到精通——第3课、Array、List Scala入门到精通——第4课、Set、Map、Tuple、队列操作实战 Scala入门到精通——第5课、函数与闭包 Scala入门到精通——第6课、类和对象(一) Scala入门到精通——第7课、类和对象(二) Scala入门到精通——第8课、包和引入 Scala入门到精通——第9课、继承与组合 Scala入门到精通——第10课、Scala类层次结构、Traits初步 Scala入门到精通——第11课、Trait进阶 Scala入门到精通——第12课、I/O与正则表达式 Scala入门到精通——第13课、高阶函数 Scala入门到精通——第14课、Case Class与模式匹配(一) Scala入门到精通——第15课、Case Class与模式匹配(二) Scala入门到精通——第16课、泛型与注解 Scala入门到精通——第17课、类型参数(一) Scala入门到精通——第18课、隐式转换与隐式参数(一) Scala入门到精通——第19课、隐式转换与隐式参数(二) Scala入门到精通——第20课、类型参数(二) Scala入门到精通——第21课、类型参数(三) Scala入门到精通——第22课、高级类型 (一) Scala入门到精通——第23课、高级类型 (二) Scala入门到精通——第24课、高级类型 (三) Scala入门到精通——第25课、提取器(Extractor) Scala入门到精通——第26课、Scala并发编程基础 Scala入门到精通——第27课、Scala操纵 XML Scala入门到精通——第28课、Scala与JAVA互操作 Scala入门到精通——第29课、Scala数据库编程 Scala入门到精通——第30课、Scala脚本编程与结束语
Scala、Spark史上最全面、最详细、最彻底的一整套视频全集(特别是机器学习、Spark Core解密、Spark性能优化、Spark面试宝典、Spark项目案例等)。不要问我是谁,请叫我雷锋!!! 百度网盘链接:/s/1cFqjQu (如果链接失效或需要后续的更多资源,请联系QQ或者微信号:DT或拨打电话获取上述资料) 如果您网速太慢,迫不及待的想观看上述视频,我们在视频网站上已经免费上传发布了,链接如下: (1) 《DT大数据梦工厂大数据spark蘑菇云Scala语言全集(持续更新中)》 /plcover/rd3LTMjBpZA (2) 《Spark零基础视频:从零起步到调通第一个Wordcount》 /plcover/IB9YwzdU8f0/ (3)《大数据Spark内核core源码解密》 /plcover/JdpoUtqxmNs (4)《大数据spark性能优化》 /plcover/c74-UW2DP7o/ (5)《Spark SQL从零起步彻底精通彻底实战》 /plcover/nhBqWLH2Asc/ (6)《Spark Streaming从零起步》 /plcover/nRM-f151vp0/ (7)《大数据Spark电商广告点击综合案例》 /playlist_show/id_.html (8)《大数据Spark Streaming大型Spark项目性能优化》 /plcover/nMCMdKHtj4I/bid=03&pid=29&resourceId=_0_29 (9)《大数据Spark Streaming源码疯狂解密系列》 /plcover/f0AK_UVxwoQ/?bid=03&pid=29&resourceId=_0_29 (10)《Spark面试宝典(数据倾斜、性能调优等)》 /plcover/yBrSt2Vz8G8/ (11)《Spark源码大师之路之源码解析与阅读全集》 /plcover/hlFqt6k1xUc/ (12)《大数据JVM优化系列》 /plcover/hzJp87qXtBA/ (13)《大数据Spark 机器学习系列》 /plcover/zNefiPmqLW8/ 注:如果链接失效或需要后续的更多资源,请联系QQ或者微信号:DT 获取上述资料!
@南街村方便面-19 19:18:01 Scala、Spark史上最全面、最详细、最彻底的一整套视频全集(特别是机器学习、Spark Core解密、Spark性能优化、Spark面试宝典、Spark项目案例等)。不要问我是谁,请叫我雷锋!!! 百度网盘链接:/s/1cFqjQu (如果链接失效或需要后续的更多资源,请联系QQ或者微信号:DT或拨打电话获取上述资料) 如...... ----------------------------- (3)《大数据Spark内核core源码解密》 /plcover/JdpoUtqxmNs/
Spark全面精讲(基于Spark2版本+含Spark调优+超多案例) 课程观看地址:/course/149 课程出自学途无忧网:/ 课程分五个阶段,共115课时! 第一阶段 Spark内核深度剖析 第00节课-课程特色和学习方式 第一节课-Spark概述(四大特性) 第二节课-Spark入门 第三节课-什么是RDD? 第四节课-spark架构 第五节课-linux环境准备(虚拟机,linux) 第六节课-hadoop环境准备 第七节课-spark环境准备 第八节课-spark开发环境搭建(java,scala) 第八节课-补充-maven打包 第九节课-spark任务提交 第十节课--Historyserver配置 第十一节课--RDD的创建方式 第十二节课--Transformation和action原理剖析 第十三节课--map,filter,flatMap算子演示(java版) 第十四节课--groupByKey,reduceByKey,sortByKey算子演示(java版) 第十五节课--join,cogroup,union算在演示(java版本) 第十六节课--Intersection,Distinct,Cartesian算子演示(java版本) 第十七节课--mapPartition,reparation,coalesce算子演示(java版) 第十八节课--sample,aggregateByke算子演示(java版本) 第十九节课--mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(java) 第二十节课--action算子演示(java版) 第二十一节课--map,filter,flatMap,groupByKey,reduceByKey,sortByKey算子演示(scala) 第二十二节课--join,cogroup,union,intersection,distinct,cartesian算子演示(scala) 第二十三节课--mapPartitions,reparition,coalesce,sample,aggregateByKey算子演示(scala) 第二十四节课-mapPartitionsWithIndex,repartitionAndSortWithinPartitions算子演示(scala) 第二十五节课-RDD持久化(tachyon) 第二十六节课--共享变量(广播变量,累加变量) 第二十七节课-Spark on YARN模式(cluster,client) 第二十八节课-窄依赖和宽依赖 第二十九节课--Shuffle原理剖析 第三十节课--stage划分原理剖析 第三十一节课-Spark任务调度 第三十二节课--综合案例一TopN(scala) 第三十三节课--综合案例二日志分析上(scala) 第三十三节课--综合案例二日志分析下(scala) 第三十四节课--spark2内核新特性 第二阶段 Spark调优 第三十五节课-Spark调优概述 第三十六节课-开发调优(1) 第三十七节课-开发调优(2) 第三十八节课-开发调优(3) 第三十九节课-开发调优(4) 第四十节课-开发调优(5) 第四十一节课-开发调优(6) 第四十二节课-开发调优(7) 第四十三节课-开发调优(8) 第四十四节课-开发调优(9) 第四十五节课-数据本地化 第四十六节课-数据倾斜原理 第四十七节课-数据倾斜解决方案一 第四十八节课-数据倾斜解决方案二 第四十九节课-数据倾斜解决方案三 第五十节课-数据倾斜解决方案四 第五十一节课-数据倾斜解决方案五 第五十二节课-数据倾斜解决方案六 第五十三节课-数据倾斜解决方案七 第五十四节课-shuffle调优 第五十五节课-Spark资源模型 第五十六节课-资源调优 第五十七节课-Spark JVM调优(1) 第五十八节课-Spark JVM调优(2) 第五十九节课-Spark JVM调优(3) 第六十节课-Spark JVM调优(4) 第六十一节课-Spark JVM调优(5) 第六十二节课-spark调优总结 第三阶段 SparkSQL精讲 第六十三节课-SparkSQL前世今生 第六十四节课-Dataframe使用 第六十五节课-Reflection方式将RDD转换成Dataframe 第六十六节课-Programmatically方式将RDD转换成DataFrame 第六十七节课-DataFreme VS RDD 第六十八节课-数据源之数据load和save 第六十九节课-数据源之parquetfile操作 第七十节课-数据源之JSON数据 第七十一节-课数据源之JDBC 第七十二节课-数据源之Hive table-hive环境搭建 第七十三节课-数据源之Hive table-spark环境集成 第七十四节课-数据源之Hive table-使用 第七十五节课-数据源之HBase环境准备 第七十六节课-数据源之HBase 第七十七节课-Thriftserver使用 第七十八节课-UDF开发 第七十九节课-UADF开发 第八十节课-开窗函数 第八十一节课-groupBy和agg函数使用 第八十二节课-综合案例一(日志分析) 第八十三节课-综合案例二(用户行为分析)-1 第八十四节课-综合案例二(用户行为分析)-2 第八十五节课-综合案例二(用户行为分析)-3 第八十六节课-综合案例二(用户行为分析)-4 第八十七节课-综合案例二(用户行为分析)-5 第四阶段 SparkStreaming精讲 第八十八节课-Spark Streaming工作原理 第八十九节课-Spark Streaming入门案例 第九十节课-Spark Streaming HDFS WordCount例子演示 第九十一节课-Spark Streaming之updateStateByKey 第九十二节课-Spark Streaming之mapWithState 第九十三节课-Spark Streaming之transform 第九十四节课-Spark Streaming之window操作 第九十五节课-Spark Streaming之foreachRDD 第九十六节课-Spark Streaming之flume原理介绍 第九十七节课-Spark Streaming之flume搭建 第九十八节课-Spark Streaming之flume集成 第九十九节课-Spark Streaming之kafka原理介绍 第一百节课-Spark Streaming之kafka集成 第一百零一节课-Spark Streaming之kafka集群部署 第一百零二节课-Spark Streaming之综合案例TopN实时统计 第一百零三节课-Spark Streaming之Driver HA配置 第五阶段 Spark2新特性 第一百零四节课-Spark2新特性之 Spark2设计目标-更容易、更快速、更智能 第一百零五节课-Spark2 新特性之SparkSQL变化之 SparkSession 第一百零六节课-Spark2新特性之whole-stage code generation和vectorization技术剖析 第一百零七节课-Spark2 新特性之RDD,DataFream 和DataSet关系 第一百零八节课-Spark2 新特性之DataSet Transformation演示(1) 第一百零九节课-Spark2 新特性之DataSet Action演示(2) 第一百一十节课-Spark2 新特性之DataSet 基本操作演示(3) 第一百一十一节课-Spark2 新特性之DataSet[untyped ] 基本操作演示(4) 第一百一十二节课-Spark2 新特性之DataSet其它功能演示(5) 第一百一十三节课-Spark2 新特性之 Structured Streaming设计目标 第一百一十四节课-Spark2 新特性之 Structured Streaming原理剖析 第一百一十五节课-Spark2 新特性之 Structured Streaming 案例演示 相关课程推荐: 深入浅出Spark机器学习实战(用户行为分析) 课程观看地址:/course/144 Spark+Kafka 实时流机器学习实战 课程观看地址:/course/147
请遵守言论规则,不得违反国家法律法规回复(Ctrl+Enter)大数据(6)
Hadoop、spark都是一个生态,2者是一个互补的关系,2者有很多相似的部分。
hadoop实现了一个分布式文件系统-高延迟批处理大吞吐-hadoop的mapreduce程序用Java写
Spark基于内存计算的开源的集群计算平台-低延迟小文件处理-spark的mapreduce程序用scala写
学习spark最好有些hadoop的知识,至少目前hadoop是大数据的既定事实标准,spark要处理的数据大部分是在hadoop上,如HDFS、hive、hbase;还有spark standalone集群在生产上很少使用,一般都是将Spark应用程序发布在YARN或MESOS上。另外spark发展很快,几大hadoop厂商纷纷将一些项目转向spark。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:59693次
积分:1215
积分:1215
排名:千里之外
原创:51篇
转载:62篇
(1)(3)(3)(16)(30)(15)(3)(2)(1)(3)(6)(2)(6)(1)(3)(4)(12)(6)}