哪里有Spark的学习资料?

他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)spark学习笔记总结-spark入门资料精化 - zguood - 博客园
& &&Spark学习笔记
spark&可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。
spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。
spark核心部分分为RDD。Spark&SQL、Spark&Streaming、MLlib、GraphX、Spark&R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎。其相应的生态环境包括zepplin等可视化方面,正日益壮大。大型公司争相实用spark来代替原有hadoop上相应的功能模块。Spark读写过程不像hadoop溢出写入磁盘,都是基于内存,因此速度很快。另外DAG作业调度系统的宽窄依赖让Spark速度提高。
Spark核心组成
是弹性分布式数据集,完全弹性的,如果数据丢失一部分还可以重建。有自动容错、位置感知调度和可伸缩性,通过数据检查点和记录数据更新金象容错性检查。通过SparkContext.textFile()加载文件变成RDD,然后通过transformation构建新的RDD,通过action将RDD存储到外部系统。
RDD使用延迟加载,也就是懒加载,只有当用到的时候才加载数据。如果加载存储所有的中间过程会浪费空间。因此要延迟加载。一旦spark看到整个变换链,他可以计算仅需的结果数据,如果下面的函数不需要数据那么数据也不会再加载。转换RDD是惰性的,只有在动作中才可以使用它们。
Spark分为driver和executor,driver提交作业,executor是application早worknode上的进程,运行task,driver对应为sparkcontext。Spark的RDD操作有transformation、action。Transformation对RDD进行依赖包装,RDD所对应的依赖都进行DAG的构建并保存,在worknode挂掉之后除了通过备份恢复还可以通过元数据对其保存的依赖再计算一次得到。当作业提交也就是调用runJob时,spark会根据RDD构建DAG图,提交给DAGScheduler,这个DAGScheduler是在SparkContext创建时一同初始化的,他会对作业进行调度处理。当依赖图构建好以后,从action开始进行解析,每一个操作作为一个task,每遇到shuffle就切割成为一个taskSet,并把数据输出到磁盘,如果不是shuffle数据还在内存中存储。就这样再往前推进,直到没有算子,然后运行从前面开始,如果没有action的算子在这里不会执行,直到遇到action为止才开始运行,这就形成了spark的懒加载,taskset提交给TaskSheduler生成TaskSetManager并且提交给Executor运行,运行结束后反馈给DAGScheduler完成一个taskSet,之后再提交下一个,当TaskSet运行失败时就返回DAGScheduler并重新再次创建。一个job里面可能有多个TaskSet,一个application可能包含多个job。
2、Spark&Streaming
通过对kafka数据读取,将Stream数据分成小的时间片段(几秒),以类似batch批处理的方式来处理这一部分小数据,每个时间片生成一个RDD,有高效的容错性,对小批量数据可以兼容批量实时数据处理的逻辑算法,用一些历史数据和实时数据联合进行分析,比如分类算法等。也可以对小批量的stream进行mapreduce、join等操作,而保证其实时性。针对数据流时间要求不到毫秒级的工程性问题都可以。
Spark&Streaming也有一个StreamingContext,其核心是DStream,是通过以组时间序列上的连续RDD来组成的,包含一个有Time作为key、RDD作为value的结构体,每一个RDD都包含特定时间间隔的数据流,可以通过persist将其持久化。在接受不断的数据流后,在blockGenerator中维护一个队列,将流数据放到队列中,等处理时间间隔到来后将其中的所有数据合并成为一个RDD(这一间隔中的数据)。其作业提交和spark相似,只不过在提交时拿到DStream内部的RDD并产生Job提交,RDD在action触发之后,将job提交给jobManager中的JobQueue,又jobScheduler调度,JobScheduler将job提交到spark的job调度器,然后将job转换成为大量的任务分发给spark集群执行。Job从outputStream中生成的,然后触发反向回溯执行DStreamDAG。在流数据处理的过程中,一般节点失效的处理比离线数据要复杂。Spark&streamin在1.3之后可以周期性的将DStream写入HDFS,同时将offset也进行存储,避免写到zk。一旦主节点失效,会通过checkpoint的方式读取之前的数据。当worknode节点失效,如果HDFS或文件作为输入源那Spark会根据依赖关系重新计算数据,如果是基于Kafka、Flume等网络数据源spark会将手机的数据源在集群中的不同节点进行备份,一旦有一个工作节点失效,系统能够根据另一份还存在的数据重新计算,但是如果接受节点失效会丢失一部分数据,同时接受线程会在其他的节点上重新启动并接受数据。
主要用于图的计算。核心算法有PageRank、SVD奇异矩阵、TriangleConut等。
4、Spark&SQL
是Spark新推出的交互式大数据SQL技术。把sql语句翻译成Spark上的RDD操作可以支持Hive、Json等类型的数据。
5、Spark&R
通过R语言调用spark,目前不会拥有像Scala或者java那样广泛的API,Spark通过RDD类提供Spark&API,并且允许用户使用R交互式方式在集群中运行任务。同时集成了MLlib机器学习类库。
从上到下包括了MLOptimizer(给使用者)、MLI(给算法使用者)、MLlib(给算法开发者)、Spark。也可以直接使用MLlib。ML&Optimizer,一个优化机器学习选择更合适的算法和相关参数的模块,还有MLI进行特征抽取和高级ML编程&抽象算法实现API平台,MLlib分布式机器学习库,可以不断扩充算法。MLRuntime基于spark计算框架,将Spark的分布式计算应用到机器学习领域。MLBase提供了一个简单的声明方法指定机器学习任务,并且动态地选择最优的学习算法。
7、Tachyon
高容错的分布式文件系统。宣称其性能是HDFS的3000多倍。有类似java的接口,也实现了HDFS接口,所以Spark和MR程序不需要任何的修改就可以运行。目前支持HDFS、S3等。
8、Spark算子
1、Map。对原数据进行处理,类似于遍历操作,转换成MappedRDD,原分区不变。
2、flatMap。将原来的RDD中的每一个元素通过函数转换成新的元素,将RDD的每个集合中的元素合并成一个集合。比如一个元素里面多个list,通过这个函数都合并成一个大的list,最经典的就是wordcount中将每一行元素进行分词以后成为,通过flapMap变成一个个的单词,line.flapMap(_.split(&&&)).map((_,1))如果通过map就会将一行的单词变成一个list。
3、mapPartitions。对每个分区进行迭代,生成MapPartitionsRDD。
4、Union。是将两个RDD合并成一个。使用这个函数要保证两个RDD元素的数据类型相同,返回的RDD的数据类型和被合并的RDD数据类型相同。
5、Filter。其功能是对元素进行过滤,对每个元素调用f函数,返回值为true的元素就保留在RDD中。
6、Distinct。对RDD中元素进行去重操作。
7、Subtract。对RDD1中取出RDD1与RDD2交集中的所有元素。
8、Sample。对RDD中的集合内元素进行采样,第一个参数withReplacement是true表示有放回取样,false表示无放回。第二个参数表示比例,第三个参数是随机种子。如data.sample(true,&0.3,new&Random().nextInt())。
9、takeSample。和sample用法相同,只不第二个参数换成了个数。返回也不是RDD,而是collect。
10、Cache。将RDD缓存到内存中。相当于persist(MEMORY_ONLY)。可以通过参数设置缓存和运行内存之间的比例,如果数据量大于cache内存则会丢失。
11、Persist。里面参数可以选择DISK_ONLY/MEMORY_ONLY/MEMORY_AND_DISK等,其中的MEMORY_AND_DISK当缓存空间满了后自动溢出到磁盘。
12、MapValues。针对KV数据,对数据中的value进行map操作,而不对key进行处理。
13、reduceByKey。针对KV数据将相同key的value聚合到一起。与groupByKey不同,会进行一个类似mapreduce中的combine操作,减少相应的数据IO操作,加快效率。如果想进行一些非叠加操作,我们可以将value组合成字符串或其他格式将相同key的value组合在一起,再通过迭代,组合的数据拆开操作。
14、partitionBy。可以将RDD进行分区,重新生成一个ShuffleRDD,进行一个shuffle操作,对后面进行频繁的shuffle操作可以加快效率。
15、randomSplit。对RDD进行随机切分。如data.randomSplit(new&double[]{0.7,&0.3})返回一个RDD的数组。
16、Cogroup。对两个RDD中的KV元素,每个RDD中相同key中的元素分别聚合成一个集合。与reduceByKey不同的是针对两个RDD中相同的key的元素进行合并。
17、Join。相当于inner&join。对两个需要连接的RDD进行cogroup,然后对每个key下面的list进行笛卡尔积的操作,输出两两相交的两个集合作为value。&相当于sql中where&a.key=b.key。
18、leftOutJoin,rightOutJoin。在数据库中左连接以左表为坐标将表中所有的数据列出来,右面不存在的用null填充。在这里面对join的基础上判断左侧的RDD元素是否是空,如果是空则填充。右连接则相反。
19、saveAsTestFile。将数据输出到HDFS的指定目录。
20、saveAsObjectFile。写入HDFS为SequenceFile格式。
21、Collect、collectAsMap。将RDD转换成list或者Map。结果以List或者HashMap的方式输出。
22、Count。对RDD的元素进行统计,返回个数。
23、Top(k)。返回最大的k个元素,返回List的形式。
24、Take返回数据的前k个元素。
25、takeOrdered。返回数据的最小的k个元素,并在返回中保持元素的顺序。
1、RDD.repartition(n)可以在最初对RDD进行分区操作,这个操作实际上是一个shuffle,可能比较耗时,但是如果之后的action比较多的话,可以减少下面操作的时间。其中的n值看cpu的个数,一般大于2倍cpu,小于1000。
2、Action不能够太多,每一次的action都会将以上的taskset划分一个job,这样当job增多,而其中task并不释放,会占用更多的内存,使得gc拉低效率。
3、在shuffle前面进行一个过滤,减少shuffle数据,并且过滤掉null值,以及空值。
4、groupBy尽量通过reduceBy替代。reduceBy会在work节点做一次reduce,在整体进行reduce,相当于做了一次hadoop中的combine操作,而combine操作和reduceBy逻辑一致,这个groupBy不能保证。
5、做join的时候,尽量用小RDD去join大RDD,用大RDD去join超大的RDD。
6、避免collect的使用。因为collect如果数据集超大的时候,会通过各个work进行收集,io增多,拉低性能,因此当数据集很大时要save到HDFS。
7、RDD如果后面使用迭代,建议cache,但是一定要估计好数据的大小,避免比cache设定的内存还要大,如果大过内存就会删除之前存储的cache,可能导致计算错误,如果想要完全的存储可以使用persist(MEMORY_AND_DISK),因为cache就是persist(MEMORY_ONLY)。
8、设置spark.cleaner.ttl,定时清除task,因为job的原因可能会缓存很多执行过去的task,所以定时回收可能避免集中gc操作拉低性能。
9、适当pre-partition,通过partitionBy()设定,每次partitionBy会生成一个RDD。&
Trackbacks - 0由CSDN和《程序员》杂志编辑与社区共同打造,涵盖大数据及Hadoop领域,萃取最精华Hadoop与大数据技术内容,每周四发送。『 Spark 』5. 这些年,你不能错过的 spark 学习资源 - 简书
『 Spark 』5. 这些年,你不能错过的 spark 学习资源
原文链接:
本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了。若想深入了解,最好阅读参考文章和官方文档。
其次,本系列是基于目前最新的 spark 1.6.0 系列开始的,spark 目前的更新速度很快,记录一下版本好还是必要的。
最后,如果各位觉得内容有误,欢迎留言备注,所有留言 24 小时内必定回复,非常感谢。
Tips: 如果插图看起来不明显,可以:1. 放大网页;2. 新标签中打开图片,查看原图哦。
3. 文章,博客
[2016 上海第二次 spark meetup: 1. spark_meetup.pdf](. spark_meetup.pdf)
[2016 上海第二次 spark meetup: 2. Flink_ An unified stream engine.pdf](. Flink_ An unified stream engine.pdf)
[2016 上海第二次 spark meetup: 3. Spark在计算广告领域的应用实践.pdf](. Spark在计算广告领域的应用实践.pdf)
[2016 上海第二次 spark meetup: 4. splunk_spark.pdf](. splunk_spark.pdf)
上面的资源我都会不断更新的,里面 80% 以上的都是我亲自看过并且觉得有价值的,可不是胡乱收集一通的,推荐欣赏哦。
本系列文章链接
『 Spark 』5. 这些年,你不能错过的 spark 学习资源 - 简书http://www.jianshu.com/p/59c54b46577b 原文链接:『 Spark 』5. 这些年,你不能错过的 spark 学习资源写在前面本系列是综合了自己在学习spark过程...
Why Stock Markets CrashThis page intentionally left blankWhy Stock Markets CrashCritical Events in ComplexFinancial SystemsD i d i e r S ...
cs.AI - 人工智能 cs.CG - 计算几何学 cs.CL - 计算与语言 cs.CR - 加密与安全 cs.CV - 机器视觉与模式识别 cs.CY - 计算与社会 cs.DB - 数据库 cs.DC - 分布式、并行与集群计算 cs.DL - 数字图书馆 cs.D...
cs.AI - 人工智能cs.CL - 计算与语言cs.CR - 加密与安全cs.CV - 机器视觉与模式识别cs.CY - 计算与社会cs.DB - 数据库cs.DC - 分布式、并行与集群计算cs.DS - 数据结构与算法cs.ET - 新兴技术cs.GT - 计算机科...
下载全部视频和PPT,请关注公众号(bigdata_summit),并点击“视频下载”菜单 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets by Jules Damji, Databrick...
———致三沙 我用想象 环顾了整个南海诸岛 目光在那片蓝色的版图上游弋 久久的 自己渐渐地变成了一尾浪里白条 与祖国的鱼们虾们 亲近和嘻戏 穿越南中国海那绚美的珊瑚林 抚摸那黑黝而结实的岛礁 踩踩那从祖国延伸而来的大陆架 累了困了饿了 靠在自家的
那个最南的叫曾母暗沙的...
群名:陶(月光洒落) 01 近年来,不断发生了一些食品安全和土壤污染事件,人们对安全的食品需求越来越大,对环境保护的呼声越来越高。人们对违反自然规律,大量使用农药、化肥、催生素、添加剂、转基因技术等生产出来的食品越来越反感和恐惧,这就为有机农业发展提供了需求...
昨晚和老公吵架到凌晨五点多。我看到我又一次在亲密关系中陷入僵直麻木瘫软疲惫无力的痛苦状态,越是难受越不愿意走,大脑还在拼命地思考怎么跟他说好。情绪是委屈愤怒绝望失望鄙视无助自卑等等。但是因为做了面对冲突的个案,有几次我也可以很有力量地面对伴侣,有时也并没有激怒他。我问他为什...
最近ubuntu遇到问题,舍弃它一段时间,不过git还是要用滴。。然后就在windows下git push 但是我今天拷贝一个白天写的代码到我的仓库后,git add *的时候报错:warning: LF will be replaced by CRLF in ep2/Ma...
我趴在半坡 晚风轻踩着我的狗腰 像某个姑娘的屁股 我把眼埋进土里 等秋天 收割无数片忽明忽暗的晚空 收割无数个冰凉的屁股购买商品:
商品价格:
价格读取中
支付方式:
请扫码进行支付
请扫码进行支付
Spark零基础入门
时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能、易于使用等特性。然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享S系列课程!
高效快速的带你进入spark的世界,零基础入门,适合所有人!
本 议题的目标是引导想从事大数据处理的IT人员进行Spark入门学习,主要内容包括Scala语言核心语法、Spark集群搭建及开发环境搭建、 Spark编程模型、Spark SQL、Spark Streaming、Spark MLlib及Spark Graphx。通过本议题,能够应用Scala进行Spark应用程序开发、掌握Spark的基本运行原理及编程模型,能够熟悉运用Spark SQL进行大数据仓库的开发,掌握Spark流式计算、Spark机器学习及图计算的原理。
1. Scala基本数据类型及程序控制结构。讲解Scala基本数据类型,对其中的程序控制结构特别是for循环的使用进行详细介绍。
2. Scala集合操作。对Array、List、Map等重要数据结构的操作进行介绍。
3. Scala函数。内容包括函数字面量、函数闭包、高阶函数、偏函数及集合常见高阶函数等。
4. Scala 类和对象。介绍Scala面向对象编程,包括类的定义、伴生对象、伴生类、应用程序对象、类的继承等。
5. Scala 模式匹配。内容包括模式匹配的作用、模式匹配的类型、模式匹配在for循环、正则表达式中的应用、模式匹配与Case Class。
6. Scala类型参数。对Scala中的类型变量界定、协变与逆变等进行介绍。
7. Scala 隐式转换。内容包括隐式转换函数、隐式类、隐式对象、视图界定及上正文界定中的隐式转换等。
8. Scala高级类型。对Scala中的单例类型、抽象类型等进行介绍。
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。
2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。
3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及action操作进行介绍。
4.Spark SQL与DataFrame,介绍Spark SQL 及DataFrame的运行原理及使用方法,利用案例介绍Spark SQL的使用。
5.Spark 流式计算。介绍DStream、Spark Streaming原理,并通过几个案例说明其使用。
6.Spark 机器学习。介绍Spark MLlib架构,通过K-Mean算法、随机森林等算法说明Spark MLlib的使用。
7.Spark Graphx。介绍Spark图计算及相关数据结构,用PageRank算法说明其使用。
Scala集合操作。对Array、List、Map等重要数据结构的操作进行介绍。
1. Scala基本数据类型及程序控制结构。讲解Scala基本数据类型,对其中的程序控制结构特别是for循环的使用进行详细介绍。
2. Scala集合操作。对Array、List、Map等重要数据结构的操作进行介绍。
3. Scala函数。内容包括函数字面量、函数闭包、高阶函数、偏函数及集合常见高阶函数等。
4. Scala 类和对象。介绍Scala面向对象编程,包括类的定义、伴生对象、伴生类、应用程序对象、类的继承等。
5. Scala 模式匹配。内容包括模式匹配的作用、模式匹配的类型、模式匹配在for循环、正则表达式中的应用、模式匹配与Case Class。
6. Scala类型参数。对Scala中的类型变量界定、协变与逆变等进行介绍。
7. Scala 隐式转换。内容包括隐式转换函数、隐式类、隐式对象、视图界定及上正文界定中的隐式转换等。
8. Scala高级类型。对Scala中的单例类型、抽象类型等进行介绍。
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。
2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。
3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及action操作进行介绍。
4.Spark SQL与DataFrame,介绍Spark SQL 及DataFrame的运行原理及使用方法,利用案例介绍Spark SQL的使用。
5.Spark 流式计算。介绍DStream、Spark Streaming原理,并通过几个案例说明其使用。
6.Spark 机器学习。介绍Spark MLlib架构,通过K-Mean算法、随机森林等算法说明Spark MLlib的使用。
7.Spark Graphx。介绍Spark图计算及相关数据结构,用PageRank算法说明其使用。
1. Scala基本数据类型及程序控制结构。讲解Scala基本数据类型,对其中的程序控制结构特别是for循环的使用进行详细介绍。
2. Scala集合操作。对Array、List、Map等重要数据结构的操作进行介绍。
3. Scala函数。内容包括函数字面量、函数闭包、高阶函数、偏函数及集合常见高阶函数等。
4. Scala 类和对象。介绍Scala面向对象编程,包括类的定义、伴生对象、伴生类、应用程序对象、类的继承等。
5. Scala 模式匹配。内容包括模式匹配的作用、模式匹配的类型、模式匹配在for循环、正则表达式中的应用、模式匹配与Case Class。
6. Scala类型参数。对Scala中的类型变量界定、协变与逆变等进行介绍。
7. Scala 隐式转换。内容包括隐式转换函数、隐式类、隐式对象、视图界定及上正文界定中的隐式转换等。
8. Scala高级类型。对Scala中的单例类型、抽象类型等进行介绍。
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。
2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。
3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及action操作进行介绍。
4.Spark SQL与DataFrame,介绍Spark SQL 及DataFrame的运行原理及使用方法,利用案例介绍Spark SQL的使用。
5.Spark 流式计算。介绍DStream、Spark Streaming原理,并通过几个案例说明其使用。
6.Spark 机器学习。介绍Spark MLlib架构,通过K-Mean算法、随机森林等算法说明Spark MLlib的使用。
7.Spark Graphx。介绍Spark图计算及相关数据结构,用PageRank算法说明其使用。
Scala 类和对象(上)(下)。介绍Scala面向对象编程,包括类的定义、伴生对象、伴生类、应用程序对象、类的继承等。
1. Scala基本数据类型及程序控制结构。讲解Scala基本数据类型,对其中的程序控制结构特别是for循环的使用进行详细介绍。
2. Scala集合操作。对Array、List、Map等重要数据结构的操作进行介绍。
3. Scala函数。内容包括函数字面量、函数闭包、高阶函数、偏函数及集合常见高阶函数等。
4. Scala 类和对象(上)(下)。介绍Scala面向对象编程,包括类的定义、伴生对象、伴生类、应用程序对象、类的继承等。
5. Scala 模式匹配。内容包括模式匹配的作用、模式匹配的类型、模式匹配在for循环、正则表达式中的应用、模式匹配与Case Class。
6. Scala类型参数。对Scala中的类型变量界定、协变与逆变等进行介绍。
7. Scala 隐式转换。内容包括隐式转换函数、隐式类、隐式对象、视图界定及上正文界定中的隐式转换等。
8. Scala高级类型。对Scala中的单例类型、抽象类型等进行介绍。
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。
2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。
3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及action操作进行介绍。
4.Spark SQL与DataFrame,介绍Spark SQL 及DataFrame的运行原理及使用方法,利用案例介绍Spark SQL的使用。
5.Spark 流式计算。介绍DStream、Spark Streaming原理,并通过几个案例说明其使用。
6.Spark 机器学习。介绍Spark MLlib架构,通过K-Mean算法、随机森林等算法说明Spark MLlib的使用。
7.Spark Graphx。介绍Spark图计算及相关数据结构,用PageRank算法说明其使用。
1. Scala基本数据类型及程序控制结构。讲解Scala基本数据类型,对其中的程序控制结构特别是for循环的使用进行详细介绍。
2. Scala集合操作。对Array、List、Map等重要数据结构的操作进行介绍。
3. Scala函数。内容包括函数字面量、函数闭包、高阶函数、偏函数及集合常见高阶函数等。
4. Scala 类和对象(上)(下)。介绍Scala面向对象编程,包括类的定义、伴生对象、伴生类、应用程序对象、类的继承等。
5. Scala 模式匹配(上)(下)。内容包括模式匹配的作用、模式匹配的类型、模式匹配在for循环、正则表达式中的应用、模式匹配与Case Class。
6. Scala类型参数。对Scala中的类型变量界定、协变与逆变等进行介绍。
7. Scala 隐式转换。内容包括隐式转换函数、隐式类、隐式对象、视图界定及上正文界定中的隐式转换等。
8. Scala高级类型。对Scala中的单例类型、抽象类型等进行介绍。
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。
2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。
3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及action操作进行介绍。
4.Spark SQL与DataFrame,介绍Spark SQL 及DataFrame的运行原理及使用方法,利用案例介绍Spark SQL的使用。
5.Spark 流式计算。介绍DStream、Spark Streaming原理,并通过几个案例说明其使用。
6.Spark 机器学习。介绍Spark MLlib架构,通过K-Mean算法、随机森林等算法说明Spark MLlib的使用。
7.Spark Graphx。介绍Spark图计算及相关数据结构,用PageRank算法说明其使用。
议题提纲(本期内容为紫色显示)
1. Scala基本数据类型及程序控制结构。讲解Scala基本数据类型,对其中的程序控制结构特别是for循环的使用进行详细介绍。
2. Scala集合操作。对Array、List、Map等重要数据结构的操作进行介绍。
3. Scala函数。内容包括函数字面量、函数闭包、高阶函数、偏函数及集合常见高阶函数等。
4. Scala 类和对象(上)(下)。介绍Scala面向对象编程,包括类的定义、伴生对象、伴生类、应用程序对象、类的继承等。
5. Scala 模式匹配(上)(下)。内容包括模式匹配的作用、模式匹配的类型、模式匹配在for循环、正则表达式中的应用、模式匹配与Case Class。
6. Scala类型参数。对Scala中的类型变量界定、协变与逆变等进行介绍。
7. Scala 隐式转换。内容包括隐式转换函数、隐式类、隐式对象、视图界定及上正文界定中的隐式转换等。
8. Scala高级类型。对Scala中的单例类型、抽象类型等进行介绍。
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。
2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。
3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及action操作进行介绍。
4.Spark SQL与DataFrame,介绍Spark SQL 及DataFrame的运行原理及使用方法,利用案例介绍Spark SQL的使用。
5.Spark 流式计算。介绍DStream、Spark Streaming原理,并通过几个案例说明其使用。
6.Spark 机器学习。介绍Spark MLlib架构,通过K-Mean算法、随机森林等算法说明Spark MLlib的使用。
7.Spark Graphx。介绍Spark图计算及相关数据结构,用PageRank算法说明其使用。
进阶课程&&TBD &&
议题提纲(本期内容为紫色显示)
1. Scala基本数据类型及程序控制结构。讲解Scala基本数据类型,对其中的程序控制结构特别是for循环的使用进行详细介绍。
2. Scala集合操作。对Array、List、Map等重要数据结构的操作进行介绍。
3. Scala函数。内容包括函数字面量、函数闭包、高阶函数、偏函数及集合常见高阶函数等。
4. Scala 类和对象(上)(下)。介绍Scala面向对象编程,包括类的定义、伴生对象、伴生类、应用程序对象、类的继承等。
5. Scala 模式匹配(上)(下)。内容包括模式匹配的作用、模式匹配的类型、模式匹配在for循环、正则表达式中的应用、模式匹配与Case Class。
6. Scala类型参数。对Scala中的类型变量界定、协变与逆变等进行介绍。
7. Scala 隐式转换。内容包括隐式转换函数、隐式类、隐式对象、视图界定及上正文界定中的隐式转换等。
8. Scala高级类型。对Scala中的单例类型、抽象类型等进行介绍。
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。
2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。
3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及action操作进行介绍。
4.Spark SQL与DataFrame,介绍Spark SQL 及DataFrame的运行原理及使用方法,利用案例介绍Spark SQL的使用。
5.Spark 流式计算。介绍DStream、Spark Streaming原理,并通过几个案例说明其使用。
6.Spark 机器学习。介绍Spark MLlib架构,通过K-Mean算法、随机森林等算法说明Spark MLlib的使用。
7.Spark Graphx。介绍Spark图计算及相关数据结构,用PageRank算法说明其使用。
进阶课程&&TBD &&
1.隐式转换简要回顾。视图界定、上下文界定及多重界定背后都涉及到隐式转换,对隐式转换的要点进行回顾,以便能够深入理解视图界定等,涉及内容包括隐式转换函数、隐式参数、隐式类与对象
2.视图界定:首先回顾类型变量界定,然后通过案例引出视图界定,理解视图界定是如何跨越类继承层次结构
3.上下文界定:通过案例说明上下文界定的使用,理解上下文界定如果通过隐式值起作用
4.多重界定:通过案例说明多重界定的使用,理解多重界定的实现原理
5.类型约束:通过案例说明如果通过类型约束进行类型证明
6.协变与逆变:对不变、协变及逆变进行介绍,介绍如何使用里氏替换原则理解协变与逆变
1.Spark简介:简要介绍Spark的发展历程,为什么会出现Spark及Spark的特点,Spark的生态系统及常用组件
2.Spark集群安装:(a)VMware Workstation、Linux操作系统及配置;(b) Hadoop集群搭建:Java、Scala的安装与配置,ZooKeeper集群的安装与匹配,Hadoop集群的安装、配置及测试;(c)Spark集群的安装、配置及测试
3.Spark开发环境搭建:主要介绍Intellij IDEA的安装与配置,涉及Intellij IDEA开发环境的基础使用方法,同时介绍IntelliJ idea集成开发环境下的Spark开发环境搭建及WordCount应用程序开发与运行。
4.Spark源码阅读环境的构建:为方便学习Spark内核源代码,理解其深层次的原理等,介绍使用Intellij IDEA构建Spark源码阅读环境并进行代码阅读
5.Spark应用程序调试:为解决开发过程中遇到的程序问题,介绍Spark应用程序的本地调试及远程调试技巧。
CSDN Spark 聚集地,汇聚了全国顶尖的Spark技术专家,入群请加微信号zhongyineng。
1. RDD简介:介绍什么是RDD,RDD的实现原理及RDD的五大特性
2. RDD的生命周期:介绍RDD从创建、transformation、action、persist及持久化操作的整个生命周期
3. RDD 的创建:通过案例演示RDD的两种创建方法,即如何从文件与现有Scala集合创建RDD
4. RDD的依赖关系:介绍RDD的宽依赖与窄依赖、RDD的Lineage,介绍RDD依赖对Spark程序执行的影响。
5. RDD Transformation操作:通过大量的案例说明常用transformation函数的使用,包括:集合类的transformation操作及实现原理包括union、intersect、distinct 、cartesian等;map类的transformation操作包括map、flatMap、mapPartitions、mapPartitionsWithIndex等操作;键值对类的transformation操作及实现原理如partitionBy、mapValues、groupByKey、reduceByKey、reduceByKeyLocally、aggregateByKey、foldByKey、combineByKey、join等
CSDN Spark 聚集地,汇聚了全国顶尖的Spark技术专家,入群请加微信号zhongyineng。
1. RDD的依赖关系:介绍RDD的宽依赖与窄依赖、RDD的Lineage的构建,介绍RDD依赖对Spark程序执行的影响。
2. RDD Transformation操作:通过大量的案例说明常用transformation函数的使用,包括:集合类的transformation操作及实现原理包括union、intersect、distinct 、cartesian等;map类的transformation操作包括map、flatMap、mapPartitions、mapPartitionsWithIndex等操作;键值对类的transformation操作及实现原理如partitionBy、mapValues、groupByKey、reduceByKey、reduceByKeyLocally、aggregateByKey、foldByKey、combineByKey、join等
CSDN Spark 聚集地,汇聚了全国顶尖的Spark技术专家,入群请加微信号zhongyineng。
2016中国Spark技术大会将于5月15日北京拉开帷幕,不仅有3位Apache Spark Committer Ram Sriharsha、连城、范文臣为大家解析Spark 2.0,来自Intel、Hortonworks、Elastic、腾讯、新浪微博、Admaster、MediaV等国内外机构的9位专家将带来最新的Spark实践分享详情访问会议。
大家关心的问题
1.直播错过,有视频可以观看吗?
答:每期直播都有视频回放,付费学员可反复观看,有效期2年。
2.代码资料学员可以拿到吗?
答:每期课件及代码资料都会上传供学员下载,详见回放课程目录的下载按钮。
3.开课前会有通知吗?
答:已经购买课程学院可关注公众号“IT学涯”,获取开课前提醒,也可以绑定手机号,或者短信提醒通知。
4.学习中遇到问题怎么办?
答:学员付费后会有vip付答疑费专享群,讲师不定期答疑,并且可长期享受答疑服务,让您的学习全程无忧。
5.报名后如何进入直播间听课?
答:PC端输入网址http://edu.csdn.net 在”我的学院—我的直播课”。(微信购买学院,请通过微信扫码登录)、微信端在“直播讲堂—我的”直播讲堂
6.报名后如何查看订单?
“我的订单”进入查看即可。 ?微信端,在“在线课程—我的—我的订单”中查看。">答:PC端,在“我的学院”--->“我的订单”进入查看即可。微信端,在“在线课程—我的—我的订单”中查看。
7.报名后是否可以开发票?
答:可以开具发票,请联系学院页面右侧的“学院客服”提交开票申请。
8.PC端如何观看直播回放?
答:使用电脑观看,输入http://edu.csdn.net/或报名网址,登录CSDN账号(若您使用微信付费报名的,需在电脑上选择微信登录,扫码即可登录),“我的学院—我的直播课”。
9.移动端如何观看直播回放?
因为版权问题,需要下载CSDN学院客户端http://edu.csdn.net/app,进入我的订单即可观看课程回顾。
最新直播还未开始哦,请查看上期直播回顾~~ヾ(≧▽≦*)
系列直播课报名:Spark零基础入门
请关注公众号,及时获取最新资讯
直播课程报名成功
系列名称:Spark零基础入门
把公开课分享你的朋友们吧:}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信