我想去上大讲台大数据培训的大数据就业班，请问什么时候开班？

点击联系发帖人 时间：2018-06-15 10:30

大数据就业班

大数据需要哪些知识
1、需要有应用数学、统计学、数量经济学专业本科或者工学硕士层次水平的数学知识背景。2、至少熟练SPSS、STATISTIC、Eviews、SAS等数据分析软件中的一门。3、至少能够用Acess等进行数据库开发；4、至少掌握一门数学软件：matalab，mathmatics进行新模型的构建。5、至少掌握一门编程语言；6，当然还要其他应用领域方面的知识，比如市场营销、经济统计学等，因为这是数据分析的主要应用领域。
如果是大数据建设方面的话，那就是hadoop咯，先学hadoop吧
学习财务、统计、经济、投资、金融和企业管理等专业或相关专业均可。
学习大数据最好是计算机专业的，因为它需要有一些linux、java的基础；但是，看到你说有java基础，应该是可以学习的。建议你可以先做个测试，看看自己到底适不适合学习。你可以去大讲台咨询一下，他们做大数据培训有些年头了，通过在线运用科学混合式自适应学习系统组织线上教学，运用大数据可视化的在线实训系统组织实战练习。
统计学，数据库，数据挖掘知识，懂得业务需要，理解业务的复合型人才
其实这个不需要什么基础吧，算得上一个专项学习了，你既然想学这个基本的知识肯定是有的，有机会学的话就只能好好学了，基础知识什么的都是虚的，你需要的是一颗坚持下去的心。
如果是大数据建设方面的话，那就是hadoop咯，先学hadoop吧
大数据时代需要学习数据的存储和处理技术。大数据的存储主要是一些分布式文件系统，现在有好些分布式文件系统。比较火的就是GFS,HDFS前者是谷歌的内部使用的，后者是根据谷歌的相关论文用java开发的来源框架。hdfs可以学习。然后就是数据处理是学mapreduce，这是大数据出的不错的实现，可以基于hdfs实现大数据处理和优化存储。还有一个比较好的列式存储的数据库hbase,也是为了大数据儿生的非关系型数据库。然后就是一些辅助工具框架，比如:hive,pig,zookeeper,sqoop,flum。
大数据的基础知识，科普类的，自己去买本书就行了，大数据时代这样的书很多介绍的大数据的。另外大数据的技术，如数据采集，数据存取，基础架构，数据处理，统计分析，数据挖掘，模型预测，结果呈现。当然一些大数据的一些基础知识，比如java和hadoop等等，这个基本得自学。大学里面最接近这些的也就是计算机类专业。云计算的话，需要学习的知识应该包括但不限于：1、网络通信知识，包括互联网基础建设相关的所有知识；2、虚拟化知识，应该了解硬件运行原理以及虚拟化实现技术；3、数据库技术；4、网络存储技术；5、网络信息安全技术，最起码得明白什么是iso 17799；6、电子商务；7、容灾及备份技术；8、JAVA编程技术；9、分布式软件系统架构。。。
非常多的，问答不能发link，不然我给你link了。有譬如Hadoop等开源大数据项目的，编程语言的，以下就大数据底层技术说下。简单以永洪科技的技术说下，有四方面，其实也代表了部分通用大数据底层技术：Z-Suite具有高性能的大数据分析能力，她完全摒弃了向上升级(Scale-Up)，全面支持横向扩展(Scale-Out)。Z-Suite主要通过以下核心技术来支撑PB级的大数据：跨粒度计算(In-DatabaseComputing)Z-Suite支持各种常见的汇总，还支持几乎全部的专业统计函数。得益于跨粒度计算技术，Z-Suite数据分析引擎将找寻出最优化的计算方案，继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算，我们称之为库内计算(In-Database)。这一技术大大减少了数据移动，降低了通讯负担，保证了高性能数据分析。并行计算(MPP Computing)Z-Suite是基于MPP架构的商业智能平台，她能够把计算分布到多个计算节点，再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源，不管是服务器还是普通的PC，她对网络条件也没有严苛的要求。作为横向扩展的大数据平台，Z-Suite能够充分发挥各个节点的计算能力，轻松实现针对TB/PB级数据分析的秒级响应。列存储 (Column-Based)Z-Suite是列存储的。基于列存储的数据集市，不读取无关数据，能降低读写开销，同时提高I/O 的效率，从而大大提高查询性能。另外，列存储能够更好地压缩数据，一般压缩比在5 -10倍之间，这样一来，数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术，节省了存储设备和内存的开销，却大大了提升计算性能。内存计算得益于列存储技术和并行计算技术，Z-Suite能够大大压缩数据，并同时利用多个节点的计算能力和内存容量。一般地，内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算，CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速，是实现大数据分析的关键应用技术。
Copyright &
就爱阅读网 All Rights Reserved. 鲁ICP备号-4
声明：文章《大数据需要哪些知识》由就爱阅读网友共享发布，目的只是为了归纳学习和传递资讯
所有作品版权归原创作者所有，与本站立场无关，如用户分享不慎侵犯了您的权益，请联系我们告知，我们将做删除处理！大数据工程师需要学习哪些_百度知道
大数据工程师需要学习哪些
我有更好的答案
1.大数据工程师工作中会做什么？集群运维：安装、测试、运维各种大数据组件数据开发：细分一点的话会有ETL工程师、数据仓库工程师等数据系统开发：偏重Web系统开发，比如报表系统、推荐系统等这里面有很多内容其实是十分重合的，下面大致聊一下每一块内容大致需要学什么，以及侧重点。2.集群运维数据工程师，基本上是离不开集群搭建，比如hadoop、Spark、Kafka，不要指望有专门的运维帮你搞定，新组件的引入一般都要自己来动手的。因此这就要求数据工程师了解各种大数据的组件。由于要自己的安装各种开源的组件，就要求数据工程师要具备的能力： Linux 。要对Linux比较熟悉，能各种自己折腾着玩。由于现在的大数据生态系统基本上是 JVM系的，因此在语言上，就不要犹豫了，JVM系的Java和Scala基本上跑不掉，Java基本上要学的很深，Scala就看情况了。3. ETLETL在大数据领域主要体现在各种数据流的处理。这一块一方面体现在对一些组件的了解上，比如Sqoop、Flume、Kafka、Spark、MapR另一方面就是编程语言的需要，Java、Shell和Sql是基本功。4.系统开发我们大部分的价值最后都会由系统来体现，比如报表系统和推荐系统。因此就要求有一定的系统开发能力，最常用的就是 Java Web这一套了，当然Python也是挺方便的。需要注意的是，一般数据开发跑不掉的就是各种提数据的需求，很多是临时和定制的需求，这种情况下， Sql就跑不掉了，老老实实学一下Sql很必要。如何入门？前面提到了一些数据工程师会用到的技能树，下面给一个入门的建议，完全个人意见。1.了解行业情况刚开始一定要了解清楚自己和行业的情况，很多人根本就分不清招聘信息中的大数据和数据挖掘的区别就说自己要转行，其实是很不负责的。不要总是赶热点，反正我就是经常被鄙视做什么大数据开发太Low，做数据就要做数据挖掘，不然永远都是水货。2.选择学习途径如果真是清楚自己明确地想转数据开发了，要考虑一下自己的时间和精力，能拿出来多少时间，而且在学习的时候最好有人能多指点下，不然太容易走弯路了。在选择具体的学习途径时，要慎重一点，有几个选择：自学报班找人指点别的不说了，报班是可以考虑的，不要全指望报个辅导班就能带你上天，但是可以靠他帮你梳理思路。如果有专业从事这一行的人多帮帮的话，是最好的。不一定是技术好，主要是可沟通性强。3.学习路线学习路线，下面是一个大致的建议：第一阶段先具备一定的Linux和Java的基础，不一定要特别深，先能玩起来，Linux的话能自己执行各种操作，Java能写点小程序。这些事为搭建Hadoop环境做准备。学习Hadoop，学会搭建单机版的Hadoop，然后是分布式的Hadoop，写一些MR的程序。接着学学Hadoop生态系统的其它大数据组件，比如Spark、Hive、Hbase，尝试去搭建然后跑一些官网的Demo。Linux、Java、各种组件都有一些基础后，要有一些项目方面的实践，这时候找一些成功案例，比如搜搜各种视频教程中如何搞一个推荐系统，把自己学到的用起来。第二阶段到这里是一个基本的阶段了，大致对数据开发有一些了解了。接着要有一些有意思内容可以选学。数据仓库体系：如何搞数据分层，数据仓库体系该如何建设，可以有一些大致的了解。用户画像和特征工程：这一部分越早了解越好。一些系统的实现思路：比如调度系统、元数据系统、推荐系统这些系统如何实现。第三阶段下面要有一些细分的领域需要深入进行，看工作和兴趣来选择一些来深入进行分布式理论：比如Gossip、DHT、Paxo这些构成了各种分布式系统的底层协议和算法，还是要学一下的。数据挖掘算法：算法是要学的，但是不一定纯理论，在分布式环境中实现算法，本身就是一个大的挑战。各种系统的源码学习：比如Hadoop、Spark、Kafka的源码，想深入搞大数据，源码跑不掉。
大数据时代需要学习数据的存储和处理技术，大数据的存储主要是一些分布式的文件系统，例如GFS和HDFS，数据处理需要学习mapreduce。大讲台在大数据研究和实践的方面有着丰富的经验，拥有专门的大数据教学视频和实例，可以帮助你快速入门大数据，走在行业前端。
为您推荐：
其他类似问题
您可能关注的内容
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。　　在现如今，随着大数据相关技术和产业的逐步成熟，相信大家对Hadoop和Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上，并没有对它们进行深入的思考，那么，关于大数据Hadoop和Spark的异同你都了解吗？下面我们一起来看一下吧。　　　　1、解决问题的层面不一样　　首先，Hadoop和ApacheSpark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。　　同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到前所未有的高度。Spark，则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。　　2、两者可合可分　　Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外，还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark，使用Hadoop自身的MapReduce来完成数据的处理。　　相反，Spark也不是非要依附在Hadoop身上才能生存。但如上所述，毕竟它没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的，毕竟，大家都认为它们的结合是最好的。　　3、Spark数据处理速度秒杀MapReduce　　Spark因为其处理数据的方式不一样，会比MapReduce快上很多。MapReduce是分步对数据进行处理的:”从集群中读取数据，进行一次处理，将结果写到集群，从集群中读取更新后的数据，进行下一次的处理，将结果写到集群，等等…“BoozAllenHamilton的数据科学家KirkBorne如此解析。　　反观Spark，它会在内存中以接近“实时”的时间完成所有的数据分析：“从集群中读取数据，完成所有必须的分析处理，将结果写回集群，完成，”Born说道。Spark的批处理速度比MapReduce快近10倍，内存中的数据分析速度则快近100倍。　　如果需要处理的数据和结果需求大部分情况下是静态的，且你也有耐心等待批处理的完成的话，MapReduce的处理方式也是完全可以接受的。　　但如果你需要对流数据进行分析，比如那些来自于工厂的传感器收集回来的数据，又或者说你的应用是需要多重数据处理的，那么你也许更应该使用Spark进行处理。　　大部分机器学习算法都是需要多重数据处理的。此外，通常会用到Spark的应用场景有以下方面：实时的市场活动，在线产品推荐，网络安全分析，机器日记监控等。　　4、灾难恢复　　两者的灾难恢复方式迥异，但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上，所以其天生就能很有弹性的对系统错误进行处理。　　Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD:ResilientDistributedDataset)中。这些数据对象既可以放在内存，也可以放在磁盘，所以RDD同样也可以提供完成的灾难恢复功能。　　以上就是关于Hadoop和Spark的异同详细介绍，希望可以帮助到你，最后想要了解更多关于Hadoop和Spark的新闻资讯，请关注大讲台官网、微信等平台，大讲台IT职业在线学习教育平台为您提供权威的大数据Spark培训课程和视频教程系统，通过大讲台金牌讲师在线录制的第一套自适应Spark在线视频课程系统，让你快速掌握Spark从入门到精通大数据开发实战技能。
主帖获得的天涯分：0
楼主发言：1次发图：0张 | 更多
<span class="count" title="大数据需要学习什么？
　　很多人都知道大数据很火，就业很好，薪资很高，想往大数据方向发展。但该学哪些技术，学习路线是什么样的呢?用不用参加大数据培训呢?如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么大讲台老师就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么?是计算机专业，对操作系统、硬件、网络、服务器感兴趣?是软件专业，对软件开发、编程、写代码感兴趣?还是数学、统计学专业，对数据和数字特别感兴趣。
　　其实这就是想告诉你的大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。
&&&&&&&&&&&&&&&&&&&&&&&&
　　先说一下大数据的4V特征：
　　数据量大，TB-&PB
　　数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等;
　　商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来;
　　处理时效性高，海量数据的处理需求不再局限在离线计算当中。
　　现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，再列举一些常见的：
　　文件存储：hadoop&HDFS、Tachyon、KFS
　　离线计算：Hadoop
MapReduce、Spark
　　流式、实时计算：Storm、Spark
Streaming、S4、Heron
K-V、NOSQL数据库：HBase、Redis、MongoDB
　　资源管理：YARN、Mesos
　　日志收集：Flume、Scribe、Logstash、Kibana
　　消息系统：Kafka、StormMQ、ZeroMQ、RabbitMQ
　　查询分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
　　分布式协调服务：Zookeeper
　　集群管理与监控：Ambari、Ganglia、Nagios、Cloudera
数据挖掘、机器学习：Mahout、Spark
　　数据同步：Sqoop
　　任务调度：Oozie
　　眼花了吧，上面的有30多种吧，别说精通了，全部都会使用的，估计也没几个。
　　大讲台老师推荐第二个方向(开发/设计/架构)，因为这个方向容易找工作，下面给大家具体讲解一下。
　　第一章：初识Hadoop
1.1&学会百度与Google
　　不论遇到什么问题，先试试搜索并自己解决。
Google首选，翻不过去的，就用百度吧。
1.2&参考资料首选官方文档
　　特别是对于入门来说，官方文档永远是首选文档。
　　相信搞这块的大多是文化人，英文凑合就行，实在看不下去的，请参考第一步。
1.3&先让Hadoop跑起来
Hadoop可以算是大数据存储和计算的开山鼻祖，现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。
　　关于Hadoop,你至少需要搞清楚以下是什么：
Hadoop 1.0、Hadoop 2.0
MapReduce、HDFS
NameNode、DataNode
JobTracker、TaskTracker
Yarn、ResourceManager、NodeManager
　　自己搭建Hadoop，请使用第一步和第二步，能让它跑起来就行。
　　建议先使用安装包命令行安装，不要使用管理工具安装。详情操作请加客服QQ：
& &大数据方向的工作目前分为三个主要方向:
01.大数据工程师
02.数据分析师
03.大数据科学家
04.其他（数据挖掘本质算是机器学习，不过和数据相关，也可以理解为大数据的一个方向吧）
由于本人目前是是大数据工程师的角色，我就这个方向做一些介绍。
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。数据分析就业班VS大数据分析就业班请专业人士为我做一下简单区分_百度知道
数据分析就业班VS大数据分析就业班请专业人士为我做一下简单区分
二者有什么不同主要是就业方向二者有什么不同主要是就业方向
我有更好的答案
1、数据分析：基础分析软件（excel、spss、sas等）+业务知识（70%以上）+编程（非必选）2、大数据分析(数据挖掘):编程语言+数据库+算法+业务（非必选）大数据分析师对技能要求太高，2者的就业方向根据可以从是否会（有兴趣）编程、统计/算法是否会（有兴趣）这些方面来看3、以上只是个人认知（小数据一枚）
采纳率：56%
来自团队：
为您推荐：
其他类似问题
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。}

叫阿莫西中心