大数据知识培训哪个好

点击联系发帖人 时间：2018-04-28 23:09

大数据知识培训

想要学习大数据方面的知识，该从什么入手呢？
希望大神给点建议
从喜欢北方宝宝开始，要关注大个子的北方微博号
你还没有登录，请先登录或注册慕课网帐号
你还没有登录，请先登录或注册慕课网帐号
10308人关注
Copyright (C) 2018 imooc.com All Rights Reserved | 京ICP备号-11大数据应该怎么学：大数据学习存在哪些误区新如何学习？大数据怎么入门？怎么做大数据分析？数据科学需要学习那些技术？大数据的应用前景等等问题。由于大数据技术涉及内容太庞杂，大数据应用领域广泛，而且各领域和方向采用的关键技术差异性也会较大，难以三言两语说清楚，本文从数据科学和大数据关键技术体系角度，来说说大数据的核心技术什么，到底要怎么学习它，以及怎么避免的误区，以供参考。【CDA经管之家】1．大数据应用的目标是普适智能要学好大数据，首先要明确大数据应用的目标，我曾经讲过大数据就好比万金油，像百度几年前提的框计算，这个框什么都能往里装。为什么会这样，因为大数据这个框太大，其终极目标是利用一系列信息技术实现海量数据条件下的人类深度洞察和决策智能化，最终走向普适的人机智能融合！这不仅是传统信息化管理的扩展延伸，也是人类社会发展管理智能化的核心技术驱动力。通过大数据应用，面向过去，发现数据规律，归纳已知；面向未来，挖掘数据趋势，预测未知。从而提高人们对事物的理解和决策处置能力，最终实现社会的普适智能。不管是商业智能，机器智能，人工智能，还是智能客服，智能问答，智能推荐，智慧医疗、智慧交通等相关技术和系统，其本质都是朝着这一目标在演进。随着云计算平台和大数据技术的高速发展，获得大数据基础设施建设相关技术和支持越来越容易。同时，移动互联网和物联网技术所具备的全面数据采集能力，客观上促进了大数据的积累和爆发。总之大数据就是个大框，什么都能往里装，大数据源的采集如果用传感器的话离不开物联网、大数据源的采集用智能手机的话离不开移动互联网，大数据海量数据存储要高扩展就离不开云计算，大数据计算分析采用传统的机器学习、数据挖掘技术会比较慢，需要做并行计算和分布式计算扩展，大数据要自动特征工程离不开深度学习、大数据要互动展示离不开可视化，而面向特定领域和多模态数据的大数据分析技术更是十分广泛，金融大数据、交通大数据、医疗大数据、安全大数据、电信大数据、电商大数据、社交大数据，文本大数据、图像大数据、视频大数据…诸如此类等等范围太广，所以首先我们要搞清楚大数据应用的核心目标，这个明确之后，才利于结合不同行业特点把握住共性关键技术，从而有针对性的学习。图1 国外大数据企业关系图，传统信息技术企业也在向智能化发展，与新兴大数据企业互为竞争和支持。2．从大数据版图看数据科学及其关键技术体系明确大数据应用目标之后，我们再看看数据科学（Data Science），数据科学可以理解为一个跨多学科领域的，从数据中获取知识的科学方法，技术和系统集合，其目标是从数据中提取出有价值的信息，它结合了诸多领域中的理论和技术，包括应用数学，统计，模式识别，机器学习，人工智能，深度学习，数据可视化，数据挖掘，数据仓库，以及高性能计算等。图灵奖得主Jim Gray把数据科学喻为科学的“第四范式”（经验、理论、计算和数据驱动），并断言因为信息技术的影响和数据的泛滥增长，未来不管什么领域的科学问题都将由数据所驱动。图2 典型的数据科学过程：包括原始数据采集，数据预处理和清洗，数据探索式分析，数据计算建模，数据可视化和报表，数据产品和决策支持等。传统信息化技术多是在结构化和小规模数据上进行计算处理，大数据时代呢，数据变大了，数据多源异构了，需要智能预测和分析支持了，所以核心技术离不开机器学习、数据挖掘、人工智能等，另外还需考虑海量数据的分布式存储管理和机器学习算法并行处理，所以数据的大规模增长客观上促进了DT（Data Technology）技术生态的繁荣与发展，包括大数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算（批处理、在线处理、实时流处理、内存处理）、多模态计算（图像、文本、视频、音频）、数据仓库、数据挖掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。可见DT这种新技术泛型生态下的大数据版图十分庞杂，当然也有泡沫的成分存在，这个版图也会时刻处于变化之中，就像PC时代的应用程序，互联网上的网站，移动互联网的APP，大数据时代的技术和产品也正处于优胜劣汰的过程。下面我们来看2017版的大数据版图：图3 国外和国内中关村大数据产业版图（包括数据、技术、应用、企业等）上述大数据版图基本涵盖了国外大数据相关技术和产业链（国内中关村版的大数据技术和企业还是太少，多是传统信息技术企业在凑数），从大数据源，开源技术框架，大数据基础设施建设，大数据核心的计算挖掘分析，大数据行业应用等方面进行了相关技术、产品和企业的展示。大数据产业链从数据源〉开源技术〉基础设施〉分析计算〉行业应用到产品落地，每个链条环节和下辖的细分内容都涉及大量数据分析技术。不管是学习技术还是开发产品，分析和理解这个大数据产业版图都十分必要。版图细节不做赘述，我们重点从学习的角度来看DT（Data technology）技术泛型下包括那些核心技术，各技术领域之间是什么样的逻辑关系，这是学习大数据首先要搞清楚的问题：（1）机器学习（machine learning）首先我们说说机器学习，为什么先说它，因为机器学习是大数据处理承上启下的关键技术，机器学习往上是深度学习、人工智能，机器学习往下是数据挖掘和统计学习。机器学习属于计算机和统计学交叉学科，核心目标是通过函数映射、数据训练、最优化求解、模型评估等一系列算法实现让计算机拥有对数据进行自动分类和预测的功能，机器学习领域包括很多种类的智能处理算法，分类、聚类、回归、相关分析等每类下面都有很多算法进行支撑，如SVM，神经网络，Logistic回归，决策树、EM、HMM、贝叶斯网络、随机森林、LDA等，无论是网络排名的十大算法还是二十大算法，都只能说是冰山一角，随着深度学习核心技术的突破性发展，机器学习算法得以高速扩张；总之大数据处理要智能化，机器学习是核心的核心，深度学习、数据挖掘、商业智能、人工智能，大数据等概念的核心技术就是机器学习，机器学习用于图像处理和识别就是机器视觉，机器学习用于模拟人类语言就是自然语言处理，机器视觉和自然语言处理也是支撑人工智能的核心技术，机器学习用于通用的数据分析就是数据挖掘。深度学习（deep learning）是机器学习里面现在比较火的一个子领域，属于原来人工神经网络算法的一系列变种，由于在大数据条件下图像，语音识别等领域的学习效果显著，有望成为人工智能取得突破的关键性技术，所以各大研究机构和IT巨头们都对其投入了极大的关注。（2）数据挖掘（data mining）数据挖掘可以说是机器学习的一个超集，是一个较为宽泛的概念，类似于采矿，要从大量矿石里面挖出宝石，从海量数据里面挖掘有价值有规律的信息同理。数据挖掘核心技术来自于机器学习领域，如深度学习是机器学习中一类比较火的算法，当然也可以用于数据挖掘。还有传统的商业智能（BI）领域也包括数据挖掘，OLAP多维数据分析可以做挖掘分析，甚至Excel基本的统计分析也可以做挖掘。关键是你的技术能否真正挖掘出有用的信息，然后这些信息可以指导决策。数据挖掘的提法比机器学习要早，应用范围要广，数据挖掘和机器学习是大数据分析的核心技术，互为支撑，为大数据处理提供相关模型和算法，而模型和算法是大数据处理的关键，探索式交互式分析、可视化分析、数据的采集存储和管理等都较少用到学习模型。（3）人工智能（artifical intelligence）AI和大数据是相互促进的关系，一方面，AI基础理论技术的发展为大数据机器学习和数据挖掘提供了更丰富的模型和算法，如近几年的深度学习一系列技术（强化学习、对抗学习等）和方法；另一方面，大数据为AI的发展提供了新的动力和燃料，数据规模大了之后，传统机器学习算法面临挑战，要做并行化、要加速要改进。AI的终极目标是机器智能化拟人化，机器能完成和人一样的工作，人脑仅凭几十瓦的功率，能够处理种种复杂的问题，怎样看都是很神奇的事情。虽然机器的计算能力比人类强很多，但人类的理解能力，感性的推断，记忆和幻想，心理学等方面的功能，机器是难以比肩的，所以机器要拟人化很难单从技术角度把人工智能讲清楚。人工智能与机器学习的关系，两者的相当一部分技术、算法都是重合的，深度学习在计算机视觉和棋牌走步等领域取得了巨大的成功，比如谷歌自动识别一只猫，谷歌的AlpaGo还击败了人类顶级的专业围棋手等。但深度学习在现阶段还不能实现类脑计算，最多达到仿生层面，情感，记忆，认知，经验等人类独有能力机器在短期难以达到。（4）其它大数据处理基础技术如图4，大数据基础技术包括计算机科学相关如编程、云计算、分布式计算、系统架构设计等方向，还有机器学习的理论基础包括如算法、数据结构、概率论、代数、矩阵分析、统计学习、特征工程等方面；商业分析与理解如领域知识管理、产品设计、可视化等技术；数据管理如数据采集、数据预处理、数据库、数据仓库、信息检索、多维分析、分布式存储等技术。这些理论与技术是为大数据的基础管理、机器学习和应用决策等多个方面服务的。图4 数据科学的技术维度上图是数据科学的5个技术维度，基本涵盖了数据科学的关键支撑技术体系，从数据管理、计算机科学基础理论技术、数据分析、商业理解决策与设计几个方面进行了数据科学相关技术的梳理，其中计算机科学基础理论方法与数据分析两个板块的学习内容是最多的，也是最重要的。现阶段的大数据产品和服务多是在数据管理版块，分析板块和业务决策板块的对接是数据科学和大数据产业后续发展的关键突破点。另外图中的Art&Design版块只列了交通沟通和可视化，其实还不够，这个艺术（Art）还说明了数据科学与传统信息化技术的本质不同，数据科学的核心能力是根据问题提出设想，再把设想转化为学习模型，这种能力是要讲艺术的，没有这样的设计艺术，计算机要智能化不是那么容易。为什么上升为艺术了？因为经验告诉我们，把现实问题转化为模型没有标准答案，可选的模型不只一种，技术路线多样，评价指标也有多个维度，甚至优化方法也有很多种，机器学习的本质就是在处理这门艺术，给定原始数据、限制条件和问题描述，没有标准答案，每种方案的选择就是一种设想假设，需要具备利用精确的测试和实验方法来验证和证伪这些假设的能力，从这个层面讲，未来所有科学问题以及商业、政府管理决策问题都将是数据科学问题，而机器学习是数据科学的核心。3．大数据盲人摸象：如何构建完整的知识结构和分析能力从数字化、信息化、网络化到未来的智能化时代，移动互联网、物联网、云计算、大数据、人工智能等前沿信息技术领域，逐个火了一遍。也代表了信息技术发展的大趋势，什么是大数据，大数据的技术范畴及其逻辑关系，估计很多人都是根据自己所熟悉的领域在盲人摸象（如图5）。其实我这里讲的盲人摸象并不是贬义，毕竟一个领域的学习到精通就是从盲人摸象式开始的。大数据、数据科学都是很虚的一个概念，分析目标和采用技术都包罗万象，就好比写程序，分前端和后端，分B/S和C/S，分嵌入式、企业应用和APP等，开发语言更是有数十种，不同方向所需要的技术也是大不相同。图5 大数据盲人摸象所以怎么从点到面，构建大数据领域完整的知识结构和分析能力至关重要，某方面的技术和语言只是工具而已。大数据知识结构，就是既有精深的大数据基础理论知识，又有广博的知识面和应用全局观，具有大数据产业发展所需要的最合理、最优化、最关键的核心技术与知识体系。通过合理的知识结构和科学的大数据思维方法，提高大数据分析实战技能。这个目标很大，但还是可以达到的，首先要搞清楚大数据产业链的情况，接下来要明确大数据技术栈也就是相关技术体系，最后定下学习目标和应用方向，是面对什么行业的数据，是关注存储还是机器学习，数据规模是什么量级，数据类型是文本、图像、网页还是商业数据库？每个方向所用技术有较大差异，需要找准学习的兴趣点和切入点。图6 大数据技术栈与学习路线参考图上面这个大数据技术栈和学习路线图，可以说是一个大数据学习的总纲，专业性很强，值得初学者深入研究和理解，对我在前面提到的数据科学技术体系来讲，是更丰富的补充。比如基础学习部分包括线性代数、关系代数、数据库基础、CAP理论、OLAP、多维数据模型、数据预处理ETL等都分析得很到位。总之大数据学习不能像炒菜一样，等到把所有材料准备好了才下锅（因为这个领域技术体系庞杂应用目标广泛，就算学个十年二十年也难以掌握其大部分核心理论技术），而是结合自己的兴趣或工作需求，找一个点猛扎进去，掌握这个点的相关技术，深入理解其分析的流程、应用和评价等环节，搞透彻一个点之后，再以点带面，举一反三，逐步覆盖大数据各个领域，从而构建完整的知识结构和技术能力体系，这才是大数据学习的最佳路径。4．大数据要怎么学：数据科学特点与大数据学习误区（1）大数据学习要业务驱动，不要技术驱动：数据科学的核心能力是解决问题。大数据的核心目标是数据驱动的智能化，要解决具体的问题，不管是科学研究问题，还是商业决策问题，抑或是政府管理问题。所以学习之前要明确问题，理解问题，所谓问题导向、目标导向，这个明确之后再研究和选择合适的技术加以应用，这样才有针对性，言必hadoop,spark的大数据分析是不严谨的。不同的业务领域需要不同方向理论、技术和工具的支持。如文本、网页要自然语言建模，随时间变化数据流需要序列建模，图像音频和视频多是时空混合建模；大数据处理如采集需要爬虫、倒入导出和预处理等支持，存储需要分布式云存储、云计算资源管理等支持，计算需要分类、预测、描述等模型支持，应用需要可视化、知识库、决策评价等支持。所以是业务决定技术，而不是根据技术来考虑业务，这是大数据学习要避免的第一个误区。（2）大数据学习要善用开源，不要重复造轮子：数据科学的技术基因在于开源。IT前沿领域的开源化已成不可逆转的趋势，Android开源让智能手机平民化，让我们跨入了移动互联网时代，智能硬件开源将带领跨入物联网时代，以Hadoop和Spark为代表的大数据开源生态加速了去IOE（IBM、ORACLE、EMC）进程，倒逼传统IT巨头拥抱开源，谷歌和OpenAI联盟的深度学习开源（以Tensorflow,Torch,Caffe等为代表）正在加速人工智能技术的发展。数据科学的标配语言R和Python更是因开源而生，因开源而繁荣，诺基亚因没把握开源大势而衰落。为什么要开源，这得益于IT发展的工业化和构件化，各大领域的基础技术栈和工具库已经很成熟，下一阶段就是怎么快速组合、快速搭积木、快速产出的问题，不管是linux,anroid还是tensorflow，其基础构件库基本就是利用已有开源库，结合新的技术方法实现，组合构建而成，很少在重复造轮子。另外，开源这种众包开发模式，是一种集体智慧编程的体现，一个公司无法积聚全球工程师的开发智力，而一个GitHub上的明星开源项目可以，所以要善用开源和集体智慧编程，而不要重复造轮子，这是大数据学习要避免的第二个误区。（3）大数据学习要以点带面，不贪大求全：数据科学要把握好碎片化与系统性。根据前文的大数据技术体系分析，我们可以看到大数据技术的深度和广度都是传统信息技术难以比拟的。我们的精力很有限，短时间内很难掌握多个领域的大数据理论和技术，数据科学要把握好碎片化和系统性的关系。何为碎片化，这个碎片化包括业务层面和技术层面，大数据不只是谷歌，亚马逊，BAT等互联网企业，每一个行业、企业里面都有它去关注数据的痕迹：一条生产线上的实时传感器数据，车辆身上的传感数据，高铁设备的运行状态数据，交通部门的监控数据，医疗机构的病例数据，政府部门的海量数据等等，大数据的业务场景和分析目标是碎片化的，而且相互之间分析目标的差异很大；另外，技术层面来讲，大数据技术就是万金油，一切服务于数据分析和决策的技术都属于这个范畴，其技术体系也是碎片化的。那怎么把握系统性呢，不同领域的大数据应用有其共性关键技术，其系统技术架构也有相通的地方，如系统的高度可扩展性，能进行横向数据大规模扩张，纵向业务大规模扩展，高容错性和多源异构环境的支持，对原有系统的兼容和集成等等，每个大数据系统都应该考虑上述问题。如何把握大数据的碎片化学习和系统性设计，离不开前面提出的两点误区，建议从应用切入、以点带面，先从一个实际的应用领域需求出发，搞定一个一个技术点，有一定功底之后，再举一反三横向扩展逐步理解其系统性技术。（4）大数据学习要勇于实践，不要纸上谈兵：数据科学还是数据工程？大数据只有和特定领域的应用结合起来才能产生价值，数据科学还是数据工程是大数据学习要明确的关键问题，搞学术发paper数据科学OK，但要大数据应用落地，如果把数据科学成果转化为数据工程进行落地应用，难度很大，这也是很多企业质疑数据科学价值的原因。且不说这种转化需要一个过程，从业人员自身也是需要审视思考的。工业界包括政府管理机构如何引入研究智力，数据分析如何转化和价值变现？数据科学研究人员和企业大数据系统开发工程人员都得想想这些关键问题。目前数据工程要解决的关键问题主线是数据(Data)&知识(Knowledge)&服务(Service)，数据采集和管理，挖掘分析获取知识，知识规律进行决策支持和应用转化为持续服务。解决好这三个问题，才算大数据应用落地，那么从学习角度讲，DWS就是大数据学习要解决问题的总目标，特别要注重数据科学的实践应用能力，而且实践要重于理论。从模型，特征，误差，实验，测试到应用，每一步都要考虑是否能解决现实问题，模型是否具备可解释性，要勇于尝试和迭代，模型和软件包本身不是万能的，大数据应用要注重鲁棒性和实效性，温室模型是没有用的，训练集和测试集就OK了吗？大数据如何走出实验室和工程化落地，一是不能闭门造车，模型收敛了就想当然万事大吉了；二是要走出实验室充分与业界实际决策问题对接；三是关联关系和因果关系都不能少，不能描述因果关系的模型无助于解决现实问题；四是注重模型的迭代和产品化，持续升级和优化，解决新数据增量学习和模型动态调整的问题。所以，大数据学习一定要清楚我是在做数据科学还是数据工程，各需要哪些方面的技术能力，现在处于哪一个阶段等，不然为了技术而技术，是难以学好和用好大数据的。（5）大数据学习的三个阶段：不同阶段的技术路线各有侧重，把握主要矛盾。在大数据应用实施过程中，由于技术和成本考虑，不可能短时间内解决所有问题，大数据应用本身有其规律和特点，比如分析目标一定是要跟数据规模匹配，分析技术的采用取决于数据结构和数据源条件，数据集成一定要覆盖比较全面的业务背景，关键环节数据不能有缺失等等。大数据学习可以根据应用目标分三个阶段：（1）大数据基础设施建设阶段：这个阶段的重点是把大数据存起来，管起来，能用起来，同时要考虑大数据平台和原有业务系统的互通联合问题。一句话，做好全局数据集成解决数据孤岛问题！要完成大数据基础设施系统建设开发，需要明确数据采集、存储和分析各层核心组件的选型和使用，搭建稳定的大数据集群，或选择私有云方案的服务集群，与生产系统并线运行，使待分析的历史数据和实时数据得以采集并源源不断流入大数据系统。这个阶段的关键技术学习包括采集爬虫、数据接口、分布式存储、数据预处理ETL、数据集成、数据库和数据仓库管理、云计算和资源调度管理等等内容。（2）大数据描述性分析阶段：此阶段主要定位于离线或在线对数据进行基本描述统计和探索式可视化分析，对管理起来的大数据能进行海量存储条件下的交互式查询、汇总、统计和可视化，如果建设了BI系统的，还需整合传统BI技术进行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型数据挖掘分析。这个基础分析阶段是对数据集成质量的检验，也是对海量数据条件下的分布式存储管理技术应用稳定性的测试，同时要能替代或集成传统BI的各类报表。这个阶段的关键技术学习包括可视化、探索式交互式分析、多维分析、各类基本报表和图表的查询设计等等。（3）大数据高级预测分析和生产部署阶段：在初步描述分析结果合理，符合预期目标，数据分布式管理和描述型分析稳定成熟的条件下，可结合进一步智能化分析需求，采用如深度学习等适用海量数据处理的机器学习模型，进行高级预测性挖掘分析。并通过逐步迭代优化挖掘模型和数据质量，形成稳定可靠和性能可扩展的智能预测模型，并在企业相关业务服务中进行分析结果的决策支持，进行验证、部署、评估和反馈。这个阶段的关键技术包括机器学习建模、决策支持、可视化、模型部署和运维等。在上述几个阶段的技术学习过程中，需要注意几个关键问题：一是重视可视化和业务决策，大数据分析结果是为决策服务，而大数据决策的表现形式，可视化技术的优劣起决定性作用；二是问问自己，Hadoop、Spark等是必须的吗？要从整个大数据技术栈来考虑技术选型和技术路线的确定；三是建模问题处于核心地位，模型的选择和评估至关重要，在课堂和实验室中，多数模型的评估是静态的，少有考虑其运行速度、实时性及增量处理，因此多使用复杂的臃肿模型，其特征变量往往及其复杂。而Kaggle竞赛中的各种Boost方法，XGBDT、随机森林等模型，在数据挖掘和机器学习教材中却少有提及，所以要充分参考业界实战经验不能尽信书；四是开发语言的选择，基础框架系统Java是必须掌握的，应用级的机器学习和数据分析库Python是必须掌握的，而要深入各种框架和学习库的底层，C++是必须掌握的；五是模型的产品化，需要将实际数据通过管道设计转换为输入特征传递给模型，如何最小化模型在线上和线下的表现差距，这些都是要解决关键的问题。（6）其它补充：Kaggle,众包与培训。众包是一种基于互联网的创新生产组织形式，企业利用网络将工作分配出去，通过让更合适的人群参与其中来发现创意和解决问题，如维基百科，还有IT资源社区GitHub，都是典型的众包平台。众包+开源极大推动了IT产业的快速发展，当然Kaggle作为数据科学领域顶级的众包平台，其影响力远不止于此（所以刚刚被谷歌收购）。企业和研究者可在Kaggle上发布数据，数据分析人员可在其上进行竞赛以产生最好的模型。这一众包模式本质就是集体智慧编程的体现，即有众多策略可以用于解决几乎所有预测建模问题，而分析人员不可能一开始就能找到最佳方案，Kaggle的目标就是通过众包的形式来解决这一难题，进而使数据科学成为一场集体智慧运动。所以说要学好大数据，严重推荐去Kaggle冲冲浪，很好的历练平台。至于大数据培训嘛，基础理论和技术还不甚了解的情况下可以去培训学习，有基础之后还得靠自己多练多解决实际问题。5．结论与展望做个小结，大数据不是银弹（Silver Bullet），大数据的兴起只是说明了一种现象，随着科技的高速发展，数据在人类生活和决策中所占的比重越来越大。面对如此广度和深度的大数据技术栈和工具集，如何学习和掌握好大数据分析这种技能，犹如盲人摸象，冷暖自知。不过技术的学习和应用也是相通的，条条大路通罗马，关键是要找准切入点，理论与实践结合，有全局观，工程化思维，对复杂系统设计开发与关键技术体系的主要矛盾要有所把握。熟悉大数据基础理论与算法、应用切入、以点带面、举一反三、横向扩展，从而构建完整的大数据知识结构和核心技术能力，这样的学习效果就会好很多。另外，技术发展也遵循量变到质变规律，人工智能+物联网+大数据+云计算是四位一体发展的（时间有先后，但技术实质性突破都在最近几年），未来智能时代的基础设施、核心架构将基于这四个层面，这种社会演化趋势也很明显：农业时代〉工业时代〉互联网时代〉智能化时代。在这个四位一体智能技术链条里面，物联网重在数据采集，云计算重在基础设施，大数据技术处于核心地位，人工智能则是发展目标，所以学习大数据技术还需要对这四个方面加以综合研究和理解。最后泼点冷水，简单说说大数据的前景，未来大数据岗位需求不会有媒体宣传的那么多，大数据具体工作不会有美国大片里那么炫酷，不要老盯着BAT，我国大数据的发展还处于初级阶段。总之技术归于技术，实践才能出真知，落地解决问题是关键，Palantir也是十年才磨出一剑。不过在大数据时代，人人都得懂点数据分析，这倒是最实在的，不懂编程？那就学Python吧，如果说人工智能时代的大妈和小学生都能编程的话，那一定用的是Python31 条评论分享收藏全国咨询热线：400-
您现在的位置：> > 正文
Copyright & 荣新IT培训中心 - Oracle培训、Linux培训、IOS培训、WEB前端工程师培训京ICP备
地址：北京市海淀区白石桥路方圆大厦5层 (首都体育馆东侧) / 北京市海淀区四道口京果商厦／中关村软件园9号楼4层注册 | 登录
大王叫我来巡山
从零开始学运营，10年经验运营总监亲授，2天线下集训+1年在线学习，做个有竞争力的运营人。
以大数据分析师为目标，从数据分析基础、JAVA语言入门和linux操作系统入门知识学起，系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境
一、大数据分析的五个基本方面
1、可视化分析
大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。
2、数据挖掘算法
大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。
3、预测性分析能力
大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。
4、语义引擎
大数据分析广泛应用于网络数据挖掘，可从用户的搜索关键词、标签关键词、或其他输入语义，分析，判断用户需求，从而实现更好的用户体验和广告匹配。
5、数据质量和数据管理
大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。
二、如何选择适合的数据分析工具
要明白分析什么数据，大数据要分析的数据类型主要有四大类：
1、交易数据（TRANSACTION DATA）
大数据平台能够获取时间跨度更大、更海量的结构化交易数据，这样就可以对更广泛的交易数据类型进行分析，不仅仅包括POS或电子商务购物数据，还包括行为交易数据，例如Web服务器记录的互联网点击流数据日志。
2、人为数据（HUMAN-GENERATED DATA）
非结构数据广泛存在于电子邮件、文档、图片、音频、视频，以及通过博客、维基，尤其是社交媒体产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉。
3、移动数据（MOBILE DATA）
能够上网的智能手机和平板越来越普遍。这些移动设备上的App都能够追踪和沟通无数事件，从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)。
4、机器和传感器数据（MACHINE AND SENSOR DATA）
器、工厂机器和连接互联网的家用电器。这些设备可以配置为与互联网络中的其他节点通信，还可以自动向中央服务器传输数据，这样就可以对数据进行分析。机器和传感器数据是来自新兴的物联网(IoT)所产生的主要例子。来自物联网的数据可以用于构建分析模型，连续监测预测性行为(如当传感器值表示有问题时进行识别)，提供规定的指令(如警示技术人员在真正出问题之前检查设备)。
三、如何区分三个大数据热门职业——数据科学家、数据工程师、数据分析师
随着大数据的愈演愈热，相关大数据的职业也成为热门，给人才发展带来带来了很多机会。数据科学家、数据工程师、数据分析师已经成为大数据行业最热门的职位。它们是如何定义的?具体是做什么工作的?需要哪些技能?让我们一起来看看吧。
这3个职业具体有什么职责
数据科学家的工作职责
数据科学家倾向于用探索数据的方式来看待周围的世界。把大量散乱的数据变成结构化的可供分析的数据，还要找出丰富的数据源，整合其他可能不完整的数据源，并清理成结果数据集。新的竞争环境中，挑战不断地变化，新数据不断地流入，数据科学家需要帮助决策者穿梭于各种分析，从临时数据分析到持续的数据交互分析。当他们有所发现，便交流他们的发现，建议新的业务方向。他们很有创造力的展示视觉化的信息，也让找到的模式清晰而有说服力。把蕴含在数据中的规律建议给Boss，从而影响产品，流程和决策。
数据工程师的工作职责
分析历史、预测未来、优化选择，这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向，他们帮助企业做出更好的商业决策。
大数据工程师一个很重要的工作，就是通过分析数据来找出过去事件的特征。通过引入关键因素，大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上，工程师正试图通过引入气象数据来帮助淘宝卖家做生意。比如今年夏天不热，很可能某些产品就没有去年畅销，除了空调、电扇，背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系，找到与之相关的品类，提前警示卖家周转库存。
根据不同企业的业务性质，大数据工程师可以通过数据分析来达到不同的目的。
与传统的数据分析师相比，互联网时代的数据分析师面临的不是数据匮乏，而是数据过剩。因此，互联网时代的数据分析师必须学会借助技术手段进行高效的数据处理。更为重要的是，互联网时代的数据分析师要不断在数据研究的方法论方面进行创新和突破。
数据分析师的工作职责
就行业而言，数据分析师的价值与此类似。就新闻出版行业而言，无论在任何时代，媒体运营者能否准确、详细和及时地了解受众状况和变化趋势，都是媒体成败的关键。
此外，对于新闻出版等内容产业来说，更为关键的是，数据分析师可以发挥内容消费者数据分析的职能，这是支撑新闻出版机构改善客户服务的关键职能。
大数据分析师需要掌握的技能
从事数据分析工作的前提就会需要懂业务，即熟悉行业知识、公司业务及流程，最好有自己独到的见解，若脱离行业认知和公司业务背景，分析的结果只会是脱了线的风筝，没有太大的使用价值。
一方面是搭建数据分析框架的要求，比如确定分析思路就需要用到营销、管理等理论知识来指导，如果不熟悉管理理论，就很难搭建数据分析的框架，后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
指掌握数据分析基本原理与一些有效的数据分析方法，并能灵活运用到实践工作中，以便有效的开展数据分析。基本的分析方法有：对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有：相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
指掌握数据分析相关的常用工具。数据分析方法是理论，而数据分析工具就是实现数据分析方法理论的工具，面对越来越庞大的数据，我们不能依靠计算器进行分析，必须依靠强大的数据分析工具帮我们完成数据分析工作。
懂设计是指运用图表有效表达数据分析师的分析观点，使分析结果一目了然。图表的设计是门大学问，如图形的选择、版式的设计、颜色的搭配等等，都需要掌握一定的设计原则。
四、从菜鸟成为数据科学家的9步养成方案
首先，各个公司对数据科学家的定义各不相同，当前还没有统一的定义。但在一般情况下，一个数据科学家结合了软件工程师与统计学家的技能，并且在他或者她希望工作的领域投入了大量行业知识。
大约90%的数据科学家至少有大学教育经历，甚至到博士以及获得博士学位，当然，他们获得的学位的领域非常广泛。一些招聘者甚至发现人文专业的人们有所需的创造力，他们能教别人一些关键技能。
因此，排除一个数据科学的学位计划(世界各地的著名大学雨后春笋般的出现着)，你需要采取什么措施，成为一个数据科学家?
复习你的数学和统计技能。一个好的数据科学家必须能够理解数据告诉你的内容，做到这一点，你必须有扎实的基本线性代数，对算法和统计技能的理解。在某些特定场合可能需要高等数学，但这是一个好的开始场合。
了解机器学习的概念。机器学习是下一个新兴词，却和大数据有着千丝万缕的联系。机器学习使用人工智能算法将数据转化为价值，并且无需显式编程。
学习代码。数据科学家必须知道如何调整代码，以便告诉计算机如何分析数据。从一个开放源码的语言如python那里开始吧。
了解数据库、数据池及分布式存储。数据存储在数据库、数据池或整个分布式网络中。以及如何建设这些数据的存储库取决于你如何访问、使用、并分析这些数据。如果当你建设你的数据存储时没有整体架构或者超前规划，那后续对你的影响将十分深远。
学习数据修改和数据清洗技术。数据修改是将原始数据到另一种更容易访问和分析的格式。数据清理有助于消除重复和“坏”数据。两者都是数据科学家工具箱中的必备工具。
了解良好的数据可视化和报告的基本知识。你不必成为一个平面设计师，但你确实需要深谙如何创建数据报告，便于外行的人比如你的经理或CEO可以理解。
添加更多的工具到您的工具箱。一旦你掌握了以上技巧，是时候扩大你的数据科学工具箱了，包括Hadoop、R语言和Spark。这些工具的使用经验和知识将让你处于大量数据科学求职者之上。
练习。在你在新的领域有一个工作之前，你如何练习成为数据科学家?使用开源代码开发一个你喜欢的项目、参加比赛、成为网络工作数据科学家、参加训练营、志愿者或实习生。最好的数据科学家在数据领域将拥有经验和直觉，能够展示自己的作品，以成为应聘者。
成为社区的一员。跟着同行业中的思想领袖，阅读行业博客和网站，参与，提出问题，并随时了解时事新闻和理论。
五、从入门到精通—快速学会大数据分析
以大数据分析师为目标，从数据分析基础、JAVA语言入门和linux操作系统入门知识学起，系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境，详细演示hadoop三种模式的安装配置，以案例的形式，重点讲解基于mahout项目的大数据分析之聚类、分类以及主题推荐。区别于普通的JAVA程序员，本课程的重点是培养基于Hadoop架构的大数据分析思想及架构设计，通过演示实际的大数据分析案例。
来源：机房360
收藏已收藏 | 79赞已赞 | 18
大王叫我来巡山
产品经理群
运营交流群
数据分析群
文案交流群
Axure交流群
关注微信公众号
大家都在问
12个回答16人关注
19个回答40人关注
14个回答14人关注
18个回答69人关注
16个回答24人关注
21个回答72人关注}

叫阿莫西中心