通往大数据通往机场的路上百度云有多少个坑

点击联系发帖人 时间：2016-10-24 06:49

通往巴比谷的路上

数据分析的5个坑,你踩过几个?
作者：杜王丹
分类 : 比特网
　　产品经理所面对的，本质上和日常生活中的数据没有太大的差别。简单来说，都是一个量化事物的手段，就像身高、体重一样，都是一个数字指标，它代表了现实存在的事物的一个客观情况。
　　正是因为数据的客观性，让数据变成了发掘问题本质，寻找事物规律所需要用到的最有利的手段之一。
　　但是，数据虽然客观，有时也是会骗人的。在与数据打交道的过程中，我们可能经常会犯一些错误，导致分析的结论出现较大的偏颇。因此，在做数据分析时，我们需要警惕这5个常见误区：
　　1. 选取的样本容量有误
　　08年奥运会上，姚明的三分投篮命中率为100%，科比的三分投篮命中率为32%，那么是不是说姚明的三分投篮命中率要比科比高?
　　显然不能这么说，因为那届奥运会，姚明只投了一个三分球，科比投了53个。
　　因此，在做数据对比分析时，对于样本的选取，需要制定相同的抽样规则，减少分析结论的偏差性。
　　2. 忽略沉默用户
　　用户迫切需要的需求≠产品的核心需求
　　产品经理在听到部分用户反馈的时候就做出决策，花费大量的时间开发相应的功能，往往结果，可能这些功能只是极少部分用户的迫切需求，而大部分用户并不在乎。
　　忽略沉默用户，没有全盘的考虑产品大部分目标用户的核心需求，可能造成人力物力的浪费，更有甚者，会错失商业机会。
　　3. 错判因果关系
　　某电商网站数据显示，商品评论的数量与商品销售额成正比。即一个商品评论数量越多，那么该商品的销售额也会越高。
　　假如我们认为评论多是销量高的原因的话，数据分析的结论就会指导我们，需要创造更多的商品评论来带动商品销量。
　　但如果真的这样操作的话，就会发现很多商品的销量对于评论的敏感度并不一样，甚至很多商品销量很高，但与其评论的多少毫无关系。
　　这里，我们就需要思考，评论真的是影响销量的必然因素吗?
　　除了评论之外，影响销量的因素，还有其质量、价格、活动等，如果能完整的认识到这些因素，那我们要拉升商品销量，首先会需要先从其他角度来考虑，而非评论入手。
　　因此，在的时候，正确判断数据指标的逻辑关系，是指导我们做出的前提。
　　4. 被数据的表达技巧所蒙蔽
　　上图从表面上来看，第二个图表显然更吸引人，转化率增长更加可喜。
　　但实际上，两个图表使用的是同一组数据。第二个图表，仅仅是更改了纵轴范围，就在视觉上觉得第二个的转化率增长幅度更大。
　　因此，在做数据分析时，我们需要警惕一些数据处理的小计俩，不要被数据的视觉效果所蒙蔽。
　　5. 过度依赖数据
　　过度依赖数据，一方面，会让我们做很多没有价值的数据分析;另一方面，也会限制产品经理本来应有的灵感和创意。
　　比如，分析马车的数据，很可能我们得出的结论，是用户需要一匹更快的马车。如果过度依赖数据，局限了我们的思维，就很有可能不会有汽车的诞生。
　　很多优秀甚至伟大的产品决策，并非通过数据发现的，而是一个产品经理综合智慧的体现。
　　数据是客观的，但是，解读数据的人是主观的。只有正确的认识数据，才能正确的利用数据。
　　在做数据分析时，对待数据我们必须要有一个求证的心态，并需要时刻警惕那些被人处理过的二手数据。
[ 责任编辑：杨瑗嘉 ]
比特网 15:31:26
带着朋友和机器人上月亮散步
软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯，最新的软件技巧，最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中，与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊！
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧，帮助网管答疑解惑，成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一，主要关注x86服务器，RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析，让您第一时间了解服务器行业的趋势。
比特存储周刊长期以来，为读者提供企业存储领域高质量的原创内容，及时、全面的资讯、技术、方案以及案例文章，力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
比特安全周刊通过专业的信息安全内容建设，为企业级用户打造最具商业价值的信息沟通平台，并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比，比特安全周刊运作模式更加独立，对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事，为企业级用户打造重点突出，可读性强，商业价值高的信息共享平台；同时为互联网、IT业界及通信厂商提供一条精准快捷，渗透力强，覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展，全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托，汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通、促进交流的平台，并持续提供丰富的资讯和服务，探讨信息化建设，推动中国信息化发展引领CIO未来职业发展。
IT专家新闻邮件长期以来，以定向、分众、整合的商业模式，为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容，包括IT新闻、评论、专家答疑、技巧和白皮书。此外，IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊是一份IT人的技术娱乐周刊，给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍，同时用户还能参与我们推荐的互动游戏，给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。当道路运输遇到“大数据”
文章作者：刘华伦 发布时间：
&&&&&& 企业风险看似来自市场，其实大多是由自身内因造成的，正如不是所有人都会在寒风中感冒一样，不当的速度、高度和规模往往是诱发企业风险的主要原因。在&大数据&一词出现之前，万里运输集团就已启动大数据战略，用于车辆监管、提高转化率和风险防化等方面。&&&&&& 信息化引领越来越多的公路运输企业从传统&车库&向现代&镖局&转型，而大数据分析和挖掘企业信息化的结果，让企业创新商业模式和运营方式，寻找降低运营成本的新方法、新途径，更加有效把握市场动向，获取更多发展机会。大型公路运输企业数据化运营如锦上添花，俏不争春。&&&&&& &逼&出来的大数据&&&&&& 企业风险看似来自市场，其实大多是由自身内因造成的，正如不是所有人都会在寒风中感冒一样，不当的速度、高度和规模往往是诱发企业风险的主要原因。在&大数据&一词出现之前，万里运输集团就已启动大数据战略，用于车辆监管、提高转化率和风险防化等方面。&&&&&& 万里运输集团的规模庞大，每年会有很多人员、车辆和业务等参与其中，产生大量数据，并累积数据记录，涉及车流、客流、物流、资金、财务和人事等多方面的管理。公司筛选掉冗余内容，可用数据占其总量的三成左右。原有的&各抱自家孩儿&、&信息不串门儿&的运营模式越来越难适应行业发展的高速变化。于是，公司借力大数据，加快量化进程，所属经营单位和网点近千个，服务数万车辆，打造汽车服务全系列产业链、供应链和价值链。&&&&&& 2002年，万里运输集团创建OA办公系统，大量采用大数据工具和办公软件进行业务统计和市场分析。公司率先在车辆安全管理方面进行尝试，收集驾驶员的个人、结算、交易信息和车辆型号、保险与互助信息等，都以数据记录的形式收储起来，逐步成为数据资源池，最终建立车辆管理系统模型。在公司实行财务统管和会计委派制度以后，所有业务资金往来进入结算中心，每月财务数据达到千万条。&&&&&& 改革是由问题倒逼而产生，又在不断解决问题中而深化。万里运输集团通过数据挖掘，实现集约化、规模化、网络化、专业化和信息化，从劳动密集型向科技密集型转变，与大数据的结合颇具天作之合。如今万里运输集团的&大数据&适用于汽车运输，司机扶好方向盘，其余事情公司办，诸服务忙而有序，尤其是万里物流配送在中原经济区十分走俏。&&&&&& 从条块化到一体化&&&&&& 道路运输的点多、线长、面广，位移活动产生大量的轨迹数据。道路运输企业应利用好传统优势，用现代化方法，走捷径式的转型升级之路。三分技术，七分数据，得数据者得天下！&&&&&& 道路运输企业可以把业务信息导入分析系统，建立数据仓库，夯实信息联动的基础。并统筹科技中心、职能部门和经营单位之间分工合作，构建三级联动的信息研判体系，为实现大数据提供组织保障，提高数据的加工和盈利能力，让数据增值。&&&&&& 过去，司机上了路，谁也管不住。万里运输集团的车辆安装车载终端，接入GPS卫星定位系统，车辆监控数据准确、实时、完整地传输。职能部门重点分析这些数据，形成目标化、程序化的管控模式，实时监控车辆，定期分析数据，有针对性纠偏，营造&天上一张网，地上一条龙&的管控格局。在万里运输集团GPS监控中心，管理人员可通过平台获取客车的预警信息和视频图片，借助呼叫系统及时提醒驾驶员，告知安全信息和管理要求。事后，公司对驾驶员进行源头化管理专题教育。单车单月超速报警量从最初的百余次下降至目前的几次。一旦车辆发生交通事故，安全技术人员在平台上查找车辆具体位置，解读行车轨迹，密切配合法务、交警等部门查找事故原因。&&&&&& 道路运输企业借助大数据把握内在的规律和术数，量化决策，探索主动防范与精确管控集中融合的新型管控模式。主管人员每天登录万里车辆管理系统，了解和分析分公司运营情况，向责任单位通报系统的预警信息，督促其整改问题和隐患。在工作月会上，重点研讨普遍性、典型性的问题，对症下药。可以说，大数据是企业管理的好帮手，但对于违规操作却是&拦路虎&。在万里车辆管理系统中，驾驶员的不良记录越多，越难接到业务，最终被企业列入&黑名单&，不再录用。&&&&&& 企业如何用好大数据&&&&&& 人不能捧着金饭碗要饭吃，企业拥有大量数据并不能代表它就能成功。大数据解决方案必须融入业务流程，优势体现在网络化的运营中，提高企业效能。&&&&&& 海量数据是堪比金矿银矿的经济资产，却不是真金白银，要通过数据挖掘才能变成有用的价值，变成财富。万里运输集团创新管控体系，引进办公自动化，创建腾讯QQ群，筹划微信微博，让员工都有&麦克风&，即时交流互动。无论管理中所采取的好措施好做法，还是经营中遇到的新问题新思路，都会在万里一家人中刮起&微旋风&，进而产生微体验、微实践、微讨论和微竞赛，为企业运营提供便利。&&&&&& 实际上，万里运输集团还将数据化思维引进汽车消费贷款业务中，构筑由个人信用评价、风险监测预警、风险化解组成的信贷风险防范体系，确保个人信贷诚信和公司投资安全。15年间，万里运输集团发生汽车消费贷款业务10万多笔无一失控，跃居业界翘楚。2004年，此模式传衍及工程机械租赁业务，每月发展1000多辆工程机械，管理资产达10亿元，成为万里式掘金的外溢部分。万里运输集团大数据魅力四射，所创万里卡车联盟吸引着厂商、银行等与之联合开展产业链合作，300多家道路运输企业加入其中。也昭示：谁拥有大数据，谁就取得主动权！&&&&&& 万里运输集团董事局主席陈立友表示，数据量的多少固然重要，企业却不能因此追求&高大上&，应强调数据不计&大&。要看是否运用了数据化思维，是否打造了数据化经营。这比单纯利用大数据重要得多。虽然大数据正在成为万里们转型升级的信息基础，但对多数中小企业还是个难题。企业盲目采购云计算服务容易导致&落地死&，难获适用数据。好比手持宝刀不会用。毕竟，企业开发大数据成本较高，要有卓越的研发能力、数据分析能力，还要有数据应用领域的专业人才，且对道路运输有足够了解。所以中小企业应量力而行，&先下水再学会游泳&，加强与大企业、大平台、大协会、大联盟之间的合作，善用&拿来主义&。如国家交通运输物流公共信息平台有1万多家企业藉此交换数据超过5.5亿条，在信息交换、降低物流成本、节能减排等方面发挥了作用。
Copyright@2017 Wanli Transport Group All Rights Reserved.
地址:许昌市南环路梨园转盘东一公里路南万里物流园
万里集团官方微信
万里运业官方微信1759人阅读
大数据（90）
摘要: 为什么有些公司在机器学习业务方面倾向使用 R + Hadoop 方案？因为他们在不懂R和Hadoop的特征应用场景的情况下，恰好抓到了一根免费，开源的稻草。R：R的应用场景不在于无与伦比的统计学习能力，而在于结构化数据下 ...
为什么有些公司在机器学习业务方面倾向使用 R + Hadoop 方案？
因为他们在不懂R和Hadoop的特征应用场景的情况下，恰好抓到了一根免费，开源的稻草。
R的应用场景不在于无与伦比的统计学习能力，而在于结构化数据下无与伦比的单位代码产出量。神经网络，决策树等基于结构化数据的算法一行代码搞定，预测又只是一行代码。这样，商业数据库（如包括Oracle，Netezza，Teradata，SAP HANA等）提供了R接口供统计分析人员进行高效实施。同样的，SAS和IBM SPSS也做到了一部分高效实施能力，他们没有的是R独有的庞大cran packages群。但相似的一点是，R的package群也把它的用户惯坏了，惯坏到这些人只是觉得这是一个SAS或者SPSS的免费版，而不是去通过代码学习如何做机器学习哪怕一点点核心原理。你要做的，就是高效的最新结构化数据算法的实施。
最重要的是，从Hadoop上的数据加载到这些库，不仅保证了数据本身的正确性和结构化，也已经保证了数据模型的第二、第三范式化（CAErwin的第一课），想做任何一个分析，你手边的数据库简单的join就形成了你需要的分析宽表。想想SQL里sum over的设计含义：为什么它要制造数据的冗余？那一定是为了BI或者分析存在的。
Hadoop的应用场景不在于给统计分析软件提供强力的支持，而只是提供了一个分布式数据的泛用免费框架，基于键值对（key value pair）高效的对原始非结构化数据进行存储。
传统方式下目测可以做到对连续型数值、离散型数值、字符串、大型字符串BLOB、地理信息（二维点，多边形）的存储，Hadoop相当于直接把很多功能扩展：比如Hive作为一个基本工具，直接提供了更广泛的数据类型存储方案：数组(array)，结构体(struct)，键值对(map)等。
业务场景：我存储一篇文章不再需要一坨文字灌进去，先做NLP解析，然后形成 (词,词性)的元组，再组成长数组(Array)即可方便的存储、分析，以及利用内置UDF、自写UDF对复杂结构行转列，提取信息。（当然，将NLP解析本身整合在UDF甚至算法中都是可行的，如PySpark）
如果你至今觉得非结构化数据，键值对是一种卖弄概念，我就换一个至简的说法：一个只有两列的数据表。两列的mn*2和多列m*n数据表是可以在一定加工代价下互转的。这种数据结构被大量应用于Java，C++，Python甚至JavaScript中，当你看见类似Hashmap，Hashtable，dict，map等字眼，那就是这货没跑了：经过设计，用于存储的键(key)被散列后决定了它能够被均匀地分布式存储，值(value)是键的跟班，随着键被存储。
对于非结构化数据而言，元数据和数据不像方表，极其容易抽象出来（无非就是列名和方表的内容）。初看一个半结构化的Json/XML，元数据出现在键(key)中，数据出现在值(value)中，容易理解。但在解析其他类型数据，(如网络日志Url)，键里的所谓元数据才是要分析的对象(一个用户反复的使用price=xxx做查询条件，说明价格敏感，有可能xxx取了好多值甚至所有可能值，key却很少，可能只有price和brand；此时用户行为模式出现在key里了。)
结构化和非结构化数据库结合的R+Hadoop看起来很美，实则困难重重。我的看法是，任何一家在数据分析领域（文本挖掘暂时除外，理由在业务场景里描述过）决定以一个稳健的态度涉足的企业，都无一例外的基于数据强一致性的考虑，选择传统的结构化数据库作为后续结构化分析的依托—— 哪怕他们是收费的。
如果习惯代码开发，Hadoop+python自己做初步的数据处理，而后使用基于java的Mahout是一个很自然的选择：其提供的矩阵计算（SVD），迭代式聚类算法(如Kmeans)，基于图的迭代模型（一个例子是PageRank算法，值中存的也是Key），以及集成决策树等模型，在分布式场景下是顺理成章完成的，而R则会像一个跟班，很难找到它的应用场景。一样具有较高编码效率的Python可以更加灵活、优美（缩进的意义上）的继承mrjob类完成相应功能，在数据尝试性探索这一步，matplotlib产出报告恐怕是不如R+knitr+ggplot2更能取悦老板，但一旦需要阶段性的测试，Python这种胶水语言或者一步到位的使用Java开发显得更接地气，更容易落地。
（关于落地性，再小小吐槽一下R在Windows和Linux两个平台下能够使用的包范围是不同的，尤其是使用Rcpp或者并行包的时候。Python和Java则不常见到这种问题）
R+Hadoop的幻觉：
不管什么和Hadoop结合，都喜欢以word count这种典型的键值对开始。事实上R可以做这件事，但是觉得R做的无与伦比，就有点进入误区。还是那句R的美在于结构化数据下无与伦比的单位代码产出量。一旦你发现你作为专注于数据的分析师，同时也是一个并不骨灰的代码开发者，开始用R操作列表和数据结构，开始用R重写Mapper和Reducer，你就会产生一个疑问：
为嘛不学Java、Python？这种分析“不传统”，就算你不想学吧，为嘛不找懂它们的人来干？
Python基于键值对存储，也具有相当高的单位代码产出量，也有很多科学计算包。从这个意义上你可以做出一个白箱，单机缩水版的mahout，而且适合处理有增量算法的大数据学习（看看NumPy,SciPy,）。一样免费。
数据挖掘的幻觉：
数据挖掘是什么，很难吗？
广义的数据挖掘，包括数据分析和机器学习，只说最核心的数学概念的话，估计就几句话；恰好R的简洁性也是能用几句话做完这几句话的：
0 数据清洗，标准化。和1-4，理解真实世界是相辅相成的
1 最先学的数学技巧是空间分解：LL’，PCA，SVD，一般回归以及L2/L0惩罚变种；从信息论角度讲信息流压缩（有名如LZ及变种LZO）；SVM用到的RBF也算基提取技巧。
2 再学最优化算法：L1惩罚回归，SVM（使用的Newton-Raphson/Gauss-Newton/Levenberg-Marquadt（还是1的内容！）；MonteCarlo Markov Chain
3 数据结构：决策树（列表类），词频统计（键值对或者字典类），FP-growth（一个树的加强版）。学到这，所谓“贝叶斯”根本就不能叫算法，只能叫一个无处不在的指导思想。
4 模型集成：Adaboost，神经网络，bootstrap。集成时，权重技巧和惩罚技巧我的理解是不可割裂。但这个思想对方法，对模型参数都能集成，大杂烩。1个超级精妙的模型不如200个良好理解了问题性质的土鳖模型更实用。
任何一个听起来很装逼的算法，逃不过被解析成这4类方法组合的命运。参数调优这种不提纲挈领的问题，确实需要结合时间成本人力成本看（研究者，学生，码农的成本和投入量完全不一样）
可以看到，大数据分析的瓶颈在哪？
第0步，和曾经的大Boss讨论过，传统行业数据仓库实施起码还能打10年，而”实体-关系”概念和”键-值”概念这两种抽象起码还能打30年，数据的组织，过滤，元数据维护都是数据产生价值的必经之路，这方面的工作很枯燥但是很基础，大数据和传统数据都需要；
第1步是最基本最重要的分析手段，也最容易在大数据语境下导致单机无法分析的亿阶稀疏大矩阵产生：例1，用户User对商品SKU的购买记录；例2，在特定的经纬度，特定的时间，特定的用户发生了动作；这两个例子是典型的“查询简单分析难，汇总还不如不汇总”的情况，必须要有分布式稀疏矩阵处理技术；
第2步，序贯MCMC的串行性可以通过并行集成方法模拟，但是收敛性还仍然较低，需要暴力并行堆FLOPS；对应的，因为SVM/Lasso都有增量算法、分布式算法方案，核心思想在于“世界的真实，模型的本质，都是稀疏的”，锁少量资源，分布式地更新模型系数或者是梯度，这些算法在理论上得到突破后，往往依赖分析型数据库或者大数据平台灵活的并发调度，灵活的行列混合存储模式，这一点是单机、小集群、传统数据库难以企及的；
第3、4步，这里虽然举了很简单的例子，但这些是在数学模型和数据模型上是最没有开发压力的，需要关心的只是资深程序员的功底了。举例说明，文本挖掘（NLP）统计完词频你还是得会空间里做PCA（或者其他形式的大矩阵加工）；如果不然，只引入HMM模型和基础字典树的话，学习成本就只有学习贝叶斯理论了，并且仍然可以高效并行的解决NLP问题，有兴趣的可以参考Viterbi算法和CRF算法。
大数据的幻觉：存储和计算的冲突
大数据处理，多大算大？像我说的，在3,4步出来的数据，原始数据很大，加工汇总完了很小，或者处理起来是高度独立的。分布式存储不影响分析，说是大数据，其实和小数据处理没差别。
需要随时交换资源的聚类，回归，SVD，PCA，QR，LU等关系到矩阵分解的计算甚至是高效访问，更进一步还有热数据在内存上而不是物理存储上的多次迭代，这才是大数据真正的挑战。
那些有监督的分类树，把数据集切成1000份并且有冗余的给500台机器每台3-5份数据最后得到集成的分类结果，我很难称其为“大数据计算技术”，它的本质和挖矿机每秒能做无数个高度同质化的hash计算一样，不需要资源交换，不需要大量通信，它只是“小数据+独立运算后直接能够整合结果”的范围内打转。
数据在物理存储、内存、甚至显存的原地迭代会带来数据重分布；在传统数仓领域数据，重分布其实是对未来效率提高预期的妥协，且里面含有比较多对传统业务稳定数据架构的理解。
大数据时代明显不存在什么数据仓库ER模型稳定性，不知道大家有没有这种体验：一个新需求，一个全新的不着边际的研究性问题的场景下，就能建个新库来进行探索与数据加工整理，数据挖掘。各自为政，实验容易，落地与整合困难。—— 这个情况下如果要频繁走物理存储的话，基于key的重新分布会让数据像煮沸的一锅粥大量占用网络与IO写入带宽，与传统数据库性能的巨大鸿沟是无法回避的问题。因此在这个场景下，Spark、Storm、GPU计算火起来，如Scala、Clojure、Python等含有FP概念的语言走得越来越靠近开发工程师的视线，较高级的封装工具如图模型计算的GraphSQL等组件也浮出水面。而且说句实话，Map（映射）和Reduce（规约）在这些语言中，已经是老的掉了好多年牙的概念了。
（FP：Functional Programming我反对翻译成函数式编程，这明明是泛函编程）
大数据概念引入这件事儿是大炮打蚊子——内存内的分析和数据探索，展现（单节点）：
*从数据记录条数讲：
百万级，R的上限；
千万级-亿级，SAS的上限；
千万级，Python的上限；
*我的使用经验，从数据占用内存的效率讲：加载400M数据会使得
Python（Numpy列存）占用内存500M
R（我谨慎猜测是行存列存和二维表三样都存一份）加载占内存2G
SAS（行存）占用600M，经过表级压缩（依然是行存）150M
*后续的原始处理
尤其是字符串操作这种数据清洗，R几乎不能做，精通shell及regexp的人又做的太容易。
若想用R，这就需要你输入到R的数据几乎就能直接开始跑分析了。若不信邪，我推荐你用readLines加上strsplit来操作读入R的文件，看看他数据清洗的效率和read.delim，和SAS proc import 以及 Python的with as语法相差多少。
*展现方案：
只要数据量低于刚才提到的限度，R又提供了最好的展现方案，因为“展现方案是专用而非泛用”的：
a. Hadley最著名的R包之一ggplot2未来会引入SVG等可交互元素。一个具有d3.js可视化特性的绘图包还不让你震惊吗？
b. 百度echarts团队项目被taiyun包装成recharts放在了github上
c. 已经加入RStudio的R统计达人Yihui Xie的作品knitr，能够使用markdown语法动态将数据挖掘结果，图片，视频生成打包放进html或者pdf文档。
说说对手：
a. R要比Python现有的可视化包（以matplotlib和pygame为主）更友好，更易于操作。
b. 虽然让从来没接触过前端的人沉浸在用Chrome即可调试的JavaScript里面不太科学，但我爱不释手，而且其核心的展现方式确实未来会加入R。
c. Java风格的Processing，无缝调用java库，封装大量java图形函数、视频相关API、鼠标响应API，可以导出java applet或port成js代码；搞大数据的人必然熟悉java开发，可以几乎0成本又高效快速的使用它。
这几种工具确实各有所长，我个人无法取舍，但平心而论，R是学习门槛、编码效率和产出效果同时最出色的（个人经历原因无法对SAS VA，Tableau，Flex或更一般的BI展现工具置评，其受众因为软件成本，落地性不够等原因，我缺乏使用它们的经验，它们也缺乏对我的吸引力）
归纳下我的理解，R的产出报告类似html+javascript+CSS一样，是适合轻量分析，轻量展现的。
大数据干这件事儿是正道——非结构化大数据批量或者迭代处理：
你的算法已经走到了“万事俱备，只差跑全量” 这样一个对手中的数据很了解的地步了。Wiki 对Revolution Analytics的介绍讲：R didn’t natively handle datasets larger than main memory，这么灵活小巧的工具做个抽样数据分析明明是很好的。
非结构化大数据应用的场景只能是：
-你很懂数据分布的细节（也许是项目经验，也许是R上已经做过抽样探索）
-问题适合的算法你了然于胸；增量算法存在；暴力并行计算（矩阵计算，图迭代）没问题
-你觉得把类似Mahout计算的步骤经过代码包装交付给R来做没问题
-你完全不care交互式探索
这是你需要的R应用场景么？或者换一种说法，这种应用场景R有什么优势？调用编译好的cpp库，fortran库是R发挥优势的地方吗？要知道算法效率排名上R&java&C++。算法月内要上线，自己看着办。
说下前鄙team（一个不是专业做数据挖掘的数据部门）的经验：
讲了半天R+Hadoop，不上Mahout，随便搞搞RSnow，准备买SAS。
因为我会SAS（少量用Macro，没用过矩阵，因为没必要）和R（没有学习成本），Python的并行包pp使用中，考虑mahout。
更新：当大数据平台用户不满足于存储，简单加工以及成型算法实施，也开始关注最小查询、交互式探索效率了，诸如Spark的内存解决方案将会更合适。
现team是一个同事至少是硕士（统计/金融/计算机），专做金融行业数据挖掘的小团队。能力和业务场景可以供参考。
* SAS能力覆盖面95%（具备核心价值的数据在服务器上能够处理的量很少超过上亿，主推SAS）
* Python和R覆盖面都在70%+
* Hadoop/大数据概念淡：客户有足够的Teradata、Oracle、SAS服务器
* Hive/Spark：Hive做辅助、灵活仓储，PySpark作为一个可以预期、稳定的数据挖掘平台的接点
顺便也给数学系、统计系的数据分析师，以及他们的领导们提醒一句：如果员工A有员工B没有的代码开发能力，R又完全替员工B把数学的事情做完了，形成了依赖，那员工B存在的意义是什么？强调数学理论这么一点点优势也都不复存在了。
机器学习算法在不同的阶段适合使用不同的工具，研究和使用接不上也就算了，千万别连工具适合的环境都不懂，作为互联网从业者，这就太盲从了。
精英的研究者是自己做开发的——这话也可以这么说，精英的开发者们自己做研究。每一个模型都不完美，何况新问题涌现的越来越快，现存的模型很可能不满足你的分析需要。所以才要一边扎实理论，以最少的尝试嗅到最适合问题的算法，一边以开放的心态接纳和理解新技术的应用场景，深入发展数据挖掘研究，从代码优化改造（山寨）走向技术原创。
一个不好的消息是，不管是从职位Post、搜索还是行业生命周期研究看，大数据这几个字正在迅速退掉金色，其名字的价值泡沫正在逐步被挤出。抓住技术的重点与技术适合的场景，对个人以及对行业都是磨刀不误砍柴工的事情。
参考内容：
Revolution Analytics
Apache Mahout: Scalable machine learning and data mining
Continuum Analytics
《Program Clojure》
《R ggplot2：数据分析与图形艺术》
《Machine Learning in Action》
&&相关文章推荐
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：231320次
积分：3253
积分：3253
排名：第9441名
原创：89篇
转载：105篇
评论：25条
(14)(1)(2)(6)(2)(1)(12)(11)(15)(22)(22)(14)(9)(2)(1)(2)(1)(5)(3)(1)(1)(3)(2)(2)(4)(24)(15)}

叫阿莫西中心