科学家如何统计大数据(利用excel 频率统计)

点击联系发帖人 时间：2011-10-18 04:50

excel 频率统计

「前途一片光明」：如何成为一名数据科学家？
如何成为一名数据科学家？
Han Hsiao，不想当心理学家的数据科学家不是一个好分析师。
如果展开讲，这个问题可以写一篇综述了。最近刚好有空，打算认真写写。
一、数据科学家的起源
"数据科学"（DataScience）起初叫"datalogy "。最初在 1966 年由Peter Naur提出，用来代替"计算机科学"（丹麦人，2005 年图灵奖得主，丹麦的计算机学会的正式名称就叫 Danish Society of Datalogy，他是这个学会的第一任主席。Algol 60 是许多后来的程序设计语言，包括今天那些必不可少的软件工程工具的原型。图灵奖被认为是&计算科学界的诺贝尔奖&。）
1996 年，International Federation of Classification Societies (IFCS)国际会议召开。数据科学一词首次出现在会议（Data Science, classification, and related methods）标题里。
1998 年，C.F. Jeff Wu 做出题为&统计学=数据科学吗？的演讲，建议统计改名数据的科学统计数据的科学家。（吴教授于 1987 年获得 COPSS 奖，2000 年在台湾被选为中研院院士，2004 年作为第一位统计学者当选美国国家工程院院士，也是第一位华人统计学者获此殊荣。）
2002 年，国际科学理事会：数据委员会科学和技术（CODATA）开始出版数据科学杂志。
2003 年，美国哥伦比亚大学开始发布数据科学杂志，主要内容涵盖统计方法和定量研究中的应用。
2005 年，美国国家科学委员会发表了"Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century"，其中给出数据科学家的定义：
"the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection"
信息科学与计算机科学家，数据库和软件工程师，领域专家，策展人和标注专家，图书管理员，档案员等数字数据管理收集者都以可成为数据科学家。它们主要任务是："进行富有创造性的查询和分析。"
2012 年，O'Reilly 媒体的创始人列出了世界上排名前 7 位的数据科学家。
Larry Page，谷歌 CEO。
Jeff Hammerbacher，Cloudera 的首席科学家和 DJ Patil，Greylock 风险投资公司企业家。
Sebastian Thrun，斯坦福大学教授和 Peter Norvig，谷歌数据科学家。
Elizabeth Warren，Massachusetts 州美国参议院候选人。
Todd Park，人类健康服务部门首席技术官。
Sandy Pentland，麻省理工学院教授。
Hod Lipson and Michael Schmidt，康奈尔大学计算机科学家。
具体有时间再补充，感兴趣的朋友可以一下他们的文献。
关于数据科学家的更多讨论：
你能列出十个著名的女性数据科学家吗？
谁是最富有的数据科学家？
请列出对大数据最具有影响力的 20 个人？
二、数据科学家的定义
数据科学(Data Science)是从数据中提取知识的研究，关键是科学。数据科学集成了多种领域的不同元素，包括信号处理，数学，概率模型技术和理论，机器学习，计算机编程，统计学，数据工程，模式识别和学习，可视化，不确定性建模，数据仓库，以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据，但是数据量的扩大诚然使得数据科学的地位越发重要。
数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。不远的将来，数据科学家们需要精通一门、两门甚至多门学科，同时使用数学，统计学和计算机科学的生产要素展开工作。所以数据科学家就如同一个team。
曾经投资过 Facebook，LinkedIn 的格雷洛克风险投资公司把数据科学家描述成&能够管理和洞察数据的人&。在 IBM 的网站上，数据科学家的角色被形容成&一半分析师，一半艺术家&。他们代表了商业或数据分析这个角色的一个进化。
for example & a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.
Anjul Bhambhri，IBM 的大数据产品副总裁。
数据科学家是一个好奇的，不断质疑现有假设，能盯着数据就能指出趋势的人。这就好像在文艺复兴时期，一个非常想为组织带来挑战并从挑战中学习的人一样。
Jonathan Goldman，LinkedIn 数据科学家。
2006 年的 6 月份进入商务社交网站 LinkedIn，当时 LinkedIn 只有不到 800 万用户。高德曼在之后的研究中创造出新的模型，利用数据预测注册用户的人际网络。具体来讲，他以用户在 LinkedIn 的个人资料，来找到和这些信息最匹配的三个人，并以推荐的形式显示在用户的使用页面上&&这也就是我们熟悉的"你可能认识的人（People you may know）"。这个小小的功能让 LinkedIn 增加了数百万的新的页面点击量(数据挖掘的应用典型之一推荐系统）。
John Rauser, 亚马逊大数据科学家:
数据科学家是工程师和统计学家的结合体。从事这个职位要求极强的驾驭和管理海量数据的能力；同时也需要有像统计学家一样萃取、分析数据价值的本事，二者缺一不可。
Steven Hillion, EMC Greenplum 数据分析副总裁：
数据科学家是具有极强分析能力和对统计和数学有很深研究的数据工程师。他们能从商业信息等其他复杂且海量的数据库中洞察新趋势。
Monica Rogati, LinkedIn 资深数据科学家：
所有的科学家都是数据学家，因为他们整天都在和海量数据打交道。在我眼中，数据学家是一半黑客加一半分析师。他们通过数据建立看待事物的新维度。数据学家必须能够用一只眼睛发现新世界，用另一只眼睛质疑自己的发现。
Daniel Tunkelang，LinkedIn 首席数据科学家：
我是 bitly 首席科学家 Hilary Mason 的忠实崇拜者。关于这个新概念的定义我也想引用她的说法：数据科学家是能够利用各种信息获取方式、统计学原理和机器的学习能力对其掌握的数据进行收集、去噪、分析并解读的角色。
Michael Rappa，北卡罗莱纳州立大学教授：
尽管数据科学家这个名称最近才开始在硅谷出现，但这个新职业的产生却是基于人类上百年对数据分析的不断积累和衍生。和数据科学家最接近的职业应该是统计学家，只不过统计学家是一个成熟的定义且服务领域基本局限于政府和学界。数据科学家把统计学的精髓带到了更多的行业和领域。
林仕鼎，百度大数据首席架构师
如果从广义的角度讲，从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家；而从狭义的角度讲，那些具有数据分析能力，精通各类算法，直接处理数据的人员才可以称为数据科学家。
最后引用 Thomas H. Davenport（埃森哲战略变革研究院主任）和 D.J. Patil（美国科学促进会科学与技术政策研究员，为美国国防部服务）的话来总结数据科学家需要具备的能力：
数据科学家倾向于用探索数据的方式来看待周围的世界。（好奇心）
把大量散乱的数据变成结构化的可供分析的数据，还要找出丰富的数据源，整合其他可能不完整的数据源，并清理成结果数据集。（问题分体整理能力）
新的竞争环境中，挑战不断地变化，新数据不断地流入，数据科学家需要帮助决策者穿梭于各种分析，从临时数据分析到持续的数据交互分析。（快速学习能力）
数据科学家会遇到技术瓶颈，但他们能够找到新颖的解决方案。（问题转化能力）
当他们有所发现，便交流他们的发现，建议新的业务方向。（业务精通）
他们很有创造力的展示视觉化的信息，也让找到的模式清晰而有说服力。（表现沟通能力）
他们会把蕴含在数据中的规律建议给 Boss，从而影响产品，流程和决策。（决策力）
三、数据科学家所需硬件技能
(1) 计算机科学
一般来说，数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说，就是对处理大数据所必需的 Hadoop、Mahout 等大规模并行处理技术与机器学习相关的技能。
(2) 数学、统计、数据挖掘等
除了数学、统计方面的素养之外，还需要具备使用 SPSS、SAS 等主流统计分析软件的技能。其中，面向统计分析的开源编程语言及其运行环境&R&最近备受瞩目。R 的强项不仅在于其包含了丰富的统计分析库，而且具备将结果进行可视化的高品质图表生成功能，并可以通过简单的命令来运行。此外，它还具备称为 CRAN（The Comprehensive R Archive Network）的包扩展机制，通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。R 语言虽然功能强大，但是学习曲线较为陡峭，个人建议从 python 入手，拥有丰富的 statistical libraries，，，，。
(3) 数据可视化（Visualization）
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析，开发 Web 原型，使用外部 API 将图表、地图、Dashboard 等其他服务统一起来，从而使分析结果可视化，这是对于数据科学家来说十分重要的技能之一。
(4) 跨界为王
麦肯锡认为未来需要更多的&translators&，能够在 IT 技术，数据分析和商业决策之间架起一座桥梁的复合型人才是最被人需要的。&translators&可以驱动整个数据分析战略的设计和执行，同时连接的 IT ，数据分析和业务部门的团队。如果缺少&translators&，即使拥有高端的数据分析策略和工具方法也是于事无补的。
The data strategists&combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.
天才的&translators&非常罕见。但是大家可以各敬其职（三个臭皮匠臭死诸葛亮），数据战略家可以使用 IT 知识和经验来制定商业决策，数据科学家可以结合对专业知识的深入理解使用 IT 技术开发复杂的模型和算法，分析顾问可以结合实际的业务知识与分析经验聚焦下一个行业爆点。
推荐关注：
四、数据科学家的培养
位于伊利诺伊州芝加哥郊外埃文斯顿市的美国名牌私立大学&&西北大学（Northwestern University），就是其中之一。西北大学决定从 2012 年 9 月起在其工程学院下成立一个主攻大数据分析课程的分析学研究生院，并开始了招生工作。西北大学对于成立该研究生院是这样解释的：&虽然只要具备一些 Hadoop 和 Cassandra 的基本知识就很容易找到工作，但拥有深入知识的人才却是十分缺乏的。&
此外，该研究生院的课程计划以&传授和指导将业务引向成功的技能，培养能够领导项目团队的优秀分析师&为目标，授课内容在数学、统计学的基础上，融合了尖端计算机工程学和数据分析。课程预计将涵盖分析领域中主要的三种数据分析方法：预测分析、描述分析（商业智能和数据挖掘）和规范分析（优化和模拟），具体内容如下。
(1) 秋学期
* 数据挖掘相关的统计方法（多元 Logistic 回归分析、非线性回归分析、判别分析等）
* 定量方法（时间轴分析、概率模型、优化）
* 决策分析（多目的决策分析、决策树、影响图、敏感性分析）
* 树立竞争优势的分析（通过项目和成功案例学习基本的分析理念）
(2) 冬学期
* 数据库入门（数据模型、数据库设计）
* 预测分析（时间轴分析、主成分分析、非参数回归、统计流程控制）
* 数据管理（ETL（Extract、Transform、Load）、数据治理、管理责任、元数据）
* 优化与启发（整数计划法、非线性计划法、局部探索法、超启发（模拟退火、遗传算法））
(3) 春学期
* 大数据分析（非结构化数据概念的学习、MapReduce 技术、大数据分析方法）
* 数据挖掘（聚类（k-means 法、分割法）、关联性规则、因子分析、存活时间分析）
* 其他，以下任选两门（社交网络、文本分析、Web 分析、财务分析、服务业中的分析、能源、健康医疗、供应链管理、综合营销沟通中的概率模型）
(4) 秋学期
* 风险分析与运营分析的计算机模拟
* 软件层面的分析学（组织层面的分析课题、IT 与业务用户、变革管理、数据课题、结果的展现与传达方法）
（EMC 的在线课程：，收费 T_T，大家可以了解下学习路径）
(5)分享一些免费的课程
以下课程免费，讲师都是领域的专家，需要提前报名，请注意开班的时间。
：统计学。
：机器学习。
：数据分析的计算方法。
：大数据。
：数据科学导论。
：数据分析。
名校课程，需要一定的英语基础和计算机基础：
：麻省理工学院的统计思维与数据分析课。概率抽样，回归，常见分布等。
：麻省理工学院的数据挖掘课程，数据挖掘的知识以及机器学习算法。
：莱斯大学的数据可视化，从统计学的角度分析信息可视化。
: 哈佛大学，如何在数学计算与数据交互可视化之间架起桥梁。
：加州大学伯克利分校数据可视化。
：两个 MIT 的数据研究生，如何分析处理可视化数据。
：哥伦比亚大学，数据分析方法。需要一定的数据基础。
：加州大学伯克利分校，可扩展的机器学习方法。从硬件系统，并行化范式到 MapReduce+Hadoop+BigTable，非常全面系统。
五、数据科学家的前景
（，关于数据科学家的研究）
Like the physical universe, the digital universe is large & by 2020 containing nearly as many digital bits as there are stars in the universe. It is doubling in size every two years, and by 2020 the digital universe & the data we create and copy annually & will reach 44 zettabytes, or 44 trillion gigabytes.
EMC 预测，按照目前的情况数字宇宙以每两年一番的速度倍增，在 2020 年将到达 44ZB（1ZB=1.4113e+21B）。EMC 做出了 5 点比较大胆的预测。
In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections.
Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020.
In 2013, less than 20% of the data in the digital universe is &touched& by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%.
Most of the digital universe is transient & unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. & and it is getting more so. This is a good thing, because the world&s amount of available storage capacity (i.e., unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%.
In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.
Between 2013 and 2020 the division of the digital universe between mature and emerging markets (e.g., China) will switch & from 60% accounted for by mature markets to 60% of the data in the digital universe coming from emerging markets.
EMC 预测在 2017 年左右新兴的市场将超越成熟市场，东亚国家是最具潜力的引爆点。（大家是不是有点小激动，前景一片光明）
六、结束语
推荐网站：
（数据科学中心，大牛云集，资源丰富，讨论者热情，各种课程）
祝每一个 DMer 都挖掘到金矿和快乐：）
参考文献：
[2].《大数据的冲击》. 城田真琴. 野村综合研究所创新开发部高级研究员、IT 分析师，日本政府&智能云计算研究会&智囊团成员
[3].麦肯锡.%a6派统计学家频率学派统计学家和科学家_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
2页¥1.005页免费14页免费2页¥1.004页¥3.00 1页免费7页免费1页免费1页免费4页免费
喜欢此文档的还喜欢5页免费6页免费8页免费3页1下载券11页1下载券
%a6派统计学家频率学派统计学家和科学家|贝叶斯
把文档贴到Blog、BBS或个人站等：
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢3.2利用频率估计概率(1)教案免费阅读，用请下载。
扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
3.2利用频率估计概率(1)教案
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口当前位置： >
京东首席科学家：云计算、大数据撬动购买力
14:14 来源：
在电商业务运营整整十年之际，京东宣布，电商云于6月5日正式上线，同时京东的和云战略也拉开大幕，让我们更清晰地看到云和是如何融入到京东的命脉和核心竞争力中。
　　向后看，京东积累了十年的技术实力和大量用户数据；向前看，未来十年战略定位三大方向，&技术驱动&的自助式B2C、开放业务和金融。何刚解释说，之所以冠上技术驱动这个词，就是要依赖于云计算和大数据来推动京东在这三块业务上的发展。
　　&资金流、物流和信息流，这是电商的三大命脉，而如今在电商运营背后支撑这些命脉的技术驱动力是云计算和大数据。&
　　京东技术动力之一：&云化&所有核心竞争力
　　在何刚看来，京东云战略分三个阶段逐步拼成一个完整版图：
　　第一步：&云化&内部各种电商资源和能力
　　把物流、资金流和信息流这三大命脉分成供应链、仓库、配送、售后、财务金融、营销、交易和数据等不同方向，最后不管是线上还是线下业务都可以被云化。
　　目前京东在北京地区建有十几个仓库，经过资源整合优化之后可以做成一个云。而且据介绍，京东已经搭建了自己的私有云平台，支持内部上千种应用。 &京东所有核心竞争力都可以被云化，提高效率节省成本。&
　　第二步：创建&电商云& 资源对外开放
　　资源云化后，不仅成本低于业界水平，而且效率的改善很显著。这时候就可以将资源对外开放，让众多开发者打造各种电商应用，这不但对京东自身受益，而且有利于支持电商生态圈。例如，京东现在已经开放了物流能力，在配送方面也支持其他来源的订单。
　　那么在这个阶段，云起到了什么作用？&京东电商云为开放者接口支持、云托管、云生产社区、众包和交流中心方面的支持，这就是完整的电商云生态。&
　　第三步：整合更多外部电商资源
　　云化和开放都做到以后，仅凭京东自身的平台服务整个电商业显然有些力单势薄。
　　&这块业务太大，我们需要社会化力量的整合，不管是仓储物理配送还是交易营销，还是企业和个人，都可以通过接口方式进入我们的云平台&
　　因此，京东所谓的&电商云&，目标是打造开放生态的云信息平台，一个从买家卖家需求到开放API、应用开放、应用托管、交易市场、再到众包社区的一个闭环，&全方面帮助中国业界开发者和ISV建立一个完整的电商运营生态环境。&
　　据何刚透露，京东电商云初期上线主要包括五个解决方案：1、京东云汇；2、京东服务市场；3、京东宙斯；4、京东云鼎；5、京东云擎。下一个阶段，京东将把在个人应用市场和&云峰&移动应用开放平台添加进来，成为一个完整的云计算版图
　　他举例说，&京东宙斯&刚刚上线了商家应用托管和数据推送平台&&&京东云鼎&，包括很多传统IaaS意义上的云主机和云数据库，推送服务可以把商家的数据推送到云中，避免用户丢单漏单，同时承担数据查询和帮助商家弹性扩容的任务。面向开发者的&京东云擎&计划，则是可以自动完成从编译、测试、部署以及扩容的一整套动作。
　　京东技术驱动力之二：大数据撬动购买力
　　作为国内最大的电商公司之一，京东在过去十年运营中积累了大量关于用户的、蕴藏潜在价值的数据，&我们急需大数据应用，来挖掘这些数据创造商业智慧。&
　　何刚表示，京东从营销体系、广告推送、捕获系统、销量预测系统、物流配送调用、乃至移动端数据分析，都迫切需要大数据应用的支持。
　　他列举了京东使用大数据的三个典型场景：销售预测，通过数据分析预测销量做到自动补货，提高库存周转率，提升客户体验；用户画像，从多维度分析，定位出用户的属性类型和购买习惯，个性化地推介商品
　　光靠电商自身的力量还不够，何刚希望能与相关的云计算和大数据厂商合作，&联手技术研发，而且彼此产品整合，促进云计算和大数据在整个电子商务领域的推广，把这两个理念更深入地引入电商行业，驱动全行业的技术和业务升级。&（刘杰）
(责任编辑：中国统计网)
本文链接：
关键字：||||||
版权声明：本站内容部分来自互联网，转载请注明原文链接和作者，如有侵权或出处有误请和我们联系。
评论列表（网友评论仅供网友表达个人看法，并不表明本站同意其观点或证实其描述）据麦肯锡大数据行业研究报告，欧元区的大数据行业将通过改善公司运行效率、减少出错和增加税收，为公共部门创造2500亿欧元左右的产值。同时，行业需求的人才数量不断上升，但由于市场滞后性，可以预测此类人才在近几年内都是非常抢手的。本文写于日，作者DJ Patil，曾于2008年5月到2011年5月间在LinkedIn数据科学团队担任管理者，“你可能认识的人”等著名机制就来源于他的团队。编者有删改。早在2008年时，我就和Jeff Hammerbacher 对于“如何打造Facebook和LinkedIn的数据收集和分析团队”这个话题有过经验交流，我们在许多方面都达成了共识，这些共识总的概括起来成为一句话：数据科学是一项独特的专业技能（具体见本文第二段“数据科学家应有的素质”）。数据科学就是从那时候开始逐渐热门起来的，如今数据科学界有着按时召开的讨论会议、富有潜力的数据分析类新创公司，甚至有些大学都开设了这门课程，尽管如此，数据分析类人才依然非常紧缺。LinkedIn求职板数据，以及McKinsey的这种局面是Google、Facebook、Amazon等互联网巨头对于数据的创造性运用造成的。巨头们拥有顶尖的数据科学家，数据科学家们用这些数据创造了巨大价值：让搜索结果变得更准确，准确投放广告获得更高点击率，向用户推荐“可能认识的人”等等。数据科学为互联网带来了许多改进和有价值的产品，但它的适用范围不仅仅在于互联网，沃尔玛并没有做出类似产品，但沃尔玛之所以在零售业如此出类拔萃，就是因为它一直在用各方面数据优化着业务。数据科学的重要性毋庸置疑，那么数据科学家为公司带来了什么？他们如何做到这些的？公司应该如何打造一个有效的数据科学团队？一、让数据驱动业务（译者注：“机会驱动”、“量化分析”这两个词可以帮助理解。）每个企业家都想要让数据驱动型公司，“数据驱动”这个词脍炙人口，关于它的书籍、期刊、博文也数不胜数，但数据驱动型公司到底是怎么样的？我的定义是这样：数据驱动型公司反复收集、处理和运用数据以提高效率、创造新产品，最终引领市场走向。行业分析者们设计了许多评判一个公司是否属于数据驱动型的方法，有些人以数据量为标准、有些以数据复杂程度和处理难度为标准，我更看重公司对于数据的使用效率。电子商务网站多年前就开始利用这些数据，配合算法向用户推荐商品。Amazon创造了一种新的推荐模式，“查看此商品的顾客也查看了……”、“看过此商品后顾客买的其它商品有……”、“购买了您最近浏览过的商品的顾客同时购买了……”。它们是Amazon网站最常用的功能之一，看起来有点拗口，但这个模式非常强力，用户不再需要用传统搜索功能大海捞针般寻找想要的商品，当用户对某个产品的特定属性不满意时，底下会有同类替代品，它们由与有着相同爱好的人们帮助筛选出来，这些替代品符合用户需求的可能性大大提高；同时Amazon还会将用户可能想要的产品列出——注意，仅仅是“可能”想要——以刺激用户购买欲望，最终促进销量。这就是对数据高效运用的结果，是Amazon在电子商务行业进行的一场革命。数据科学产品同样是社交媒体的核心，毕竟，如果没有这些产品用于增强用户互动，社交网络何以成为社交网络？以“你可能认识的人”为例，这也许是社交网络里最重要的基础功能，因为一个个搜索朋友、同事、家人然后添加好友是个非常麻烦的过程——试想当你搜索“John Smith”，结果发现有几万个人叫这名字的场面。LinkedIn发明了“你可能认识的人”（PYMK）机制，PYMK机制理论基础很简单：当A认识B、B认识C时，A也许会认识C。但实际上结论并不一定成立，设计方法分析这个可能性的大小就是数据科学们要做的事情之一。PYMK机制在当时是很新奇的，但各大社交网络迅速抄袭了它。Facebook在原有模式上做出了改进，不仅支持PYMK，还监控这个机制对于用户新增好友速度的影响。经过长久监控和复杂的数据分析后，Facebook发现了保证“该用户会长期持续进行社交活动”需要的好友数和两次新增好友之间的间隔时长，形象的说，好友少和好友增加速度较慢的用户一般不会长期在社交网络活动，因此Facebook想方设法让新用户一开始就能获得一定数量的好友。Netflix数据科学团队发现，相比不提供任何信息的用户，在“想看的电影”列表添加了一定数量电影的用户成为网站长期使用者的概率要显著高出许多。所以在当新用户注册Netflix时，网站会强烈建议用户填写“想看的电影”，并且网站仍在不断优化注册和试用流程（网站服务收费、为新用户提供免费试用期）。Zynga也利用统计数据与用户保持长期关系，让用户持续地使用网站玩在线游戏。Zynga对于用户个人信息和在网站上的行为都有统计，长期统计带来了大量数据，数据分析创造了极大价值——从对人们参与游戏情况的分析中，发现了如何创造成功的游戏；在对游戏内人们互动情况进行分析后，发现了影响用户长期玩某游戏可能性的因素，等等等等。多年来前端工程师和美工们都是凭本能设计网页的，这没什么错。然而Google和Amazon将A/B测试法（单变量测试）运用于优化网页设计——某个细节的更改，是否促进了商品销售量？用户要多久才能发现这些改变？这个改变造成了用户流失吗，有多少用户走了？这些关系到网站运行效率的因素，只有通过实验、数据收集、数据分析一步步才能发现。从数据分析中得出成功需要的硬性条件，团队任务自然是朝着这个条件优化产品，这就是数据驱动型公司。雅虎对于数据科学的发展有着巨大贡献，看到Google使用MapReduce分析海量数据获得的成功之后，雅虎意识到自己也需要一个同类工具用于数据分析，所以雅虎选择了Hadoop。尽管后来这个工具被商业化，而且分析功能有着这样那样的缺陷（如对于数据流的分析效率很低），雅虎还是聘用了几十名工程师开发新的开源工具弥补缺陷，目前Hadoop已经成为所有数据科学家们必备工具中最重要的之一。支付行业竞争非常激烈，PayPal、Visa、American Express、Square百花齐放，稍有不慎就会落后于其他所有公司，然后灭亡。为了在竞争中保持优势，这些公司打造了复杂的监控系统，提升安全性并排除支付过程中一切出错状况，产品对这些系统的要求非常高，每个请求都必须在几毫秒之内处理完毕，因为接下来还有无数请求等着处理。所有搜索引擎为了提升用户体验，都会检测搜索结果的相关程度，从无数点击中分辨出有效的，进行统计然后改进。这大概是数据科学中最难的一块，但Google发明了许多新技术克服这个难题，硬件有自制计算机、高性能分析软件MapReduce、算法如PageRank等等，现在这些数据科学的成果大多成了开源项目。我发现这些最著名的数据驱动型公司都有相同格言：“无法量化，就无法改善。”以及与这种心态相配的几个措施：1.尽可能多的检测和收集数据，不论是在设计产品还是改善商业模式，如果不收集数据，就不会有头绪。2.主动而有规律的进行收集工作，量化战略和产品的成功程度。3.整理数据，让更多的人看到以发现问题，“群众的眼睛是雪亮的”。4.深入分析数据变化的原因，以及数据不变化的原因。所谓数据驱动型公司有很多，因为收集数据的门槛不高，但如果你公司能收集与自己产品有关的绝大部分数据、按照以上这几条进行分析和改善工作，就超过了其中绝大部分。接下来我要谈谈关于数据科学家的一些事情，注意，数据并不只是专业者独有的东西，公司里的每个员工都应该关注它们。二、数据科学家们的职责在我工作过的和担任过顾问的公司中，数据科学家不论多寡，说话都是非常有分量的。数据科学家们的职责主要有以下几类：1.决策科学和商业智慧数据对公司运营的多个方面都有举足轻重的影响，从战略决策到具体实施规范。数据科学家们监控数据，发现并总结出决策中需要考虑的因素。听起来简单，但实际上这个过程称得上是一门艺术。每个因素都与全局息息相关，牵一发而动全身，一个浅显的例子是，看数据不能光看百分比、分母也很重要。随着公司业务逐渐做大，需要考虑的因素也变得越来越多，整个过程越来越复杂。打个比方，将一个只报告温度的天气预报，与报告温度、气压的相比，再与包含温度、气压、湿度等一系列信息的天气预报相比，可以看出，质量要求的提升会带来数据收集和分析难度提升。（译注：作者典故可能用的有点突兀，不过不会有头没尾，后面有照应的。）数据科学团队发现了这些因素之后，总结的过程也非常重要，给不同人群写报告需要使用不同工具，从简单的表格、到网页上的视觉化信息图以及更为复杂的商业产品，越复杂的产品提供的功能就越多，通过注释和对比，可以突出报告重点、提供额外分析和横向纵向的比较。大的数据驱动型公司会推动数据“民主化”，让数据不再只是数据分析团队和高级管理层专属，每个人都可以合法的浏览这些数据。Facebook是数据民主化的先驱，所有人都能用Hive语言在其数据库（基于Hadoop）进行查询，这意味着，稍微有点脚本语言基础就能创立一个属于自己的数据分析面板。Zynga也有类似的机制，不过采用了完全不同的技术，Zynga建立了两个数据中心，一个有着严格的服务等级协议，为其核心服务提供支持，另一个用于为员工提供数据查询服务，不保证随时都能表现出最佳性能。更加传统一些的公司，例如eBay也这么做了，eBay采用了类似Teradata的技术，为每个工作小组提供与其相关的数据库和数据存储空间，使小组能方便的利用和修改数据。随着数据科学的发展，公司们在做决策时对于数据报告和分析越来越依赖，我们把这个新的决策模式称为“决策科学”。决策科学团队将自身收集和分析的数据与外部的进行对比，描绘出竞争格局，从中发现应该优先使用的策略，然后为策略制定中的假设提供证据支持，团队可能专注于“我们接下来应该往哪个国家拓展业务”、“这个市场是否已经饱和”类似的问题，解决这些问题不仅需要数据，还要做出用于预测的模型，并用现有数据或者实际市场反应检验这些模型。警惕：新接触数据科学的人往往喜欢寻找“银弹”，在数据科学中“银弹”指能用于构造整个系统的神奇数字，银弹是可遇而不可求的，真正杰出的数据科学团队会寻找一个个杠杠，将收益最大化。2.产品和市场分析产品分析是数据运用中一个相对较新的新领域，数据科学团队创造了直接与用户互动的环节，例如：用户对于内容有高度自主权的产品，如新闻聚合程序中用户对于新闻源的控制、调整某个新闻源的展示优先级。推动公司价值定位的程序，如“你可能认识的人”和其他促进用户互动的程序。（译注：价值定位价值链中的一个环节，对“公司能为用户提供什么产品”进行定位）推荐其他产品的链接，如LinkedIn用户使用群组功能时，网站提示“你也许会喜欢这个小组”。防止用户直接离开、利用其他用户提供的数据进行推销的提示，如上文中提到的Amazon那一系列“你可能……”。独立而有统计意义的产品，如Google News和LinkedIn Today，可以用于分析新闻与用户喜好的相关程度。随着计算成本的迅速下降，用公开的算法和技术开发这些产品的成本也迅速下降。市场分析与产品分析差不多，也是利用数据对产品和服务进行价值定位，市场分析的典范是博客，它分析多种来源的数据对未来趋势进行预测，博客上几乎每篇文章都很出名，其中有一篇研究拥有智能手机的品牌与性伴侣数量之间的联系，“iPhone用户是否会有更多乐趣呢？”，一篇根据新增好友的数量、研究用户在社交网络中使用不同头像产生的吸引力大小差异。这些文章评论都至少达到三位数，被许多传统媒体转载和引用，在各大社交网络中被用户们分享传播，用户们和市场的反应证明文章分析做得非常到位。长期以来电子邮件都是商家与客户和潜在客户交流的主要方式，公司们对电子邮件进行分析也不是近期才开始的，但是强有力的新技术能用丰富内容开创一个新的电子邮件营销方式。例如Facebook会对不活跃用户发送邮件，提醒登陆；LinkedIn网站周期性的给用户发送邮件，将用户社交圈子的动态浓缩在其中，新的工作职位、引人注目的文章、新的好友等，若非如此，单纯的没有任何内容的广告邮件会被系统当作垃圾邮件处理。一个用心经营过自己社交网络的人，看到这些邮件中好友动态，必然不会轻易删除它们，这就是用新技术进行营销的效率。3.欺骗、滥用、风险、安全（译注：前文中提到支付公司，它们的漏洞可能不那么容易理解，形象的说，某种攻击方式——如DDoS——让它们死机就能造成巨额损失。App Store本次漏洞中，发现者使用的“中间人攻击”就是一种欺骗，花费一定成本进行App内购买，监控并记录购买时的数据，然后伪造成iTunes，修改这些数据开出“已经购买的证明”，让程序服务器相信用户已经购买。值得一提的是，大约十年前米特尼克就在《》一书中写到了这种手段，并让公司们警惕。）利用互联网进行高科技犯罪的人有着高超的隐藏手段，和现成的掩护者：海量数据。数据分析在这类持续进行的防御战争中起着决定性作用，数据收集、入侵检测、压力抵抗、蜜罐取证等等机制设计过程都与数据科学家拥有的技能有关。一切都从数据收集开始，数据收集永远是个挑战，因为很难确定收集的数据规模和种类足以支持结论，事实上由于存储空间和计算带来的成本，数据科学家们必须缩小范围，找出对结论影响最重要的因素，最终设计出像“如果收集了足够的x和y数据，我们就能了解正在发生什么”一样的检测模型。检测欺骗、滥用等行为的另外一个问题是时间限制，攻击者如果持续进行DDos攻击，同时检测流程效率过低的话，会影响网站正常运作。许多公司都意识到了检测效率的重要性，雇佣了数据科学家，让他们用复杂的工具改进检测流程，缩短系统反应时间。检测到攻击的下一步是防御，缓解服务器压力，从所有用户中分辨出攻击者然后踢开他，这需要将已收集的数据作为变量，设计精密的分辨模型，是个很重要的过程。（译注：再带点私货，所谓“主动防御”也是先检测程序行为，不过是比被动防御消耗资源更大、有借口提醒你机器不安全而已。）以IP地址为例，几乎所有的系统日志机制都会收集使用者的IP，IP地址本身用处不大，但是作为变量来说，某IP地址的统计数据可以转化为：在一定时长内来自此IP地址的异常行为用户在全球的分布状况和其他地理位置信息这个IP上的用户是否经常在此时访问网站 &数据-&变量-&模型-&结论。4.数据服务和操作数据驱动型公司的一大核心业务就是利用数据提供服务，数据团队对于数据库安全、存储结构、查询模式负有责任，他们需要监控并保证数据系统正常运作，因为其他功能都依赖于这个系统。在我看来，随着数据科学团队重要性的不断上升，它与其他团队协作的需求也在不断上升，传统团队应该改变自己习惯，以适应数据团队的功能和服务，而且他们需要被数据团队监控，以保证稳定性，员工们应该随时准备处理服务器崩溃等紧急情况——成熟的公司就是在这些方面有着专业人才。公司们对统计报表有着需求，这是数据团队的责任之一，他们要发现并总结出重点，按时上交报表。同时也会出现某个因素大笔一挥就写了出来，但由于硬件和软件限制，这个因素不那么容易得出、会对服务器造成过大负担的情况，所以与决策科学团队沟通合作也是非常重要的。5.数据工程和基础设施对大规模数据进行测量、追踪、转移和处理的工具复杂程度是非常难以理解的，而构造这些工具就是数据工程团队的责任。近些年科技发展极快，一些开源项目促进了这类工具，举几个例：Kafka、Flume、Scribe ：是用于收集数据流信息的工具，它们使用的模型并不一样，不过工作程序相似——从多个来源收集数据，进行整合，然后输入数据库。Hadoop：Hadoop是目前最流行的数据处理框架。它是个面向批量数据处理的开源项目，创建者Doug Cutting受到MapReduce的启发设计了它，许多数据流处理的新技术都采用了Hadoop。Azkaban 和Oozie：作业调度程序，管理和协作复杂的数据流。Pig和Hive：对于大型非关系数据库的查询语言。Voldemort、Cassandra、HBase：保证大规模数据存储使用时的良好表现。同样重要的还有对于这些系统的检测和部署技术。数据分析团队在构造了这些大规模数据处理工具之后，会将这些工具应用于产品和市场分析团队。一个视频推荐引擎也许由SQL、Pig或Hive构建，如果测试表明这个引擎有效、有市场价值，数据分析团队就要优化它，部署至服务器上，严格遵循服务等级协议规定的稳定性和效率运行。这个从原型到实际产品的过程，有时甚至需要完全推到重写，例如当SQL和关系型数据库表现无法达到要求时，程序就必须移植到其他类型的数据库上，如HBase，移植成功后又要重新检测运行效率，这需要相当复杂的编程。6.提高公司内部互动和规范程度一个公司的运营应该由这些数据指导，还是根据其他机制？这是个问题。有许多需要考虑的事情，员工、公司规模、运营状况、目前公司类型（产品驱动、市场驱动）。有些公司以数据团队为中心，有些将数据团队与其他团队相互融合，机制有非常多种。在公司初创时，每个人都扮演着不同角色，因为无法负担起多个团队用于分析、安全、运营、基础设施建设，但随着公司的发展，分工也变得明确和专业化，这是保证成功的手段之一。在这一点上，我有三条建议:在团队规模还很小的时候，成员们更应该加强沟通，这样能很方便的反应和解决问题。授人以渔，这能提高公司成为数据驱动型的可能性。前文提到Facebook和Zynga等公司将数据公开化，结果是员工们帮助发现了一些影响产品成功程度的因素，这种模式在五年前是闻所未闻的。对于数据的观察和分析需要训练，所以公司应该开设这门课程。各个职能部门有规律的定期相互联系，数据科学的发展会带动科技创新，为了让所有部门能跟上步伐，定期交流经验是非常重要的。三、数据科学家应该有哪些素质？我和Jeff Hammerbacher 在讨论如何打造数据科学团队时意识到，随着公司成长，我们发现不知道应该如何称呼这些团队成员，“商业分析员”听起来不像是干大事的，“数据分析师”太笼统，而且许多团队成员都有深厚的工程技术专长，不适合这么叫，“研究员”又被Sun、HP等公司使用过。不过我们发现了这些称呼与团队工作的差异：许多研究成果都是抽象的，与产品毫无关系，而且通常要经过实验室几年研究才能发现一些影响产品发展的因素，相反，我们的团队注重即时性，一旦有了进展，对于产品发展会有巨大帮助。所以团队最终命名为“数据科学团队”，每个成员都是数据科学家——使用数据和科学进行创造活动的人。接下来讨论的就是如何寻找合格的成员，或者说，一名合格的数据科学家应该有哪些素质？专业技术：在某个领域拥有深厚的专业知识。好奇心：透过表现看本质的欲望，将问题分解成一个个小步骤，科学的解决。讲故事：发现数据反应出的问题并有效向他人表达。睿智：多角度、创造性的看问题。人们通常会认为，数据科学家都需要有计算机科学的学术背景，不过以我的经验看来，这不构成问题，起码我团队里不是这样的，PYMK机制由一位实验物理学家发明，一位计算化学家解决了百年以来的“水的能量状态”难题（译者：这和LinkedIn有半毛钱关系？），一位海洋学家在我们制作检测欺骗模型时做出了杰出贡献，这都不算什么，神经外科医师居然是个发现数据中蕴含趋势的天才……所有顶尖数据科学家都有充分而宽广的好奇心，不分日常生活和工作，所以他们能用新奇的方式整合一些完全不同的东西，我认识的一位好奇宝宝将DNA排序技术运用于发现欺骗。这些人几乎都有着相当高的学历，当然，我也见过一些杰出的、可以称得上数据科学家的在校大学生，那么如何整合他们的能力呢？在整合他们能力解决实际问题之前，首先要把数据搞定，这是准备活动，同时也是需要解决的实际问题。我刚毕业时对天气预报很感兴趣，想出了个预测天气的方法，但需要很多数据，这些数据网上有现成的，不过它们的存储格式、文件尺寸都不一样，为了将它们利用起来我写了个系统，让寝室每台电脑从凌晨1点到早上8点都工作，获取和处理数据，最终经过优化的数据库在任何一台电脑上都能运行。（译注：盖茨大二时的数学作业被老师整理后发表成论文，）找到丰富的数据源。在硬件、软件和带宽不充足时，进行大规模数据操作。把数据格式转换成一致的，对多个数据源进行融合。将数据视觉化。写出高效利用数据的工具。寻找数据科学家的另一个难题在于，这类人才实在没多少，即使有训练项目和开设了这门课程的大学，市场上仍然供不应求，根据我的经验，要想成为数据科学家，最好的方法不是训练和学习，而是自己去做一些与数据科学有关的事情。因此我对新员工有这方面要求，必须要有与数据打交道的经验，否则如果是有潜力的大学生，就必须经过强度非常大的实习训练项目考验。Kaggle和Topcoder提供了这类人才的平台，公司可以在上面发布一个项目，然后从参与的团队中挑选出最好的那个。许多人都想招现成的工作人员，其实潜力股也是很重要的，这三年我带领LinkedIn分析和数据团队，对于“怎么样的毕业生或者在校学生值得选择”总结出了一些规则，必须满足一下标准：时间：一旦选择此人，我们就要在同一个办公室长期工作，参与是新人成长必备的历程。信任：我们能相信你吗？你对工作是敷衍了事，还是尽力做到最好？交流：有效交流是保证高效率运行的关键，你能在90天之内融入公司吗？后面两条需要时间来验证，我们量化了这两个标准，对于实习生的工作质量和速度设置了一定期望。融入部分，“90天”需要个人和团队的共同努力，同样，成功也是整个团队共同分享的东西。我们会将期望设置的很高，让实习者意识到这是一个精英级别的团队，然后以高标准要求自己，如果在与团队互动、了解工作流程和公司运行模式之后仍然不能在短期内达到要求，那么就不适合这儿。这也是保证长期内能成功的条件，通过这个考验，他们的成果就值得公司其他部门的人研究，这会让他们对未来的工作有自信。每个从实习生做到资深高管的人都做到了这一点，许多业界顶尖人士更是在实习期就做出了非同寻常的成就。“4-6年内，你能做出一些令人惊异的事儿吗？”什么叫令人惊异？这很难定义，因为谈论的是长期内整个行业的趋势，但这很容易辨别，一眼就能看出。许多公司提到职位上升需要时间问题时总是语焉不详，我并不期望实习生能做出什么令人惊异的事情，但我看中的是有了长期规划之后，实习生能在4-6年内做出成果。最后强调一下，这个标准是共同努力达到的，如果公司不提供表现的平台和机会，实习生永远无法成功。四、打造LinkedIn数据科学团队LinkedIn数据团队刚开始时与现在可谓天壤之别，没有数据服务团队，总共有1.5个工程师，那0.5个后来创业去了，5个分析师、目前都是团队核心，为公司上上下下提供支持。我做的第一件事是去各大科技公司取经，雅虎、eBay、Facebook、Google、Sun等等都走遍了，结果令我很惊奇。每个公司中都有类似于数据科学家的人，但他们有“主业”，只在有限的空闲时间里做一些数据科学研究，也许有一天他们发现了什么或者想到了什么点子，产品经理也会告诉他们说“不错，不过这没在我们的蓝图中。”所以我将数据科学团队独立出来，作为产品团队存在，对于产品设计、使用和维护负有责任，这给了数据科学家们测试空间和表现机会。结果不仅是“你可能认识的人”和“谁看了我的档案”，还有许多功能，如Skills，作为个人档案的一部分，同时也汇聚了公司对于技能的要求，让用户了解在某个领域成功需要那些技能。团队学术背景的多样性也是成功因素之一，产品设计、前端后台编写、运营策略和实施都有专业人士去做，同时每个人都了解如何利用数据工作，所以业务界限并不明显，工程师可以向产品设计提建议，设计师也能指点工程师。在数据产品的打造上，传统模式效率也相当低，将数据团队与设计、市场分开，不科学，我甚至怀疑这样成功率是不是0。有了数据科学，传统瀑布式流程——模块化的运作，团队们分别定义和设计产品，数据科学家只能准备数据，最终工程师做出产品——就过时了。数据科学团队并不是设计Office，或者类似的人们对于程序界面、功能等方面都有着共识的产品，相反，每个项目都是在新领域进行创造和实验，从设计到运营都是实验的重要部分。这类产品对于存储、网络和计算性能的要求都远远超过原先，存储级别是PB甚至EB级的（译注：8m网络下载1EB的文件要30年，如果我没有算错的话），使用的数据部分来自本身服务器、部分来自外部，所以，如果不是一开始就将整个团队融合，产品不可能表现得令人满意。数据科学产品的质量检验（QA）需要非常严格的手段，常规的构造测试数据集甚至无法覆盖整个产品的使用范围，所以不再适合这类新技术。为了有效的检验产品质量，从理念原型时就应该开始设计检验机制，我的数据科学团队中有几位在整个产品生命周期内都负责这方面工作。数据科学团队不只是作为数据科学家团队存在，它设计工具将整个公司的运营数字化和自动化，节约了大量时间——泡杯咖啡就能得到数据，然后再次实验，比一觉醒来还得等上个把小时效率要高得多，从而做出创造性成果的可能性也高得多。数据科学团队与公司其他部门的交流也要重点注意，因为团队很可能被接连不断的问题和请求轰炸，必须分清优先级、做好时间安排，一个个解决。五、最后建立一支成功的数据科学团队，你会发现整个公司都被他们影响，到处都是数据产品的身影。动手吧公司们！
热门文章推荐}

叫阿莫西中心