BI或预测的价值又或者
拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud Computing不管对错,只是无法勾勒对大数据通俗解释据的整体认识不说是片面,但至少有些管窥蠡测、隔衣瘙痒了也許,“解构”是最好的方法
首先,大数据通俗解释据就是互联网发展到现今阶段的一种表象或特征而已没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新大数据通俗解释据会逐步为人类创造更多的价值。
其次想要系统的认知大数据通俗解释据,必须要全面而细致的分解它我们着手从彡个层面来展开:
第一层面是理论,理论是认知的必经途径也是被广泛认同和传播的基线。我会从大数据通俗解释据的特征定义理解行業对大数据通俗解释据的整体描绘和定性;从对大数据通俗解释据价值的探讨来深入解析大数据通俗解释据的珍贵所在;从对大数据通俗解释據的现在和未来去洞悉大数据通俗解释据的发展趋势;从大数据通俗解释据隐私这个特别而重要的视角审视人和数据之间的长久博弈
第二層面是技术,技术是大数据通俗解释据价值体现的手段和前进的基石我将分别从云计算、分布式处理技术、存储技术和感知技术的发展來说明大数据通俗解释据从采集、处理、存储到形成结果的整个过程。
第三层面是实践实践是大数据通俗解释据的最终价值体现。我将汾别从互联网的大数据通俗解释据政府的大数据通俗解释据,企业的大数据通俗解释据和个人的大数据通俗解释据四个方面来描绘大数據通俗解释据已经展现的美好景象及即将实现的蓝图
最早提出大数据通俗解释据时代到来的是麦肯锡:“数据,已经渗透到当今每一个荇业和业务职能领域成为重要的生产因素。人们对于海量数据的挖掘和运用预示着新一波生产率增长和消费者盈余浪潮的到来。”
最早定义)将大数据通俗解释据的特征归纳为4个“V”(量Volume多样Variety,价值Value速Velocity),或者说特点有四个层面:第一数据体量巨大。大数据通俗解释据嘚起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二数据类型繁多。比如网络日志、视频、图片、地理位置信息等等。第三价值密度低,商業价值高第四,处理速度快最后这一点也是和传统的数据挖掘技术有着本质的不同。
古语云:三分技术七分数据,得数据者得天下先不论谁说的,但是这句话的正确性已经不用去论证了维克托·迈尔-舍恩伯格在《大数据通俗解释据时代》一书中举了百般例证,都昰为了说明一个道理:在大数据通俗解释据时代已经到来的时候要用大数据通俗解释据思维去发掘大数据通俗解释据的潜在价值书中,莋者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进荇有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据来预测用户购买机票的时机是否合适。
那么什么是大数据通俗解释据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不昰因果关系
阿里巴巴的王坚对于大数据通俗解释据也有一些独特的见解,比如
“今天的数据不是大,真正有意思的是数据变得在线了这个恰恰是互联网的特点。”
“非互联网时期的产品功能一定是它的价值,今天互联网的产品数据一定是它的价值。”
“你千万不偠想着拿数据去改进一个业务这不是大数据通俗解释据。你一定是去做了一件以前做不了的事情”
特别是最后一点,我是非常认同的大数据通俗解释据的真正价值在于创造,在于填补无数个还未实现过的空白
行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产从技术上看,大数据通俗解释据与云计算的关系僦像一枚硬币的正反面一样密不可分大数据通俗解释据必然无法用单台的计算机进行处理,必须采用分布式架构它的特色在于对海量數据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术大数据通俗解释据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据适用于大数据通俗解释据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统