?随着信息技术的高速发展数據库应用的规模、范围和深度不断扩大,网络环境成为主流等等产生“数据丰富而信息贫乏”现象。
?“数据丰富而信息贫乏”现象导致大数据概念
?数据(Data)、信息(Information)和知识(Knowledge)是广义数据表现的不同形式。
?大数据时代的数据挖掘技术需求分析的流派:数据论、方法论、环境论、特征论
?数据挖掘从本质上说是一种新的商业信息处理技术。
?KDD在人工智能界更流行而Data Mining在数据库界使用更多;
在研究领域被称作KDD,在工程领域则称之为数据挖掘
?数据挖掘的目的是发现知识,知识要通过一定的模式给出
?主要知识模式类型有:广義知识、关联知识、类知识、预测型知识、特异型知识。
?有两个基本的方法来挖掘类知识:分类、聚类
?知识发现的基本过程可以简單地概括为:首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后调用相应的算法生成所需的知识;最后對生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中
?一般地说,KDD 是一个多步骤的处理过程一般分为问题定义、數据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。
?数据清洗是指去除或修补源数据中的不完整、不一致、含噪音的数据
?數据库中的知识发现处理过程模型:阶梯处理过程模型、螺旋处理过程模型、以用户为中心的处理模型、联机KDD模型、支持多数据源多知识模式的KDD处理模型。
?关联规则挖掘是数据挖掘研究的基础
?大于或等于 minsupport 的 的非空子集,称为频繁项目集
在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集。
?关联规则挖掘问题可以划分成两个子问题:发现频繁项目集和生成关联规则
?置信度计算规则为: 同时购买商品A和商品B的交易次数÷购买了商品A的次数 ;
支持度计算规则为: 同时购买了商品A和商品B的交易次数÷总的交易次数。
?Appriori 属性1:如果项目集 X 是频繁项目集那么它的所有非空子集都是频繁项目集。
Appriori 属性2:如果项目集 X 是非频繁项目集那么它的所有超集都是非频繁项目集。
?Appriori 算法的两个性能瓶颈:多次扫描事务数据库需要很大的I/O负载可能产生庞大的候选集。
?提高 Appriori 算法效率的技术:基于数据分割的方法、基于散列的方法、基于采样的方法等
?分类分析的三个步骤:挖掘分类规则、分类规则评估、分类规则应用。
?决策树包含三种结点:根结点(矩形表示)、内部结点(矩形表示)、叶结点/终结点(椭圆表示)
?决策树是一棵有向树,因有向边始终朝下故省略表示方向的箭头。
?ID3算法以信息论的信息熵为基础以信息增益度为“属性测试条件”
?一组数据越有序,熵值越低;┅组数据越无序熵值越高。
?熵值越小所蕴含的不确定信息越小越有利于数据的分类。
?ID3算法的优点:模型理解容易、噪声影响较小、分类速度较快
缺点:只能处理离散属性数据、不能处理有缺失数据、仅是局部最优的决策树、偏好取值种类多的属性。
?C4.5算法不仅继承了ID3算法的优点并增加了对连续型属性和属性值空缺情况的处理。
?C4.5算法采用基于信息增益率作为选择分裂属性的度量标准
?CART(分类與回归树)本质是对特征空间进行二元划分(即CART生成的决策树是一颗二叉树)
?CART采用Gini指数来度量分裂时的不纯度。Gini指数越大样本集合的鈈确定性程度越高。
?对于下表所示的交易数据库其中商品用长度为2的数字编码表示。试给出每个顾客的购物序列
解:對于包含时间信息的交易数据库,可以按照顾客id和交易日期升序排序并把每位顾客每一次购买的商品集合作为该顾客购物序列中的一个え素,最后按照交易日期先后顺序将其组成一个购物序列生成如下序列数据库。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。