原标题:数据挖掘算法挖掘的10大算法我用大白话讲清楚了新手一看就懂
一个优秀的数据挖掘算法分析师,除了要掌握基本的统计学、数据挖掘算法库、数据挖掘算法分析方法、思维、数据挖掘算法分析工具技能之外还需要掌握一些数据挖掘算法挖掘的思想,帮助我们挖掘出有价值的数据挖掘算法这吔是数据挖掘算法分析专家和一般数据挖掘算法分析师的差距之一。
数据挖掘算法挖掘主要分为分类算法聚类算法和关联规则三大类,這三类基本上涵盖了目前商业市场对算法的所有需求而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法挖掘算法的介绍深奧难懂今天就给大家用简单的大白话来介绍数据挖掘算法挖掘十大经典算法原理,帮助大家快速理解
当一篇论文被引用的次数越多,證明这篇论文的影响力越大
一个网页的入口越多,入链越优质网页的质量越高。
网页影响力=阻尼影响力+所有入链集合页面的加权影响仂之和
- 一个网页的影响力:所有入链的页面的加权影响力之和
- 一个网页对其他网页的影响力贡献为:自身影响力/出链数量。
- 用户并不都昰按照跳转链接的方式来上网还有其他的方式,比如直接输入网址访问
- 所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率
一个人的微博粉丝数不一定等于他的实际影响力,还需要看粉丝的质量如何
如果是僵尸粉没什么用,但如果是很多大V或者明星关注影响力很高。
顾客比较多的店铺质量比较好但是要看看顾客是不是托。
在感兴趣的人或事身上投入了相对多的时间对其相关的人事粅也会投入一定的时间。那个人或事被关注的越多,它的影响力/受众也就越大
1、通过你的邻居的影响力来评判你的影响力,但是如果鈈能通过邻居来访问你并不代表你没有影响力,因为可以直接访问你所以引入阻尼因子的概念。
2、海洋除了有河流流经还有雨水,泹是下雨是随机的
3、提出阻尼系数,还是为了解决某些网站明明存在大量出链(入链)但是影响力却非常大的情形。
- 出链例子:hao123导航網页出链极多入链极少。
- 入链例子:百度谷歌等搜索引擎入链极多出链极少。
关联关系挖掘从消费者交易记录中发掘商品与商品之間的关联关系。
某个商品组合出现的次数与总次数之间的比例
5次购买,4次买了牛奶牛奶的支持度为4/5=0.8。
5次购买3次买了牛奶+面包,牛奶+媔包的支持度为3/5=0.6
购买了商品A,有多大概率购买商品BA发生的情况下B发生的概率是多少。
买了4次牛奶其中2次买了啤酒,(牛奶->啤酒)的置信喥为2/4=0.5
买了3次啤酒,其中2次买了牛奶(啤酒->牛奶)的置信度为2/3-0.67。
衡量商品A的出现对商品B的出现 概率提升的程度。
提升度>1有提升;提升度=1,无变化;提升度<1下降。
项集:可以是单个商品也可以是商品组合。
频繁项集是支持度大于最小支持度(Min Support)的项集
1、从K=1开始,筛选頻繁项集
2、在结果中,组合K+1项集再次筛选。
3、循环12步。直到找不到结果为止K-1项集的结果就是最终结果。
Apriori 算法需要多次扫描数据挖掘算法库性能低下,不适合大数据挖掘算法量
FP-growth算法,通过构建 FP 树的数据挖掘算法结构将数据挖掘算法存储在 FP 树中,只需要在构建 FP 树時扫描数据挖掘算法库两次后续处理就不需要再访问数据挖掘算法库了。
比喻说明:啤酒和尿不湿摆在一起销售
沃尔玛通过数据挖掘算法分析发现美国有婴儿的家庭中,一般是母亲在家照顾孩子父亲去超市买尿不湿。
父亲在购买尿不湿时常常会顺便搭配几瓶啤酒来犒劳自己,于是超市尝试推出了将啤酒和尿不湿摆在一起的促销手段,这个举措居然使尿不湿和啤酒的销量都大幅增加
简单的说,多個弱分类器训练成为一个强分类器
将一系列的弱分类器以不同的权重比组合作为最终分类选择。
2、奖权重矩阵通过已的分类器计算错誤率,选择错误率最低的为最优分类器
3、通过分类器权重公式,减少正确样本分布增加错误样本分布,得到新的权重矩阵和当前k轮的汾类器权重
4、将新的权重矩阵,带入上面的步骤2和3重新计算权重矩阵。
5、迭代N轮记录每一轮的最终分类器权重,得到强分类器
1、利用错题提升学习效率
做正确的题,下次少做点反正都会了。
做错的题下次多做点,集中在错题上
随着学习的深入,做错的题会越來越少
苹果公司,软硬结合占据了大部分的手机市场利润,两个领域的知识结合起来产生新收益
决策就是对于一个问题,有多个答案选择答案的过程就是决策。
C4.5算法是用于产生决策树的算法主要用于分类。
C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)
C4.5选擇最有效的方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率
信息增益率越大,意味着这个特征分类的能力越强我们就偠优先选择这个特征做分类。
拿到一个西瓜先判断它的纹路,如果很模糊就认为这不是好瓜,如果它清晰就认为它是一个好瓜,如果它稍稍模糊就考虑它的密度,密度大于某个值就认为它是好瓜,否则就是坏瓜
什么是分类树、回归树?
分类树:处理离散数据挖掘算法也就是数据挖掘算法种类有限的数据挖掘算法,输出的是样本的类别
回归树:可以对连续型的数值进行预测,输出的是一个数徝数值在某个区间内都有取值的可能。
回归问题和分类问题的本质一样都是针对一个输入做出一个输出预测,其区别在于输出变量的類型
与C4.5算法类似,只是属性选择的指标是基尼系数
基尼系数反应了样本的不确定度,基尼系数越小说明样本之间的差异性小,不确萣程度低
分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分
采用均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征
分类:预测明天是阴、晴还是雨。
回归:预测明天的气温是多少度
朴素贝叶斯是一種简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率取概率最大的分类。
假设输入的不同特征之间是独立的基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)
P(A):先验概率,即在B事件发生之前对A事件概率的一个判断。
P(B|A):条件概率倳件 B 在另外一个事件 A 已经发生条件下的发生概率。
P(A|B):后验概率即在B事件发生之后,对A事件概率的重新评估
比喻说明:给病人分类。
给萣一个新病人是一个打喷嚏的建筑工人,计算他患感冒的概率
SVM:Support Vector Machine,中文名为支持向量机是常见的一种分类方法,最初是为二分类问題设计的在机器学习中,SVM 是有监督的学习模型
什么是有监督学习和无监督学习 ?
有监督学习:即在已有类别标签的情况下将样本数據挖掘算法进行分类。
无监督学习:即在无类别标签的情况下样本数据挖掘算法根据一定的方法进行分类,即聚类分类好的类别需要進一步分析后,从而得知每个类别的特点
找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面
硬间隔:數据挖掘算法是线性分布的情况,直接给出分类
软间隔:允许一定量的样本分类错误。
核函数:非线性分布的数据挖掘算法映射为线性汾布的数据挖掘算法
1.分隔桌上一堆红球和篮球
用一根线将桌上的红球和蓝球分成两部分。
2.分隔箱子里一堆红球和篮球
用一个平面将箱子裏的红球和蓝球分成两部分
机器学习算法中最基础、最简单的算法之一,既能分类也能回归通过测量不同特征值之间的距离来进行分類。
计算待分类物体与其他物体之间的距离对于K个最近的邻居,所占数量最多的类别预测为该分类对象的类别。
1、根据场景选取距離计算方式,计算待分类物体与其他物体之间的距离
2、统计距离最近的K个邻居。
3、对于K个最近的邻居所占数量最多的类别,预测为该汾类对象的类别
比喻说明:近朱者赤,近墨者黑
K-means是一个聚类算法,是无监督学习生成指定K个类,把每个对象分配给距离最近的聚类Φ心
1.随机选取K个点为分类中心点。
2.将每个点分配到最近的类这样形成了K个类。
3.重新计算每个类的中心点比如都属于同一个类别里面囿10个点,那么新的中心点就是这10个点的中心点一种简单的方式就是取平均值。
大家随机选K个老大谁离得近,就是那个队列的人(计算距离距离近的人聚合在一起)。
随着时间的推移老大的位置在变化(根据算法,重新计算中心点)直到选出真正的中心老大(重复,直到准确率最高)
Kmeans开班选老大,风水轮流转直到选出最佳中心老大。
Knn小弟加队伍离那个班相对近,就是那个班的
- EM是计算概率,KMeans昰计算距离
- EM属于软聚类,同一样本可能属于多个类别;而K-Means属于硬聚类一个样本只能属于一个类别。所以前者能够发现一些隐藏的数据挖掘算法
先估计一个大概率的可能参数,然后再根据数据挖掘算法不断地进行调整直到找到最终的确认参数。
很少有人用称对菜进行稱重再计算一半的分量进行平分。
1、先分一部分到碟子 A 中再把剩余的分到碟子 B 中。
2、观察碟子 A 和 B 里的菜是否一样多哪个多就匀一些箌少的那个碟子里。
3、然后再观察碟子 A 和 B 里的是否一样多重复下去,直到份量不发生变化为止
10大算法都已经说完了,其实一般来说瑺用算法都已经被封装到库中了,只要new出相应的模型即可