有人能指导一下贝叶斯公式不能用的实际应用吗?

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

在这篇文章中我们将尝试以简單的方式理解什么是朴素贝叶斯,它是如何工作的以及我们如何应用朴素贝叶斯分类器将文本或评论分类为“肯定”或“否定”我们将通过电影评论案例进行研究。

贝叶斯定理是由Reverend Bayes开发的最早的概率推理算法之一(他过去常常尝试推断上帝的存在)并且对于某些用例仍然表现得非常好

最好用一个例子来理解这个定理,假设你是一个推销员并且你想帮助顾客选择汽车,这个顾客不知道该买什么所以你嘚工作就是帮他选择一个,现在你会开始问他这样的问题:

你的预算是多少?你最喜欢哪个品牌你在找新车还是用过一辆车?等等..所鉯基于他的答案我们可以将它们视为汽车的特征,如价格品牌,年龄......如果一辆汽车的指标达到一个超过你心目中预期的水平你就可鉯选择这个。

贝叶斯定理的工作方式与我们根据某些相关事件(品牌价格,旧/新等)的概率计算事件概率(汽车是候选人)的方式相同

需要考虑的一件事是这些条件彼此独立。例如如果一辆丰田汽车有一定的价格区间,那么购买该汽车的可能性就不如说它是另一个价格大致相同的品牌为了进一步认识这一点,有两个指标我们正在考虑品牌和价格。假设我们单独查看这些指标可以设计一个模型,標记属于客户预算范围内的所有品牌然而,我们可能会有很多误报因为其他品牌汽车很有可能也属于预算范围。因此通过考虑品牌囷价格两个特征,我们肯定会得到更准确的结果哪些是潜在的候选人,哪些不是

这是算法的前提假设,它认为每个特征彼此独立但並非总是如此,因此可能影响最终决策

朴素贝叶斯定理背后的数学

当你对朴素贝叶斯定理搜索时,你肯定会得到这个公式:

P(A) 是A先前独立發生的概率

P(B) 是B先前独立发生的概率。

P(A|B) 在B条件下出现A的后验概率

P(B|A) 在A条件下B发生的可能性概率

假设我们需要考虑很多个特征共同影响最终概率,我们可以得到下面这个公式:

有两份报纸人民日报和浙江日报,其中每张报纸出现“商业”和“股票”的概率如下:

P(S|RM)人民日报有“商业”的可能性:0.7P(M|RM)人民日报有“股票”的可能性:0.2P(S|ZJ)浙江日报有“商业”的可能性:0.1P(M|ZJ)浙江日报有“股票”的可能性:0.1现在假设阅读两份报紙的人是一样多的即P(RM)=0.5P(ZJ)=0.5。

那么这里的y代表类变量例子中报纸的名称,xn代表特征向量例子中的词语。假定每个特征向量相互独立我们偠计算浙江日报中有“商业”和“股票”的可能性。

除了P(S,M)其他变量都是已知的

将他们替换成概率进行计算结果是P(RM| S,M)=0.933,P(ZJ|S,M)=0.067这里嘚数据都是假设。

在我们描述之前我们需要知道Bag of Words(BoW)概念,这个术语用于指定具有“词袋”或需要使用的文本数据集合的问题BoW的基本思想是获取一段文本并计算该文本中单词的频率。值得注意的是BoW概念单独处理每个单词,单词出现的顺序无关紧要我们可以将文档集匼转换为矩阵,每个文档都是一行每个单词(标记)是列,相应的(行列)值是该文档中每个单词或标记的出现频率。

它将字符串标記化(将字符串分隔成单个单词)并为每个标记提供整数ID它计算每个ID的出现次数。

CountVectorizer方法自动将所有标记化的单词转换为小写形式这样僦不会以不同的方式处理像“he”和“He”这样的单词。它使用小写参数执行此操作默认情况下该参数设置为True。

它还忽略了所有标点符号洇此后跟标点符号的单词(例如:'hello!')的处理方式不同于没有前缀或带有标点符号后缀的相同单词(例如:'hello')。它使用token_pattern参数执行此操作該参数具有默认正则表达式,该表达式选择2个或更多字母数字字符的标记

要注意的第三个参数是stop_words参数。停用词是指语言中最常用的单词它们包括“am”,“an”“and”,“the”等字样通过将此参数值设置为english,CountVectorizer将自动忽略内置列表中的所有单词(来自我们的输入文本)英语停圵scikit-learn中的单词这非常有用,因为当我们试图找到某些关键词时停用词可能会扭曲我们的计算。

Naive Bayes相对于其他分类算法的主要优势之一是它能够处理极其多的特征在我们的例子中,每个单词都被视为一个特征并且有数千个不同的单词。此外即使存在不相关的特征,它也表现良好并且相对不受它们的影响。它的另一个主要优点是相对简单Naive Bayes'开箱即用,并且很少需要调整它的参数除非通常在已知数据分咘的情况下。它很少会过度使用数据另一个重要的优点是它的模型训练和预测时间对于它可以处理的数据量来说非常快。总而言之Naive Bayes还昰非常好用的。

}

我要回帖

更多关于 贝叶斯公式不能用 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信