怎样用python的爬虫程序实现三种特征权重以及特征选择

点击联系发帖人 时间：2018-01-21 17:28

python的爬虫程序

在有的时候我们需要学习出特征在分类器中所占的比重，例如判断某个人是否具有贷款资格特征收入应该比年龄要更重要一些，那么具体重要多少我们可以通过训練数据学习出来。

第一个办法可以借鉴决策树中特征选择的思想以贷款为例，特征向量=｛年龄收入，有房子婚否｝。通过计算每个特征Ai在训练数据集下的信息增益：

得到四个信息增益值对其做归一化处理，可得每个特征所占的权重：

第二个办法借鉴投票机制选择┅种分类模型，分别训练出该特征下的分类器并在集中验证正确率，以训练SVM分类器为例
1、在训练数据集D下分别训练出四个SVM分类器，每個分类器都是关于单特征的分类器如分类器S1是关于单特征年龄的；
2、在测试集Dt下分别测试四个分类器的分类效果，并统计正确分类个数countii=1,2,3,4分别表示四个特征下的正确分类数；

基于投票机制，还可以考虑利用缺一法来求得特征权重过程如下：
1、在训练数据集D下，分别训练缺少了第i个特征的分类器如分类器S1的特征为｛收入，有房子婚否｝；
2、在测试集Dt下分别测试四个分类器的分类效果，并统计错误分类個数countii=1,2,3,4分别表示四个特征下的错误分类数。

}

最近在看python的爬虫程序中机器学习之特征选择，为了避免遗忘特记一波。

Removing features with low variance即低方差过滤特征选择。其原理也是比较简单计算样本中每一个特征值所对应的方差，如果低于阈值则进行过滤（剔除）。默认情况下将會剔除所有零方差特征，方差为0表示样本的特征取值没发生变化

假设我们有一个特征是由0和1组成的数据集，利用Removing features with low variance方法移除那些在整个数據集中特征值为0或者为1的比例超过p（同一类样本所占的比例）的特征0 1 组成的数据集满足伯努利（ Bernoulli ）分布，因此其特征变量的方差为：p(1-p)

發现剔除的是第一个特征，保留的是后2个特征从第一列特征可以看出。1的个数为1个0为5个，0的比例为5/6超过了0.8,且5/36<4/25(阈值).因此将此特征剔除，形成新的特征矩阵

发布了24 篇原创文章 · 获赞 18 · 访问量 5万+

}

这篇短文的目的是分享我这几天裏从头开始学习python的爬虫程序爬虫技术的经验并展示对爬取的文本进行情感分析（文本分类）的一些挖掘结果。不同于其他专注爬虫技术嘚介绍这里首先阐述爬取网络数据动机，接着以豆瓣影评为例介绍文本数据的爬取最后使用文本分类的技术以一种机器学习的方式进荇情感分析。由于内容覆盖面巨大无法详细道尽，这篇文章旨在给那些对相关领域只有少量或者没有接触的人一个认知的窗口希望激發读者自行探索的兴趣。

以下的样本代码用Pyhton写成主要使用了scrapy， sklearn两个库

情感分析又叫意见挖掘(Opinion Mining), 是一个研究人们对某种事物，例如产品話题，政策的意见情绪或者态度的领域。随着网路上意见型数据的爆发情感分析也被广泛研究和应用。Bing Liu 的对此做了比较全面的概括和案例研究另一篇Bo Pang 的经典论文则着重研究了情感分类这一问题。

简单的一个应用的例子某公司想调查自己在淘宝上销售的产品的受喜爱程度，就可以从产品评论入手用一个训练好的分类器判断每个留下评论用户的对此产品的喜好态度，积极的或者是消极的评价以此展開，充分挖掘文本内容

当然，情感分析的第一步是获取数据而网络尤其是社交网络是存在着丰富而易于获得的意见型数据资源。python的爬蟲程序的开源爬虫库就很好用这也是作为一个新手上手的首选工具。提供了全面的学习资源甚至有中文的资料和说明文档。就像我一矗强调的数据科学家是一个要具备多领域技能的职位，以练代学不失为一种很好的途径我鼓励对python的爬虫程序爬虫跃跃欲试的读者不要擔心自己知识不足，这里没有门槛直接上就是了。

当你读完了上述介绍文档之后你应该知道一个scrapy项目的组成，抓取流程scrapy里每种Spider的应鼡场景，大致了解XPATH的语法规则这样之后你就了解到编写一个简单爬虫只需四步：

有一个初始url，或者一个生成初始url的方法

3. 在item类里想要抓取嘚内容

我上手的第一个例子是爬取豆瓣的影评数据选择豆瓣一是因为其丰富的语料资源和配备的打分体系，便于分类问题的标签获得 ②是可以避开账户登录，限制少思路是选取一部特定的电影，然后爬取其所有的短评和评分这样后期文本就可以作为分类特征，评分則作为分类标签我选了绣春刀(2014年最喜欢的电影)作目标，定义的爬虫类如下：

简短几十行代码之后你已经能够开始抓取一部电影的全部短評和评分了在这之前，记得在settings里加一个DOWNLOAD_DELAY = 2不然的话爬不到一半就会被豆瓣给禁了。

当我们得到一条影评时能够通过某种算法自动地预測出该影评是否时积极还是消极？计算机不会理解人类的文字符号有没有一种方法能够将文字转化为机器能够理解的信息？举简单的线性回归的例子在作回归分析时我们都会利用对回归预测有帮助的变量作为特征(features), 这里我们主要将文字作为含有可用信息的特征。通常多是嘚分类算法都需要量化的具有固定长度的特征向量原始文本需要一步转换之后才能“喂给”这些分类算法。这也是情感分类问题与一般嘚分类问题相比不同的地方

最直接也最常规的一种转化方法是计算单词(单个字) 在文本中的出现频率，也就是

将一段文本划分成若干其组荿词语比如对英文我们可以以空格和标点符号分割单词，对中文我们可以利用一些完备的词语库
计算每个词语在一段文本中的出现次數

这样，每单个词语的频率就代表一个变量(特征), 每一条短评代表一个样本

成功将文本转化为特征阵之后，你可能会想一些经常用到的詞例如“的“，”我“实际上对判断喜好的帮助应该不大，但是它们的高频率可能会盖过那些真正重要的词从而降低特征的预测能力。是一种常用的再权重方法主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现则认为此词或者短语具有很好的类别区分能力，适合用来分类

即使是加了权重以后，这种以单个词语作特征的方式还是没办法很好的传递句意啊一段攵字的意思不仅取决于其组成的词语，也在于这些词语间的排列和依赖关系就像“我爱她”和“她爱我”由三个相同的字组成，但是字嘚顺序不同表达的意思也不一样

一种解救的方法是利用。这里的N指的是一组词语的数量与其用一个词语代表一个特征，我们可以将两個甚至更多的词语连在一起组成一个特征背后的思路也很简单：比较两个文本，如果它们有更多的子集相同那它们就更加相似。上面嘚例子里除了“我”，“有”“小毛驴”，“北京”之外对一个2-gram，我们还会有“我有””有小毛驴“，”有北京“这样的组合出現在特征矩阵中

我一共爬取了16587条短评，比总的短评数量要少因为中途断网实际上爬取了一半左右的短评，更重要的原因是一些短评没囿评级所有并没有使用根据打星的数量，三个星及以下视为消极评价四个星及以上是为积极评价。

至于分类器的比较变量筛选，参數选择等内容已经超出了这篇文章覆盖的范围

1. 介绍了情感分析的动机和定义

2. 情感分析的前提是意见型数据，而爬虫能够获取大量评论及攵本型数据于是我们介绍了流行的python的爬虫程序爬虫工具scrapy，尝试从头开始学起写一个简单的爬虫

3. 文本分类的一个困难在于将文本转化为能“喂给”分类算法的特征阵最直接的方法是将文本分隔成一组词语并计算词语出现的频率

4. 利用N－gram试图抓取词语间的顺序和依赖关系，尽鈳能减少语义的流失

}

叫阿莫西中心