em中逻辑回归模型的优度比为1的变量有必要不选入模型吗

点击联系发帖人 时间：2015-02-10 08:48

逻辑回归算法

后使用快捷导航没有帐号？
查看: 1438|回复: 3
大数据下的逻辑回归训练模型方法论
论坛徽章:14
在数据膨胀的当今社会里，海量数据中蕴含价值日渐凸显出来。如何有效的挖掘海量数据中的有效信息已经成为各个领域面临的共同问题。以互联网企业为代表的科技公司依据自身的实际需求，开始大量的应用、以及等获取海量数据中蕴含的信息，并且已经取得了很好的效果。当今社会已经从过去的信息匮乏，转变为信息泛滥的时代。由于网络以及相关应用的不断普及，网络数据逐渐呈现着”海量，高维”的趋势，如何利用已有的机器学习或者数据挖掘的算法，获取有效信息，已经成为学术界以及工业所共同关注的重点。国内技术服务商百分点公司已将机器学习的相关技术应用到大数据分析中，在百分点合作的某一，我们选取了10个基于商品和用户的特征属性，结合机器学习中的分类算法，构建了一个基于用户推荐的分类器。在实际应用过程中，该团购网站点击率平均提升19%，下单率提升42%，直接下单率提升了近一倍，从而达到了提高推荐效果的目的。在本篇文章中将以机器学习的经典算法逻辑回归模型作为预测模型，结合目前百分点为团购网站开发的分类模型作为具体实例，具体讲解一下如何在”海量、高维”数据中有效的训练模型。什么是逻辑回归模型？机器学习算法中的逻辑回归模型(Logic Regression, LR)，以下简称为LR模型，是一个被广泛应用在实际场景中的算法。在本篇文章主要考虑的对象是基于二元分类逻辑回归预测模型，即分类器识别的类标号为在介绍如何训练模型之前，首先简单的介绍一下逻辑回归模型。逻辑回归模型是一种基于判别式的方法，它假定类的实例是线性可分的，通过直接估计判别式的参数，获得最终的预测模型。逻辑回归模型并不是对类条件密度建模，而是对类条件比率进行建模。假定类条件对数似然比是线性的：训练逻辑回归模型当我们确定使用LR模型并且选定了初始特征集，那么我们的下一步就是如何获取最佳的评估参数，使得训练得到的LR模型可以获得最佳的分类效果。这个过程也可以看做是一个搜索的过程，即在一个LR模型的解空间内，如何查找一个与我们设计的LR模型最为匹配的解。为了达到能够获取对应的最佳LR模型，我们需要设计一种搜索策略，考虑按照什么样的准则去选择最优的模型。如何选择最佳的LR模型，直观的想法就是通过预测模型的结果与真实值的匹配程度评价预测模型的好坏。在机器学习领域中，使用损失函数(loss function)或者代价函数(cost function)来计算预测结果与真实值得匹配程度。损失函数是一个非负实值函数，根据不同的需求，可以设计不同的损失函数。在本篇文章中将是预测模型f基于测试实例X的预测值，Y是测试实例x的真实类标号的值。在机器学习中常用的损失函数包括以下几种：0-1损失函数:平方损失函数:绝对损失函数:对数损失函数或对数似然损失函数:由于模型的输入和输出(X,Y)是随机变量，遵循联合分布P(X,Y)，所以损失函数的期望是：关于联合分布P(X,Y)在平均意义下的损失，称为风险函数(risk function)或期望损失(expected loss)。损失函数与风险函数实际上都是为了测量预测模型的分类能力，只是前者是从微观层次上考虑，而后者是从宏观上(平均意义上)考虑。因此我们可以获得关于训练数据集的平均损失，称为经验风险(empiricalrisk)或经验损失(empirical loss),记作:则是模型关于训练样本的平均损失。根据统计学中的大数定理，当样本容量很大的时候，可以将经验损失作为期望损失。但是在训练模型的过程中，由于数据中存在着噪音数据或者数据偏移的问题，导致了训练模型的泛化性非常差，也就是机器学习中著名的过度拟合的问题。为了解决这个问题，需要规则化处理，人为增加约束条件，在经验风险函数上添加上表示模型复杂度的正则化项(regularizer)或惩罚项(penalty term)，这种经验风险函数被称作结构风险最小化(Structural Risk Minimization, SRM)，可以使用下面的公式表示：在机器学习中，总结起来共有三类方法用来设计相关的经验风险函数：当设计的模型很简单，并且数据量也很大的时候，给定一组参数以后，可以使用最大似然评估方法(Maximum Likelihood Estimation, MLE)训练得到相关的模型参数;当设计的模型很复杂，存在着隐含变量。这样的情况可以使用EM算法评估模型的参数。一般分为两个步骤，首先给定参数，对于隐含变量做期望，算出包括隐变量的似然函数;第二步，使用MLE方法，评估参数值，更新对应的参数值;当模型并不是很复杂，但是数据非常少的时候，并且具有一定的先验知识的时候，可以使用贝叶斯统计方法评估模型的参数，也就是所谓的最大后验概率(Maximum A Posteriori，MAP)。首先基于先验知识，给定待估参数一个先验统计分布，然后根据贝叶斯公式，推算出参数的后验分布(posterior probability)，最后最大化这个后验概率，获得对应的参数值。由于本篇文章针对的是“高维、海量”的训练数据，并且使用了相对简单的LR模型作为预测模型，因此我们在训练模型的过程中使用了MLE方法，设计相关的经验风险参数;其次由于本身的训练数据充足，因此在经验函数中并没有添加对应的基于模型复杂的惩罚项(正则化)，在我们模型中其具体的风险函数如下所示：下面的问题就转变为一个无约束的最优化的问题。在基于海量数据训练模型的时候，需要考虑的是如何高效的训练模型。在实际的开发过程中，个人认为可以从两个方面提高训练模型的效率。首先是对于数据在内存的存储结构进行优化，尤其是针对“高维、稀疏”矩阵的时候，在本次实验中我们应用了R中的Matrix包中的稀疏矩阵格式，大幅度提高了算法计算效率。其次需要选择相关的迭代算法，加快经验风险函数的收敛速度。在这里介绍几种常用的迭代算法:牛顿迭代算法中的牛顿-拉斐森迭代算法，该算法需要计算海森矩阵，因此算法需要花费大量的时间，迭代时间较长。拟牛顿迭代算法，使用近似算法，计算海森矩阵，从而降低算法每次迭代的时间，提高算法运行的效率。在拟牛顿算法中较为经典的算法有两种：BFGS算法和L-BFGS算法。BFGS算法是利用原有的所有历史计算结果，近似计算海森矩阵，虽然提高了整个算法的效率，但是由于需要保存大量历史结果，因此该算法受到内存的大小的局限，限制了算法的应用范围;而L-BFGS则是正是针对BFGS消耗内存较大的特点，只保存有限的计算结果，大大降低了算法对于内存的依赖。在实际应用中选择何种迭代算法，需要根据实际需求以及数据本身的特点进行选择，在本次试验我们选取了牛顿-拉斐森迭代算法以及L-BFGS算法作为LR模型的迭代算法
论坛徽章:14
注册会员, 积分 184, 距离下一级还需 16 积分
论坛徽章:2
多谢分享！二元logistic逻辑回归分析1_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
二元logistic逻辑回归分析1
上传于||暂无简介
阅读已结束，如果下载本文需要使用1下载券
想免费下载本文？
定制HR最喜欢的简历
下载文档到电脑，查找使用更方便
还剩1页未读，继续阅读
定制HR最喜欢的简历
你可能喜欢一元线性回归模型习题与答案_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
<span class="g-ico g-ico-star g-ico-star-on" style="width:%">
<span class="g-ico g-ico-star g-ico-star-on" style="width:%">
<span class="g-ico g-ico-star g-ico-star-on" style="width:%">
一元线性回归模型习题与答案
上传于||文档简介
&&一元线性回归模型习题与答案
阅读已结束，如果下载本文需要使用0下载券
想免费下载更多文档？
定制HR最喜欢的简历
你可能喜欢【图文】逻辑回归分析_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
逻辑回归分析
上传于||暂无简介
大小：2.09MB
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢苹果/安卓/wp
积分 369, 距离下一级还需 81 积分
权限: 自定义头衔, 签名中使用图片
道具: 彩虹炫, 雷达卡, 热点灯, 雷鸣之声, 涂鸦板, 金钱卡, 显身卡, 匿名卡下一级可获得
道具: 抢沙发
购买后可立即获得
权限: 隐身
道具: 金钱卡, 雷鸣之声, 彩虹炫, 雷达卡, 涂鸦板, 热点灯
苦逼签到天数: 56 天连续签到: 1 天[LV.5]常住居民I
本帖最后由 ajiao4310 于
14:10 编辑
如题，现在想对多项逻辑回归方程中的各变量相关性进行检验，但是有几个问题弄得不是很明白，特此向各位大神请教：
1. 多项逻辑回归的因变量和自变量之间有必要进行单因素相关性检验吗? 因为因变量是分类变量，不是数值，如果进行回归，坐标轴的标注感觉会奇怪吧（请原谅统计小白的感性发言～），而且我好像在哪里看到过分类变量与连续变量进行相关分析是没有意义的～～不知道正确与否？
2. 承接上文，如果自变量和因变量能进行相关分析，具体使用spss的哪个功能？线性回归还是双变量相关分析？
3. 自变量之间的相关性分析应该是使用spss中双变量相关分析功能来实施吧？是不是要求变量都符合正态分布？因为我在资料中看到这样一句话“如果样本数据或其变换值不服从正态分布，则计算Pearson 积矩相关系数就毫无意义。退而求其次，此时只能计算Spearman或Kendall秩相关系数”
还有，这个方法能否有效检测自变量之间的多重共线性？
支持楼主：、
购买后，论坛将把您花费的资金全部奖励给楼主，以表示您对TA发好贴的支持
载入中......
额，还真是有缘，又是我来回答了。
第一个问题，logistic回归模型由于因变量是类别变量，要经过线性变换后才能以常规的多元线性模型（OLS）去理解它。其实在我看来，如果在构建模型前，对数据做好了预处理（我在其它的帖子里有告诉过你怎么对数据进行一些预处理），对自变量进行了多重共线性诊断，就没必要一个个自变量分别去和因变量做回归，看系数大小和方向了。
有了第一个问题的认识，第二个问题就没必要了 ...
& && &额，还真是有缘，又是我来回答了。
& && &第一个问题，logistic回归模型由于因变量是类别变量，要经过线性变换后才能以常规的多元线性模型（OLS）去理解它。其实在我看来，如果在构建模型前，对数据做好了预处理（我在其它的帖子里有告诉过你怎么对数据进行一些预处理），对自变量进行了多重共线性诊断，就没必要一个个自变量分别去和因变量做回归，看系数大小和方向了。
& && &有了第一个问题的认识，第二个问题就没必要了。同时，你所谓的做线性回归或者双变量相关分析都是针对连续性自变量来做的。不能用于类别变量。
& && &第三个问题，连续性自变量间的相关系数可以用Pearson相关系数；类别变量分两种，一种是有序多分类变量的相关，一种是无序多分类变量的相关，有序的用Spearman，无序的貌似可以用你说的这个Kendall秩相关。有一点可以明确的是，不管是何种类型的变量，都可以做相关分析的。只是方法不一样而已。
& && &最后一个问题，多重共线性的检验不用结合因变量，是检验自变量，尤其是连续性自变量间是否存在多重共线性，SPSS软件你要在线性回归里面去勾选多重共线性诊断窗口。若存在多重共线性，可以先用主成分分析将存在多重共线性的自变量合并为新的变量，然后再和其它变量一起去构建模型。若不存在多重共线性，直接构建模型即可。
热心帮助其他会员
总评分:&论坛币 + 30&
学术水平 + 2&
热心指数 + 2&
信用等级 + 2&
xddlovejiao1314 发表于
额，还真是有缘，又是我来回答了。
& && &第一个问题，logistic回归模型由于因变量是类别变量，要经 ...你太热心了～～～真的无以为报你对我的帮助啊～～
本帖最后由 ajiao4310 于
01:46 编辑 xddlovejiao1314 发表于
额，还真是有缘，又是我来回答了。
& && &第一个问题，logistic回归模型由于因变量是类别变量，要经 ...不过还有个小问题，我看到网上也有用“分析”——“相关”——“双变量”这个功能来进行自变量之间的相关分析的，我自己实验了一下，貌似它跟线性回归的分析结果差不多～～是不是意味着它也可以用来检查自变量的相关性呢？
还有判断标准的问题，有说看相关系数的，大于0.6 就可以认为存在相关；还有的说看显著性水平的，小于0.05或者0.01就是相关？到底哪个正确呢？
如果是看系数，那pearson系数为负数怎么办？是绝对值大于0.6，还是本身大于0.6？
最后，题外话，为了节约时间，干脆省略相关性分析，直接进行主成份分析可以吗？
ajiao4310 发表于
不过还有个小问题，我看到网上也有用“分析”——“相关”——“双变量”这个功能来进行自变量之间的相关 ...& &&&第1个问题，分析”——“相关”——“双变量”这个功能来进行自变量之间的相关分析和一般的线性回归没多大差别的，自然结果差不多。你可以看看谢宇老师的《回归分析》一书，，看看里面关于相关和回归的解释就明白了。
& &&&第2个问题，用SPSS做分析”——“相关”——“双变量”这一系列命令时得到的表格两个变量间会包含几个统计量，一是相关系数，二是检验统计量，三是显著性。不是说要以0.6去卡变量间相关与否，要结合相关系数和显著性一起看，显著性一般三个标准，0.1,0.05和0.01，分别对应着*，**和***。感觉你一些基本的概念都没掌握啊。建议好好看看《回归分析》这本书啊。
& &&&再来说pearson系数为负数的问题，相关分为正相关和负相关，所以这个系数为负很正常啊。再强调一下，两个变量相关与否不是以0.6来卡的哦。
& && &最后一个问题，要不要用主成分分析仅仅看相关分析结果是不行的，相关分析不能辅助判断变量间的多重共线性程度，要做相应的统计检验才能判定（如一般认为VIF&10就存在多重共线性），自变量间存在多重共线性了，才用主成分回归啊，而不是存在相关就用。变量间存在相关是很正常的，只要不构成严重的多重共线性就OK。祝好运。
xddlovejiao1314 发表于
第1个问题，分析”——“相关”——“双变量”这个功能来进行自变量之间的相关分析和一般的线性回归 ...好的，谢谢你的建议，我马上去读谢宇老师的书～～下载了还一直没有看～～不好意思～
本帖最后由 ajiao4310 于
10:06 编辑 xddlovejiao1314 发表于
第1个问题，分析”——“相关”——“双变量”这个功能来进行自变量之间的相关分析和一般的线性回归 ...我稍微看了下谢宇的书，在多重共线性的章节中并没有讲述逻辑回归该如何分析判断是否存在共线性，然后我在网上搜集资料看到下面两种意见
”在SPSS、SAS里多元线性回归有共线性诊断。但logistic回归比较繁杂。
如果非要做诊断可以以原始数据求得的logistic回归参数估计值再进行一次加权回归,然后利用sas线性回归中的vif或collin进行诊断。在下面的帖子里我们讨论过：求教SAS中的LOGISTIC回归 - 丁香园论坛
另外，你可以直接做变量之间的相关，如相关系数&0.8可认为有共线性。“”用多元线性回归里的就是了,
随便用一个不在自变量里的变量做因变量,
然后做回归就是了,选用进入法.
因为共线性诊断与因变量无关.与方程的参数无关.“
因为逻辑回归的因变量是分类变量，我很疑惑如果直接使用”分析“——”回归“——”线性“这个功能来判断vif值那些指标是否符合要求呢？
ajiao4310 发表于
我稍微看了下谢宇的书，在多重共线性的章节中并没有讲述逻辑回归该如何分析判断是否存在共线性，然后我在 ...SPSS做Logitic回归时没有共线性诊断对话框的，共线性诊断是对自变量尤其是连续性自变量进行诊断的，所以你可以对连续性自变量做多元线性回归，以此来判定自变量间是否存在多重共线性，这时与因变量（类别变量）无关了。即你以连续性自变量中的一个作为多元线性回归的因变量，其余连续性自变量作为自变量，然后勾选共线性诊断对话框，以此来判定自变量间是否存在多重共线性，并进一步做相应的处理。我个人不推荐看自变量间的相关系数来诊断多重共线性。以VIF,CN等专门的统计量来诊断靠谱些。祝好运。
xddlovejiao1314 发表于
额，还真是有缘，又是我来回答了。
& && &第一个问题，logistic回归模型由于因变量是类别变量，要经 ...正好遇到这方面的问题。不知道怎么判断自变量间以及自变量与因变量间的相关性。请问下，spss数据的预处理是怎么做的？可否方便把链接给下呀~多谢呢
didamunaoke 发表于
正好遇到这方面的问题。不知道怎么判断自变量间以及自变量与因变量间的相关性。请问下，spss数据的预处理 ...自变量与自变量间的相关性直接通过相关系数就判定了。如自变量和因变量都为连续型变量，直接按照如下操作就行：分析——相关——双变量——······；SPSS数据预处理包括极端异常值的诊断，偏态分布数据的处理，很多。我写了几个这方面的帖子。可能对你有些启示。链接如下：，，祝好运。
一级伯乐勋章
一级伯乐勋章
初级学术勋章
初级学术勋章
初级热心勋章
初级热心勋章
初级信用勋章
初级信用勋章
中级热心勋章
中级热心勋章
中级学术勋章
中级学术勋章
中级信用勋章
中级信用勋章
高级热心勋章
高级热心勋章
高级学术勋章
高级学术勋章
高级信用勋章
高级信用勋章
特级热心勋章
高级热心勋章
特级学术勋章
特级学术勋章
特级信用勋章
高级信用勋章
论坛好贴推荐
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
京ICP证090565号
京公网安备号
论坛法律顾问：王进律师}

叫阿莫西中心