logistic 检验为什么系数假定正态分布的峰度系数

点击联系发帖人 时间：2017-10-07 04:09

二元正态分布相关系数

(window.slotbydup=window.slotbydup || []).push({
id: '4540225',
container: s,
size: '910,250',
display: 'inlay-fix'
该用户的其他资料
房地产估价师考试备战已经开始，为了方便考生进行全面备考,小编特别对房估考生如何进行报考、备考提出了建议，并对重点预习知识、考试大纲与笔记画重点。房地产估价师职业前景可是大好，做好考试准备，事半功倍。
在此可输入您对该资料的评论~
(window.slotbydup = window.slotbydup || []).push({
id: '4540180',
container: s,
size: '250,200',
display: 'inlay-fix'
热门资料排行
添加成功至
资料评价：
所需积分：2 上传我的文档
 下载
 收藏
该文档贡献者很忙，什么也没留下。
 下载此文档
Logistic回归模型和生存分析简介
下载积分：400
内容提示：Logistic回归模型和生存分析简介
文档格式：PDF|
浏览次数：21|
上传日期： 15:28:41|
文档星级：
全文阅读已结束，如果下载本文需要使用
 400 积分
下载此文档
该用户还上传了这些文档
Logistic回归模型和生存分析简介
官方公共微信t第二十章Logis回归分析；第13章介绍的多重线性回归研究一个正态随机因变量；彼此独立；各X处的Y呈正态分布；不同X处Y的方差；第一节logistic回归模型；一、logistic回归模型；例20-1为探讨超重和肥胖对高血压病的影响，20；X?0表示“正常”；因变量Y为是否患病，Y?1表；表20-1不同体质指数组高血压患病率；体质指数（X）正常（X=0）超
Logis回归分析
第13章介绍的多重线性回归研究一个正态随机因变量Y与一组自变量X=（X1，．．．，Xp）的数量关系。其应用的前提条件是：Y与X呈线性关系；各个体观测资料X2，彼此独立；各X处的Y呈正态分布；不同X处Y的方差相等。医学中还常研究二分类因变量（如患病与未患病、阳性与阴性等）或多分类因变量Y与一组自变量（X1，X2，．．．，Xp）的关系，线性回归分析方法就无能为力。logistic回归分析则是处理该类资料的有效方法。本章将主要介绍二分类因变量的logistic回归分析，对于多分类因变量的logistic回归分析方法，请参考有关专著。
logistic回归模型
一、logistic回归模型例20-1
为探讨超重和肥胖对高血压病的影响，2004年，某研究者采用整群抽样的方法，对某地6个镇35周岁以上的常住人口进行高血压普查，同时收集了身高、体重等相关信息。体质指数BMI?25判为“超重或肥胖”，BMI?25 为“正常”；收缩压≥140 mmHg和(或)舒张压≥90 mmHg判为“高血压”。整理后资料见表20-1。记样本患病率为P，是相应总体概率?的估计值；自变量X为体质指数，赋值为1与0，X?1表示“超重或肥胖”，X?0表示“正常” ；因变量Y为是否患病，Y?1表示“患病”，Y?0表示“未患病”。表20-1
不同体质指数组高血压患病率
体质指数（X）正常
超重或肥胖（X=1）合计调查人数 940 患病（Y=1） 87 未患病（Y=0） 53 患病率（%） 19.60 39.92 27.30 该研究旨在建立高血压患病率与体质指数间的数量关系模型，估计超重与肥胖对高血压患病的风险。由于因变量Y为二分类变量，不满足线性回归分析条件，首先对?进行数据变换： logit(?)?ln(?1??)?ln(Odds) 这个变换将取值在0-1间的?值转换为值域在（-?
， ??）的logit(?)值。
现在，建立logit(?)与X的线性模型。
logit(?)??0??X
（20-1a）或
ln(Odds)??0??X
（20-1b）或
ln(?1??)??0??X
变换式（20-1 c），得
?1???e(?0??X)
e(?0??X)求解?，得
??1?e(?0??X)或
（20-3） ??11?e?(?0??X)
（20-4）因为（20-3）和（20-4）式的右端在数学上属于logistic函数，所以式（20-1a）、（20-1 b）、（20-3）与（20-4）均称为单个自变量的logistic回归模型。若自变量扩展到P个，X?（X1，X2，．．．，Xp），则多个自变量的logistic回归模型为
logit(?)??0??1X1????pXp
（20-5 a）或
ln(Odds)??0??1X1????pXp
（20-5 b）或
ln(?1??)??0??1X1????pXp
（20-5c） e(?0??1X1????PXP)或
??1?e(?0??1X1????PXP)或
（20-5d） ??11?e?(?0??1X1????PXP)
（20-5e）其中，?0为常数项（截距），?1、?2、．．．?P为回归系数。二、模型参数的意义类似线性回归，?0表示模型中所有自变量均为0时，logit(?)的值；回归系数?j表示在控制其他自变量时，自变量Xj变化一个单位所引起logit(?)的改变量。根据模型式（20-1b），我们有优势的表达式
Odds?e(?0??X)
例20-1中， “超重或肥胖”组（X?1）患高血压的优势为 (?0???1)Odds?e(?0??)， 1?e“正常”组（X?0）患高血压的优势为 Odds0?e(?0???0)?e?0
，两组的优势比(odds ratio, OR) 为 (?0??)oddse?1OR???e?0oddse0
一般地，根据多个自变量的logistic回归模型，在其他变量取值不变的情形下，与变量Xj的二个水平C1与C2（C2?C1）相对应的事件的优势比为 OR?e?j(C2?C1)?j
（20-6），ln(ORj)=?j。当Xj的二个水平相差1个单位时，ORj?e可见，logistic回归模型的参数?j就是在其他变量取值不变的情形下，Xj增加1个单位后与增加前相比较，事件的优势比。 logistic回归分析广泛用于流行病学中前瞻性的队列研究、回顾性的病例-对照研究以及现况研究。研究中，当变量Xj的回归系数?j?0时，Xj增加1个单位后与增加前相比，事件的优势比ORj?1，表明与Xj相应的因素为危险因素；?j?0时，Xj增加1个单位后与增加前相比，事件的优势比ORj?1，表明与Xj相应的因素为保护因素；?j?0，Xj增加1个单位后与增加前相比，事件的优势比ORj?1，表明与Xj相应的因素对结果变量不起作用。
logistic回归的参数估计及假设检验一、logistic回归的参数估计
logist回归模型中的参数i?0、?1、?2、．．．?P需要通过样本资料，按照一定方法进行估计，估计量记为b0、b1、b2、．．．bp。参数估计方法有多种，极大似然估计（Maximum likelihoodestimate，MLE）最为常用，其基本思想是选择能有最大概率获得当前样本的参数值作为参数的估计值。 ii假设n例观察对象彼此独立，其自变量为X?（X1i，X2，．．．，Xp），因变量为Yi（0-1i变量），i?1,2,?,n。对于第i个体，给定X时，出现观察结果Yi（0或1）的概率为： i11Yi1?YiP(YiXi)?[][1?iiii]， ?(?0??1X1????PXp)?(?0??1X1????PXp)1?e1?e若Yi?1，这个概率就是第一个方括号；若Yi?0，这个概率就是第二个方括号。对于n个独立个体，给定自变量X时，出现当前观察结果Yi（i?1,2,?,n）的概率为上述n个概率的乘积 i11Yi1?YiP(Y1,Y2,?,YnX,X,?X)??[][1?iiii]?(?0??1X1????PXp)?(???X????PXp)i?11?e1?e01112nn 称为似然函数(likelihood function)，记为L。求解?0,?1,?2,?,?p，使似然函数L达到极大,或使似然函数的对数lnL达到极大，这样得到的解记为b0,b1,b2,?,bp，称为参数?0,?1,?2,?,?p 的极大似然估计值。
二、假设检验和回归系数的区间估计 1. 假设检验由样本估计参数，并建立了logistic回归方程后，参数的估计值bj?0（j=1，2 …p）并不一定意味着参数?j?0，也不一定意味着回归方程就成立，还需通过假设检验才能作出推断。与logistic回归分析有关的假设检验包括两个内容：一是检验整个模型，即检验因变量与自变量之间的关系能否用所建立的回归方程来表示；二是检验单个回归系数是否为0，即检验单个自变量对因变量的影响是否存在。最常用的检验方法有似然比检验和Wald 检验。
（1）似然比检验（likelihoodratio test）
似然比检验常用于对整个模型的检验，检验的假设为 H0：所有自变量的总体回归系数均为0 H1：自变量的总体回归系数不全为0
假设模型A含有p个自变量，相应的达到极大的对数似然函数值记为lnL0；模型B是在模型A的p个自变量基础上新加入一个或几个自变量，自变量个数变为l，其相应的达到极大的对数似然函数值记为lnL1。通过比较模型A与模型B的极大似然函数值，构建似然比检验统计量G，
G?2(lnL1?lnL0)
（20-7）如果说，极大对数似然函数值lnL0和lnL1分别度量p个自变量和l个自变量模型“似然”的程度，那么，统计量G度量的则是增加l?p个自变量后，模型“似然”程度的增量。 2可以证明，在H0成立的条件下，如果样本量较大，G近似地服从自由度为l?p的?分布，（20-7）亦常记为?2?2(lnL1?lnL0)。（2）Wald 检验（Wald test） Wald 检验可用于对单个回归系数的检验，检验的假设为
H1：?j?0 Wald 检验统计量为三亿文库包含各类专业文献、高等教育、文学作品欣赏、应用写作文书、中学教育、logistic回归71等内容。　
　LOGISTIC回归及SAS程序(很全哦)_数学_自然科学_专业资料。SAS程序例子使用条件: ? 应变量 Y 是一个二值变量,取值为 0 和 1 ? 自变量 X1,X2,……,Xm。... 　Matlab与Logistic回归_数学_自然科学_专业资料。matlab Matlab 软件包与 Logistic 回归在回归分析中,因变量 y 可能有两种情形: (1) y 是一个定量的变量,这时... 　logistic回归介绍_数学_自然科学_专业资料。logistic 回归介绍之三――logistic 回归的应用条件 logistic 回归与多重线性回归一样,在应用之前也是需要分析一下资料是否... 　(拖欠)的问题,数据如下所示: 上面的数据是大约 700 个申请贷款的客户,我们需要进行随机抽样,来进行二元 Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“... 　logistic回归模型 SPSS例析_人文社科_专业资料。逻辑斯蒂回归模型定型数据Logistic 回归 Logistic 回归是多元回归分析的拓展,其因变量不是连续的变量;在 logistic 分析... 　logistic回归方法及在客户流失分析中的应用_企业管理_经管营销_专业资料。逻辑回归,客户流失Logistic 回归方法及在客户流失分析中的应用 1 Logistic 回归方法 1.1 Log... 　Logistic回归分析报告结果解读分析 Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生... 　Logistic回归分类算法_计算机软件及应用_IT/计算机_专业资料。机器学习,线性回归,Logistic分类 Logistic 回归分类算法: 什么是回归? 用一条直线对这些点进行拟合,这个...你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
引用MINITAB帮助文件中的一个例子:
Logistic 回归表
系数标准误
Logit 1:(数学/自然科学)
Logit 2:(艺术/自然科学)
Logit 1:(数学/自然科学)
Logit 2:(艺术/自然科学)
对数似然 = -26.446
检验所有斜率是否为零:G = 12.825，DF = 4，P 值 = 0.012
拟合优度检验
其中G=12.825,实在是不懂这个G是啥意思.
MINITAB帮助文件中的解释是:接下来显示的是极大似然迭代中最后一个对数似然以及统计量 G。G 是 Logistic 回归表中仅显示常量项和拟合模型的模型中 - 2 对数似然中的差异。G 是用于检验与预测变量关联的所有系数等于零对这些系数不都为零的原假设的检验统计量。G = 12.825 且 p 值为 0.012 表明当 a = 0.05 时，有证据足以证明至少有一个系数不为 0。
这个解释让我摸不着头脑了.在这里请教高手.
我帮你查了下资料，基本意思是与我们常见假设检验一样，如正态分布时对应的统计量为Z，G近似服从卡方分布，自由度为分量个数，也就是说G也是个统计量，它用来检验我们的系数是否为零。如果零假设成立，说明所有分量的系数都为零，否则至少有一个系数不为零。
4 个回复，游客无法查看回复，更多功能请或
扫一扫微信订阅
浏览: 3448
关注: 0 人
6SQ质量日刊
服务号: Lsqdnet
6SQ质量周刊苹果/安卓/wp
积分 375, 距离下一级还需 75 积分
权限: 自定义头衔, 签名中使用图片
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡下一级可获得
道具: 抢沙发
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
苦逼签到天数: 57 天连续签到: 1 天[LV.5]常住居民I
本帖最后由 ajiao4310 于
14:10 编辑
如题，现在想对多项逻辑回归方程中的各变量相关性进行检验，但是有几个问题弄得不是很明白，特此向各位大神请教：
1. 多项逻辑回归的因变量和自变量之间有必要进行单因素相关性检验吗? 因为因变量是分类变量，不是数值，如果进行回归，坐标轴的标注感觉会奇怪吧（请原谅统计小白的感性发言～），而且我好像在哪里看到过分类变量与连续变量进行相关分析是没有意义的～～不知道正确与否？
2. 承接上文，如果自变量和因变量能进行相关分析，具体使用spss的哪个功能？线性回归还是双变量相关分析？
3. 自变量之间的相关性分析应该是使用spss中双变量相关分析功能来实施吧？是不是要求变量都符合正态分布？因为我在资料中看到这样一句话“如果样本数据或其变换值不服从正态分布，则计算Pearson 积矩相关系数就毫无意义。退而求其次，此时只能计算Spearman或Kendall秩相关系数”
还有，这个方法能否有效检测自变量之间的多重共线性？
支持楼主：、
购买后，论坛将把您花费的资金全部奖励给楼主，以表示您对TA发好贴的支持
载入中......
额，还真是有缘，又是我来回答了。
第一个问题，logistic回归模型由于因变量是类别变量，要经过线性变换后才能以常规的多元线性模型（OLS）去理解它。其实在我看来，如果在构建模型前，对数据做好了预处理（我在其它的帖子里有告诉过你怎么对数据进行一些预处理），对自变量进行了多重共线性诊断，就没必要一个个自变量分别去和因变量做回归，看系数大小和方向了。
有了第一个问题的认识，第二个问题就没必要了 ...
& && &额，还真是有缘，又是我来回答了。
& && &第一个问题，logistic回归模型由于因变量是类别变量，要经过线性变换后才能以常规的多元线性模型（OLS）去理解它。其实在我看来，如果在构建模型前，对数据做好了预处理（我在其它的帖子里有告诉过你怎么对数据进行一些预处理），对自变量进行了多重共线性诊断，就没必要一个个自变量分别去和因变量做回归，看系数大小和方向了。
& && &有了第一个问题的认识，第二个问题就没必要了。同时，你所谓的做线性回归或者双变量相关分析都是针对连续性自变量来做的。不能用于类别变量。
& && &第三个问题，连续性自变量间的相关系数可以用Pearson相关系数；类别变量分两种，一种是有序多分类变量的相关，一种是无序多分类变量的相关，有序的用Spearman，无序的貌似可以用你说的这个Kendall秩相关。有一点可以明确的是，不管是何种类型的变量，都可以做相关分析的。只是方法不一样而已。
& && &最后一个问题，多重共线性的检验不用结合因变量，是检验自变量，尤其是连续性自变量间是否存在多重共线性，SPSS软件你要在线性回归里面去勾选多重共线性诊断窗口。若存在多重共线性，可以先用主成分分析将存在多重共线性的自变量合并为新的变量，然后再和其它变量一起去构建模型。若不存在多重共线性，直接构建模型即可。
热心帮助其他会员
总评分:&论坛币 + 30&
学术水平 + 2&
热心指数 + 2&
信用等级 + 2&
xddlovejiao1314 发表于
额，还真是有缘，又是我来回答了。
& && &第一个问题，logistic回归模型由于因变量是类别变量，要经 ...你太热心了～～～真的无以为报你对我的帮助啊～～
本帖最后由 ajiao4310 于
01:46 编辑 xddlovejiao1314 发表于
额，还真是有缘，又是我来回答了。
& && &第一个问题，logistic回归模型由于因变量是类别变量，要经 ...不过还有个小问题，我看到网上也有用“分析”——“相关”——“双变量”这个功能来进行自变量之间的相关分析的，我自己实验了一下，貌似它跟线性回归的分析结果差不多～～是不是意味着它也可以用来检查自变量的相关性呢？
还有判断标准的问题，有说看相关系数的，大于0.6 就可以认为存在相关；还有的说看显著性水平的，小于0.05或者0.01就是相关？到底哪个正确呢？
如果是看系数，那pearson系数为负数怎么办？是绝对值大于0.6，还是本身大于0.6？
最后，题外话，为了节约时间，干脆省略相关性分析，直接进行主成份分析可以吗？
ajiao4310 发表于
不过还有个小问题，我看到网上也有用“分析”——“相关”——“双变量”这个功能来进行自变量之间的相关 ...& &&&第1个问题，分析”——“相关”——“双变量”这个功能来进行自变量之间的相关分析和一般的线性回归没多大差别的，自然结果差不多。你可以看看谢宇老师的《回归分析》一书，，看看里面关于相关和回归的解释就明白了。
& &&&第2个问题，用SPSS做分析”——“相关”——“双变量”这一系列命令时得到的表格两个变量间会包含几个统计量，一是相关系数，二是检验统计量，三是显著性。不是说要以0.6去卡变量间相关与否，要结合相关系数和显著性一起看，显著性一般三个标准，0.1,0.05和0.01，分别对应着*，**和***。感觉你一些基本的概念都没掌握啊。建议好好看看《回归分析》这本书啊。
& &&&再来说pearson系数为负数的问题，相关分为正相关和负相关，所以这个系数为负很正常啊。再强调一下，两个变量相关与否不是以0.6来卡的哦。
& && &最后一个问题，要不要用主成分分析仅仅看相关分析结果是不行的，相关分析不能辅助判断变量间的多重共线性程度，要做相应的统计检验才能判定（如一般认为VIF&10就存在多重共线性），自变量间存在多重共线性了，才用主成分回归啊，而不是存在相关就用。变量间存在相关是很正常的，只要不构成严重的多重共线性就OK。祝好运。
xddlovejiao1314 发表于
第1个问题，分析”——“相关”——“双变量”这个功能来进行自变量之间的相关分析和一般的线性回归 ...好的，谢谢你的建议，我马上去读谢宇老师的书～～下载了还一直没有看～～不好意思～
本帖最后由 ajiao4310 于
10:06 编辑 xddlovejiao1314 发表于
第1个问题，分析”——“相关”——“双变量”这个功能来进行自变量之间的相关分析和一般的线性回归 ...我稍微看了下谢宇的书，在多重共线性的章节中并没有讲述逻辑回归该如何分析判断是否存在共线性，然后我在网上搜集资料看到下面两种意见
”在SPSS、SAS里多元线性回归有共线性诊断。但logistic回归比较繁杂。
如果非要做诊断可以以原始数据求得的logistic回归参数估计值再进行一次加权回归,然后利用sas线性回归中的vif或collin进行诊断。在下面的帖子里我们讨论过：求教SAS中的LOGISTIC回归 - 丁香园论坛
另外，你可以直接做变量之间的相关，如相关系数&0.8可认为有共线性。“”用多元线性回归里的就是了,
随便用一个不在自变量里的变量做因变量,
然后做回归就是了,选用进入法.
因为共线性诊断与因变量无关.与方程的参数无关.“
因为逻辑回归的因变量是分类变量，我很疑惑如果直接使用”分析“——”回归“——”线性“这个功能来判断vif值那些指标是否符合要求呢？
ajiao4310 发表于
我稍微看了下谢宇的书，在多重共线性的章节中并没有讲述逻辑回归该如何分析判断是否存在共线性，然后我在 ...SPSS做Logitic回归时没有共线性诊断对话框的，共线性诊断是对自变量尤其是连续性自变量进行诊断的，所以你可以对连续性自变量做多元线性回归，以此来判定自变量间是否存在多重共线性，这时与因变量（类别变量）无关了。即你以连续性自变量中的一个作为多元线性回归的因变量，其余连续性自变量作为自变量，然后勾选共线性诊断对话框，以此来判定自变量间是否存在多重共线性，并进一步做相应的处理。我个人不推荐看自变量间的相关系数来诊断多重共线性。以VIF,CN等专门的统计量来诊断靠谱些。祝好运。
xddlovejiao1314 发表于
额，还真是有缘，又是我来回答了。
& && &第一个问题，logistic回归模型由于因变量是类别变量，要经 ...正好遇到这方面的问题。不知道怎么判断自变量间以及自变量与因变量间的相关性。请问下，spss数据的预处理是怎么做的？可否方便把链接给下呀~多谢呢
didamunaoke 发表于
正好遇到这方面的问题。不知道怎么判断自变量间以及自变量与因变量间的相关性。请问下，spss数据的预处理 ...自变量与自变量间的相关性直接通过相关系数就判定了。如自变量和因变量都为连续型变量，直接按照如下操作就行：分析——相关——双变量——······；SPSS数据预处理包括极端异常值的诊断，偏态分布数据的处理，很多。我写了几个这方面的帖子。可能对你有些启示。链接如下：，，祝好运。
一级伯乐勋章
一级伯乐勋章
初级学术勋章
初级学术勋章
初级热心勋章
初级热心勋章
初级信用勋章
初级信用勋章
中级热心勋章
中级热心勋章
中级学术勋章
中级学术勋章
中级信用勋章
中级信用勋章
高级热心勋章
高级热心勋章
高级学术勋章
高级学术勋章
高级信用勋章
高级信用勋章
特级热心勋章
高级热心勋章
特级学术勋章
特级学术勋章
特级信用勋章
高级信用勋章
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
论坛法律顾问：王进律师}

叫阿莫西中心