如何求回归哑变量回归对指标 y的影响的统计规律性

点击联系发帖人 时间：2017-05-11 09:35

单变量线性回归

多变量分析是多个变量统计分析技术在社会研究中的运用。又称多元分析。
什么是多变量分析多变量分析是多个变量统计分析技术在社会研究中的运用。又称多元分析。它的分类方法很多，主要有按变量层次分类和按功能分类。多变量分析为统计方法的一种，包含了许多的方法，最基本的为单变量，再延伸出来的多变量分析。统计资料中有多个变量(或称因素、指标)同时存在时的统计分析，是统计学的重要分支，是单变量统计的发展。统计学中的多变量统计分析起源于医学和心理学。1930年代它在理论上发展很快，但由于计算复杂，实际应用很少。1970年代以来由于计算机的蓬勃发展和普及，多变量统计分析已渗入到几乎所有的学科。到80年代后期，计算机软件包已很普遍，使用也方便，因此多变量分析方法也更为普及。多变量统计分析例如对630名炊事员高血压病进行调查,检查项目中除血压外，尚有年龄、性别、体重、体胖等15个项目(变量)。如果用单变量统计分析法考察超重与血压的关系，一般是把数据做成表1的形式。从表1可见，超重组与不超重组相比，高血压患病率高出一倍以上。但如果把资料按体胖者与不体胖者划分成两组，再考察每组内的超重与高血压患病率的关系，就未能发现超重与高血压患病率有任何明显的联系。也就是说，单变量统计分析忽视了另外因素(如此例中的体胖及年龄等)的影响。对于有多个变量客观存在而又相互影响的资料，采用简单的单变量统计分析是不合理的。多变量统计分析就能把变量间的内在联系和相互影响考虑在内。多变量统计的理论基础和工具是数学中的概率论和矩阵。但对于实际应用者而言，只要有合适的计算机和软件包以及掌握一些初步的多变量统计知识就可以使用它来解决实际问题。多变量统计的内容很多，但从实际应用角度看，主要包括回归分析、判别分析、因子分析、主成分分析、聚类分析、生存分析等六个大的分支。市场研究中的多变量分析技术回归分析技术：是监督类分析方法，最重要的认识多变量分析的基础方法，只有掌握了回归我们才能进入多变量分析，其它很多方法都是变种。主要用在影响研究、满意度研究等，当然市场研究基本上是解释性回归分析，也就是不注重预测而关注解释自变量对因变量的影响。主要把握R平方、逐步回归、标准化回归系数(当作权重或重要性)等;回归也是预处理技术，缺省值处理等主成分分析和因子分析：是非监督类分析方法的代表，是主要认识多变量分析的基础方法，只有掌握了因子分析我们才能进入多因素相互关系的研究;主要用在消费者行为态度等研究、价值观态度语句的分析、市场细分之前的因子聚类等，问卷的信度和效度检验等，因子分析也可算是数据的预处理技术。主成分分析与因子分析是两种方法，要能够区分。主成分分析可以消减变量，权重等，主成分还可以用作构建综合排名!判别分析技术：判别分析是最好的构建Biplot二元判别图的好方法，主要用于分类和判别图，也是图示化技术的一种;对应分析技术：市场研究非常有用的研究技术，主要分析定类变量，构建二元图，也是图示化技术的一种;Logistics回归技术：分类技术，主要针对因变量是0-1情况下的判别，该技术是我们认识非线性关系的重要基础，很多情况下，我们需要作出是与否的判断，基础模型就是它了，像客户离网分析、客户价值分析、客户信用等都用这个模型;聚类分析技术：主要用在市场细分方面，但聚类分析本质上不是统计分析，是数据处理技术，从事市场细分的人要好好把握，特别是注重聚类分析的细节，可以进行变量和样本的聚类;记住：样本聚类有可能数据排列不同聚类结果不同，要进行聚类后的稳定性测试，一般也要采用方差最大旋转，有时候斜交更适合聚类细分;当然，聚类后的细分市场识别是头痛问题，用到上面的几种技术，也很繁琐!我现在进行市场细分基本上都用数据挖掘软件工具了!现在比较好用的是Two-Step两阶段聚类;MDS多维尺度分析技术：这个技术目前不太用了，但它是认识多变量分析技术，尤其是测量与分析技术好的视角。比如，相似性和差异性测量、语异差异法等，洞察潜在消费者心理和潜在分类维度等。其它：GLM通用线性模型、Logit回归、Probit分析、可靠性分析等多变量分析的分支1.回归分析当多个变量x1，x2,…，xm(称为回归变量或自变量、独立变量)同时影响某个指标
y(称为因变量或依赖变量)时，可进行回归分析，回归分析的第一个任务就是求回归变量对指标
y的影响的统计规律性(也称回归关系);第二个任务是寻找众多的回归变量中哪一些能对指标
y产生影响(常称为因素分析或变量的筛选);第三个任务(也称相关分析)是在固定(或称消除)其他变量的影响后，考察每一个回归变量对指标
y的相关程度(称为偏相关系数)。上述三个任务常是相互联系，可以同时完成。回归变量x1，x2，…，xm与因变量y之间最常见的统计关系有两大类型：线性模型和非线性模型。线性模型中假定y
的主要部分(记为)，可由x1，x2，xm线性表示为其中b0,b1，b2，…，bm是未知常数，需用样本去估计，ε
是用取代y后的误差。这是最常用的模型，称为多重线性回归或多元线性回归。用样本估计线性回归模型中未知常数的方法也很多，经典的方法为最小二乘法，它的理论较为完善，此法较适用于回归变量之间的相关性不很大时。其他求未知常数b0,b1，b2，…，bm的方法还有岭回归、特征根回归、主成分回归等，它们常用于回归变量之间相关性很大时。非线性回归模型中y的主要部分与x1,x2，…，xm的关系为非线性函数：其中┃ 的形式已知，未知常数 α1，α2;…用样本去估计。医学中最常见的非线性回归是logistic回归，它常用于疾病对照研究以及生长发育问题中。在前述的炊事员高血压病调查中，使用线性模型和最小二乘法求出未知常数，再用逐步回归选取变量，可求得15个变量中有
7个变量对炊事员舒张压有显著的影响，它们按偏相关系数大小排列为：年龄 (0.297)，体胖程度
(0.253)，肾炎史(0.162)，性别(0.117)，工作类别(0.081),高血压家族史(0.061)，嗜咸程度(0.052)。从相关性大小看，体胖对舒张压的影响与年龄的影响大体相当。另外还可看出：工种，家族史和嗜咸对舒张压虽有影响，但影响甚小。2.判别分析根据样本的某些指标来决定样本归属的类别。例如在医疗诊断中，要确定一个病人是否患有急性阑尾炎，这就是一个判别问题。为了回答这一问题往往需要对病人进行多项指标(变量)的检测，然后根据各项指标的观测值将病人归入患有急性阑尾炎或不患有急性阑尾炎的类中。判别分析通常是先确立一个判别函数，将各指标的观测值代入相应的变量，再根据某判别规则(如函数值大于某值)作出判断、鉴别或决策。例如，为了研究亚硝酸基盐化合物与胃癌的关系，有人曾对胃癌组(记为H1)、萎缩性胃炎组(H2)、浅表性胃炎组(H3)3组病人测量以下6个指标(变量)：性别(x1,男为1,女为0)、年龄(x2)、胃液中pH值(x3)、唾液中亚硝酸盐浓度(x4)、胃液中亚硝酸盐浓度(x5)、胃液中二甲基亚硝酸胺浓度
(x6)。用判别分析法，可求出6个指标(变量)在
3个疾病组中分布有显著不同的是x1,x2，x4,x6;其余两个指标在不同组中的分布大体相同。对应于每个疾病组可建立以下的判别函数：u1=-11.48+2.68x1+0.37x2+0.04x4+0.90x6 (H1)
u2=-14.06+3.79x1+0.35x2+0.50x4+1.82x6 (H2) u3=-6.36+1.84x1+0.27x2+0.34x4+0.84x6
(H3)在判别分析时，可将测得的病例值(x1,x2,x4,x6)代入判别函数,求得一组函数值u1，u2，u3。这里的判别规则是：如果u1最大,则病例判属疾病组H1;如果u2最大,则判属H2;如果u3最大，则属H3。这样，诊断就变成了数据的处理及分析，现代化医院自动诊断的原理就基于此。通常说的把医生的经验和知识存入计算机，也就是在计算机中建立诊断的经验方式──判别函数。判别函数中变量前的系数含有重要的信息。上列中变量x3，x5前的系数都为0;x1前的3个系数(2.68，3.79，1.84)说明相对于女性(x1=0)而言,男性
(x1=1)更容易得萎缩性胃炎(3.79)或胃癌(2.68);
x2前的3个系数说明相同年龄者得胃癌、萎缩性胃炎、浅表性胃炎的比为0.37:0.35:0.27;等等。3.因子分析也称因素分析。医学、生物学及一切社会和自然现象中各变量(或事物)之间常存在有相关性或相似性。这是因为变量(或事物)之间往往存在有共性因素(称为公因子或共性因子)，这些共性因子同时影响不同的变量(或事物)。因子分析的根本任务就是从众多的变量(或事物)中由表及里找出隐含于它们内部的公因子，指出公因子的主要特点，并用由实际测量到的变量(或事物)构造公因子。因子分析有R型及Q型之分，用于变量之间时称为
R型因子分析，用于事物之间时称为Q型。以R型因子分析为例,设样本中的变量为x1,x2，…，xm，隐藏的公因子为┃1,┃2，…，┃k。这时每个变量在理论上常可写成下面的形式：上式右边的第一部分是变量中公因子(┃1,┃2，…，┃k)起作用的部分，后一部分是与公因子无关的部分(称为独立性部分)。因子分析的根本任务就是用样本求出┃1,┃2，…，┃k及其系数{α吗｝，系数α吗
称为权或负荷系数，当样本是标准化数据且假定公因子之间彼此不相关时,则权α吗就是公因子┃j与变量xi间的相关系数。利用因子分析方法可以从所观测到的变量中推断出少数因子，用最少的因子来解释所观测到的变量，从而揭示事物之间内在的联系。对因子的实际解释必须结合专业知识并由实践检验。例如中国学者梁月华、孙尚拱曾用因子分析法找出隐含在6个易测量的生理指标(收缩压、
舒张压、呼吸、心率、体温及唾液量)内部的公因子┃1，并用实验判定┃1可很好地代表交感神经的平衡状态，最后用 ┃1
论证了中医的“寒热”其本质就是交感神经的抑制或兴奋。主成分分析
是研究如何把彼此相关的变量综合成一个(或少数几个)综合指标(或称主成分)，而该综合指标应能最大程度地反映观测变量所提供的信息。如记(x1,x2，…，xm)为观测变量,欲求的综合指标Z一般可写成实际上Z往往只能吸收m个变量中相关最大的一部分信息(类似于因子分析中┃1)，此当观测变量间彼此很少有相关性时，使用主成分分析是不合适的。如果观测变量间相关性可以分成几组而各组间又很少相关，这时不能用一个主成分综合全体变量，而应多取几个主成分。实际使用时，由于主成分分析与因子分析极为相似，所以不少统计学家常把两种分析不加区别，名称也相互套用。主成分分析在医学研究中有很多应用，例如有人把5个易测量的老化征
(白斑、老年斑、闭目单腿直立时间、老年环、脱齿数)综合成一个指标Z,计算表明综合值Z可以吸收5个老化征全体信息中的43%，能综合地反映出形体老化的程度。4.聚类分析也称为分类学。经典的分类学诞生于几百年前，比如化石分类、植物标本分类等。过去的分类多依靠一些特异性指标。如果对于所需分类的事物，不存在或难以使用特异性指标时就只能采用多变量统计分析法。把数学方法引进分类学并称之为“聚类分析”是60年代的事。此后聚类分析发展很快，并取得广泛应用，但还不大成熟。聚类分析也可分为 R型及Q型，对变量作分类称R型，对样品(观察单元、事物)作分类称
Q型。分类的基础是相似性或距离。如果两个变量(或样品)彼此相似或距离很近，自然就分在同一类。因此在进行聚类分析时必须先定义相似性或距离。相似性或距离的定义法种类繁多。例如，常用变量间的相关系数代表变量间的相似性，以几何中两点间的欧氏距离(先要去量纲)代表两个样品间的距离。然后选用分类的数学公式，对它们的分类作出判别。这些公式也是种类繁多。至今没有一种公式是最优的。实际工作者常选用多种方法试算，再结合专业知识确定分类的结果。5.生存分析生存分析起源于寿命表。生物的生存时间除了受健康的影响外，同时还受社会因素，生活条件等影响。生存分析研究哪些因素对“寿命”有显著影响，它的风险程度如何。20世纪末生存分析已不仅用于研究人的寿命问题，还用于一切广义的“寿命”或有关“死亡”的问题，比如发动机的寿命，病人手术后的生存时间，两种疗效的对比分析等。生存分析有多种模型，最常用的有Cox回归模型，它的特点是：m个变量联合作用的相对风险可以表示成每个变量单独作用时相对风险的乘积(故也称为乘法模型)。另外常用的模型为可加性模型，它的特点是：m
个变量联合作用的相对风险可表示为每个变量单独作用之和。究竟应使用什么样的模型应在具体问题中结合专业知识确定。
专业相关关联词条
热门推荐Top榜logistic回归模型中自变量相对重要性的评价方法
目的系统引进logistic回归模型中自变量相对重要性的评价方法，开发SAS程序对目前推荐的两种方法（优势分析和相对权重）进行估计并应用于实际例子，合理估计并帮助解释自变量的相对重要性。同时引进和提出一种可视化工具——秩优势比图，快速、直观地评价自变量的相对重要性。方法1、在分析传统方法缺陷的基础上，比较系统地介绍优势分析和相对权重两种估计方法，分别应用具体实例分析，同时使用同一数据资料对这两种方法进行比较分析，并与传统方法相比较。2、介绍4种适用于logistic回归模型的R2类似统计指标，在同一模型中比较分析各个估计结果以获得更适合logistic模型的广义决定系数。3、通过logistic回归模型中优势比的秩比例变换，在同一图形中展示自变量的相对重要性关系。结果1、传统方法（如二元相关和标准回归系数）不能正确分解自变量间共享的贡献，各自变量的贡献权重总和超过模型的R2，且结果不稳定，无法准确估计共线性存在条件下的自变量相对&
(本文共58页)
权威出处：
对于多个协变量的分类资料,研究者经常通过建立Logistic回归模型来预测和解释感兴趣的问题。和线性回归一样,研究者常感兴趣于评价选定模型中各因素对结果变量的影响大小即每个自变量对因变量变异的解释比例大小。通常,研究者广泛通过估计标准回归系数或优势比来评价各自变量的相对重要性,这些方法能较好衡量相互独立自变量的相对重要性。但多个因素间或多或少存在关联,方差不能被很好地分割,可能会颠倒预测结果,夸大或缩小变量的相对重要性,估计结果往往超过100%。另外模型相同但变量进入模型的具体顺序即选择序列不同,也可导致不同的结论,故不能保证在所有可能的子模型中其相对重要性恒定不变。变量间相关性越强,可解释方差比例即决定系数R2随选择序列变化越大,这时就需要一种方法以获得更稳定、更精确的结果。优势分析是Budescu于1993年提出的一种先进方法,它可以将线性回归模型的总变异分解并分配至各个自变量[1],很好地解决上述问题,同时该方法被证明是目...&
(本文共4页)
权威出处：
在流行病学研究中,经常会遇到结果变量是非连续的分类资料,这时常选用Logistic回归模型来分析各影响因素和结果变量之间的关系。研究者除了通过回归方程来预测外更关心的是哪些因素对结果有影响并解释其影响程度如何,同时把评估各因素的重要性大小作为主要目的之一。多年来研究者一直关注于寻找合适的评价多重回归中自变量相对重要性的方法,在线性模型中已经发展了多种可行的方法[1]。但Logistic回归模型违反了多元线性回归的分布假设(线性、正态性和方差齐性),部分学者已将评价多重线性回归中自变量相对重要性的方法拓展应用于Logistic回归模型。本文对Logistic回归模型中自变量相对重要性评价方法作一综述,以期为多数研究者提供参考。评价意义Logistic回归分析已广泛应用于流行病学研究中,主要目的是预测和解释。研究者可以通过构建回归方程估计回归系数,进而来预测相似样本中结果变量的得分情况。除了预测,研究者还感兴趣于估计模型中某一自变量...&
(本文共3页)
权威出处：
目的本研究针对国内线性模型中自变量相对重要性现有估计方法的不足，拟引进开发国际上正在研究和建议的线性回归模型自变量相对重要性四种估计方法：乘积尺度、优势分析、比例边界方差分解（PMVD）和相对权重，并对四种估计方法进行应用研究。方法在对传统估计方法分析的基础上，分别对乘积尺度、优势分析、比例边界方差分解（PMVD）和相对权重四种线性回归模型中自变量相对重要性估计方法进行系统介绍，在SAS和R等软件中开发编制相应的计算程序，并用国外标准实例进行验证；同时应用Bootstrap模拟技术对其估计的精确性进行了探讨。具体步骤为：运用Bootstrap方法对实际资料样本实施再抽样，分别估计各样本的自变量相对重要性值，获估计值的抽样分布，进而建立四种估计方法各个估计指标的可信区间估计方法，以此来评价估计结果的稳健性。结果在肝手术病人预计存活时间的影响因素重要性估计中，用标准回归系数平方法（β~2）估计的各自变量相对重要性为：血凝素为0.15...&
(本文共75页)
权威出处：
流行病学的任务是研究人群中疾病(或健康状况)的分布及其影响因素,并研究疾病防治及健康促进策略和措施。其中,筛选导致疾病发生、发展与转归的危险因素(或生物标记),不仅是病因推断的基础,也是预测疾病发生与转归结局的前提。而病因的确定或疾病及结局的准确预测,对于制定防治策略与措施均具有重要指导意义。因此,研究筛选疾病危险因素的新方法,探讨如何构建高效而准确的疾病预测模型,具有理论与实践意义。理论上,任何疾病的发生与转归均是遗传(基因)与环境因素(个人生活习惯、生理心理因素、环境污染等)交互作用的结果,众多遗传因子与环境因素之间的复杂交互作用往往交织成为网络系统,而正是这个交互网络系统调控着疾病发生、发展及转归的进程。因此,无论是筛选导致疾病发生、发展和转归的危险因素(或生物标记),还是构建其预测模型均应以交互网络系统为基础,忽略交互网络结构的建模策略必将导致信息损失。目前,回归理论是筛选疾病危险因素或构建疾病预测模型的常用方法,其基本...&
(本文共141页)
权威出处：
生存分析一直是统计学研究的重要内容,它可以处理与剩余寿命,存活时间,失效时间有关的许多实际数据(这类数据称为寿命数据)。这些数据广泛存在于各个领域,特别是工程和生物医药领域。为了分析寿命数据,我们经常利用一些经典的寿命分布如指数分布、威布尔分布等,而他们的危险函数一般具有严格的限制(如单调性)。然而实际问题中危险函数不仅具有单调性,也可能具有非单调性和浴盆状。为此,学者们提出许多新的寿命分布如广义威布尔分布,指数威布尔分布,以及可加威布尔分布等。最近,文献[1]研究了广义幂威布尔分布的参数估计,指出其适合处理具有非单调危险函数的寿命数据。作为其补充,文章在广义幂威布尔分布的基础上,提出了对数广义幂威布尔回归模型。另外,统计诊断已成为统计分析的重要组成部分,它可以保证统计推断的合理性。文章首先研究了对数广义幂威布尔回归模型的参数估计,并通过随机模拟验证了估计方法的有效性。其次在数据删除模型和均值漂移模型下探讨了该回归模型的全局影响...&
(本文共59页)
权威出处：
自我伤害(简称自伤)行为是指在没有明确自杀意图的情况下,故意、重复地改变或伤害自己身体且不被社会认可的行为。由于该行为多发于青少年并可造成较严重的后果,故受到社会各界尤其是学校心理卫生工作者的关注。自伤行为的发生与多方面因素存在关联,如经济条件、家庭环境、个体的生活行为习惯和人格倾向等[1];自伤行为还受身边同伴影响[2],与群体氛围如群体长期生活行为习惯相关[3],这使得某些特征在某一空间或群体范围内呈现聚集性。而传统的回归模型重点分析个体,在处理层次结构中存在局限性。多水平模型充分考虑了变量的层次性,把随机部分分解到数据的不同层次上,从而得到每个层次上的解释信息,使分析更完善、更准确[4]。因此,本研究运用二分类两水平Lo-gistic回归模型,探讨大学生自伤行为的影响因素。1对象与方法1.1研究对象月,将武汉地区67所普通高等院校,依据“985”院校、“211”院校、省属重点本科、省属一般本科、高等职业技术...&
(本文共4页)
权威出处：
扩展阅读：
CNKI手机学问
有学问，才够权威！
出版：《中国学术期刊（光盘版）》电子杂志社有限公司
地址：北京清华大学 84-48信箱大众知识服务
互联网出版许可证新出网证(京)字008号
京ICP证040431号
服务咨询：400-810--9993
订购咨询：400-819-9993
传真：010-}

叫阿莫西中心