请问有没有多元线性回归曲线回归啊?如果没有,用...

君,已阅读到文档的结尾了呢~~
多元线性回归
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
多元线性回归
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口文档分类:
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,
下载前请先预览,预览内容跟原文是一样的,在线预览图片经过高度压缩,下载原文更清晰。
您的浏览器不支持进度条
淘豆网网友近日为您收集整理了关于多元回归分析法的介绍及具体应用【参考】的文档,希望对您的工作和学习有所帮助。以下是文档介绍:多元回归分析法的介绍及具体应用在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。这里主要讲的是多元线性回归分析法。.多元线性回归的定义说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。.多元回归线性分析的运用具体地说,多元线性回归分析主要解决以下几方面的问题。()、确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;()、根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以知道这种预测或控制能达到什么样的精确度;()、进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。.多元线性回归分析.多元线性回归分析的原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的基本思想是:虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。.多元线性回归模型及其矩阵表示设y是一个可观测的随机变量,它受到p个非随机因索x,x,…,px和随机因素?的影响,若y与x,x,…,px有如下线性关系:?????????ppxxy?(.)其中?,?,…,p?是?p个未知参数,?是不可测的随机误差,且通常假定),(N~??.我们称式(.)为多元线性回归模型.称y为被解释变量(因变量),),,,(pixi??为解释变量(自变量).称ppxxyE????????)((.)为理论回归方程.对于一个实际问题,要建立多元回归方程,首先要估计出未知参数?,?,…,p?,为此我们要进行n次独立观测,得到n组样本数据);,,,(iipiiyxxx?,ni,,,??,他们满足式(.),即有?????????????????????????nnppnnnppppxxxyxxxyxxxy?????????????????????(.)其中n???,,,?相互独立且都服从),(?N.式(.)又可表示成矩阵形式:????XY(.)这里,TnyyyY),,,(??,Tp),,,(??????,Tn),,,(??????,),(~nnIN??,nI为n阶单位矩阵.???????????????npnnppxxxxxxxxxX???????)(??pn阶矩阵X称为资料矩阵或设计矩阵,并假设它是列满秩的,即)(??pXrank.由模型(.)以及多元正态分布的性质可知,Y仍服从n维正态分布,它的期望向量为?X,方差和协方差阵为nI?,即),(~nnIXNY??..参数的最小二乘估计及其表示.参数的最小二乘估计与一元线性回归时的一样,多元线性回归方程中的未知参数p???,,,?仍然可用最小二乘法来估计,即我们选择Tp),,,(??????使误差平方和???????????????niippiiiTTniixxxyXYXYQ)()()(?)(?????????????达到最小.由于)(?Q是关于p???,,,?的非负二次函数,因而必定存在最小值,利用微积分的极值求法,得???????????????????????????????????????????????????????????????niipippiiipniikippiiikniiippiiiniippiiixxxxyQxxxxyQxxxxyQxxxyQ)????()?()????()?()????()?()????()?(????????????????????????????????????????这里),,,(?pii???是),,,(pii???的最小二乘估计.上述对)(?Q求偏导,求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:)?(???XYXT移项得YXXXTT???(.)称此方程组为正规方程组.依据假定)(??pXR,所以)()(???pXRXXRT.故)(?XXT存在.解正规方程组(.)得YXXXTT)(????(.)称ppxxxy???????????????为经验回归方程..误差方差?的估计将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为??)?,,?,?(?XyyyYp???向量YHIYXXXXIXYYYenTTn)(])([?????????????称为残差向量,其中TTXXXXH)(??为n阶对称幂等矩阵,nI为n阶单位阵.称数YXYYYHIYeeTTTnTT??)(??????为残差平方和(ErrorSumofSquares,简写为SSE).由于?XYE?)(且)(??XHIn,则)]()[(]})([{)(TnnTTEHItrHItrEeeE??????????????])([TTnXXXXItr????]})[({XXXXtrnTT????)(???pn?从而eepnT???????为?的一个无偏估计..逐步回归当自变量的个数不多时,利用某种准则,从所有可能的回归模型中寻找最优回归方程是可行的.但若自变量的数目较多时,求出所有的回归方程式很不容易的.为此,人们提出了一些较为简便实用的快速选择最优方程的方法,我们先根据“前进法”和“后退法”的思想,再详细介绍“逐步回归法”。.前进法和后退法前进法:设所考虑的回归问题中,对因变量y有影响的自变共有m个,首先将这m个自变量分别与y建立m个一元线性回归方程,并分别计算出这m个一元回归方程的偏F检验值,记为()()(){,,,}mFFF?,若其中偏F值最大者(为方便叙述起见,不妨设为()F)所对应的一元线性回归方程都不能通过显著性检验,则可以认为这些自变量不能与y建立线性回归方程;若该一元方程通过了显著性检验,则首先将变量x引入回归方程;接下来由y与x以及其他自变量(1播放器加载中,请稍候...
该用户其他文档
下载所得到的文件列表多元回归分析法的介绍及具体应用【参考】.doc
文档介绍:
多元回归分析法的介绍及具体应用在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。这里主要讲的是多元线性回归分析法。.多元线性回归的定义说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定...
内容来自淘豆网转载请标明出处.【图文】第三章 多元回归模型_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
第三章 多元回归模型
上传于||暂无简介
大小:441.50KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢实战干货 | 手把手教你如何用R实现多元线性回归分析_CDA数据分析师-爱微帮
&& &&& 实战干货 | 手把手教你如何用R实现多元…
微信添加CDA为好友(ID:joinlearn1),拉你入500人数据分析师交流群,点击阅读原文可查看CDA数据分析师交流群规范与福利,期待你来~如果你也想推荐优质文章,请微信添加trasn863为好友或发送邮件至songpeiyang@pinggu.org原文标题为:《多元线性回归实战笔记》R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整。这里结合Statistical Learning和杜克大学的Data Analysis and Statistical Inference的章节以及《R语言实战》的OLS(Ordinary Least Square)回归模型章节来总结一下,诊断多元线性回归模型的操作分析步骤。1、选择预测变量因变量比较容易确定,多元回归模型中难在自变量的选择。自变量选择主要可分为向前选择(逐次加使RSS最小的自变量),向后选择(逐次扔掉p值最大的变量)。个人倾向于向后选择法,一来p值比较直观,模型返回结果直接给出了各变量的p值,却没有直接给出RSS;二来当自变量比较多时,一个个加比较麻烦。构建一个回归模型后,先看F统计量的p值,这是对整个模型的假设检验,原假设是各系数都为0,如果连这个p值都不显著,无法证明至少有一个自变量对因变量有显著性影响,这个模型便不成立。然后看Adjusted R2,每调整一次模型,应该力使它变大;Adjusted R2越大说明模型中相关的自变量对因变量可解释的变异比例越大,模型的预测性就越好。构建了线性模型后,如果是一元线性回归,可以画模型图初步判断一下线性关系(多元回归模型不好可视化):2、模型诊断确定了回归模型的自变量并初步得到一个线性回归模型,并不是直接可以拿来用的,还要进行验证和诊断。诊断之前,先回顾多元线性回归模型的假设前提(by Data Analysis and Statistical Inference):1.(数值型)自变量要与因变量有线性关系;2.残差基本呈正态分布;3.残差方差基本不变(同方差性);4.残差(样本)间相关独立。一个好的多元线性回归模型应当尽量满足这4点假设前提。用lm()构造一个线性模型fit后,plot(fit)即可返回4张图(可以par(mfrow=c(2,2))一次展现),这4张图可作初步检验:左上图用来检验假设1,如果散点看不出什么规律,则表示线性关系良好,若有明显关系,则说明非线性关系明显。右上图用来检验假设2,若散点大致都集中在QQ图中的直线上,则说明残差正态性良好。左下图用来检验假设3,若点在曲线周围随机分布,则可认为假设3成立;若散点呈明显规律,比如方差随均值而增大,则越往右的散点上下间距会越大,方差差异就越明显。假设4的独立性无法通过这几张图来检验,只能通过数据本身的来源的意义去判断。右下图是用来检验异常值。异常值与三个概念有关:1.离群点:y远离散点主体区域的点2.杠杆点:x远离散点主体区域的点,一般不影响回归直线的斜率3.强影响点:影响回归直线的斜率,一般是高杠杆点。对于多元线性回归,高杠杆点不一定就是极端点,有可能是各个变量的取值都正常,但仍然偏离散点主体。对于异常值,可以谨慎地删除,看新的模型是否效果更好。《R语言实战》里推荐了更好的诊断方法,总结如下。
(1)多元线性回归假设验证:gvlma包的gvlma()函数可对拟合模型的假设作综合验证,并对峰度、偏度进行验证。最后的Global Stat是对4个假设条件进行综合验证,通过了即表示4个假设验证都通过了。最后的Heterosceasticity是进行异方差检测。注意这里假设检验的原假设都是假设成立,所以当p&0.05时,假设才能能过验证。如果综合验证不通过,也有其他方法对4个假设条件分别验证:线性假设返回的图是各个自变量与残差(因变量)的线性关系图,若存着明显的非线性关系,则需要对自变量作非线性转化。书中说这张图表明线性关系良好。正态性qqPlot()可以生成交互式的qq图,选中异常点,就返回该点的名称。该图中除了Nevad点,其他点都在直线附近,可见正态性良好。同方差性p值大于0.05,可认为满足方差相同的假设。独立性p值大于0.05,可认为误差之间相互独立。除了以上4点基本假设,还有其他方面需要进行诊断。
(2)多重共线性理想中的线性模型各个自变量应该是线性无关的,若自变量间存在共线性,则会降低回归系数的准确性。一般用方差膨胀因子VIF(Variance Inflation Factor)来衡量共线性,《统计学习》中认为VIF超过5或10就存在共线性,《R语言实战》中认为VIF大于4则存在共线性。理想中的线性模型VIF=1,表完全不存在共线性。可见这4个自变量VIF都比较小,可认为不存在多重共线性的问题。
(3)异常值检验离群点离群点有三种判断方法:一是用qqPlot()画QQ图,落在置信区间(上图中两条虚线)外的即可认为是离群点,如上图中的Nevad点;一种是判断学生标准化残差值,绝对值大于2(《R语言实战》中认为2,《统计学习》中认为3)的可认为是离群点。还有一种方法是利用car包里的outlierTest()函数进行假设检验:这个函数用来检验最大的标准化残差值,如果p&0.05,可以认为没有离群点;若p&0.05,则该点是离群点,但不能说明只有一个离群点,可以把这个点删除之后再作检验。第三种方法可以与第二种方法结合起来使用。高杠杆点高杠杆值观测点,即是与其他预测变量有关的离群点。换句话说,它们是由许多异常的预测变量值组合起来的,与响应变量值没有关系。《统计学习》中给出了一个杠杆统计量,《R语言实战》中给出了一种具体的操作方法。(两本书也稍有出入,《统计学习》中平均杠杆值为(p+1)/n,而在《R语言实战》中平均杠杆值为p/n;事实上在样本量n比较大时,几乎没有差别。)超过2倍或3倍的平均杠杆值即可认为是高杠杆点,这里把Alaska和California作为高杠杆点。强影响点强影响点是那种若删除则模型的系数会产生明显的变化的点。一种方法是计算Cook距离,一般来说, Cook’s D值大于4/(n-k -1),则表明它是强影响点,其中n 为样本量大小, k 是预测变量数目。实际上这就是前面诊断的4张图之一,语句还是plot(fit),which=4表示指定第4张图,cook.levels可设定标准值。红色虚线以上就返回了强影响点。car包里的influencePlot()函数能一次性同时检查离群点、高杠杆点、强影响点。纵坐标超过+2或小于-2的点可被认为是离群点,水平轴超过0.2或0.3的州有高杠杆值(通常为预测值的组合)。圆圈大小与影响成比例,圆圈很大的点可能是对模型参数的估计造成的不成比例影响的强影响点。3、模型调整到目前为止,《统计学习》中提到的多元线性回归模型潜在的问题,包括4个假设不成立、异常值、共线性的诊断方法在上面已经全部得到解决。这里总结、延伸《R语言实战》里提到的调整方法——删除观测点对于异常值一个最简单粗暴又高效的方法就是直接删除,不过有两点要注意。一是当数据量大的时候可以这么做,若数据量较小则应慎重;二是根据数据的意义判断,若明显就是错误就可以直接删除,否则需判断是否会隐藏着深层的现象。另外删除观测点后要与删除之前的模型作比较,看模型是否变得更好。变量变换在进行非线性变换之前,先看看4个假设是否成立,如果成立可以不用变换;没必要追求更好的拟合效果而把模型搞得太复杂,这有可能出现过拟合现象。如果连假设检验都不通过,可以通过变量变换来调整模型。这里只讨论线性关系不佳的情况,其他情况遇到了再说。
(1)多项式回归如果残差图中呈现明显的非线性关系,可以考虑对自变量进行多项式回归。举一个例子:可以看到这个一元线性回归模型的残差图中,散点的规律还是比较明显,说明线性关系较弱。将自变量进行2次多项式回归后,发现现在的残差图好多了,散点基本无规律,线性关系较明显。再看看两个模型的整体效果——可见多项式回归的模型Adjusted R2也增大了,模型的解释性也变强了。多项式回归在《统计学习》后面的非线性模型中还会提到,到时候再讨论。
(2)Box-Tidwell变换car包中的boxTidwell() 函数通过获得预测变量幂数的最大似然估计来改善线性关系。可以发现残差图和Adjusted R2的提升都甚微,因此没有必要作非线性转换。4、模型分析
(1)模型比较前面只是简单得用Adjusted R2来比较模型,《R语言实战》里介绍了可以用方差分析来比较嵌套模型(即它的一些项完全包含在另一个模型中)有没有显著性差异。方差分析的思想是:如果线性模型y~x1+x2+x3与y~x1+x2没有显著性差异,若同时x3变量对模型也不显著,那就没必要加上变量x3。下面进行试验:Income和Frost两个变量不显著,两个模型之间没有显著性差异,就可以不加这两个变量。删去这两个不显著的变量后,R2略微减少,Adjusted R2增大,这也符合二者的定义。《R语言实战》里还介绍到了用AIC(Akaike Information Criterion,赤池信息准则)值来比较模型,AIC值越小的模型优先选择,原理不明。第二个模型AIC值更小,因此选第二个模型(真是简单粗暴)。注:ANOVA需限定嵌套模型,AIC则不需要。可见AIC是更简单也更实用的模型比较方法。
(2)变量选择这里的变量选择与最开始的变量选择同也不同,虽然是一回事,但一开始是一个粗略的变量的选择,主要是为了构建模型;这里则要进行细致的变量选择来调整模型。逐步回归前面提到的向前或向后选择或者是同时向前向后选择变量都是逐步回归法。MASS包中的stepAIC() 函数可以实现逐步回归模型(向前、向后和向前向后),依据的是精确AIC准则。以下实例是向后回归法:可见原本的4元回归模型向后退了两次,最终稳定成了2元回归模型,与前面模型比较的结果一致。全子集回归《R语言实战》里提到了逐步回归法的局限:不是每个模型都评价了,不能保证选择的是“最佳”模型。比如上例中,从Murder ~ Population + Illiteracy + Income + Frost到Murder ~ Population + Illiteracy + Income再到Murder~Population+Illiteracy虽然AIC值确实在减少,但Murder ~ Population + Illiteracy + Frost没评价,如果遇到变量很多的情况下,逐步回归只沿一个方向回归,就有可能错过最优的回归方向。横坐标是变量,纵坐标是Adjusted R2,可见除截距项以外,只选定Population和Illiteracy这两个变量,可以使线性模型有最大的Adjusted R2。全子集回归比逐步回归范围更广,模型优化效果更好,但是一旦变量数多了之后,全子集回归迭代的次数就很多,就会很慢。事实上,变量的选择不是机械式地只看那几个统计指标,更主要的是根据数据的实际意义,从业务角度上来选择合适的变量。线性模型变量的选择在《统计学习》后面的第6章还会继续讲到,到时继续综合讨论。(3)交互项交互项《统计学习》中花了一定篇幅来描写,但在《R语言实战》是在方差分析章节中讨论。添加变量间的交互项有时可以改善线性关系,提高Adjusted R2。针对数据的实际意义,如果两个基本上是独立的,也很难产生交互、产生协同效应的变量,那就不必考虑交互项;只有从业务角度分析,有可能产生协同效应的变量间才考虑交互项。涉及到交互项有一个原则:如果交互项是显著的,那么即使变量不显著,也要放在回归模型中;若变量和交互项都不显著,则可以都不放。(4)交叉验证Andrew Ng的Machine Learning中就提到了,模型对旧数据拟合得好不一定就对新数据预测得好。因此一个数据集应当被分两训练集和测试集两部分(或者训练集、交叉验证集、测试集三部分),训练好的模型还要在新数据中测试性能。所谓交叉验证,即将一定比例的数据挑选出来作为训练样本,另外的样本作保留样本,先在训练样本上获取回归方程,然后在保留样本上做预测。由于保留样本不涉及模型参数的选择,该样本可获得比新数据更为精确的估计。在k 重交叉验证中,样本被分为k个子样本,轮流将k-1个子样本组合作为训练集,另外1个子样本作为保留集。这样会获得k 个预测方程,记录k 个保留样本的预测表现结果,然后求其平均值。bootstrap包中的crossval()函数可以实现k重交叉验证。这个自定义的shrinkage()函数用来做k重交叉验证,比计算训练集和交叉验证集的R方差异。这个函数里涉及到一个概念:复相关系数。复相关系数实际上就是y和fitted(y)的简单相关系数。对于一元线性回归,R2就是简单相关系数的平方;对于多元线性回归,R2是复相关系数的平方。这个我没有成功地从公式上推导证明成立,就记下吧。这个方法用到了自助法的思想,这个在统计学习后面会细致讲到。可见这个4元回归模型在交叉验证集中的R2下降了0.12之多。若换成前面分析的2元回归模型——这次R2下降只有约0.05。R2减少得越少,则预测得越准确。5、模型应用
(1)预测最重要的应用毫无疑问就是用建立的模型进行预测了。构建好模型后,可用predict()函数进行预测——这里newdata提供了两个全新的点供模型来预测。还可以用interval指定返回置信区间(confidence)或者预测区间(prediction),这也反映了统计与机器学习的一个差异——可解释性。注意置信区间考虑的是平均值,而预测区间考虑的是单个观测值,所以预测区间永远比置信区间广,因此预测区间考虑了单个观测值的不可约误差;而平均值同时也把不可约误差给抵消掉了。
(2)相对重要性有的时候需要解释模型中各个自变量对因变量的重要程度,简单处理可以直接看系数即可,《R语言实战》里自定义了一个relweights()函数可以计算各个变量的权重:不要在意算法原理和代码逻辑这种细节,直接看结果:在本例中,相对权重与系数的排序结果一致。推荐用相对权重。来源 | 数据人网原文链接:http://shujuren.org/article/158.html如果你也想推荐优质文章,请微信添加trasn863为好友或发送邮件至songpeiyang@pinggu.org点击阅读原文可查看CDA数据分析师交流群规范与福利
点击展开全文
CDA数据分析师品牌官方微信,开放、创新、分享。
您的【关注和订阅】是作者不断前行的动力
本站文章来自网友的提交收录,如需删除可发送邮件到 bang@ 或联系QQ ,
(C)2014&&版权所有&&&|&&&
京ICP备号-2&&&&京公网安备34}

我要回帖

更多关于 多元线性回归 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信