求(1.2)(2.3)(3.4)(4.5)的matlab求回归方程程

 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
2.3变量间的相关关系(一、二)
下载积分:15
内容提示:2.3变量间的相关关系(一、二)
文档格式:DOC|
浏览次数:1|
上传日期: 08:55:23|
文档星级:
全文阅读已结束,如果下载本文需要使用
 15 积分
下载此文档
该用户还上传了这些文档
2.3变量间的相关关系(一、二)
官方公共微信某车间为了规定工时额.需确定加工零件所花费的时间.为此做了4次试验.得到的数据如图:若加工时间y与零件个数x之间有较好的线性相关关系.(2&2.5+3&3+4&4+5&4.5=52.5)&table class=&edittable&&&tbody&&l 题目和参考答案——精英家教网——
暑假天气热?在家里学北京名师课程,
& 题目详情
某车间为了规定工时额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如图:若加工时间y与零件个数x之间有较好的线性相关关系.(2&2.5+3&3+4&4+5&4.5=52.5)x2345y2.5344.5(1)求加工时间与零件个数的线性回归方程;(2)试预报加工10个零件需要的时间.(附:回归方程系数公式=,)
【答案】分析:(1)根据表中所给的数据,做出横标和纵标的平均数,得到样本中心点,求出对应的横标和纵标的积的和,求出横标的平方和,做出系数和a的值,写出线性回归方程.(2)将x=10代入回归直线方程,得y的值,即可预测加工10个零件需要8.05个小时,这是一个预报值.解答:解:(1)由表中数据得:xiyi=52.5,=3.5,=3.5,xi2=54.∴b==0.7故a=3.5-0.7&3.5=1.05,∴所求线性回归方程为:y=0.7x+1.05.(2)将x=10代入回归直线方程,得y=0.7&10+1.05=8.05(小时).∴试预测加工10个零件需要8.05个小时.点评:本题考查线性回归方程的求法和应用,本题是一个基础题,解题的关键是看清正确运算,本题运算比较繁琐.
请在这里输入关键词:
科目:高中数学
某车间为了规定工时额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如图:若加工时间y与零件个数x之间有较好的线性相关关系.(2×2.5+3×3+4×4+5×4.5=52.5)
4.5(1)求加工时间与零件个数的线性回归方程;(2)试预报加工10个零件需要的时间.(附:回归方程系数公式b=ni=1xiyi-n.x.yni=1x2i-nx-2,a=.y-b.x)
科目:高中数学
来源:2014届福建高二下第一次月考理科数学试卷(解析版)
题型:解答题
某车间为了规定工时额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下图:若加工时间与零件个数之间有较好的线性相关关系。()
&(1)求加工时间与零件个数的线性回归方程;(2)试预报加工10个零件需要的时间。(附:回归方程系数公式)&
精英家教网新版app上线啦!用app只需扫描书本条形码就能找到作业,家长给孩子检查作业更省心,同学们作业对答案更方便,扫描上方二维码立刻安装!
请输入姓名
请输入手机号→ 回归方程
上传时间: 来源:
第一篇:回归方程2.4 线性回归方程
【课标要求】 1.通过收集现实问题中两个有关联变量的数据作出散点 图,并利用散点图直观认识变量间的相关关系; 2.在两个变量具有线性相关关系时,会用线性回归方程进 行预测;
3.知道最小平方法的含义,知道最小平方法的思想,能根
据给出的线性回归方程系数公式建立线性回归方程. 【核心扫描】
1.散点图的画法,回归直线方程的求解方法.(重点)
2.回归直线方程的求解方法,回归直线方程在现实生活与 生产中的应用.(难点)
课前探究学习 课堂讲练互动 活页规范训练
1.与函数关系不同,相关关系是一种有关系,但不是 确定性
2.能用直线方程=be+a近似表示的相关关系叫做线性相 关关系,该方程叫线性回归方程 ,给出一组数据(x1,
y1),(x2,y2),?,(xn,yn),线性回归方程中的系数a,b满足 ? n n n ? ? n ?xiyi-? ?xi?? ?yi? i=1 i=1 i=1 ? ?b= n n ? , 2 2 ? n ?xi -? ?xi? i=1 i=1 ? ? ?a= y -b x ?
课前探究学习 课堂讲练互动 活页规范训练
上式还可以表示为 ? n n ? ?xiyi-n x y ? ?xi- x ??yi- y ? ? i=1 ? i=1 = , ?b= n n ? 2 2 ? ?xi -n x ? ?xi- x ?2 i=1 i=1 ? ? ? a= y -b x . ?
想一想:1.相关关系是不是都为线性关系?
提示 不是.有些变量间的相关关系是非线性相关的.
2.散点图只描述具有相关关系的两个变量所对应点的图形吗?
提示 不是.两个变量统计数据所对应的点的图形都是散点图.
课前探究学习 课堂讲练互动 活页规范训练
1.相关关系与函数关系的异同点 关系 异同点 相同点
函数关系 相关关系
两者均是指两个变量之间的关系
是一种确定性关系
是一种非确定的关系
①一个为变量,另一个为随机 是两个变量之间的关 变量; 系 ②两个都是随机变量 不一定是因果关系,也可能是 是一种因果关系 伴随关系 是一种理想关系模型 是更为一般的情况
课前探究学习
课堂讲练互动
活页规范训练
2.回归直线方程
(1)回归直线方程的思想方法
①回归直线:观察散点图的特征,发现各点大致分布在一 条直线的附近,就称这两个变量之间具有线性相关的关系,这
条直线叫做回归直线.
可见,根据不同的标准可画出不同的直线来近似表示这种 线性关系.比如,可以连接最左侧点和最右侧点得到一条直
线;也可以让画出的直线上方的点和下方的点数目相等,??
这些办法,能保证各点与此直线在整体上是最接近的吗?它们 虽然都有一定的道理,但总让人感到可靠性不强. ②最小二乘法:实际上,求回归直线方程的关键是如何用 数学的方法来刻画“从整体上看各点与此直线的距离最小”, 即最贴近已知的数据点,最能代表变量x与y之间的关系.
课前探究学习 课堂讲练互动 活页规范训练
(2)利用回归直线对总体进行估计 ^ 利用回归直线,我们可以进行预测,若回归直线方程为:y= ^ bx+a,则 x=x0 处的估计值为:y=bx0+a.
课前探究学习
课堂讲练互动
活页规范训练
题型一 相关关系的判断 【例1】 下列两个变量之间的关系中,①角度和它的余弦 值;②正方形的边长和面积;③正n边形的边数和其内角度数之 和;④人的年龄和身高.不是函数关系的是________.(填序号)
[思路探索] 函数关系是一种变量之间确定性的关系.而相
关关系是非确定性关系. 解析 选项①②③都是函数关系,可以写出它们的函数表
达式:f(θ)=cos θ,g(a)=a2,h(n)=nπ-2π,④不是函数关系,
对于相同年龄的人群中,仍可以有不同身高的人. 答案 ④
课前探究学习
课堂讲练互动
活页规范训练
(1)两变量间主要有两种关系:一是确定的函数
关系,另一是不确定的相关关系.同时要注意,两变量间也可
能无相关关系,数学中只有统计部分研究不确定的相关关系. (2)函数关系与相关关系的区别的关键是“确定性”还是
“随机性”.
课前探究学习
课堂讲练互动
活页规范训练
【变式1】 下列两个变量中具有相关关系的是________(填
写相应的序号).
①正方体的棱长和体积;②角的弧度数和它的正弦值;③ 单产为常数时,土地面积和总产量;④日照时间与水稻的亩产
解析 正方体的棱长x和体积V存在着函数关系V=x3;角的 弧度数α和它的正弦值y存在着函数关系y=sin α;单产为常数a公 斤/亩土地面积x(亩)和总产量y(公斤)之间也存在着函数关系y=a x.日照时间长,则水稻的亩产量高,这只是相关关系,应选④. 答案 ④
课前探究学习
课堂讲练互动
活页规范训练
题型二 线性回归方程的求法
【例2】 假设关于某设备的使用年限x(年)和所支出的维修
费用y(万元)有如下统计资料2 3 4 5 6 使用年限x(年) 维修费用y(万元) 2.2 3.8 5.5 6.5 7.0 若由资料知y对x呈线性相关关系,求线性回归方程=bx+ a. [思路探索] 本题已知x与y具有线性相关关系,故无需画散 点图进行判断,可直接用公式求解.
课前探究学习
课堂讲练互动
活页规范训练
解 制表. i xi 1 2 2 3 3 4 4 5 5 6 合计 20
yi 2.2 3.8 5.5 6.5 7.0 25 xiyi 4.4 11.4 22.0 32.5 42.0 112.3 x i2 4 9 16 25 36 90
∴ x =4, y =5, ?xi =90, ?xiyi=112.3.
2 i=1 i=1
112.3-5×4×5 ∴b= =1.23, 90-5×42 a=5-1.23×4=0.08. ^ ∴所求线性回归方程为y=1.23x+0.08.
课前探究学习 课堂讲练互动 活页规范训练
规律方法 求线性回归方程的一般步骤(1)画散点图,看两个变量是不是存在线性相关关系. (2)列表计算 x , y , ?xi , ?xiyi.(建议用列表方法计算)
2 i= 1 i= 1 n n
(3)利用(2)的结果计算 a、b,得出线性回归方程.
课前探究学习
课堂讲练互动
活页规范训练
【变式2】 某商店统计了近6个月某商品的进价x与售价y(单
位:元),对应数据如下:
x y 3 4 5 6 2 3 8 9 9 12 12 14
求y对x的回归直线方程.
课前探究学习
课堂讲练互动
活页规范训练
3+5+2+8+9+12 解 ∵x= =6.5, 6 4+6+3+9+12+14 y= =8, 6
?xi =327, ?xiyi=396,
2 i =1 6 i=1
?xiyi-6 x y
≈1.143,a= y -b x ≈0.571,
?xi2-6 x 2
^ ∴回归直线方程为y=1.143x+0.571.
课前探究学习 课堂讲练互动 活页规范训练
题型三 利用回归直线对总体进行估计
【例3】 (14分)下表提供了某厂节能降耗技术改造后生产甲
产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几 组对照数据. x y 3 2.5 4 3 5 4 6 4.5
(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小平方法求出y关于x的线 性回归方程; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准 煤.试根据(2)求出的线性回归方程预测生产100吨甲产品的生产 能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5 ×4+6×4.5=66.5)
课前探究学习 课堂讲练互动 活页规范训练
审题指导 本题考查线性回归方程的求解及利用回归直线对 y ?xiyi-n x ?
总体进行估计.利用公式:b= xi2-n x 2 ?
,a= y -b x 来求出
【解题流程】
课前探究学习
课堂讲练互动
活页规范训练
[规范解答] (1)由题设所给数据,可得散点图,如右图所示. (3 分)
(2)由对照数据,计算得3+4+5+6 =4.5, ?xi =86, x = 4 i =1
4 2 4 2.5+3+4+4.5 y= =3.5,已知 ?xiyi=66.5. 4 i= 1
课前探究学习 课堂讲练互动
活页规范训练
所以由最小平方法确定的线性回归方程的系数为
?xiyi-4 x y
?xi2-4 x 2
66.5-4×4.5×3.5 = =0.7, 2 86-4×4.5
a= y -b x =3.5-0.7×4.5=0.35. ^ 因此,所求的线性回归方程为y=0.7x+0.35. (10 分)
(3)由(2)的回归方程及技改前生产 100 吨甲产品的生产能耗,可得 降低的生产能耗为 90-(0.7×100+0.35)=19.65(吨标准煤). (14 分)
课前探究学习 课堂讲练互动 活页规范训练
【题后反思】 解决此类问题首先根据所给数据画出散点
图,根据散点图判断两个变量之间是否具有相关关系,如果两
个变量之间不具有相关关系,或者说,它们之间的关系不显 著,即使求得了线性回归方程也是毫无意义的,而且用其估计
和预测的结果也是不可信的.
课前探究学习
课堂讲练互动
活页规范训练
【变式3】 以下是某地搜集到的新房屋的销售价格y和新房
屋的面积x的数据:
新房屋面积(m2) 115 110 80 135 105 销售价格(万元) 24.8 21.6 18.4 29.2 22 (1)画出数据对应的散点图; (2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当新房屋面积为150 m2时的销售价格.
课前探究学习
课堂讲练互动
活页规范训练
(1)数据对应的散点图如图所示.
5 5 15 2 (2) x = ?xi=109,lxx= (xi- x ) =1 570, y =23.2,lxy= (xi i=1 i=1 5i=1
- x )(yi- y )=308, ^ ^ ^ 设所求回归直线方程为y=bx+a, ^ = lxy = 308 ≈0.196 2,a= y -b x =23.2-109× 308 则b lxx 1 570 1 570 ≈1.816 6. ^ 故所求回归直线方程为y=0.196 2x+1.816.6. (3)据(2),当 x=150 m2 时,销售价格的估计值为^=0.196 2×150+1.816 6=31.246 6(万元). y
课前探究学习 课堂讲练互动 活页规范训练
误区警示 最小二乘法的原理不清而出错
【示例】 已知x、y之间的一组数据如下表:
x y 1 1 3 2 6 3 7 4 8 5
1 对于表中数据,甲、乙两同学给出的拟合直线分别为 y= x 3 1 1 +1 与 y= x+ ,试利用最小二乘法思想判断哪条直线拟合程度 2 2 更好.
课前探究学习
课堂讲练互动
活页规范训练
[错解] x、y 作为点的坐标,作出所给数据的散点图. 1 用 y= x+1 作为拟合直线时,散点图上的点到拟合直线的距 3 离之和为
课前探究学习
课堂讲练互动
活页规范训练
课前探究学习
课堂讲练互动
活页规范训练
思维突破 题目要求利用最小二乘法思想判断哪条直线拟合
程度更好,不是用散点图上的点到拟合直线的距离之和最小来 判断.
1 [正解] 用 y= x+1 作为拟合直线时,所得 y 估计值与 y 的实 3 ?4 ? ?10 ? ? ?2 ? 2 2 际值的差的平方和为 S1 =?3-1? +(2-2) +(3-3) +? 3 -4? 2 + ? ? ? ? ? ?11 ? ? ?2 7 ? 3 -5? =3; ? ? 1 1 用 y= x+ 作为拟合直线时,所得 y 估计值与 y 的实际值的 2 2 差的平方和为 ?7 ? ?9 ? ? ?2 ? ?2 1 2 2 2 S2=(1-1) +(2-2) +?2-3? +(4-4) +?2-5? = ; 2 ? ? ? ? 1 1 ∴S2<S1,∴用直线 y= x+ 拟合程度更好. 2 2
课前探究学习 课堂讲练互动 活页规范训练
追本溯源 最小二乘法思想是:计算散点图上的各散点与拟
合直线y=bx+a在垂直方向(纵轴方向)上的距离的平方和S,用
来衡量拟合直线y=bx+a与散点图中所有点的接近程度,使S达 到最小值的a,b的值就是最好的拟合直线y=bx+a方程中的a,
b,这种方法叫做最小二乘法.
课前探究学习
课堂讲练互动
活页规范训练
单击此处进入
活页规范训练
课前探究学习
课堂讲练互动
活页规范训练
第一篇:回归方程线性回归方程
线性回归证明公式 变量的相关关系中最为简单的是线性相关关系,设随机变量*与变量之 间存在线性相关关系,则由试验数据得到的点(,)将散布在某一直线周围, 因此,可以认为关于的回归函数的类型为线性函数,即,下面用最小二乘法 估计参数、b,设服从正态分布,分别求对 a、b 的偏导数,并令它们等于零, 得方程组 解得 其中 ,
线性回归证明公式 且为观测值的样本方差. 线性方程称为关于的线性回归方程,称为回归系数,对应的直线称为回 归直线.顺便指出,将来还需用到,其中为观测值的样本方差. 利用公式求解:b=
线性回归方程公式 求出 a
线性回归方程公式 是总的公式 线性回归方程 y=bx+a 过定点(x 拔,y 拔)
第一篇:回归方程第二章 一元线性回归模型
回归的含义
?OLS估计量的性质
总体回归函数
样本回归函数
?OLS估计量的概率分布 ?假设检验与置信区间
普通最小二乘法(OLS)
线性模型与非线性模型 关于随机误差项的古典假设
?案例分析与Eviews的应用
回归的含义
? 回归的历史含义
?F.加尔顿最先使用“回归(regression)”。?父母高,子女也高;父母矮,子女也矮。?给定父母的身高,子女平均身高趋向于“回归”到 全体人口的平均身高。
? 回归的现代释义
回归分析用于研究一个变量关于另一个(些)变量的具体
依赖关系的计算方法和理论。
?商品需求函数?生产函数?菲利普斯曲线:
Q ? a ? bP
ln Q ? ln A ? ? ln K ? ? ln L
1 inflation? a ? b unem ploymnt e
?拉弗曲线:
Tax ? ? ? ?TR ? ? (TR)
? 回归的现代释义
等式左边的变量被称为被解释变量(Explained Variable)或应
变量 (Dependeni Variable)。
?等式右边的变量被称为解释变量(Explanaiory Variable)或自
变量(Independeni Variable)。
? 回归分析的目的
根据自变量的值,估计因变量的均值。
?检验(基于经济理论的)假设。?根据样本外自变量的值,预测因变量的均值。
? 回归与因果关系
从逻辑上说,统计关系式本身不可能意味着任何 因果关系。
“一个统计关系式,不管多强也不管多么有启发性, 却永远不能确立因果方面的联系:对因果关系的理念, 必须来自统计学以外,最终来自这种或那种理论。” ――Kendall 和Stuart 前面四个例子都是基于经济理论设定的,包括身高 和体重的关系。
总体回归函数
? 假想案例 ? 总体回归函数的随机设定 ? 随机误差项的意义
? 假想案例
假设一个国家只有60户居民,他们的可支配收 入和消费支出数据如下(单位:美元):
X Y 80 55 60 65 70 75 - - 户数 5 100 65 70 74 80 85 88 - 6 120 79 84 90 94 98 - - 5 140 80 93 95 103 108 113 115 7 160 102 107 110 116 118 125 - 6 180 110 115 120 130 135 140 - 6 200 120 136 140 144 145 - - 5 220 135 137 140 152 157 160 162 7 240 137 145 155 165 175 189 - 6 260 150 152 175 178 180 185 191 5
(1)由于不确定因素的影响,对同一收入水平X,不同家
庭的消费支出不完全相同; (2)但由于调查的完备性,给定收入水平X的消费支出Y 的分布是确定的,即以X的给定值为条件的Y的条件分布 (Conditional distribution)是已知的,
P(Y=55|X=80)=1/5。
因此,给定收入X的值Xi,可得消费支出Y的条件均值 (conditional mean)或条件期望(conditional expectation)E(Y|X=Xi) 该例中E(Y | X=80)=65
描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y
的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。
E(Y|Xi) = ?0 + ?1Xi=17.00+0.6Xi
? 总体回归函数 E(Y|Xi) = ?0 + ?1Xi
其中Y――被解释变量; X――解释变量;
?0,?1―回归系数(待定系数或待估参数)
“天行有常,不为尧存,不为桀亡。应之以 治则吉,应之以乱则凶。” ---荀子《天论》
? 总体回归函数的随机设定
? 对于某一个家庭,如何描述可支配收入和消费支出的关系? Yi=E(Y|Xi) + ui =?0 + ?1 Xi + ui
某个家庭的消费支出分为两部分:一是E(Y|Xi)=?0 + ?1 Xi ,称 为系统成分或确定性成分;二是ui,称为非系统或随机性成分。
.. . . . . . . .
Y2 u2 u3 Y3
E(Y|Xi) = ?0 + ?1 Xi
―总体回归直线
ui=Yi - E(Y|Xi)
―随机误差项
随机性总体回归函数
Yi=?0 + ?1 Xi + ui
确定性总体回归函数
E(Y|Xi) = ?0 + ?1 Xi,
? 随机误差项u的意义 ? 反映被忽略掉的因素对被解释变量的影响。或者理论不够完善,或者数据缺失;或者影
?模型设定误差
? 人类行为内在的随机性
样本回归函数
? 为研究总体,我们需要抽取一定的样本。
X Y 80 100 120 140 160 180 200 220 240 260
? 第 一 个 样 本
60 65 ― 75 - - 户数 总支出 4 255
― 74 ― ― 88 - 2 162
― ― 94 98 - - 2 192
93 95 103 108 113 115 6 627
107 110 ― ― 125 - 3 342
115 120 ― 135 ― - 3 370
― ― 144 ― - - 1 144
― 140 ― ― ― 162 3 337
― ― ― 175 189 - 3 501
― 175 178 ― ― 191 3 544
样本回归线
样本均值连线
样本回归函数
? 第二个样本
X Y 80 ― 60 ― ― 75 - 100 65 70 74 80 85 ― 120 79 84 90 ― ― - 140 ― 93 ― ― ― ― 160 102 ― ― 116 118 ― 180 ― 115 ― ― ― 140 200 120 ― ― 144 145 - 220 135 ― ― 152 ― 160 240 ― 145 155 165 ― 189 260 ― 152 ― ― 180 185
样本回归线
样本均值连线
? 总体回归模型和样本回归模型的比较
E(Y|Xi) = ?0 + ?1 Xi
注意:分清几个关系式和表示符号
(1)总体(真实的)回归直线:
? ? ? Yi ? ?0 ? ?1 X i
E( Y | X i ) ? ?0 ? ?1 X i
(2)样本(估计的)回归直线:
? ? ? Yi ? ?0 ? ?1 X i
(3)总体(真实的)回归函数Xi
(4)样本(估计的)回归函数:
Yi ? ?0 ? ?1 X i ?ui
? ? Yi ? ?0 ? ?1 X i ? ei
ui――随机误差项
ei――残差项
普通最小二乘法
对于所研究的经济问题,通常总体回归直线 E(Yi|Xi) = ?0 + ?1Xi 是 观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。
样本回归模型:
? ? ? Yi ? ?0 ? ?1 X i
? ? 或Yi ? ?0 ? ?1 X i ? ei
? ? ? 其中Yi 为Yi的估计值(拟合值); ?0 , ?1 为 ?0 , ?1 的估计值;
ei为残差,可视为ui的估计值。
如何得到一条能够较好地反映这些点变化规律 的直线呢?
200 180 160 140 120 100 80 60 40 40 80 120 160 X 200 240 280
对于参数的估计采用最小二乘估计法、最小二乘法的原则是以
“残差平方和最小” 确定直线位置(即估计参数)。(Q为残差平方 和)
样本回归模型:
? ? Yi ? ? 0 ? ?1 X i ? ei ? ? ?e ?Y ?? ?? X
? ? ? ? 则通过Q最小确定这条直线,即确定 ?0 , ?1 ,以 ?0 , ?1 为变量,
把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求 导数得到。
? (Y ? Y? )
? ? (Yi ? ? 0 ? ?1 X i ) 2 ?
? ? ? ? 则通过Q最小确定这条直线,即确定 ?0 , ?1 ,以 ?0 , ?1 为变量,
把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求 导数得到。
正规方程组
求Q对 两个待估参数 的偏导数:
? ? = 2? (Yi ? ? 0 ? ?1 X i )(?1) = 0
?Q ? ? = 2? (Yi ? ? 0 ? ?1 X i )(? X i ) = 0 ? ??1 i ?1
? ? ei ? 0 ? ?? ei X i ? 0
根据以上两个偏导方程得以下正规方程 (Normal equation) :
? ? ? n?0 ? ?1 ? X i
? ? Yi X i ? ?0 ? X i ? ?1 ? X i2 ?
? ? ? ( X i ? X )(Yi ? Y ) ? ? xi yi ?1 ( X i ? X )2 xi2 ? ?
? ? ?0 ? Y ? ?1 X
其中, X和Y分别为X、Y的均值, xi ? X i ? X)和yi ? Yi ? Y)为离差。( (
OLS回归直线的性质
(1)残差和等于零
由正规方程
? ? 2? (Yi ? ? 0 ? ?1 X i )(?1) 可得。
(2)估计的回归直线
? ? ? Yi ? ?0 ?? 1X i
(3) Yi 的拟合值的平均数等于其样本观测值的平均数
1 T ? ? Y ? ? Yi n i ?1
1 n ? ? (?0 ? ??1 X i ) n i ?1
? ? ?0 ? ?1 X
(4)Cov(ei,Xi)= 0
1 Cov(ei , X i ) = ? ( ei ? e )( X i ? X ) n
1 = ? ( ei X i ? ei X ) ? 0 n
? (5)Cov(ei, Yi )= 0
1 ? Cov(ei , Yi ) = n ? ( ei ? e )( Yi ? Y )
1 ? ? ? ( eiYi ? eiY ) n
1 ? ? ? X )?Y 1 e ? 0 ? ? ( ei ( ? 0 ? 1 i ?i n n
线性与非线性
?生产函数:
ln Q ? ln A ? ? ln K ? ? ln L
q ? ln Q, a ? ln A, k ? ln K , l ? ln L
q ? a ? ?k ? ?l
1 inftion ? a ? b unem ploymnt e 1 ? invune ?菲利普斯曲线unem ploymnt e
inftion ? a ? binvune
?拉弗曲线:
Tax ? a ? ?TR ? ? (TR) 2 Y ? (TR) 2 Tax ? a ? ?TR ? ?Y
受教育年限与平均小时工资
? Yi ? ?0.1 i X
Yt ? ?0.4( X t ? 2.5)
股票价格与利率
古董钟与拍卖价格
? ? ?15. 517 1 Yt . Xt
P ? ?191.6Agei ? ei i
问题结束了吗?
利用OLS方法得到一个样本回归模型(一 条样本回归线)后,问题结束了吗?
为什么要用普通最小二乘法? 样本回归模型有无穷多个,我们仅仅得到其中 一个,它能反映真实的总体回归模型吗? 如何用样本回归模型进行预测?
? 样本回归模型对数据的拟合程度可以接受吗?
古典线性回归模型的基本假定
假定1:解释变量是非随机的。假定2零期望假定:E(ui) = 0。E(ui|Xi) = 0。
Y E(Y|Xi) = ?0 + ?1 Xi
假定3:同方差性假定:Var(ui) = E[ui - E(ui) ]2 = E(ui2) = ? 2。
假定4:无序列相关(无自相关)假定Cov(ui, uj) = E[(ui - E(ui) ) ( uj - E(uj) )] = E(uiuj) = 0, (i ? j )。
假定5:ui服从正态分布, ui ~N(0,?2)
其他一些假定的说明:
假定6*:解释变量X与随机误差项u不相关 Cov(ui, Xi) = E[(ui - E(ui) ) (Xi - E(Xi) )] = E(ui Xi) = 0 如果X为确定性变量,该假定自然满足
假定7*:回归模型是关于参数线性的,但不一定关于变量线性。
OLS估计量的性质
? 高斯-马尔可夫定理
如果满足古典线性回归模型的基本假定(假定1-假定4), 则在所有的线性估计量中,OLS估计量是最优线性无偏估
计量(BLUE)。
线性性 无偏性 有效性
? ? ?0 , ?1 都是Yi的线性函数。
? ( X ? X )(Y ? Y ) = ?(X ? X )
? ( X ? X )Y ? Y ? ( X ? X ) ?(X ? X )
线性估计量的 处理要比非线性 估计量更为容易
? ( X ? X )Y = ? xiY i2 = ? xi ?(X ? X )
( Xi ? X ) x ? i 2 ? ( X i ? X )2 ? xi
? 代入上式,得?1
? ? ?0 ? Y ? ?1 X ? ?Yi n ? ? XkiYi ? ? ?1 / n ? Xki ? i Y
( Xi - X ) x ? i 2 ? ( X i - X )2 ? xi
? E(?1 ) =
E?[ki (?0 ? ?1 X i ? ui ]
E(? kiYi )
?0 E[? ki ? ?1 ? ki X i ? ? kiui ]
?1E?[ki ( X i ? X )] ? E?(kiui )
?1 ? ? ki E(ui ) = ?1
? E(?1 ) =?1
~ E(?1 ) ??1
无偏估计量 有偏估计量
? 最小方差性与有效性
OLS估计量的方差比其他线性无偏估计量的方差都小。
? 一致性(了解)
? f (?1 ), n ? 200
概 率 密 度
? f (?1 ), n ? 150
? f (?1 ), n ? 100
? f (?1 ), n ? 50
? OLS估计量的方差
为什么要估计方差?
方差反映了数据的离散程度和估计结果的精确性。
受教育年限与每小时工资
? Yi ? ?0.1 i X
? ? ? Var(?1 ) ? E[?1 ? E (?1 )]2 ? E[? ki ui ]2
? E(uiu j ) ? 0
(i ? j) , E(ui2 ) ? ? 2 ,
? ?Var(?1 ) ? ? ki2ui2 ? ? 2 ? ki2 ?
? ? s( ?1 ) ? Var ( ?1 ) ?
? 对于?0:
? ?Y ?? X ? 1 Y ?? X ? ?0 ? i ?1 1 n 1 ? ? ? ( ? 0 ? ?1 X i ? ui ) ? ?1 X n
? ? ( ?1 ? ?1 ) X ? X ? k i ui
标准误( ? 0 ) se ? ? Var ( ? 0 ) ? ? n? x i2 X i2 ?
? Var( ? 0 ) ? E[(
? X ? ki ui ) ]
1 X ?( ? )? 2 ? ? 2 n ? x i2 n? x i2
? ?2的估计
Var(Yi ) ? Var(?0 ? ?1 X i ? ui ) ? Var(ui ) ? ? 2
总体(随机误差项)真实方差?2的估计量:
ui2 ?? n?2
( ? xi yi )2 xi2 ?
? ? ei2 ? ? ( Yi ? Yi )2 ?? yi2 ? ?12 ? xi2 ? ? yi2 ? ?
OLS估计量的概率分布
概率分布是进行假设检验的前提 受教育年限与每小时工资
? Yi ? ?0.1 i X
如果受教育年限的单位为月
? Yi ? ?0.0144? (0.X i ) ? ?0.3 i Z
如果受教育年限的单位为日
? Yi ? ?0.0144 ? (0.)(365X i ) ? ?0.0144 ? 0.0020Ti
假定7:ui 服从正态分布,即ui ? N (0, ? 2 )。
Yi=?0 + ?1 Xi + ui,所以Yi ~ N(?0 + ?1 Xi , ? 2 )
? E ( ?1 ) ? ?1
? E(?0 ) ? ?0
? Var(?1 ) ?
? Var ( ? 0 ) ? ?
? (2) ? 0 的期望
? ? 1 服从
? (1)?1 的方差
? (2) ? 0 的方差
? ? 0 服从
N( ? 0 , n x 2 ) ? i
? 2 ? X i2
假设检验与置信区间1
? 假设检验
受教育年限与每小时工资
Yi ? ?0 ? ?1 X i ? ui
零假设与备择假设 H0:?1=0 构造统计量
Z? ? ?1 ? ?1
? ?1 ~ N ( ?1 ,
? Z检验与t检验
? ?1 ~ N ( ?1 ,
? ?0 ~ N (?0 ,
? 2 ? X i2
? ? 2 ? X i2 n? xi2
? ?1 ? ?1 ? S ?1
? ?1 ? ?1 ? ?
~ t (n ? 2)
~ N (0,1) t ?
? ?0 ? ?0 ? S ?0
~ t (n ? 2)
?显著性检验(t 检验)的基本步骤
Yi ? ?0 ? ?1 X i ?ui
首先,提出原假设和备择假设H0?1 ? 0 其次,确定并计算统计量H1?1 ? 0
最后,给定显著性水平,查自由度为 t-2 的t分布表。则, 如果
t ? t? / 2 (n ? 2) t ? t? / 2 (n ? 2)
不能拒绝H0:?1=0,认为X对Y没有显著影响。
拒绝H0 :?1=0 ,认为X对Y有显著影响。
同理,可对?0 进行显著性检验。
-t0.025 0 t0.025
受教育年限与每小时工资
? Yi ? ?0.1 i X
? ? 2 ? X i2 n? x
? 0.875 S ? ? ?
? ?1 ? ?1 S ??
0.7241? 0 ? ? 10.406 0.070
? 0.0144? 0 ? ? ?0.017 0.875
-2.201 0 2.201
? ?0 ? ?0 S ??
股票价格与利率
? ? ?15. 517 1 Yt . Xt
? ? 2 ? X i2 n? x
? 181.555 S ? ? ?
? ?1 ? ?1 S ??
? 0 . ? ? 2.606
? 15.6035? 0 ? ? ?0.086 181.555
? ?0 ? ?0 S ??
其他零假设检验
Yt ? ?0.4( X t ? 2.5)
Yt ? ?0.213X t ? 0.007
H0:?1=-0.4
? ?1 ? ?1 S ??
? 0.213? (?0.4) ? ? 1.585 0.118
? 对于双变量模型,自由度总为(n-2) ? 经验分析中,常用的?有1%、5%和10%。
为了避免显著水平选择的随意性,通常要给
双 侧 检 验
p值&0.05,接受原假设
-t0.025 0 t t0.025 t(n-2)
p/2 -t0.025 0 t0.025 t t(n-2)
p值&0.05,拒绝原假设
? 置信区间
? ?1 ? ?1 ? t P{ ?/2 (n-2) } = 1- ? s ??
-t?/2 (n-2)
t?/2 (n-2)
? ? P ?1 ? S ?? t ? / 2 (n ? 2) ? ?1 ? ?1 ? S ?? t ? / 2 (n ? 2) ? 1 ? ?
由大括号内不等式表示置信水平为1-α时?1的置信区间:
? ? ?1 ? ?1 ? S ?? t ? / 2 (n ? 2), ?1 ? S ?? t ? / 2 (n ? 2)
同理,可求得
? 0 的置信区间为:
? ? ? 0 ? ? 0 ? S ?? t ? / 2 (n ? 2), ? 0 ? S ?? t ? / 2 (n ? 2)
受教育年限与每小时工资
? Yi ? ?0.1 i X
? ? ?1 ? ?1 ? S ?? t ? / 2 (n ? 2), ?1 ? S ?? t ? / 2 (n ? 2)
S ?? ? 0.875
S ?? ? 0.070
? ? ?0. ? 2.201 0. ? 2.201 , ? {0.2 , }
? {?1.5 , }
? ?0 ? ?? 0.? 2.201 ? 0.? 2.201 ,
通过置信区间,可以直接对H0:?1=0进行检验吗?
股票价格与利率
? ? ?15. 517 1 Yt . Xt
S ?? ? 181.555
S ? ? 1000085 . ?
? ?1 ? ?2606.52 ? .101 2606.52 ? .101 . ,
? {505.33, 4707.71 }
? ?0 ? ?? 15.60 ? 181.56? 2.201 ? 15.60 ? 181.56? 2.201 ,
? {???, ? ??}
拟合优度与可决系数
离差平方和的分解
拟合优度:是指回归直线对观测值的拟合程度。显然,若观测值离回归直
线近,则拟合优度好,反之,则拟合优度差,度量拟合优度的
统计量是可决系数。
? 离差平方和的分解
? ? Y i?Y = Y i?Y + Y i ?Yi
总离差 = 回归差 + 残差
回归差:由样本回归直线解释的部分 残差:不能由样本回归直线解释的部分
. ... .. . .
? ? ? Yi ? ?0 ? ?1 X i
? ? (Y i?Y ) 2 ? ? (Y i?Yi ) 2 ? ? (Yi ? Y ) 2 ?
(Y i?Y )2 ?
(Y i?Yi ? Yi ? Y ) 2 ? ? ?
? ? ? (Y i?Yi ) 2 ? ? (Yi ? Y ) 2 ? 2? (Y i?Yi )(Yi ? Y ) ? ?
? (Y i?Y?i )(Y?i ? Y )
? ? (Y ?Y? )?? ( X =
? ? ? ? ? ?1 ? (Y i?Yi ) X i ? ?1 X ? (Y i?Yi ) ? ? ? ?1 ? ei X i ? ?1 X ? ei = 0
? ? (Y i?Y ) 2 ? ? (Y i?Yi ) 2 ? ? (Yi ? Y ) 2 ?
+ 残差平方和
总离差平方和
回归平方和
? 可决系数
?i2 ? ? ei2 ?y ??y
回归平方和在总离差平方和中所占的比重越大,说明样本回归直线
对样本值拟合的程度越好。因此,用来表示拟合优度的样本可决系
数定义为:
(Yi ? Y ) 2 ? ?
? (Y ? Y )
yi2 ?? yi2 ?
RSS ESS = 1? TSS TSS
R2 的取值范围是 [0,1]。对于一组数据,TSS是不变,所以ESS↑(↓),RSS↓(↑)
表明解释变量X与被解释变量Y之间不存在线性关系;
R2=1时 表明样本回归线与样本值重合,这种情况极少发生;
一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。
?12 xi 2 ??
? 2 ? xi ?1 2 yi ?
= ? xi2 ? yi 2
(? xi yi ) 2
相关系数与可决系数的关系
(1)样本相关系数是建立在相关分析的基础之上的,研究的是 随机变量之间的关系;可决系数则是建立在回归分析基础上,研 究的是非随机变量X对随机变量Y的解释程度。
(2)取值上,可决系数是样本相关系数的平方。
(3)样本相关系数是由随机的X和Y抽样计算得到,因而相关
关系是否显著,还需进行检验。
可决系数 就模型而言 说明解释变量对应变量的 解释程度 取值:[0,1]
相关系数 就两个变量而言 度量两个变量线性依存程 度。取值:[-1,1]
一元线性回归方程的预测
点预测Yi 区间预测 (1)单个值Yi的区间预测 (2)均值E(Yi)的区间预测
如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显 著不为0,则可以用回归方程进行预测。预测分为点预测和区间预测。
? ? ? 假设XF为解释变量的一个已知点,则带入样本回归方程 Yt ? ?0 ? ?1 X i
即可得到YF的估计值:
? ? ? YF ? ?0 ? ?1 X F
2、区间预测
估计值 Y 是一个点预测值,它可以是(1)总体真值YF的预测值; ?
? 也可以是(2)总体回归线E(YF|XF)的预测值。现在根据 YF 来对(1)
(2)进行区间预测。
(1)条件期望E(Y0|X0)的预测区间
E(YF|XF) 的预测区间是:
? ( X F ? X )2 1 ? YF ? t? /2 (n ? 2)? ? n ? ( X i ? X )2
YF的预测区间是:
? ( X F ? X )2 1 ? YF ? t? /2 (n ? 2)? 1 ? ? n ? ( X i ? X )2
各种预测值的关系
Y均值的置信区间
Y的个别值的置信区间
当X F ? X时,置信区间最小
????????????????????}

我要回帖

更多关于 excel求回归方程 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信