高数,微积分。圆珠笔画处,不应该是Ed嘛?怎么也是Ep?Q对p和p对Q两个弹性相等嘛?

自考高数经管类概率论与数理统计课堂笔记2
虽然是自考的题目,但是建议各位同学可以仔细读一读这个文件,汇总的各种题目都是很好的。
1.其后跟的是对应word文件版本的超级链接,
2.下面是我把word中第五章以后的复制到本页面的样式,你可以直接在这里读。
第五章&&&&&&
大数定律及中心极限定理
  概率统计是研究随机变量统计规律性的数学学科,而随机现象的规律只有在对大量随机现象的考察中才能显现出来。研究大量随机现象的统计规律,常常采用极限定理的形式去刻画,由此导致对极限定理进行研究。极限定理的内容非常广泛,本章中主要介绍大数定律与中心极限定理。
  5.1 切比雪夫Chebyshev不等式
  一个随机变量离差平方的数学期望就是它的方差,而方差又是用来描述随机变量取值的分散程度的。下面我们研究随机变量的离差与方差之间的关系式。
定理5-1(切比雪夫不等式)设随机变量X的期望E(X)及方差D(X)存在,则对
任意小正数ε&0,有:
  [例5-1]设X是抛掷一枚骰子所出现的点数,若给定ε=2,2.5,实际计算P{|X-E(X)|≥ε},并验证切比雪夫不等式成立。
  解 X的分布律为
  当ε=2时,
  当ε=2.5时,
  可见,切比雪夫不等式成立。
  [例5-2]设电站供电网有10
000盏灯,夜晚每一盏灯开灯的概率都是0.7,而假定所有电灯开或关是彼此独立的。试用切比雪夫不等式估计夜晚同时开着的灯数在6
800~7 200的概率。
  解:设X表示在夜晚同时开着的电灯的数目,它服从参数n=10 000,p=0.7的二项分布。于是有
  E(X)=np=10 000&0.7=7 000,
  D(X)=npq=10 000&0.7&0.3=2100,
  P{6 800&X&7
200}=P{|X-}≥1-
  可见,虽然有10 000盏灯,但是只要有供应7 000盏灯的电力就能够以相当大的概率保证够用。
  [例5-3补充] 用切比雪夫不等式估计
  可见,随机变量X取值与期望EX的差的绝对值大于其均方差 的三倍的可能性极小。
  5.2 大数定律
  在第一章中曾经提到过,事件发生的频率具有稳定性,即随着试验次数增多,事件发生的频率将逐渐稳定于一个确定的常数值附近。另外,人们在实践中还认识到大量测量值的算术平均值也具有稳定性,即平均结果的稳定性。大数定律以严格的数学形式表示证明了在一定的条件下,大量重复出现的随机现象呈现的统计规律性,即频率的稳定性与平均结果的稳定性。
  5.2.1 贝努利大数定律
定理5-2 设m是n次独立重复试验中事件A发生的次数,p是事件A的概率,则对任意
正数ε,有
  贝努利大数定律说明,在大量试验同一事件A时,事件A的概率是A的频率的稳定值。
  5.2.2 独立同分布随机变量序列的切比雪夫大数定律
  先介绍独立同分布随机变量序列的概念。
  称随机变量序列X1,X2,…Xn,…是相互独立的,若对任意的n&1,X1,X2,…Xn是相互独立的。此时,若所有的Xi又具有相同的分布,则称X1,X2,…Xn,…是独立同分布随机变量序列。
定理5-3 设X1,X2,…Xn,…是独立同分布随机变量序列E(Xi)=μ,D(Xi)=σ2
(i=1,2…)均存在,则对于任意ε&0有
  这一定理说明:经过算术平均后得到的随机变量在统计上
具有一种稳定性,它的取值将比较紧密聚集在它的期望附近。这正是大数定律的含义。在概率论中,大数定律是随机现象的统计稳定性的深刻描述;同时,也是数理统计的重要理论基础。
  5.3 中心极限定理
  5.3.1独立同分布序列的中心极限定理
定理5-4 设X1,X2,…Xn,…是独立同分布的随机变量序列,且具有相同数学期望和
方差E(Xi)=μ,D(Xi)=σ2(i=1,2,…)。记随机变量
的分布函数为Fn(x),则对于任意实数x,有
其中φ(x)为标准正态分布函数。
  由这一定理知道下列结论:
  (1)当n充分大时,独立同分布的随机变量之和
的分布近似于正态分布N(nμ,nσ2)。我们知道,n个独立同分布的正态随机变量之和服从正态分布。中心极限定理进一步告诉我们。
不论X1,X2,…Xn,…独立同服从什么分布,当n充分大时,其和Zn近似服从正态分布。
  (2)考虑X1,X2,…Xn,…的平均值,有
  它的标准化随机变量为 ,即为上述Yn。因此
的分布函数即是上述的Fn(x),因而有
  由此可见,
当n充分大时,独立同分布随机变量的平均值 的分布近似于正态分布
 [例5-3]对敌人的防御地段进行100次射击,每次射击时命中目标的炮弹数是一个随机变量,其数学期望为2,均方差为1.5,求在100次射击中有180颗到220颗炮弹命中目标的概率。
  解 设Xi为第i次射击时命中目标的炮弹数(i=1,2,…,100),则
为100次射击中命中目标的炮弹总数,而且X1,X2,…X100同分布且相互独立。
  由定理5-4可知,随机变量 近似服从标准正态分布,故有
          
  [例5-4]某种电器元件的寿命服从均值为100(单位:小时)的指数分布。现随机抽出16只,设它们的寿命是相互独立的,求这16只元件的寿命的总和大于1
920小时的概率。
  解 设第i只电器元件的寿命为Xi=(i=1,2,…16),
  E(Xi)=100,D(Xi)=1002=10
  则 是这16只元件的寿命的总和。
  E(Y)=100&16=1 600,D(Y)= 160 000,
  则所求概率为:
       
  5.3.2 棣莫弗(De
Moivre)-拉普拉斯(Laplace)中心极限定理
  下面介绍另一个中心极限定理,它是定理5-4的特殊情况。
定理5-5(棣莫弗-拉普拉斯中心极限定理)设随机变量Zn是n次独立重复试验中
事件A发生的次数,p是事件A发生的概率,则对于任意实数x
  其中q=1-p,φ(x)为标准正态分布函数。
  由棣莫弗-拉普拉斯中心极限定理得到下列结论:
  (1)在贝努利试验中,若事件A发生的概率为p。又设Zn为n次独立重复试验中事件A发生的频数,则当n充分大时,Zn近似服从正态分布N(np,npq)。
  (2)在贝努利试验中,若事件中A发生的概率为p, 为n次独立重复试验中事件A发生的频率,则当n充分大时, 近似服从正态分布
  【例5-5】用中心极限定理得到求解5.1例5-2的概率。
  解 设同时开着的灯数为X,则
  X-B(),np==7000,
           
  【例5-6】设某单位内部有1000台电话分机,每台分机有5%的时间使用外线通话,假定各个分机是否使用外线是相互独立的,该单位总机至少需要安装多少条外线,才能以95%以上的概率保证每台分机需要使用外线时不被占用?
  解:把观察每一台分机是否使用外线作为一次试验,则各次试验相互独立,设X为1000台分机中同时使用外线的分机数,则
  X~B(),
  np==50,
  根据题意,设N为满足条件的最小正整数
        
  由于φ(-7.255)≈0,故有
  查标准正态分布表得φ(1.65)=0.9505,
  即该单位总机至少需要62条外线,才能以95%以上的概率保证每台分机在使用外线时不被占用。
  小结 本章考核要求
  (一)知道切比雪夫不等式
  并且会用切比雪夫不等式估计事件|X-EX|≥ε或|X-EX|&ε的概率。
  (二)知道贝努利大数定律
  其中n是试验次数,m是A发生次数,p是A的概率,它说明试验次数很多时,频率近似于概率。
  (三)知道切比雪夫不等式大数定律
  它说明在大量试验中,随机变量 取值稳定在期望附近。
  (四)知道独立同分布中心极限定理
  记Yn~Fn(x),则有
  它说明当n很大时,独立同分布的随机变量之和
近似服从正态N(nμ,nσ2)所以,无论n个独立同分布的X1,X2,…Xn服从何种分布,n很大时,X1+X2+…Xn却近似正态N(nμ,nσ2).
  (五)知道棣莫弗—拉普拉斯中心极限定理
  若Zn表示n次独立重复事件发生次数,即
  Zn~B(n,p),则有
  即Zn近似正态N(np,np(1-p)2)。并会用中心极限定理计算简单应用问题。
  本章作业
  习题5.1:1,2,3,4
  习题5.3:1,2,3,4,5,7
  教材124页,自测题5
  一、1,2,3
  二、填空题1,2,3,4,5
第六章&&&&&&
统计量及其抽样分布
  6.1 总体与样本
  6.1.1 总体与个体
  在一个统计问题中,我们把研究对象的全体称为总体,构成总体的每个成员称为个体。对多数实际问题。总体中的个体是一些实在的人或物。比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每个学生有许多特征:性别、年龄、身高、体重、民族、籍贯等。而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不予以考虑。这样,每个学生(个体)所具有的数量指标值——身高就是个体,而将所有身高全体看成总体。这样一来,若抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现的机会多,有的出现的机会少,因此用一个概率分布去描述和归纳总体是恰当的。从这个意义上看,总体就是一个分布,而其数量指标就是服从这个分布的随机变量。以后说“从总体中抽样”与“从某分布中抽样”是同一个意思。
  [例6-1]考察某厂的产品质量,将其产品只分为合格品与不合格品,并以0记合格品,以1记不合格品,则
  总体={该厂生产的全部合格品与不合格品}={由0或1组成的一堆数}。
  若以p表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:
  不同的p反映了总体间的差异。例如,两个生产同类产品的工厂的产品总体分布为:
  我们可以看到,第一个工厂的产品质量优于第二个工厂。
  实际中,分布中的不合格品率是未知的,如何对之进行估计是统计学要研究的问题。
  6.1.2 样本
  为了了解总体的分布,我们从总体中随机地抽取n个个体,记其指标值为x1,x2,…,xn,则x1,x2,…,xn称为总体的一个样本,n称为样本容量,或简称样本量,样本中的个体称为样品。
  我们首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2,…,Xn表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值。此时用小写字母x1,x2,…,xn表示是恰当的。简单起见,无论是样本还是其观测值,本书中样本一般均用x1,x2,…,xn表示,读者应能从上下文中加以区别。
  [例6-2]啤酒厂生产的瓶装啤酒规定净含量为640g,,由于随机性,事实上不可能使得所有的啤酒净含量均为640g
,现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果:
   641  635  640  637  642  638  645  643  639  640
  这是一个容量为10的样本的观测值。对应的总体为该厂生产的瓶装啤酒的净含量。
  从总体中抽取样本时,为使样本具有代表性,抽样必须是随机抽样。通常可以用随机数表来实现随机抽样。还要求抽样必须是独立的,即每次的结果互不影响。在概率论中,在有限总体(只有有限个个体的总体)中进行有放回抽样,是独立的随机抽样;然而,若为不放回抽样,则是不独立的抽样。但
  当总体容量N很大但样本容量n较小 时,不放回抽样可以近似地看做放回抽样,即可近似看做独立随机抽样。
  下面,我们假定抽样方式总满足独立随机抽样的条件。
  从总体中抽取样本可以有不同的抽法,为了能由样本对总体做出较可靠的推断,就希望样本能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的
  “简单随机抽样”有如下两个要求:
  (1)样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一样品xi与总体X有相同的分布。
  (2)样本要有独立性,即要求样本中每一样品的取值不影响其他样品的取值,这意味着x1,x2,…,xn相互独立。
  用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。除非特别指明,本书中的样本皆为简单随机样本。
  于是,样本x1,x2,…,xn可以看成是相互独立的具有同一分布的随机变量,其共同分布即为总体分布。
  设总体X具有分布函数F(x),
x1,x2,…,xn为取自该总体的容量为n的样本,则样本联合分布函数为:
  若总体具有密度函数f(x),则样本的联合密度函数为
  若总体X为离散型随机变量,则样本的(联合)概率函数为
  显然,通常说的样本分布是指多维随机变量(x1,x2,…,xn)的联合分布。
  [例6-3]为估计一物件的重量μ,用一架天平重复测量n次,得样本x1,x2,…,xn,由于是独立重复测量,x1,x2,…,xn是简单随机样本。总体的分布即x1的分布(x1,x2,…,xn分布相同)。由于称量误差是均值(期望)为零的正态变量,所以x1可认为服从正态分布N(μ,σ2)(X1等于物件重量μ)加上称量误差,即x1的概率密度为
  这样,样本分布密度为
  [例6-4]设某种电灯泡的寿命X服从指数分布E(λ),其概率密度为:
  则来自这一总体的简单随机样本x1,x2,…,xn的样本分布密度为
  [例6-5]考虑电话交换台一小时内的呼唤次数X。求来自这一总体的简单随机样本x1,x2,…,xn的样本分布。
  解 由概率论知识,X服从泊松分布P(λ),其概率函数
  (其中x是非负整数{0,1,2,…,k,…}中的一个)。从而,简单随机样本x1,x2,…,xn的样本分布为:
        
  6.2 统计量及其分布
  6.2.1 统计量与抽样分布
  样本来自总体,样本的观测值中含有总体各方面的信息,但这些信息较为分散,有时显得杂乱无章。为将这些分散在样本中有关总体的信息集中起来以反映总体的各种特征,需要对样本进行加工。最常用的加工方法是构造样本的函数,不同的函数反映总体的不同特征。
  定义6-1
设x1,x2,…,xn为取自某总体的样本,若样本函数T=T(x1,x2,…,xn)中不含有任何未知参数,则称T为统计量。统计量的分布称为抽样分布。
  按照这一定义,若x1,x2,…,xn为样本,则 ,
都是统计量,而当μ,σ2未知时, , 等均不是统计量。
  6.2.2 样本均值及其抽样分布
  定义6-2
设x1,x2,…,xn为取自某总体的样本,其算术平均值称为样本均值,一般用
  表示,即 。
  [例6-6] 某单位收集到20名青年人某月的娱乐支出费用数据:
  79  84  84 88  92  93  94  97  98  99
  100  101 101 102 102 108 110 113 118 125
  则该月这20名青年的平均娱乐支出为
  对于样本均值 的抽样分布,我们有下面的定理。
  定理6-1 设x1,x2,…,xn是来自某个总体X的样本,
为样本均值。
  (1)若总体分布为N(μσ2),则 的精确分布为 ;
  (2)若总体X分布未知(或不是正态分布),且E(X)=μ,D(X)=σ2,则当样本容量n较大时,
的渐近分布为 ,这里的渐近分布是指n较大时的近似分布。
  证明 (1)由于 为独立正态变量线性组合,故 仍服从正态分布。另外,
  故  
  (2)易知 为独立、同分布的随机变量之和,且  
  由中心极限定理,  
  其中Φ(x)为标准正态分布。这表明n较大时 的渐近分布为 。
  6.2.3 样本方差与样本标准差
定义6-3 设x1,x2,…,xn为取自某总体的样本,则它关于样本均值
的平均偏差平方和
称为样本方差,其算术根
称为样本标准差。相对样本方差而言,样本标准差通常更有实际意义,因为它与样本均值具有相同的度量单位。
  在上面定义中,n为样本容量, 称为偏差平方和,
  它有3个不同的表达式:
  事实上,
        ,
  偏差平方和的这3个表达式都可用来计算样本方差。
  [例6-7] 在例6-6中,我们已经算得 ,其样本方差与样本标准差为
  方法二 
  ∴s=11.57 31
  通常用第二种方法计算s2方便许多。
  下面的定理给出样本均值的数学期望和方差以及样本方差的数学期望,它不依赖于总体的分布形式。这些结果在后面的讨论中是有用的。
定理6-2 设总体X具有二阶矩,即
  E(x)=μ,D(X)=σ2&+∞
  x1,x2,…,xn为从该总体得到的样本,
和s2分别是样本均值和样本方差,则
   此定理表明,样本均值的均值与总体均值相同,而样本均值的方差是总体方差的 。
  证明 由于
  故(6.3.3)式成立。下证(6.3.4),注意到
  ,而  
  于是  
  两边各除以n-1,即得(6.3.4)式。
  值得读者注意的是:本定理的结论与总体服从什么分布无关。
  6.2.4 样本矩及其函数
  样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。
定义6-4 设x1,x2,…,xn是样本,则统计量
  称为样本k阶原点矩,特别地,样本一阶原点矩就是样本均值。统计量
称为样本k阶中心矩。常见的是k=2的场合,此时称为二阶样本中心矩。本书中我们将其记为sn2,以区别样本方差S2。
  6.2.5 极大顺序统计量和极小顺序统计量
定义6-5 设总体X具有分布函数F(x),分布密度f(x),
x1,x2,…,xn
为其样本,我们分别称
  X(1)=min{x1,x2,…xn},x(n)=max{x1,x2,…xn}为极小顺序统计量和极大顺序统计量。
  定理6-3 若x(1),x(n)分别为极小、极大顺序统计量,则
  (1)x(1)的分布函数F1(x)=1-(1-F(x))n,x(1)的分布密度f1(x)=n-(1-F(x))n-1&f(x)
  (2)x(n)的分布函数Fn(x)=[F(x)]n,x(n)的分布密度fn(x)=n[F(x)]n-1f(x)
先求出x(1)及x(n)的分布函数F1(x)及Fn(x):
  分别对F1(x),Fn(x)求导即得
  6.2.6 正态总体的抽样分布
  有很多统计推断是基于正态总体的假设的,以标准正态变量为基石而构造的三个著名统计量(其抽样分布分别为x2分布,t分布和F分布)在实践中有着广泛的应用。这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有“明确的表达式”,它们被称为统计中的“三大抽样分布”。
  1. x2分布(卡方分布)
定义6-6 设X1,X2,…,Xn独立同分布于标准正态分布N(0,1),
  则x2=x12+…xn2的分布称为自由度为n的x2分布,记为x2~
  x2(n)分布的密度函数见图6-4
  当随机变量x2~
x2(n)时,对给定的α(0&α&1),称满足p{x2&xα2(n)}=
α的xα2(n)}是自由度为n的开方分布的α分位数。分位数xα2(n)}可以从附表4中查到。例如n=10,α=0.05,那么从附表4中查得x2(10)=18.307
  p(x)2&x20.05(10)=p{x2&18.307=0.05
  注:请读者注意x2~x2(n)时,n是自由度,不是容量。
  2.F分布
设x1~x2(m),x2~x2(n)X1与X2独立,则称
的分布是自由度
  为m与n的F分布,记为F~F(m,n),其中m称为分子自由度,n称为分母自由度。
  自由度为m与n的F分布的密度函数的图像是一个只取非负值的偏态分布(见图6-5)。
  当随机变量F~F(m,n)时,对给定的α(0&α&1),称满足P{F&Fα}(m,n)=α的数Fα(m,n)是自由度为m与n的F分布的α分位数。
  当F~F(m,n)时,有下面性质(不证)
  这说明
   (6.3.8)
  对小的α,分位为Fα(m,n)可以从附表5中查到,而分位数F1-α(m,n)则可通过(6.3.8)式得到。
  【例6-8】若取m=10,则n=5,α=0.05,那么从附表5上(m=n1,n=n2)查得
  F0.05(10,5)=4.74
  利用(6.3.8 )式可得到
  3.t分布
设随机变量与X1与X2独立且X1~N(0,1),X2~X2(n),
则称 的分布为自由度为n的t的分布,记为t~t(n).
  t分布密度函数的图像是一个关于纵轴对称的分布(图6-6),与标准正态分布的密度函数形态类似,只是峰比标准正态分布低一些,尾部的概率比标准正态分布的大一些。
  图6-6 t分布与N(0,1)的密度函数
  当随机变量t~t(n)时,称满足P{t&tα(n)}=α的tα(n)是自由度为n的t分布的α分位数,分位数tα(n)可以从附表3中查到,例如当n=10,
α=0.05时,从附表3上查得
  t0.05(10)=1.8125
  由于t分布的密度函数关于0对称,故其分位数有如下关系:
  t1-α(n)=- tα(n)
  例如,
  t0.95(10)=-t0.05(10)=-1.8125
  当n很大时,(n≥30),t分布可以用N(0,1)近似
  P(t&-tα)=1-α,p(t&t1-α)=1-α,∴t1-α=-tα
  4.一些重要结论
  来自一般正态总体的样本均值 和样本方差S2的抽样分布是应用最广的抽样分布,下面我们加以介绍。
设X&1,X2,…Xn是来自正态总体N(μ,σ2)的样本,
其样本均值和样本方差分别为:
  (1) 与s2相互独立;
  特别,若 (不证)
  推论:设,σ21=σ22=σ2并记
   (不证)
  本章小结
  本章的基本要求是
  (一)知道总体、样本、简单样本和统计量的概念
  (二)知道统计量 和s2的下列性质。
  E(s2)=σ2
  (三)若x的分布函数为F(x),分布函数为f(x),则样本(x1,x2,…xn)的联合分布函数为F(x1)F(x2)…F(xn)样本(x1,x2,…xn)的联合分布密度为f(x1)
f(x2)…f(xn),样本(x1,x2,…xn)的概率函数,p(x1,x
,…xn)=p(X=x1)p(X=x2)…p(X=xn)因而顺序统计量x(1),…x
  X(1)的分布函数为1-(1-F(x))n
  X(n)的分布函数为[F(x)]n
  (四)掌握正态总体的抽样分布
  若X~N(μ,σ2)则有
  (4)若
  当 时, 。
  (五)知道样本原点矩与样本中心矩的概念
  本章作业
  教材142页,习题6.3
  1.3.5.6.7.8.9.10.11
  自测题6
  一,1.2.3.4.5.6
第七章&&&&&&
  从本章开始我们介绍统计推断,所谓统计推断就是由样本推断总体,统计推断包括参数估计和假设检验两部分,它们是统计推断最基本而且是互相有联系的两部分,本章介绍统计推断的第一部分参数估计。
  参数通常指总体分布中的特征值 和 和各种分布中的参数,例如二点分布B(1,P)中的p,泊松分布P( )中的 ,正态分布N( 、
)的 、 等,习惯用 表示参数,通常参数 是未知的。
  参数估计的形式有两类,设x1,x2,…,xn是来自总体的样本。我们用一个统计量
的取值作为参数 的估计值,则 称为 的点估计(量),就是参数 的点估计,如果对参数
的估计需要对估计作出可靠性判断,就需要对这一可靠性给出可靠性区间或置信区间,叫区间估计。
  下面首先介绍点估计 
  7.1 点估计的几种方法
  直接用来估计未知参数 的统计量 称为参数 的点估计量,简称为点估计,人们可以运用各种方法构造出很多
的估计,本节介绍两种最常用的点估计方法。它们是:矩法和极大似然法。
  7.1.1 替换原理和矩法估计
  用下面公式表示 的方法叫矩法
  例7-1 对某型号的20辆汽车记录每5L汽油的行驶里程(km),观测数据如下:
  29.8 27.6 28.3 27.9 30.1 28.7 29.9 28.0 27.9 28.7
  28.4 27.2 29.5 28.5 28.0 30.0 29.1 29.8 29.6 26.9
  这是一个容量为20的样本观测值,对应总体是该型号汽车每5L汽油的行驶里程,其分布形式尚不清楚,可用矩法估计其均值,方差,本例中经计算有
   =28.695, =0.9185
  由此给出总体均值,方差的估计分别为即
  矩法估计的统计思想(替换原理)十分简单明确,众人都能接受,使用场合甚广。
  例7-2 设总体为指数分布,其密度函数为
  x1,…,xn是样本,由于 ,亦即 ,故 的矩法估计为
  例7-3 设x1,…,xn是来自服从区间(0, )上的均匀分布 的样本,
>0为未知参数。求 的矩估计 。
  解:易知总体X的均值为
  由矩法 的矩估计为
  比如,若样本值为0.1,0.7,0.2,1,1.9,1.3,1.8,则 的估计值
   =2& (0.1+0.7+0.2+1+1.9+1.3+1.8)=2
  例7-4 在一批产品取样n件,发现其中有m件次品,试用此样本求该批产品的次品率p的矩估计。
  解:因为
  例如抽样总数n=100,其中次品m=5.
  例7-5 电话总机在一分钟间隔内接到呼唤次数X~P( )。观察一分种接到呼唤次数共观察40次,结果如下
接到呼唤次数
  求未知参数 的矩估计
  解:(1)∵X~P( )
   ∴EX=
   由矩法
  (2)计算 (0&5+1&10+2&12+3&8+4&3+5&2)=2
   ∴ =2
  7.1.2 极大似然估计
  为了叙述极大似然原理的直观想法,先看例7-6
  例7-6 设有外表完全相同的两个箱子,甲箱中有99个白球和1个黑球,乙箱中有99个黑球和1个白球,现随机地抽取一箱,并从中随机抽取一球,结果取得白球,问这球是从哪一个箱子中取出的?
  解:不管是哪一个箱子,从箱子中任取一球都有两个可能的结果:A表示取出白球,B表示取出黑球,如果我们取出的是甲箱,则A发生的概率为0.99,而如果取出的是乙箱,则A发生的概率为0.01,现在一次试验中结果A发生了,人们的第一印象就是:“此白球(A)最像从甲箱取出的”,或者是说,应该认为试验条件对事件A出现有利,从而可以推断这球是从甲箱中取出的,这个推断很符合人们的经验事实,这里“最像”就是“极大似然”之意。
  本例中假设的数据很极端,一般地,我们可以这样设想,在两个箱子中各有100个球,甲箱中白球的比例是P1,乙箱中白球的比例是P2,已知P1>
P2,现随机地抽取一个箱子并从中抽取一球,假定取到的是白球,如果我们要在两个箱子中进行选择,由于甲箱中白球的比例高于乙箱,根据极大似然原理,我们应该推断该球来自甲箱。
  下面分别给出离散型随机变量和连续型随机变量的极大似然估计求未知参数 的估计 的步骤
(一)离散型随机变量
第一步,从总体X取出样本x1,x2,…,xn
第二步,构造似然函数
L(x1,x2,…,xn,
)=P(X=x1)P(X=x2)…P(X=xn)
第三步,计算ln L(x1,x2,…,xn, )并化简
第四步,当 = 时ln L(x1,x2,…,xn, )取最大值则取
常用方法是微积分求最值的方法。
(二)连续型随机变量
若X~f(x, )
第一步 从总体X取出样本x1,x2,…,xn
第二步 构造似然函数
L(x1,x2,…,xn, )=f(x1,
)f(x2, )…f(xn, )
第三步 计算ln L(x1,x2,…,xn, )并化简
第四步 当 = 时ln L(x1,x2,…,xn, )取最大值则取
常用方法是微积分求最值的方法
  例7-7 设总体X~B(1,P)即
  设P(A)=
,从总体X中抽样x1,x2,…,xn,问最大似然法求
  解:当X~B(1,P)时,应有   
  ∴P(X=1)=P,P(X=0)=1-P
  第一步 构造似然函数
  L(x1,x2,…,xn,P)=P(X=x1)P(X=x2)…P(X=xn)
  第二步 计算ln
L(x1,x2,…,xn,P)并化简
  =(x1+…+xn)lnp+(n-(x1+…+xn)ln(1-p)
  第三步 求
  ∴驻点为
  化简为(x1+…+xn)(1-p)=p[n-(x1+…+xn)]
  ∴(x1+…+xn)=np
  ∴驻点
  因为只有一个驻点
  ∴ 是最大点
  例抽样n次A发生m次,则在x1,x2…xn中有m个1,其余为0,
  例7-8 (1)设总体X服从泊松分布p( ),求 的极大似然估计;(2)设总体X服从指数分布E( ),求
的极大似然估计
  解:(1)∵X~P( )
   ∴p(X=k)= 从总体X中取样本x1
,x2…xn。
  ∴驻点
  解得 的极大似然估计
  易知 的矩估计亦为
  (2)∵X~E( )
  第一步,从中取样本值x1
,x2…xn,应有x1>0,x2>0…xn>0
  ∴似然函数L(x1
,x2…xn)=f(x1)f(x2)…f(xn)=
  第二步 计算
  第三步 求
  ∴驻点 是最大点
  在例7-2中用矩法估计也是同样结果 。
  例7-9 设 ,即
  从中取样x1 ,x2…xn,试用最大似然法求
  解:因为样本x1 ,x2…xn已经取出。
  所以应有0≤x1≤ ,0≤x2≤ ,…0≤xn≤
  所以 的取值范围为
  第一步 构造似然函数
        
  ∵ >0,很明显,似然函数 是 的单调减函数,因此当 最小时,似然函数 最大,由条件
  知 的最小值为
  所以 时 最大。取
  这一结果与用矩法估计(例7-3)的结果 不同。
  例7-10 若
,从中抽样x1,x2…xn,试用最大似然估计法求: ,
  解:X的似然函数
  将 分别关于两个分量求偏导并令其为0即得到似然方程组
   ,(1)
   ,(2)
  解此方程组,由(1)可得驻点 , 的极大似然估计为 ,
  将之代入(2)给出 的极大似然估计
  7.2 点估计的评价标准
  我们已经看到,点估计有各种不同的求法,为了在不同的点估计间进行比较选择,就必须对各种点估计的好坏给出评价标准。
  数理统计中给出了众多的估计量评价标准,对同一估计量使用不同的评价标准可能会得到完全不同的结论,因此,在评价某一个估计好坏时首先要说明是在哪一个标准下,否则所论好坏毫无意义。
  但在诸多标准中,有一个基本标准是所有的估计都应该满足的,它是衡量一个估计是否可行的必要条件,这就是估计的相合性,我们就从相合性开始介绍。
  7.2.1 相合性
  我们知道,点估计是一个统计量,因此它是一个随机变量,在样本量一定的条件下,我们不可能要求完全等同于参数的真实取值,但如果我们有足够的观测值,根据格里纹科定理,随着样本量的不断增大,经验分布函数逼近真实分布函数,因此完全可以要求估计量随着样本量的不断增大而逼近参数真值,这就是相合性,严格定义如下,
定义7-2 设 为未知参数, 是 的一个估计量,n是样本容量,
若对任何一个 ,有 (7.2.1)
则称 为参数 的相合估计
  相合性被认为是对估计的一个最基本要求,如果一个估计量,在样本量不断增大时,它都不能把被估参数估计到任意指定的精度,那么这个估计是很值得怀疑的,通常,不满足相合性要求的估计一般不予考虑,证明估计的相合性一般可应用大数定律或直接由定义来证。
  例11 用大数定律证明 是 的相合估计
  证:由切比雪夫大数定律
  ∴ 是 的相合估计
  为了避免用定义判断相合性的困难,下面介绍一个判断相合性很有用的定理:
定量:设 是 的估计量
则 是 的相合估计。
  例12 证明 是 的相合估计
  证:在前面我们已经证明
  ∴ 是 的相合估计
  7.2.2 无偏性
  相合性是大样本下估计量的评价标准,对小样本而言,需要一些其他的评价标准,无偏性便是一个常用的评价标准。
设 是 的一个估计, 的参数空间为 ,若对任意的 ,有
则称 是 的无偏估计,否则称为有偏估计。
  例7-13 对任一总体而言,样本均值是总体均值的无偏估计,当总体k阶矩存在时,样本k阶原点矩 是总体k阶原点矩
的无偏估计,但对k阶中心矩则不一样,例如,二阶样本中心矩 就不是总体方差 的无偏估计,事实上,
  对此,有如下两点说明
(1)当样本量趋于无究时,有 ,我们称 为 的渐近无偏估计,这表明
当样本量较大时, 可近似看作 的无偏估计
(2)若对 作如下修正: (7.2.4)
则 是总体方差的无偏估计,这种简章的修正方法在一些场合常被采用, 它比 更常用,这是因为在n≥2时,
& ,因此用 估计 有偏小的倾向,特别在小样本场合要使用 估计 。
无偏性不具有不变性。即若 是 的无偏估计,一般而言,g( )不是g( )的无
偏估计,除非g( )是 的线性函数,例如, 是 的无偏估计,但s不是 的无偏估计
  例14 证明 是 的无偏估计
   。其中 是X的样本
  特别情形 是 的无偏估计
  例15 证明 是 的无偏估计
  证 ∵
    ∴
     =
     =
    ∴
  7.2.3 有效性
  参数的无偏估计可以有很多,那么如何在无偏估计中进行选择?直观的想法是希望该估计围绕参数真值的波动越小越好,波动的大小可以用方差来衡量,因此人们常用无偏估计的方差的大小作为度量无偏估计优劣的标准,这就是有效性。
定义7-4 设 , 是 的两个无偏估计,如果对任意的 有 则称 比
  例16 设x1,…xn是取自某总体的样本,记总体均值为 ,总体方差为 ,则 都是
的无偏估计,但 显然,只要n>1, 比 有效,这表明,用全部数据的平均估计总体均值要比只使用部分数据更有效。
  例17 比较 与 谁有效
  解:(1)
  ∴ 与 都是 的无偏估计
  ∵
  ∴ 比 有效
  例18 设 ,从总体中取样
  证明  是 的无偏估计和相合估计
  解:(1)
  ∴ 是 的无偏估计
  ∴ 是 的相合估计
  7.3 参数的区间估计
  用点估计去估计总体的参数,即使是无偏且有效的,也会由于样本的随机性,使得从一个样本x1,x2,x3,…,xn算得的估计值不一定是被估计的参数的真实值,而且估计值的可靠性并不知道,这是一个重大的问题,因此,必须解决根据估计量的分布,在一定可靠性的程度下指出被估计的总体参数的取值范围,这正是本节要介绍的参数的区间估计问题。
  7.3.1 置信区间概念
  为了引入置信区间的概念,请看下面的引例。
  引例 设某种绝缘子抗扭强度X服从正态分布 ,其中 未知, 已知( =45公斤·米),试对总体均值 作区间估计。
  对于区间估计,要选择一个合适的统计量,若在该总体取一个容量为n的样本x1,x2,x3,…,xn,样本均值为
的点估计即 ,然而我们要给出 的一个区间估计,以体现出估计的误差,我们知道 。在区间估计问题中,要选取一个合适的估计函数。这时,可取
,它是 的标准化随机变量,且具备下面两个特点:
  (1)u中包含所要估计的未知参数 (其中 已知);
  (2)u的分布为 N(0,1),它与未知参数 无关。
   因为u~N(0,1),因而有
  根据u~N(0,1)的概率密度 的对称性(见下图)
  可得 。
  当α=0.05时,1-α=0.095, =1.96,将不等式 转化为 ,亦即 ,
  因此有
  当α=0.05时, 。
  说明未知参数 包含在区间中 的概率是95%,这里,不仅给出了
的区间估计,还给出了这一区间估计的置信度(或置信概率)。事实上,当置信度为1-α时,区间估计为
  在引例中,若 =160, =40,n=16。则有
  说明该绝缘子抗扭强度X的期望 在(140.4,179.6)内的可靠度为0.95。
  下面,引出置信区间的概念。
定义7-5 设 为总体的未知参数 是由样
本 定出的两个统计量,若对于给定的概率1-α(0<α<1),有
则随机区间 称为参数 的置信度为1-α的置信区间, 称
为置信下限, 称为置信上限。
  置信区间的意义可作如下解释: 包含在随机区间 中的概率为100(1-α)%;或者说,随机区间 以100(1-α)%的概率包含
。粗略地说,当α=0.05时,在100次的抽样中,大致有95次 包含在 中,而其余5次可能不在该区间中。
  α常取的数值为0.05,0.01,此时置信度1-α分别为0.95,0.99。
  置信区间的长度可视为区间估计的精度,下面分析置信度与精度的关系。
(1)当置信度1-α增大,又样本容量n固定时,置信区间长度增大,即区间估计精度减低
;当置信度1-α减小,又样本容量n固定,置信区间长度减小,即区间估计精度提高。
(2)设置信度1-α固定。当样本容量n增大时,置信区间减小(如引例中,置信区间长度
为 ),区间估计精度提高。
  7.3.2单个正态总体参数的置信区间
  正态总体 是最常见的分布,本小节中我们讨论它的两个参数的置信区间。
1. 已知时 的置信区间
设总体X服从正态分布 ,其中 已知,而 未知,求 的置信度1-α的置信区间。
这一问题实际上已在引例中的讨论中解决,得到
所以 的置信度1-α的置信区间为
  当α=0.05, =1.96;当α=0.01, =2.576。  
  例1 某车间生产滚珠,从长期实践知道,滚珠直径X服从正态分布。从某天产品里随机抽取6个,测得直径为(单位:毫米):
  14.6,15.1,14.9,14.8,15.2,15.1。
  若总体方差 =0.06,求总体均值 的置信区间(α=0.05,α=0.01)。
  α=0.05时,置信度为95%的置信区间为
  α=0.01时,置信度为99%的置信区间为
  从此例知,在样本容量n固定时,当置信度1-α较大时,置信区间长度较大;当置信度1-α较小时,置信区间较小。  
  例2 用天平称量某物体的质量9次,得平均值为
=15.4(g),已知天平称量结果为正态分布,其标准差为0.1g,试求该物体质量的0.95置信区间。
  解 此处1-α=0.95,α=0.05,查表知u0.025=1.96, 于是该物体质量
的0.95的置信区间为
  从而该物体质量的0.95置信区间为[15.3]。  
  例3 设总体为正态分布 ,为得到 的置信水平为0.95的置信区间长度不超过1.2,样本容量应为多大?
  解 由题设条件知 的0.95置信区间为
  其区间长度为 ,它仅依赖于样本容量n而与样本具体取值无关。现要求 ,即有 。现1-α=0.95,故 =1.96,从而
。即样本容量至少为11时才能使得 的置信水平为0.95的置信区间长度不超过1.2。
  2. 未知时 的置信区间
  这时可用t统计量,因为 ,完全类似于上一小节
  由于t(n-1)分布的概率密度f(x)的对称性有(见下图)
  其中 是 的无偏估计。  
假设轮胎的寿命服从正态分布。为估计某种轮胎的平均寿命,现随机地抽12只轮胎试用,测得它们的寿命(单位:万千米)如下:
  4.68 4.85 4.32 4.85 4.61 5.02 5.20 4.60 4.58 4.72 4.38 4.70
  试求平均寿命的0.95置信区间。
  解 此处正态总体标准差未知,可使用t分布求均值的置信区间。本例中经计算有
=4.7092,s2=0.0615。取α=0.05,查表知t0.025(11)=2.2010,于是平均寿命的0.95置信区间为(单位:万千米)
  3. 的置信区间
  此时虽然也可以就 是否已知分两种情况讨论 的置信区间,但在实际问题中 未知时 已知的情况是极为罕见的,所以我们只在
未知的条件下讨论 的置信区间。
  设x1,x2,x3,…,xn为来自总体X的样本,样本方差s2可作为
的点估计。由
   中包含未知参数 ,又它的分布与 无关,以 作为估计函数,可用于 的区间估计。由于
分布是偏态分布,寻找平均长度最短区间很难实现,一般都改为寻找等尾置信区间:把α平分为两部分,在 分布两侧各截面积为 的部分,即采用
的的两个分位数
  它们满足 。(见下图)
将上式开方即可得标准差 的置信区间。
例5 某厂生产的零件质量X服从正态分布 。现从该厂生产的零件中抽取9个,测得其质量为(单位:g)
  45.3 45.4 45.1 45.3 45.5 45.7 45.4 45.3 45.6
  试求总体标准差 的0.95置信区间。
由数据可算得s2=0.0325,(n-1)s2=8&0.,这里α=0.95,查表知
代入公式可得 的0.95置信区间为
  从而 的0.95置信区间为[0.4]。
  以上关于正态总体参数的区间估计的讨论列表如表7-1所示。
  本章小结
  本章考核要求为
  (一)点估计
  (1)知道点估计的概念
  (2)会用矩法求总体参数的矩估计值,主要依据是
  (3)会用最大似然估计法求总体参数的估计值。
  基本方法是由样本x1,x2,x3,…,xn构造一个似然函数或似然函数的对数
  L(x1,x2,x3,…,xn,
)=P(X=x1)P(X=x2)…P(X=xn)
  L(x1,x2,x3,…,xn,
)=f(x1)f(x2)…f(xn)
  然后由ln
L(x1,x2,x3,…,xn,
)取最大的值时的 值 为 的值,即 。 是L的最大值点。
  (二)点估计量的评价标准
  (1)若 ,则 是 的无偏估计。
  (2)若 都是 的无偏估计,且 就说 有效。
  (3)若 。
  就说是 的相合估计
  以上三条标准中主要掌握无偏估计和有效估计
  (三)区间估计
  (1)知道区间估计的概念
  (2)会求一个正态总体 的参数 的置信区间。公式见表7-1
  教材151页 习题7.1
  1,2,3
  教材154页 习题7.2
  1,3,4
  教材164页 习题7.3
  1,2,4,5,6,7
  自测题7(教材166页)
  一,二,三。
第八章&&&&&&
  本章主要介绍统计假设检验的基本思想和概念以及参数的假设检验方法。
  8.1 假设检验的基本思想和概念
  (一)统计假设的概念
  为了引入统计假设的概念,先请看例8-1。
  例8-1 味精厂用一台包装机自动包装味精,已知袋装味精的重量 ,机器正常时,其均值
=0.5(0.5,0.015的单位都是公斤)。某日开工后随机抽取9袋袋装味精,其净重(公斤)为:
  0.497,0.506,0.518,0.524,0.498,0.511,0.520,0.515,0.512
  问这台包装机是否正常?
  此例随机抽样取得的9袋味精的重量都不正好是0.5公斤,这种实际重量和标准重量不完全一致的现象,在实际中是经常出现的。造成这种差异不外乎有两种原因:一是偶然因素的影响,二
  是条件因素的影响。
由于偶然因素而发生的(例如电网电压的波动、金属部件的不时伸缩
、衡量仪器的误差而引起的)差异称为随机误差;由于条件因素(生产设备的缺陷、机械部件
的过度损耗)而产生的差异称为条件误差。
若只存在随机误差,我们就没有理由怀疑标准重量
不是0.5公斤;如果我们有十足的理由断定标准重量已不是0.5公斤,那么造成这种现象的主要原因是条件误差,即包装机工作不正常,那么,怎样判断包装机工作是否正常呢?
  我们通过解例8-1 来找出解假设检验问题的思想方法。
  解 已知袋装味精重 ,假设现在包装机工作正常,即提出如下假设:
  这是两个对立的假设,我们的任务就是要依据样本对这样的假设之一作出是否拒绝的判断。
  由于样本均值 是 的一个很好的估计,故当 为真时, 应很小。当 过分大时,我们就应当怀疑 不正确而拒绝 。怎样给出 的具体界限值
  当 为真时,由于
,对于给定的很小的数0&α&1,例如取α=0.05,考虑
  其中 是标准正态分布上侧 分位数,而事件
   (8.1.1)
  是一个小概率事件,小概率事件在一次试验中几乎不可能发生。
  我们查附表1得 ,又n=9, =0.015,由样本算得 ,又由(8.1.1)得:
  小概率事件居然发生了,这与实际推断原理相矛盾,于是拒绝 ,而认为这台包装机工作不正常。
  从上面的例8-1中,我们看出为了
对总体的某一参数进行检验,通常提出两个对立假设
。然后引入一个与被检参数有关的服从某种分布的统计量,根据事先给出的一概率标准α(叫显著水平)用反证法进行判断,由于小概率事件一般是不会发生的,如果引进的样本
是一个小概率事件,因为它的确出现了,则可认为假设 不能接受,否则便接受 。
  (二)假设检验的程序
根据以上的讨论与分析,可将假设检验的基本步骤概括如下:
(1)根据实际问题提出原假设 及备择假设 。这里要求 与 有且仅有一个为真。
(2)选取合适的统计量,即要求所选的统计量与假设 无关且服从某种分布,常见的有
标准正态分布t(n-1)分布, (n-1)分布及F(m,n)公布。
(3)规定小概率标准α的大小,也叫显著水平,通常可取
α=0.01,α=0.05或α=0.1。
(4)在显著水平α下,根据统计量的分布将样本空间划分为两部分,其一是接受 的叫
接受域,另一个是拒绝 的叫拒绝域,记为W。
(5)根据样本值计算统计量的大小。
(6)作出判断:若统计量的观测值落在拒绝域W内。则知小概率事件发生了,拒绝 ,
若统计量的观测值落在接受域则认为小概率事件没有发生,可以接受 拒绝 。
  8.2 总体均值的假设检验
  本节讨论的总体均值的假设检验,多数是在正态总体下进行的。
  8.2.1 u检验
1.方差已知时,单个正态总体均值检验
设x1,…,xn是从正态总体 中抽取的一个样本, 是已知常数,欲检验假设:
其中 为已知数,它的程序:
(1)提出假设
(2)引入统计量
(3)规定显著水平α,查标准正态分布表求 的上侧分位数 为临界值,写出相应的拒绝域
其中常用的有α=0.1时,
α=0.05时,
α=0.01时,
(4)根据样本值x1,x2,…,xn计算统计量u。
(5)判断:若u落入拒绝域W内时,则拒绝 接受 ,
      若u落入接受域内时,则接受 ,拒绝 。
  例8-2 某产品的重量X~N(12,1)(单位:克),更新设备后,从新生产的产品中抽样100件,测试样本均值
(克),如果产品的方差没有改变,请问更新设备后,产品的平均重量是否有明显变化?(α=0.01)
  解 (1)设
  (2)引入
  (3)根据α=0.01,查标准正态分布函数表,得 的上侧分位数
  ∴拒绝域为(-∞,-2.58),(2.58,+∞)
  (4)计算
  (5)∵u落入拒绝域W中,故拒绝 ,即有明显差别。
2.方差已知时,两个正态总体值差的检验
为已知常数。x1,…,xm和y1,…,yn分别是取自X和Y的样本且相互独立。欲检验假设:
检验假设 ,等价于检验假设 。而是 的一个好估计量,且当 为真时,有
于是对给定的水平α,查附表1,可得临界值 ,使
, (8.2.2)
从而得拒绝域
若u∈W,则拒绝 ;否则接受 。
  由上述讨论可知,由服从标准正态分布的检验统计量作检验的方法称为u检验法。
  例8-3 设 从中各抽样25件
  测得 =90, =89。设X,Y独立,请问是否可以认 与 基本相同?(α=0.05)
  解(1)
  (2)引进统计量
  (3)根据α=0.05,查标准正态分布函数表将
  ∴拒绝域W为(-∞,-1.96),(1.96,+ ∞)
  (4)计算
  (5)∵u在接受域内,∴接受 ,即 与 差别不大。
  8.2.2 t检验
1.方差未知时,单个正态总体均值检验
设x1,…,xm是从正态总体 中抽取的一个样本,其中 未知,欲检验
(1) ,其中 为已知数。
(2)构造统计量
(3)给定显著水平α,查t(n-1)表求分位数
(4)根据样本x1,x2,…,xn计算
(5)若t落在拒绝域W内,则拒绝 ,接受 。
   若t未落在拒绝域内,则接受 ,拒绝 。
  例8-4 车辆厂生产的螺杆直径X服从正态分布
,现从中抽取5枝,测得直径(单位:毫米)为22.3,21.5,22.0,21.8,21.4。如果 未知,试问直径均值
=21是否成立?(α=0.05)
  解 检验假设
  (1) ,
  由样本观测值算得
  (2) ,
  (3)计算
  (4)根据α=0.05,查t(n-1)分布表
  临界值 。
  ∴拒绝域为
  (5)∵t=4.87在拒绝域内
  ∴否定 ,接受 。
  即认为直径均值不是21。
2.方差未知时,两个正态总体均值检验
设 和 分别是取自X和Y的样本且相互独立。
(1) ( 未知)。欲检验假设
(2)构造统计量
t即为我们构造的检验统计量。这时,对给定的水平α,查附表3可得临界值 ,使
即得拒绝域
  例8-5 在漂白工艺中考察温度对针织品断裂强度的影响,现在70℃与80℃下分别作8次和6次试验,测得各自的断裂度X和Y的观测值。经计算得
。根据以往的经验,可认为X和Y均服从正态分布,且方差相等,在给定α=0.10时,问70℃与80℃对断裂强度的无显著差异?
  解 由题设,可假定 ,于是若作统计假设为两个温度下的断裂强度无显著性差异,即相当于作假设
  (1) 。
  (2)构造统计量
  (3)α=0.10,查得t(m+n-2)=t(12)表,得临界值。
  ∴拒绝域W为(-∞,-1.782)∪(1.782,+∞)
  (4)计算
  (5)因为t落在拒绝域W内,所以拒绝 ,接受 。
  即认为断裂强度有明显差别。
  8.3 正态总体方差的假设检验
  在实际问题中,有关方差的检验问题也是常遇到的,如上节介绍的u检验和t检验中均与方差有密切的联系。因此,讨论方差的检验问题尤为重要。
  8.3.1  检验
设总体 未知,x1,…,nx为取自X的样本,欲检验假设
其中 为已知数。
自然想到,看 的无偏估计s2有多大,当H0为真时,s2应在
周围波动,如果 很大或
很小,则应否定H0,因此构造检验统计量
对于给定的显著水平α,可查 (n-1)表可得分位数
∴拒绝域W为 。
若统计量 落在拒绝域W内,则拒绝 ,接受 。
若统计量 落在接受域内,则接受 ,拒绝 。
  例8-6 设某厂生产铜线的折断力 ,现从一批产品中抽查10根测其折断力后经计算得样本均值
=575.2,样本方差s2=68.16。试问能否认为这批铜线折断力的方差仍为82(公斤)(取α=0.05)?
  解 按题意,欲检验假设
  (1) ,
  (2)引进统计量
  (3)根据α=0.05,查 (n-1)= (9)表得临界值
  于是得拒绝域
  (4) 。
  (5)计算
  由于 不在拒绝域W内,故不拒绝 ,即可认为该批铜线折断力的方差与82(公斤)无显著差异。
  8.3.2 F检验
  前面介绍的用t检验法检验两个独立正态总体的均值是否相等时,曾假定它们的方差是相等的。一般说来,两个正态总体方差是未知的,那么,如何来检验两独立正态总体方差是否相等呢?为此介绍F检验法。
设有两正态总体 和 分别是取自X和Y的
样本且相互独立。欲检验统计假设
由于 是 的无偏估计, 是 的无偏估计,当 为真时,自然想到 和 应该差不多,
其比值 不会太大或大小,现在关键在于统计量 服从什么分布。由&6.3节定理6-4推论我们知道,当 为真时,
这样,取F为检验统计量,对给定的水平α,查附表5,确定临界值使
即得拒绝域 。
若由样本观测值算得F值,当F∈W时,拒绝 ,即认为两总体方差有显著差异。否则认为
与 相容,即两总体方差无显著差异。
  例8-7 设甲、乙两台机床加工同一种轴,从这两台机床加工的轴中分别抽取若干根,测得直径数据如下
  假定各台机床加工轴的直径X,Y分别服从正态分布,试比较甲、乙两台机床加工轴的精度有无显著差异(取α=0.05)。
  解 按题意,本题是要检验两正态总体的方差 是否相等,即要检验统计假设
  (2)引入统计量
  (3)根据α=0.05查F(7,6)表得
  ∴拒绝域W为(0,0.195)∪(5.70,+∞)
  (4)计算
  (5)∵F不在拒约域W内,
  ∴接受 ,即方差无明显差别。
  8.4 单边检验
  实际问题中,有时我们只关心总体的均值是否会增大,例如,试验新工艺以提高产品的质量,如材料的强度、元件的使用寿命等,当然,总体的均值越大越好,此时,需要检验假设。
  其中 是已知常数。
  类似地,如果只关心总体的均值是否变小,就需要检验假设
  下面以单个正态总体方差已知情况为例,来讨论均值 的单边检验的拒绝域。
  设总体
为已知。x1,…,xn,是取自X的一个样本,给定检验水平,α考虑单边假设问题。
  由于 是 的无偏估计,故当 为真时, 不应太大,而当u偏大时应拒绝 ,故拒绝域的形式为: ,c待定,
  由于 ,故可找临界值α,
  当 成立时,
  因此,
  由事件 是一个小概率事件知,事件 更是一个小概率事件。
  如果根据所给的样本观测值,x1,…,xn算出 ,则应该否定原假设
,即拒绝域为
  W=(uα,+∞)。
  当 时,我们不否认原假设
  类似地,对于单边假设检验问题:
  仍取 为检验统计量,但拒绝域为
  W=(-∞,-uα),
  即当由样本观测值算出 时,则应拒绝原假设 。
  我们已注意到,上述
单边检验问题,与单个正态总体方差情况的均值 的双边检验问题
一样,其所用的检验统计量和检验步骤完全相同,不同的只是拒绝域。我们着重指出:单边检验问题的拒绝域,其不等式的取向,与备择假设的不等式取向完全一致。这一特有的性质使我
们无需特别记忆单边检验的拒绝域。
因此,若遇上本章&8.2,&8.3中相应的单边检验问题,
则只要作类似的处理就行了,例如:
  设总体 ,欲检验统计假设
  其中 为已知数。
  这时,由双边检验问题中的 检验知。检验统计量可取 。若由样本观测值算出 ,则当 时拒绝 ,即拒绝域为
,此不等式取向与备择假设取向一致。
  若欲检验
  则检验统计量仍取 ,拒绝域为: ,即W=(0, )
  类似地,两个总体 和 分别是取自X和Y的样本且相互独立。欲检验统计假设
  这时,类似于双边检验问题,检验统计量可取 ,拒绝域为 ,即 。
   各种统计假设检验情况(检验水平为α)如表8-4所示。
 检验统计量
未知但相等
  F>Fα
  F<F1-α
  对应重复上面
  F<F1-α
  对应重复上面
用某种农药施入农田中防治病虫害,经三个月后土壤中如有5ppm以上的浓度时,认为仍有残效,现在一大田施药区随机取10个土样进行分析,其浓度为:4.8,3.2,2.0,6.0,5.4,7.6,2.1,2.5,3.1,3.5(单位:ppm)。问该农药经三个月是否仍有残效(土壤残余农药浓度服从正态分布α=0.05)?
  解 显然,我们关心的只是总体均值 是否小于 ,这时若用双边检验是不恰当有,所以我们应该检验 。
  这时,检验统计量应取 ,对于给定的显著性水平α=0.05,查t分布表得
  由样本算得T的观测值
  t=-1.45>-1.83,
  不能拒绝H0,即没有理由怀疑该农药已无残效。
某类钢板每块的重量X服从正态分布,其一项质量指标是钢板重量的方差不得超过0.016kg2。现从某天生产的钢板中随机抽取25块,得其样本方差s2=0.025kg2,问该天生产的钢板重量的方差是否满足要求?
  解 这是一个关于正态总体方差的单侧检验问题,原假设 ,备择假设为 ,此处n=25。若取α=0.05,则查表知
,现计算可得
  由此,在显著水平0.05下,我们拒绝原假设,认为该天生产的钢板重量的方差不符合要求。
  例8-10 有一批枪弹,其初速度 ,其中 =950m/s,
=10m/s。经过较长时间储存后,现取出9发枪弹试射,测其初速度,得样本值如下(单位:m/s):914,920,910,934,953,945,912,924,940。问这批枪弹在显著性水平α=0.05下,其初速度是否起了变化(假定
没有变化)?
  解 由题设,要检验的假设为 ,因为枪弹储存后初速度不可能增加,所以是(左侧)单边检验问题,由n=9,易另算出
  查表知
  -uα=-u0.05=-1.65,
  u=-6.6<-1.65=-uα,
  故应拒绝H0而接受 ,即认为这批枪弹经过较长时间储存后初速度已经变小了。
  8.5 两类错误
  通过上面分析可知,一个假设检验问题,是要先给定一个原假设H0与备择假设H1,选出一个合适的检验统计量T,由此给出拒绝域W内。再根据在总体抽样得到的样本值(x1,x2,…,xn),看它是否落入由检验统计量T定出的拒绝域W内。当(x1,x2,…,xn)∈W时,就拒绝H0(即接受H1);而当(x1,x2,…,xn)∈W时,接受H0。
  这样的假设检验有可能犯错误。数理统计的任务本来是用样本去推断总体,即从局部去推断整体,当然有可能犯错误。我们来分析会犯什么类型的错误。
  一类错误是:在H0成立的情况下,样本值落入了W,因而H0被拒绝,称这种错误为第一类错误,又称为拒真错误,一般记犯第一类的概率为α。
  另一类错误是:在H0不成立的情况下,样本值未落入拒绝域W,因而H0被接受,称这种错误为第二类错误,又称为取伪错误,并记犯第二类错误的概率为
  第一类错误在例8-1中我们分析过。因为
  在H0成立条件下,根据样本值算得的u满足“
”,即样本值落入拒绝域W,从而拒绝了H0。由此可见,犯第一类错误的概率即为α,而α即为显著性水平。
  一般地,有
  要寻找合适的检验统计量T,使得由它定出的拒绝域W满足犯第一类错误的概率不超过α,犯第二类错误的概率为
  现列表说明两类错误,见表8-1。
    表8-1
  人们当然希望在假设检验问题中犯两类错误的概率 都尽可能小,然而在样本容量固定时是做不到的。人们发现:
  (1)两类错误的概率是相互关联的。当样本容量n固定时,一类错误的概率的减少将导致另一类错误的概率的增加。
  (2)要同时降低两类错误的概率,需要增大样本容量n。
  本章小结
  (一)理解假设检验的基本思想,知道假设检验的步骤。
  (二)知道两类错误
  (三)掌握单个正态总体的均值和方差的检验方法,并会简单应用,这是本章主要重点。
  (四)两个正态总体 会检验
  (1) ,
  (2) ,
  本章作业
  教材170页。习题8.1
  教材175页。习题8.2
  1,2,3,4,5,6,7,8
  教材179页。习题8.3
  1,2,4
  教材183页。习题8.4
  教材183页。自测题8
  一,二(1,2,3),三 ,四
第九章&&&&&&
  在现实世界中,不少变量之间是存在着一定的关系的,一般来说,这种关系大体上可分为两类,一类是确定性的,即函数关系。例如,电路中的电压V,电流I,电阻R三者间有关系
。另一类是非确定性的,这类变量之间虽有一定的关系却又并不完全确定,例如人的血压与年龄有关,炼钢过程中含碳量与精炼时间有关,农作物产量与施肥量和单位面积的播种量有关……这些变量之间虽有一定联系,但又不能用普通函数关系式来表达。例如对给定的施肥量和确定的播种量,农作物的产量还是不能完全确定的。事实上,这些变量是随机变量或至少其中一个是随机变量。这种非确定性的关系称为相关关系。
  回归分析是研究相关关系的一种数学工具,是数理统计学中最常用的统计方法之一,在生产实践和科学研究中有着广泛的应用。本章仅简单介绍一元线性回归分析。
  9.1 回归直线方程的建立
  为了说明一元线性回归的数学模型,我们先看一个实际例子。
某种合金的抗拉强度y(kg/mm2)与其中的含碳量x(%)有关,现测12对数据如表9-1所示。
   表9-1
  为了了解其相关关系的表达式,在坐标上以(xi,yi),i=1,2,…,12为点,画出散点图如图9-1所示,这些点大体上散布在某条直线的周围,又不完全在一条直线上,从而可认为y与x的关系基本上是线性的,而这些点与直线的偏离是由其他一切随机因素的影响造成的。一般说来,含碳量x是一个可观测或可控制的普通变量,而对任意一个含碳量x,相应的抗拉强度是一个随机变量Y,实际观测值y是Y的一个可能取值。随x的变化,Y的观测值线性变化的趋势可表示为
   。 (9.1.2)
  其中 表示Y随x的变化而线性变化的部分, 是一切随机因素影响的总和,称为随机误差项,它是不可观测其值的随机变量,在Y的方差 时,
是一个E( )=0,D( )的随机变量,在涉及分布时,可进一步假定 。
  一般地,将x取一组不同的值,x1,x2,…,xn,通过试验得到对应的Y的值y1,y2,…,yn,这样就得到n对观测值(xi,yi),i=1,2,…,n。可把y的值看成由两部分叠加而成,一部分是x的线性函数
,另一部分系试验过程中其他一切随机因素的影响。因此,由(9.1.2)式可认为xi与yi之间有如下关系
   ,(i=1,2,…,n), (9.1.3)
   且各 相互独立。
  此式就是一元线性回归的数学模型。
回归分析的基本问题是依据样本(xi,yi),i=1,2,…,n解决如下问题:
(1)未知参数 及 的点估计,若 分别为 的估计,由此得
。 (9.1.4)
(9.1.4)是抽述Y与x之间关系的经验公式。我们称(9.1.4)式为Y关于x的一元线性回归方程,它就是我们要求的y与x之间的定量关系的表达式,其图像便是类似图9-1中的直线,称此直线为回归直线,
也称为回归系数,它是回归直线的斜率, 称为回归常数,它是回归直线的截距。
方程,它就是我们要求的y与x之间的定量关系的表达式,其图像便是类似图9-1中的直线,称此直线为回归直线,
也称为回归系数,它是回归直线的斜率, 称为回归常数,它是回归直线的截距。
(2)回归方程的显著性检验,在实际问题中,y与x之间是否存在关系式
是要经过检验的。
  下面先讨论未知参数 及 的点估计问题。
  要求出回归方程(9.1.4),就是要求出
的估计。而求此估计的一个自然而又直观的想法便是希望对一切xi,,观测值yi与回归值
的偏离达到最小。为此,一般采用最小二乘法来求
的估计。对已知样本(xi,yi),i=1,2,…,n令
  它表示当用(9.1.2)式来逼近Y时,n个样品的总的误差平方和。最小二乘法的基本思想是选取 的估计值 ,使
  其中右端min是对一切 的容许值取的Q的最小值。
  由于 是 的非负二次函数,其最小值必定存在,同时它是 的可微函数,故由微积分中求极值方法知, 应是下列方程组的解:
   (9.1.5)
  经整理,(9.1.5)式化为
  我们将上式称为正规方程组,解此方程组得
其中 ,若引进记号
则最小二乘估计为
  若将 代入(9.1.4)式,可得回归方程的另一形式 ,这说明回归直线通过散点图的几何重心
。下面续例9-1,计算回归方程用表格形式(表9-2)给出如下:
      表9-2
  Lxy=0.0186, Lxy=2.4292,
Lyy=335.2292,
  此即抗拉强度y与含碳量x的线性回归方程。
  9.2 回归方程的显著性检验
  由上段的讨论可知,对于任何两个变量x和y的一组观测数据(xi,yi),i=1,2,…,
n,利用最小二乘法,都可以确定一个回归方程(9.1.4),然而事先并不知道Y与x之间是否真正存在线性关系,如果y和x之间并不存在显著的线性相关关系,那么,用上述的方法确定出的回归方程(9.1.4)显然是毫无实际意义的。因此需要对y和x是否具有线性关系作统计检验。下面介绍一种常见的检验方法——F检验法。
  由(9.1.3)式可知,若y与x之间不存在线性关系,则一次项系数 ,反之,
。所以检验y与x之间是否具有线性关系,应归纳为检验假设
  为了检验H0是否为真,我们可以从分析各Yi(i=
1,2,…,n)的不同原因着手,n个yi的值之所以不同的原因有二:一是E(Y)如果确是随x线性变化的,那么x的取值不同就是一个原因;二是其他一切随机因素的影响,显然,如果前一方面的影响是主要的,那么
,方程是有意义的,否则方程就没有意义,为此,必须把由这个原因引起的yi的波动大小从yi的总波动中分解出来,记
称其为总的偏差平方和,它反映了各yi的波动大小。
(利用(9.1.5))
反映了由于x的变化所引起的波动大小,称为回归平方和;而
反映了观测值与回归直线间的偏离,这是由其他一切因素所引起的,称为剩余平方和。
 (9.2.1)式称为平方和分解式。
  显然,若方程有意义,总希望s回尽可能大,s剩尽可能小,那么s回要大到什么程度才能认为方程是有意义的呢?
  在假定各 相互独立,且 的条件下,可以证明:
  (1) ;
  (2)在H0为真时, ;
  (3)s剩与s回相互独立。于是,当H0为真时
  从而,对给定的显著水平α,查附表5,得临界值Fα(1,n-2),因此拒绝域为W=[
Fα(1,n-2),+∞],当观测值F∈W时,拒绝H0,认为
不真,这时我们认为,回归方程是显著的,反之,称回归方程不显著,这种用统计量F来检验回归方程显著与否的方法称为F检验法。
  以上检验过程通常可通过一个所谓方差分析表来进行,见表9-3。
F∈W时,拒绝H0;
否则接受H0;
  例2 对四块面积都是1亩的土地,施用化肥x(公斤),得到的水稻产量y(公斤)的实验结果如下表。请按下表求x(化肥量)与y(水稻产量)的线性回归方程,并用F法进行检验。
  解(一)求线性回归方程
  ∴线性回归方程为 =150+14x。
  (二)对 进行显著性检验
  (2)引进统计量
  (3)查F(1,n-2)表给定α=0.05,Fα(1,2)=18.5
  ∴拒绝域W为(Fα(1,n-2),+∞)=(18.5,+∞)
  (4)计算F
  (5)判定:∵F落在拒绝域W内; ∴拒绝H0,接受H1。
  即线性关系明显。
  本章小结  
  本章考核要求:
  (一)会根据样本(x1,y1),(x2,y2),…,(xn,yn)求y与x的线性回归方程
  (二)会用F检验法判断y与x的线性关系是否明显
  本章作业:
  复习例2
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。}

我要回帖

更多关于 微积分教程 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信