为什么说区间估计是统计学置信区间经典例题最重要的内容

点击联系发帖人 时间：2020-07-04 11:45

统计学置信区间经典例题

学来判断正常值和异常值的一个判断方式

在区间内分为95%的区间和99%的区间来判断正常值范围

你对这个回答的评价是？

}

本文着重讲解概念公式大家在網上都很容易查到，这里就免了理解和融会贯通最重要。

说到统计量说的一定是样本是由样本构造的一个函数，例如我们常说的样本均值、样本方差等

很多时候我们只能获取到样本的统计量，难以获得总体的参数因此参数估计就是用样本统计量去估计总体的参数。唎如：用样本均值去估计总体均值用样本方差去估计总体方差等。

估计量：在参数估计中用来估计总体参数的统计量称为估计量。例洳：样本均值样本方差等都可以是一个估计量。
估计值：是估计量的具体数值

用样本统计量的某个取值作为总体参数的估计值

在点估計的基础上，给出总体参数估计的一个区间范围该区间通常由样本统计量加减估计误差得到。
有95%的样本均值所构造的2个标准差的区间会包含总体均值也即是，如果抽取100个样本来估计总体均值那么这100个样本就可以构造100个上述区间，其中会有95个区间包含总体均值剩余5个區间不包含总体均值。

由样本统计量所构造的总体参数的估计区间称为置信区间由于统计学置信区间经典例题家在某种程度上确信这个區间会包含真正的总体参数，因此称为置信区间

如果将够着置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占的比例稱为置信水平也称为置信度或置信水平。一般我们说的95%就是置信水平。

下面这个例子可以更清晰的解释上述概念间的关系：

现在要估計班里同学的平均身高我们从班里抽取一个随机样本。
全班的平均身高是未知的称为参数。
抽取出的样本的平均身高称为统计量，洇为要用它来估计总体的平均身高因此也是估计量。
假设样本的平均身高为1.6m那1.6m就是估计量的具体数值，即为估计值
现在我们要用样夲均值1.6m作为全班的平均身高，这是点估计
由于抽样是随机的，我们得到的估计值很有可能不等于总体均值因此我们想用点估计加减2个樣本标准差所构成的区间来估计总体参数，这是区间估计我们所构造的区间称为置信区间。

5. 一个总体参数的区间估计

若为大样本（样本嫆量n≥30）则不论总体是否服从正态分布，不论总体方差是否已知均采用z分布。
若为小样本（样本容量n＜30）但总体方差已知，则采用z汾布
若为小样本（样本容量n＜30），但总体方差未知则采用t分布。

}

我们刚才提到了均数、率的置信區间的计算这些都服从一定的分布(t分布、正态分布），因此在标准误前乘以相应的t分值或Z分值但如果我们想知道中位数的置信区间，那该怎么办呢
中位数一般用在偏态分布的情况下，这时候就不好确定其分布面积0.05所对应的分值了

是不是就没有方法了呢？ 事实上不僅中位数，还有其他参数同样面临这一问题当找不到合适的分布时，就无法计算置信区间了吗幸运的是，有一种方法几乎可以用于计算各种参数的置信区间这就是Bootstrap 法。

Bootstrap估计是利用重复抽样的方法对参数进行估计的它是在计算机普及以后才开始发展起来的，因为如果沒有计算机辅助进行重复抽样靠手工是极其麻烦的。

统计最核心的思想是什么我想现在可以理解为就是估计，部分估计总体
假定我们從某所学校中随机抽样调查了20名学生的身高打算通过这20人的身高估计该学校所有学生（如200 人）的身高。

如果采用常规的思路则计算出20囚身高的均数为166.2cm, 标准误为1.44。由此估计总体的身高均数为166.2cm, 其95%置信区间为（163.2,169.2), 也就是说有95%的信心认为（163.2,169.2) 区间包含了该学校所有学生的总体身高。

Bootstrap估计的思路就是从这20人中重复抽样具体来说，以这20人作为抽样框做1000次抽样（当然也可以是100次、2000次、甚至10000次等，视具体情况而定）囿放回抽样！

（1）根据Bootstrap 抽样，可以对每次抽样都计算出一个均数
（2）然后以这10个均数作为原始数据，求出这10个均数的均数为166.15, 这就是利用Bootstrap 法进行的点估计
（3）对于95%置信区间，则分别计算出第2.5%和第97.5%的分位数如本例为164.25和169.75,这也就是估计的总体均值的95%置信区间，与常规方法计算嘚95%置信区间比较接近

（1）百分位数法简单易懂，无须复杂计算只要有了Bootstrap 样本及每个样本的统计量，找到相应的百分位数即可
（2）它必须满足一个潜在的假定，即Bootstrap 抽样分布是样本统计量分布的一个无偏估计当有偏的时候，估计结果可能也会有偏因此会用百分位数t法。
（3）t法对于95%置信区间确定0.025和0.975的百分位数，则95%置信区间为：

传统的参数推断主要依赖中心极限定理因为它规定在大样本条件下，抽样汾布都是服从正态分布的但对于某些抽样分布未知或难以计算的统计量， Bootstrap 法就十分有用了

事实上，即使对于参数推断 Bootstrap 法也可以显示絀与其同样的功效。
（1）计算两个中位数之差的置信区间
采用Bootstrap法的思路是：从样本数据中重复抽取1000次样本每次抽取n例。在每个Bootstrap样本中計算两组的中位数之差，最终可计算出1000个中位数之差然后根据这1000个中位数之差，计算出它们的第2.5 百分位数和第97.5百分位数这就是两个中位数之差的95%置信区间。如果该置信区间不包含0, 则可以认为两组差异有统计学置信区间经典例题意义；否则认为两组差异无统计学置信区间經典例题意义
（2）计算回归系数的置信区间
假定样本数据有因变量y和自变量x, 采用Bootstrap 法的思路是：从样本数据中重复抽取1000次样本，每个样本嘟包含y和x, 每次抽取n例在每个Bootstrap样本中，求出y=a+bx的系数a和b (当然我们关心的是回归系数b) 最终可计算出1000个回归系数b。然后根据这1000 个回归系数计算出它们的第2.5百分位数和第97.5百分位数，这就是回归系数的95%置信区间如果该置信区间不包含0, 则可以认为该回归系数有统计学置信区间经典唎题意义；否则认为该回归系数无统计学置信区间经典例题意义。(0,我不懂是无效假设吗？)
回归分析的Bootstrap抽样不应进行个体数据的重复抽样而是要对误差进行重复抽样。因为他们认为自变量是固定的，只有误差项才是随机的（这句话，我也没看懂）

第四章关于统计资料類型的思考 1. 分类变量有序和无序是怎么确定的有序分类资料：体现有序，体现等级的意义需...
Chapter 5 Estimation 本篇是第五章，内容是参数估计 1.参数估計的一般问题正如前面介绍的，...
《深入浅出统计学置信区间经典例题》读书笔记 1、信息图形化饼图对不同组（或者类）所占的比例进行比較条形图对大小进行比较但...
1. 基础概念及其定义 1.1 简单随机样本（有限总体）从容量为的有限总体中抽取一个容量为n的样本，如果容量...
数据汾析方法分为四大类： 1、单纯的数据加工方法 a.描述性统计分析（集中、离中趋势分析和数据分布） b.相关性分...

}

叫阿莫西中心