数学:标准差是什么意思

编程,数学,设计
作者:Vamei 出处:/vamei 欢迎转载,也请保留这段声明。谢谢!
除了,方差(variance)是另一个常见的分布描述量。如果说期望表示的是分布的中心位置,那么方差就是分布的离散程度。方差越大,说明随机变量取值越离散。
比如射箭时,一个优秀的选手能保持自己的弓箭集中于目标点附近,而一个经验不足的选手,他弓箭的落点会更容易散落许多地方。
上面的靶上有两套落点。尽管两套落点的平均中心位置都在原点 (即期望相同),但两套落点的离散程度明显有区别。蓝色的点离散程度更小。
数学上,我们用方差来代表一组数据或者某个概率分布的离散程度。可见,方差是独立于期望的另一个对分布的度量。两个分布,完全可能有相同的期望,而方差不同,正如我们上面的箭靶。
对于一个随机变量[$X$]来说,它的方差为:
$$Var(X) = E[(X - \mu)^2]$$
其中,[$\mu$]表示[$X$]的期望值,即[$\mu = E(X)$]。
我们可以代入的数学表达形式。比如连续随机变量:
$$Var(X) = E[(X - \mu)^2] = \int_{-\infty}^{+\infty}(x-\mu)^2 f(x)dx$$
方差概念背后的逻辑很简单。一个取值与期望值的&距离&用两者差的平方表示。该平方值表示取值与分布中心的偏差程度。平方的最小取值为0。当取值与期望值相同时,此时不离散,平方为0,即&距离&最小;当随机变量偏离期望值时,平方增大。由于取值是随机的,不同取值的概率不同,我们根据概率对该平方进行加权平均,也就获得整体的离散程度&&方差。
方差的平方根称为标准差(standard deviation, 简写std)。我们常用[$\sigma$]表示标准差
$$\sigma = \sqrt{Var(X)}$$
标准差也表示分布的离散程度。
正态分布的方差&
根据上面的定义,可以算出正态分布
$$E(X) = \frac{1}{\sigma \sqrt{2 \pi}}\int_{-\infty}^{+\infty}xe^{-(x - \mu)^2/2 \sigma^2} dx$$
$$Var(X) = \sigma^2$$
正态分布的标准差正等于正态分布中的参数[$\sigma$]。这正是我们使用字母[$\sigma$]来表示标准差的原因!
可以预期到,正态分布的[$\sigma$]越大,分布离散越大,正如我们从下面的分布曲线中看到的:
当方差小时,曲线下的面积更加集中于期望值0附近。当方差大时,随机变量更加离散。此时分布曲线的&尾部&很厚,即使在取值很偏离0时,比如[$x=4$]时,依然有很大的概率可以取到。
# By Vamei
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
# Note the difference in "scale", which is std
rv1 = norm(loc=0, scale = 1)
rv2 = norm(loc=0, scale = 2)
x = np.linspace(-5, 5, 200)
plt.fill_between(x, rv1.pdf(x), y2=0.0, color="coral")
plt.fill_between(x, rv2.pdf(x), y2=0.0, color="green", alpha = 0.5)
plt.plot(x, rv1.pdf(x), color="red", label="N(0,1)")
plt.plot(x, rv2.pdf(x), color="blue", label="N(0,2)")
plt.legend()
plt.grid(True)
plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])
plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")
plt.show()
指数分布的方差
指数分布的表达式为
$$f(x) = \left\{ \begin{array}{rcl} \lambda e^{-\lambda x} & if & x \ge 0 \\ 0 & if & x & 0 \end{array} \right.$$
它的方差为
$$Var(X) = \frac{1}{\lambda^2}$$
如下图所示:
Chebyshev不等式
我们一直在强调,标准差(和方差)表示分布的离散程度。标准差越大,随机变量取值偏离平均值的可能性越大。如何定量的说明这一点呢?我们可以计算一个随机变量与期望偏离超过某个量的可能性。比如偏离超过2个标准差的可能性。即
$$P( | X - \mu | & 2\sigma)$$
这个概率依赖于分布本身的类型。比如正态分布[$N(0, 1)$],这一概率即为x大于2,或者x小于-2的部分对应的曲线下面积:
实际上,无论[$\mu$]和[$\sigma$]如何取值,对于正态分布来说,偏离期望超过两个标准差的概率都相同,约等于0.0455 (可以根据正态分布的表达式计算)。随机变量的取值有约95.545%的可能性落在正负两个标准差的区间内,即从-2到2。如果我们放大区间,比如正负三个标准差,这一概率超过99%。我们可以相当有把握的说,随机变量会落正负三个标准差之内。上面的论述并不依赖于标准差的具体值。这里可以看到标准差所衡量的&离散&的真正含义:如果取相同概率的极端值区间,比如上面的0.0455,标准差越大,该极端值区间距离中心值越远。
然而,上面的计算和表述依赖于分布的类型(正态分布)。如何将相似的方差含义套用在其它随机变量身上呢?
Chebyshev不等式让我们摆脱了对分布类型的依赖。它的叙述如下:
对于任意随机变量X,如果它的期望为[$\mu$],方差为[$\sigma^2$],那么对于任意[$t&0$],
$$P( | X - \mu | & t) \le \frac{\sigma^2}{t}$$
无论X是什么分布,上述不等式成立。我们让[$t = 2\sigma$],那么
$$P( | X - \mu | & 2\sigma) \le 0.25$$
也就是说,X的取值超过两个正负标准差的可能性最多为25%。换句话说,随机变量至少有75%的概率落在正负两个标准差的范围内。(显然这是最&坏&的情况下。正态分布显然不是&最坏&的)
绘图代码如下
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
# Note the difference in "scale", which is std
rv1 = norm(loc=0, scale = 1)
x1 = np.linspace(-5, -1, 100)
x2 = np.linspace(1, 5, 100)
= np.linspace(-5, 5, 200)
plt.fill_between(x1, rv1.pdf(x1), y2=0.0, color="coral")
plt.fill_between(x2, rv1.pdf(x2), y2=0.0, color="coral")
plt.plot(x, rv1.pdf(x), color="black", linewidth=2.0, label="N(0,1)")
plt.legend()
plt.grid(True)
plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])
plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")
plt.show()
我们引入了一个新的分布描述量:方差。它用于表示分布的离散程度。
标准差为方差的平方根。
方差越大,&极端区间&偏离中心越远。
欢迎继续阅读&&系列文章
阅读(...) 评论()扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
下载作业帮安装包
扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
数学中的标准差是什么?
扫二维码下载作业帮
拍照搜题,秒出答案,一键查看所有搜题记录
在统计里,我们把所要考察对象的全体叫做总体,其中每一个考察对象叫做个体,从整体中所抽取的一部分个体叫做总体的一个样本.在一组数据中,出现次数最多的数据叫做这组数据的众数.将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的平均数.所谓"中位数",就是把一组数据由低到高重新排列,用去掉两端逐步接近正中心的办法可以找出处在正中间位置的那个值,即中位数.方差是一组数据中的每一个数与这组数据的平均数的差的平方的和再除以数据的个数.即:[∑(Xn-X)^2]/n,(X表示这组数据的平均数.) 而标准方差就是方差的平方根.从而,方差越大,标准方差也越大
为您推荐:
其他类似问题
扫描下载二维码 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
如何理解方差和标准差的意义
下载积分:1000
内容提示:如何理解方差和标准差的意义
文档格式:DOC|
浏览次数:725|
上传日期: 22:33:36|
文档星级:
全文阅读已结束,如果下载本文需要使用
 1000 积分
下载此文档
该用户还上传了这些文档
如何理解方差和标准差的意义
官方公共微信当前位置:
>>>一组数据5,4,3,2,1的标准差是______.-数学-魔方格
一组数据5,4,3,2,1的标准差是______.
题型:填空题难度:偏易来源:不详
由题意知:平均数=1+2+3+4+55=3方差S2=15[(5-3)2+(4-3)2+(3-3)2+(2-3)2+(1-3)2]=2∴标准差是方差的平方根即2.故填2.
马上分享给同学
据魔方格专家权威分析,试题“一组数据5,4,3,2,1的标准差是______.-数学-魔方格”主要考查你对&&方差&&等考点的理解。关于这些考点的“档案”如下:
现在没空?点击收藏,以后再看。
因为篇幅有限,只列出部分考点,详细请访问。
方差:是各个数据与平均数之差的平方和的平均数。在概率论和数理统计中,方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。设有n个数据各数据x1,x2,…,xn各数据与它们的平均数的差的平方分别是,,…,,我们用它的平均数,即用来衡量这组数据的波动大小,并把它叫做这组数据的方差,记作。方差特点:(1)设c是常数,则D(c)=0。(2)设X是随机变量,c是常数,则有D(cX)=(c2)D(X)。(3)设 X 与 Y 是两个随机变量,则D(X+Y)= D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)]}特别的,当X,Y是两个相互独立的随机变量,上式中右边第三项为0(常见协方差),则D(X+Y)=D(X)+D(Y)。此性质可以推广到有限多个相互独立的随机变量之和的情况。(4)D(X)=0的充分必要条件是X以概率为1取常数值c,即P{X=c}=1,其中E(X)=c。(5)D(aX+bY)=a^2DX+b^2DY+2abE{[X-E(X)][Y-E(Y)]}。意义:在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。标准差:方差的算术平均根,即,并把它叫做这组数据的标准差,它也是一个用来衡量一组数据的波动大小的重要的量。公式:方差是实际值与期望值之差平方的期望值,而标准差是方差算术平方根。 在实际计算中,我们用以下公式计算方差。方差是各个数据与平均数之差的平方的平均数,即s^2=(1/n)[(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2],其中,x_表示样本的平均数,n表示样本的数量,^,xn表示个体,而s^2就表示方差。而当用(1/n)[(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]作为样本X的方差的估计时,发现其数学期望并不是X的方差,而是X方差的(n-1)/n倍,[1/(n-1)][(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]的数学期望才是X的方差,用它作为X的方差的估计具有“无偏性”,所以我们总是用[1/(n-1)]∑(xi-X~)^2来估计X的方差,并且把它叫做“样本方差”。方差,通俗点讲,就是和中心偏离的程度!用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差。记作S&sup2.在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。方差分析主要用途:①均数差别的显著性检验;②分离各有关因素并估计其对总变异的作用;③分析因素间的交互作用;④方差齐性检验。
发现相似题
与“一组数据5,4,3,2,1的标准差是______.-数学-魔方格”考查相似的试题有:
169117476740168388503250427007149588}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信