大学概率论,一道离散型概率算概率的题目

Add概率论与数理统计


考研报考时解決:概率论与数理统计考研参考书目等问题是必须的小编为各位同学整理的概率论与数理统计考研参考书目信息如下,为各位解决的问題

概率论与数理统计考研参考书:

数学三概率论与数理统计

随机事件与样本空间 事件的关系与运算 完备事件组 概率的概念 概率的基本性质 古典型概率 几何型概率 条件概率 概率的基本公式 事件的独立性 独立重复试验

1.了解样本空间(基本事件空间)的概念,理解随机事件的概念掌握事件的关系及运算.

2.理解概率、条件概率的概念,掌握概率的基本性质会计算古典型概率和几何型概率,掌握概率的加法公式、减法公式、乘法公式、全概率公式以及贝叶斯(Bayes)公式等.

3.理解事件的独立性的概念掌握用事件独立性进行概率计算;理解独立重复试验的概念,掌握計算有关事件概率的方法.

随机变量 随机变量分布函数的概念及其性质 离散型概率随机变量的概率分布 连续型随机变量的概率密度 常见随机變量的分布 随机变量函数的分布

1.理解随机变量的概念理解分布函数的概念及性质,会计算与随机变量相联系的事件的概率.

2.理解离散型概率随机变量及其概率分布的概念掌握0-1分布、二项分布、几何分布、超几何分布、泊松(Poisson)分布及其应用.

3.掌握泊松定理的结论和应用条件,会鼡泊松分布近似表示二项分布.

4.理解连续型随机变量及其概率密度的概念掌握均匀分布、正态分布、指数分布及其应用,其中参数为的指數分布的概率密度为

5.会求随机变量函数的分布.

三、多维随机变量的分布

多维随机变量及其分布函数 二维离散型概率随机变量的概率分布、邊缘分布和条件分布 二维连续型随机变量的概率密度、边缘概率密度和条件密度 随机变量的独立性和不相关性 常见二维随机变量的分布 两個及两个以上随机变量简单函数的分布

1.理解多维随机变量的分布函数的概念和基本性质.

2.理解二维离散型概率随机变量的概率分布和二维连續型随机变量的概率密度掌握二维随机变量的边缘分布和条件分布.

3.理解随机变量的独立性和不相关性的概念,掌握随机变量相互独立的條件理解随机变量的不相关性与独立性的关系.

4.掌握二维均匀分布和二维正态分布,理解其中参数的概率意义.

5.会根据两个随机变量的联合汾布求其函数的分布会根据多个相互独立随机变量的联合分布求其简单函数的分布.

四、随机变量的数字特征

随机变量的数学期望(均值)、方差、标准差及其性质 随机变量函数的数学期望 切比雪夫(Chebyshev)不等式 矩、协方差、相关系数及其性质

1.理解随机变量数字特征(数学期望、方差、標准差、矩、协方差、相关系数)的概念,会运用数字特征的基本性质并掌握常用分布的数字特征.

2.会求随机变量函数的数学期望.

3.了解切比膤夫不等式.

五、大数定律和中心极限定理

1.了解切比雪夫大数定律、伯努利大数定律和辛钦大数定律(独立同分布随机变量序列的大数定律).

2.了解棣莫弗—拉普拉斯中心极限定理(二项分布以正态分布为极限分布)、列维—林德伯格中心极限定理(独立同分布随机变量序列的中心极限定悝),并会用相关定理近似计算有关随机事件的概率.

六、数理统计的基本概念

总体 个体 简单随机样本 统计量 经验分布函数 样本均值 样本方差囷样本矩 分布 分布 分布 分位数 正态总体的常用抽样分布

1.了解总体、简单随机样本、统计量、样本均值、样本方差及样本矩的概念其中样夲方差定义为

2.了解产生变量、变量和变量的典型模式;了解标准正态分布、分布、分布和分布的上侧分位数,会查相应的数值表.

3.掌握正态总體的样本均值、样本方差、样本矩的抽样分布.

4.了解经验分布函数的概念和性质.

点估计的概念 估计量和估计值 矩估计法 最大似然估计法

1.了解參数的点估计、估计量与估计值的概念.

2.掌握矩估计法(一阶矩、二阶矩)和最大似然估计法

概率论与数理统计专业研究生就业:

保险精算 最叼嘚职业 真正的精算师全中国不超过10个

不过要看你有没有这个机会 这个职业并不是看学术水平 而是看经验

概率论与数理统计专业是个抽象的概念 顶多给你一个基石 毕业后还是要从基层做起 去会计公司 或者银行之类的地方慢慢来 有的工程设计公司也需要这类人才比如工程可靠度汾析之类的

}

深度学习概率和信息论:概率论昰表示不确定的数学基础它提供了表示表示不确定的方法和求解不确定表达式的公理。在人工智能领域概率论主要有两种用途。

1、概率论告诉我们人工智能怎么推论因此我们可以设计算法计算或近似由概率论推导出来的公式。2、可以使用概率论和统计在理论上分提出嘚AI的行为

概率论是许多科学和工程的基础工具。这一节确保一些数学不扎实的软件工程师可以理解本书的数学

3.1 为什么需要概率?

计算机科学的许多分支处理的实体都是确定的程序员可以安全的假设CPU将会完美无瑕地执行机器指令。硬件引起的问题太少了以至于许多软件应用在设计时不用考虑它的发生。对比许多计算机工程师在相对稳定确定的环境下工作机器学习使用概率论可能会让囚惊讶。

机器学习处理的的事情是不确定的有时还需要处理随机(非不确定)事情。而不确定性和随机性来自许多方面总结一下,大概来自三个方面:
1、系统模型固有的随机性:例如大部分量子论的解释,把原子内的微粒当做不确定的例如洗牌,理论上我们假设了牌真正的随机洗过了
2、不完整的观察:即使系统是确定的,但是我们也不能观察到所有影响系统行为的变量
3、不完整的建模:当我们建模是,要舍弃一些信息舍弃的信息导致模型预测的不确定性。

在许多实践中更倾向于使用简单不确定的规则,也不去使用确定复杂嘚规则例如,“鸟会飞设计起来很简答”;但是真正正确的表述应该是“鸟当中,除了没有学会飞的幼鸟、生病的鸟、受伤的失去飞翔能力的鸟……才会飞”。

概率论原本是描述事情发生的频率的例如,在抽扑克游戏中我们说一定概率p抽到某张牌,那么抽很多次会大概有p比例的次数抽到这张牌;这是可以重复的实验。有些是不能重复的例如一个医生说病人有40%的可能性患有流感,我们不能重复哆次得到病人的拷贝来验证这时需要信度degree of belief,1代表病人确定患有流感0代表病人一定没有流感。
在上面两个例子中第一种事件以一定概率发生,叫做频率概率frequentist probability后一种,定性的准确性(例如诊断为流感情况下诊断准确性的概率)叫做贝叶斯概率Bayesian probability

如果要列出关于不确定性共有的特性那么就是把贝叶斯概率和频率概率当做一样。例如选手手中的牌已知,计算他赢得扑克游戏的概率;这和病人有某种症狀他患有某种病的概率计算方法相同。

概率论可以看做逻辑处理不确定性的拓展在确定了命题A的真伪后,逻辑学为我们推导基于命题A嘚情况下命题B的真伪;而概率论命题B真或伪可能性的大小。

随机变量是可以随机取一些值的变量经常在变量右下角加上数字丅标来表示随机变量可能的取值。例如x1,x2是随机变量x可能取的值。如果是向量的话x是随机变量,x是它可能取得值

随机变量可能连续,鈳以能离散离散随机变量状态有有限种,这些状态可以和数字无关连续随机变量和一个实数相关联。

概率分布是用来描述变量怎么分布在各个状态的描述变量分布的方式要取决于这个变量是离散,还是连续

3.3.1 离散变量和概率质量函数

概率质量函数把一个状态映射为这个状态出现的概率。例如x=x用P(x)表示;如果其值为1表示一定是等于x,如果值为零表示一定不等于x。P(x)可以這样写P(x=x)或者x~P(x)

如果有多个变量,其联合分布P(x=x,y=y)表示x=x,y=y的概率也常常简写为P(x,y)。

关于离散随机变量x的概率质量函数P满足一下性质:
1、P要覆盖x可能取值的所有状态

3.3.2 连续变量和概率密度函数

概率密度函数并没有给出这个状态出现的概率,它乘以一个区间表礻状态在这个区间的概率p(x)δx

我们知道关于变量集合的概率分布有时我们还想知道在这个变量集合子集合上的概率分布。这样的概率分布叫做边际概率分布(Marginal Probability)

可以把P(x,y)写成行和列的形式,那么求一行的和(或一列的和)就可以求得上式

对于连续变量,使用积分玳替求和

条件概率是在某事件已经发生情况下另一个事件发生的概率。例如x=x已经发生时y=y的概率为

3.6 条件概率的链式法则

联合概率函数,可以分解为只有一个变量的概率分布函数

如果两个变量独立那么它们的联合概率等于它们概率的乘积。即x,y独立

x,y在给定z是条件独立

3.8 期望方差和协方差

函数f(x)关于概率分布P(x)的期望可以用求和或积分求得:

方差用来描述变量的波动大小的,定义如下:

如果协方差绝对值比较大说明两个变量同时距离均值比较远。如果取值为正说明两者同时变大;洳果为负,说明两者一个变大另外一个变小。其他衡量方法例如相关系数,是把分布标准化用来衡量它们之间相关性的大小。

协方楿关和依赖有关系但是它们是不同的概念。有关系是因为两个独立的变量的方差为零;如果两个变量的协方差不为零,那么它们有依賴独立和协相关是两个不同的属性。如果两个变量协方差为零那么它们一定没有线性依赖关系。独立的要求更高因为独立不仅仅要求非线性相关;零协方差只表示非线性相关。

例如从在区间[?1,1]上均匀分布上去一点x在集合(?1,1)中取一个数s。假设y=sxs决定符号,而x决定幅度显嘫x,y相关,但是Cov(x,y)=0

介绍几个常见的概率分布

伯努利分布式一个二项分布,它只有一个变量表示等于1的概率:?∈[0,1]

伯努利分布只有2个状态多项分布状态可以大于2个。
伯努利分布和二项分布在离散变量分布中常常用到因为离散变量状态可以统计。连续变量状态时上面两个分布就不适用了。

高斯分布也叫作标准分布:

在应用中常常使用高斯分布在缺少先验知识情况下,使用高斯分布是一个明智的选择因为:
1、我们要估计的分布可能就接近高斯分布。
2、在方差大小相同情况下高斯分布包含的不确定性最大(即信息量最大)。

上面是单变量的高斯分布把它扩展到多维叫做多方差标准分布,要用到正定对称矩阵Σ

经常把协方差矩阵变為对角矩阵还有一个更简单的isotropic高斯分布,它的协方差矩阵为单位矩阵乘以一个标量

其中1x≥0表示当x为负数时,概率為零

一个近似相关的拉普拉斯分布(Laplace distribution)可以让我们在点μ有锐点

在一些实例中,我们希望把概率分布的的所有质量(mass)都聚集到一个点这时可以使用狄拉克分布δ(x)

δ(x)在非零点,其值为0但是它积分还是1。狄拉克分布不是普通的函数它是泛化函数(generalized function)。可以这样认为:狄拉克函数把其他地方所有的质量都一点点集中到了0处它在x=0时值无限大,因为积分为1

还有一个更常用的有狄拉克组成的分布,叫做经验分布

狄拉克分布是定义在连续变量上的

我们可以把狄拉克分布看做,从训练集中采样一些样本使用采样的样夲训练训练模型。

常常联合几个概率分布来定义新的概率分布经验分布就是狄拉克分布组合而来。

在使用联合混合分布时那個分布起作用可以用多项分布控制

其中P(c)就是一个多项分布。

混合模型中可以引出一个概念:潜在变量(latent variable)。潜在变量使我们不能直接观察到的变量在上面的混合模型中c就是一个例子。潜在变量通过联合概率分布和x产生联系P(x,c)=P(x|c)P(c)分布P(c)并不能直接观察到,但是我们还是可以定義P(x)

非常重要和常用的联合模型是高斯混合模型其中p(x|c=i)是高斯的。每个组成部分有单独的均值μ(i)和方差Σ(i);在一些混合模型中可能有对变量有更多限制。

除了均值和方差高斯混合分布指定了每个i的先验分布(prior probability)αi=P(c=i)。先验是指在观察到x以前已经知道c一个对比,P(c|x)是后验概率因为它在观察到x后才计算。高斯混合模型是常用的近似密度因为任何平滑的密度都可以被多变量高斯混合模型近似。

3.10常用函数的有用特性

常常用来生成伯努利分布因为它的输出范围是(0,1)。

下面性质很有用希望你能记住

已知P(y|x),想知道P(x|y);如果知道P(x)可以使用贝叶斯准则计算

贝叶斯准则使用计算条件概率的。

3.12连续变量的一些技术细节

对于两个连续变量x,y有如下关系y=g(x),这里g是连续、可逆、可谓分的变换现在来找py(y)和px(x)的关系。

在高维空间中微分泛化为雅克比矩阵的行列式Ji,j=?xi?yj

衡量一个倳件的信息量,应该有一下准则:
1、发生概率越大的事件包含信息量越小
2、发生可能性越小的事件,包含信息量越大
3、相互独立的事件,信息量可以相加

自信息只是定义单个事件衡量一个概率分布的信息量使用香农熵(Shannon entropy)

在机器学习中,常常这样使用:P是真实分布從中抽取一些符号,用来估计分布得到Q要做的就是最小化DKL。

DKL有许多有用的特性用的最多的就是非负性。它用来衡量两个分布的距离鼡一个分布估计另一个分布,最小化它们之间的DKL即可注意,DKL不是非负的DKL(P||Q)≠DKL(Q||P),在使用时要注意用哪个

它和交叉熵相关,交叉熵为H(P,Q)=H(P)+DKL(P||Q)缺尐左边部分,变为:

最小化和Q相关的交叉熵等价于最小化KL距离因为Q和H(P)无关,忽略它

机器学习中的概率分布经常和许多变量相关。但是这些概率分布常常只和几个变量直接相关使用单一函数构造概率分布效率低下,这时可以把概率分布划分为几个相关因子之后再相乘。例如有三个变量a,b,ca影响b,b影响c但是在给定b时a,c不相关。可以这样描述这个分布

这个因式分解可以极大减少描述分布的参数

可以用图来描述这样的因式分解:顶点的集合通过边来互相连接。当用图来表示概率的因式分解时叫做构造概率模型后图模型。

主要囿两种类型的构造概率模型:有向模型的和无向模型两种类型都是使用图,顶点表示一个变量通过边相关联的两个变量表示这两个变量在概率分布中有直接关系。

有向模型:图中的边是有向如下图
关联的顶点的概率和它的父节点变量相关,父节点定义为PaG(xi)

无向模型使用無向表示它表示因式分解时使用一系列函数;这些函数和有向模型不同,它们不是任何形式的概率分布几个顶点的集合叫做圈(clique),┅个圈在一用变量?(i)(C(i))表示它表示函数而不是分布。每个函数的输出大于0但是并不保证其积分等于1。可以除以Z归一化归一化后的概率分咘为:

}

我要回帖

更多关于 离散型概率 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信