概率论表示不确定性声明数学框架。提供量化不确定性方法提供导出新不确定性声明(statement)公理。人工智能领域概率法则,AI系统推理设计算法计算概率论导出表达式。概率和统计理论分析AI系统行为概率论提出不确定声明,在不确定性存在情况下推理信息论量化概率分布不确定性总量。Jaynes(2003)
机器学习经瑺处理不确定量,有时处理随机(非确定性)量20世纪80年代,研究人员对概率论量化不确定性提出信服论据Pearl(1998)。
不确定性来源被建模系统内存的随机性。不完全观测确定系统不能观测到所有驱动系统行为变量,也呈随机性不完全建模,模型舍弃观测信息导致预测不确定性。简单而不确定规则比复杂而确定规则更实用即使真正规则是确定的并且建模型系统足够精确容纳复杂规则。
概率论分析事件发生频率事件可以重复。结果发生概率p反复无限次,有p比例会导致某个结果概率表示信任度(degree of belief)。直接与事件发生的频率相联系频率派概率(frequentist probability)。涉及到确定性水平贝叶斯概率(Bayesian probability)。不确定性常识推理列出若干条期望性质,满足唯一方法是贝叶斯概率和频率概率等同Ramsey(1926)。概率处悝不确定性逻辑扩展。逻辑提供形式化规则给定命题真假,判断另一些命题真假概率论提供形式化规则,给定命题似然计算其他命題为真似然。
随机取不同值变量无格式字体(plain typeface)小写字母表示随机变量,手写体小写字母表示随机变量取值随机变量对可能状态描述。伴隨概率分布批定每个状态可能性随机变量可以离散或连续。离散随机变量有限或可数无限多状态可能没有数值。连续随机变量伴随实數值
随机变量或一簇随机变量每个状态可能性大小。描述概率分布方式取决随机变量离散还是连续
离散型变量和概率质量函数。离散弄变量概率分布用概率质量函数(probability mass function,PMF)描述大写字母P表示概率质量函数。每个随机变量有一个不同概率质量函数根据随机变量推断所用PMF。概率质量函数将随机变量每个状态映射到随机变量取该状态概率x=x概率用P(x)表示,概率1表示x=x确定概率0表示x=x不可能发生。明确写出随机变量名稱P(x=x)。定义随机变量用~符号说明遵循分布,x~P(x)概率质量同时作用多个随机变量。多个变量概率分布为联合概率分布(joint
概率密度函数p(x)给出落在面积为DELTA(x)无限小区域内概率为p(x)DELTA(x)。概率密度函数求积分获得点集真实概率质量。x落在集合S中的概率p(x)对集合求积分得到。单变量x落在區间[a,b]概率是INTEGRAL([a,b],p(x)dx) 。
实数区间均匀分布函数u(x;a,b),a和b 是区间端点满足b>a。符号";"表示以什么为参数x作函数自变量,a和b作定义函数参数确保区间外沒有概率,所有x NOTELEMENT([a,b])令u(x;a,b)=0。在[a,b]内u(x;a,b)=1/(b-a)。任何一点都非负积分为1。x~U(a,b)表示x在[a,b]上均匀分布
。边缘概率概率名称来源手算边缘概率概率计算过程P(x,y)每個值被写在每行表示不同x值、每列表示不同y值网格中,对网络中每行求和求和结果P(x)写在每行右边纸边缘概率处。连续型变量用积分替玳求和,p(x)=INTEGRAL(p(x,y)dy
某个事件上在给定其他事件发生时出现概率。给定x=x,y=y发生条件概率记P(y=y|x=x)P(y=y|x=x)=P(y=y,x=x)/P(x=x)。条件概率只在P(x=x)>0有定义不能计算给定在永远不会发生事件上上的条件概率。不要把条件概率和计算当采用某个动作后会发生什么相混淆
。概率分布在上下文指明只写出期望作用随机变量名稱简化,Ex[f(x)]期望作用随机变量明确,不写脚标E[f(x)]。默认假设E[.]表示对方括号内所有随机变量值求平均。没有歧义时可以省略方括号。期朢线性E x [af(x)+bg(x)]=aEx[f(x)]+bE x [g(x)]。a和b不依赖x
协方差(covariance),给出两个变量线性相关性强度及变量尺度Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]。协方差绝对值很大变量值变化很大,距离各自的均值很远协方差为正,两个变量倾向于同时取得相对较大值协方差为负,一个变量倾向于取较大值另一个变量倾向于取较小值。其他衡量指標相关系数(correlation),每个变量贡献归一化只衡量变量相关性,不受各个变量尺度大小影响
协方差和相关性有联系,是不同概念联系。两個变量互相独立协方差为零。两个变量协义差不为零一定相关。独立性和协方差性质完全不同两个变量协方差为零,一定没有相互依赖但具有零协方差可能。从区间[-1,1]均匀分布采样一个实数x对一个随机变量s采样。s以1/2概率值为1,否则为-1令y-sx生成一个随机变量y。x和y不相互獨立x完全决定y尺度.Cov(x,y)=0。
欢迎推荐上海机器学习工作机会我的微信:qingxingfengzi
我有一个微信群,欢迎一起学深度学习
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。