非等概率抽样和非概率抽样不放回抽样,m个道具,每个道具概率抽样和非概率抽样权重ri,不放回抽取n次(n<m),各道具被抽到的概率抽样和非概率抽样是多少?

您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
抽样调查不等概率抽样.ppt 28页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
抽样调查不等概率抽样
你可能关注的文档:
··········
··········
抽样调查 李启才
liqcai@njnu.edu.cn Chap5
不等概率抽样 §5.1
不等概率抽样
由于抽样单元在总体中占有的地位不一样,有时需赋予每个单元不同的被抽中概率,以便更合理的推算估计。
§5.3 多阶段不等概率抽样 抽 样 调 查 * (Sampling
不等概率抽样 抽 样 调 查
放回不等概率抽样
多阶段有放回不等概率抽样
不放回不等概率抽样
例如反映北京经济发展的情况,像首钢等这样的大型企 业影响比较大,而一些名不见经传的小企业是否抽中往 往无足轻重。因而在抽样中如果把他们处在同等地位显 然有缺陷。
不等概率抽样主要分为 (一)放回不等概率抽样和(二)不放回不等概率抽样。 它们在抽样方式和估计量构造方面都与前面有很大不同。 在有放回等概率抽样中,最常用的是按总体单元的规模 大小来确定抽选的概率。 1 PPS抽样(probability proportional to size)
设Z1,Z2,…Zn是一组概率分布(分布列),按这组概率 对总体中的N个单元进行有放回抽样,每次抽中第 i个单 元的概率Zi,独立进行n次,则这种抽样叫多项抽样.
特别地,设总体种第i个单元的规模度量为Mi,可取 这时称为PPS抽样。
其中某单元可能被不止一次抽中,此时只调查一次,但计算时出现几次按几次计算。 2 实施办法
1).代码法(累积总和法)(汉森&赫维茨 ,
Hansen & Hurwitz 1943)
在PPS抽样中,赋予每个单元与规模Mi相等的代码,将代码 累加得到M0,每次抽样都产生一个[1,M0]之间的随机数,设为 m,则代码m所对应的单元被抽中.如果Mi不是整数,则乘以某 个倍数.
1—M1 M1+1—M1+M2 M1+M2+1—M1+M2+M3 . . . M1 M1+M2 M1+M2+M3 . . . M1 M2 M3 . . . 1 2 3 . . . 代码范围 累加和 单元规模 单元 例5.1 设某个总体有N=10个单元,相应单元的大小Mi及代码, 我们要在其中产生一个 n=3的样本.
738 M0=73.8 和 1~6 7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727 728~738 6 151 166 303 381 531 631 667 727 738 6 145 15 137 78 150 100 36 60 11 0.6 14.5 1.5 13.7 7.8 15 10 3.6 6 1.1 1 2 3 4 5* 6* 7* 8 9 10 代码 累加Mi*10 Mi*10 Mi i 先在[1,738]中产生第一个随机数如是354,再在[1,738]中 产生第二个随机数如是553,最后[1,738]中产生第三个随机 数如是493,则它们对应的第5,6,7号单元被抽中。易验证 每个单元被抽中的概率与其规模成正比。 2)拉希里方法(Lahiri,印度)
第一步:先在1~N中随机等概率抽取一个数字,不妨设为 i,则i成为侯选的被抽中单元,其是否抽中还依赖于第二步;
第二步:令
之间等概率随机取 m, 如果m小于刚才抽中第i个单元的规模 Mi,即
m≤Mi,则第 i个 单元被抽中,否则重复第一步和第二步,直到两步都符合才算 抽中,这样依次下去,直到抽满n个单元为止. 续上例:
在[1,10]和[1,150]中分别产生
(i,m)演示如下,
(3,121),
舍弃,重抽;
(8,50),
舍弃,重抽;
(7,77),
第7号单元入样;
(5,127),
舍弃,重抽;
(4,77),
第4号单元入样;
(9,60),
第9号单元入样.
因此第4,7,9号单元被抽中。 注:总体单元大小规模的度量往往不止一个,如度量一个 企业的大小,可以是资金多少,也可以是产值和销售额的 大小,还可以使人员的多少等。如估计全乡村平均年收入, 可以以每村家庭户数作为规模度量。
实际调查中,应据与调查的目标量Yi的相关程度以及获取 数据简易程度综合考虑。
1500 和 1~120 121~165 166~375 376~461 462~745 746~936 937~975 976~62 0 165 375 461 745 936 975 00 120 45 210 86 284 191 39 320 1
正在加载中,请稍后...出自 MBA智库百科()
蒙特卡罗方法(Monte Carlo method)
  蒙特卡罗方法又称统计模拟法、随机抽样技术,是一种随机模拟方法,以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或,以获得问题的近似解。为象征性地表明这一方法的概率统计特征,故借用赌城蒙特卡罗命名。
  蒙特卡罗方法于20世纪40年代美国在第二次世界大战中研制原子弹的“曼哈顿计划”计划的成员和首先提出。数学家用驰名世界的赌城—摩纳哥的Monte Carlo—来命名这种方法,为它蒙上了一层神秘色彩。在这之前,蒙特卡罗方法就已经存在。1777年,法国Buffon提出用投针实验的方法求圆周率∏。这被认为是蒙特卡罗方法的起源。
  Monte Carlo方法的基本思想很早以前就被人们所发现和利用。早在17世纪,人们就知道用事件发生的“频率”来决定事件的“概率”。19世纪人们用投针试验的方法来决定圆周率π。本世纪40年代电子计算机的出现,特别是近年来高速电子计算机的出现,使得用数学方法在计算机上大量、快速地模拟这样的试验成为可能。
  考虑平面上的一个边长为1的正方形及其内部的一个形状不规则的“图形”,如何求出这个“图形”的面积呢?Monte Carlo方法是这样一种“随机化”的方法:向该正方形“随机地”投掷N个点,有M个点落于“图形”内,则该“图形”的面积近似为M/N。
可用民意测验来作一个不严格的比喻。民意测验的人不是征询每一个登记选民的意见,而是通过对选民进行小规模的来确定可能的优胜者。其基本思想是一样的。
  科技计算中的问题比这要复杂得多。比如(、、等)的及估算,问题的维数(即的个数)可能高达数百甚至数千。对这类问题,难度随维数的增加呈指数增长,这就是所谓的“维数的灾难”(Curse of Dimensionality),传统的数值方法难以对付(即使使用速度最快的计算机)。Monte Carlo方法能很好地用来对付维数的灾难,因为该方法的计算复杂性不再依赖于维数。以前那些本来是无法计算的问题现在也能够计算量。为提高方法的效率,科学家们提出了许多所谓的“方差缩减”技巧。
  另一类形式与Monte Carlo方法相似,但理论基础不同的方法—“拟蒙特卡罗方法”(Quasi-Monte Carlo方法)—近年来也获得迅速发展。我国数学家华罗庚、王元提出的“华—王”方法即是其中的一例。这种方法的基本思想是“用确定性的超均匀分布序列(数学上称为Low Discrepancy Sequences)代替Monte Carlo方法中的随机数序列。对某些问题该方法的实际速度一般可比Monte Carlo方法提出高数百倍,并可计算精确度。
  由概率定义知,某事件的概率可以用大量试验中该事件发生的频率来估算,当足够大时,可以认为该事件的发生频率即为其概率。因此,可以先对影响其可靠度的进行大量的,然后把这些抽样值一组一组地代入功能函数式,确定结构是否失效,最后从中求得结构的失效概率。蒙特卡罗法正是基于此思路进行分析的。
  设有统计独立的随机变量Xi(i=1,2,3,…,k),其对应的分别为fx1,fx2,…,fxk,功能函数式为Z=g(x1,x2,…,xk)。
  首先根据各随机变量的相应分布,产生N组随机数x1,x2,…,xk值,计算功能函数值 Zi=g(x1,x2,…,xk)(i=1,2,…,N),若其中有L组随机数对应的功能函数值Zi≤0,则当N→∞时,根据伯努利及正态随机变量的特性有:结构失效概率,可靠指标。
  从蒙特卡罗方法的思路可看出,该方法回避了结构可靠度分析中的数学困难,不管状态函数是否非线性、随机变量是否非正态,只要模拟的次数足够多,就可得到一个比较精确的失效概率和可靠度指标。特别在岩土体分析中,往往较大,与JC法计算的可靠指标相比,结果更为精确,并且由于思路简单易于编制程序。
  通常蒙特·卡罗方法通过构造符合一定规则的随机数来解决数学上的各种问题。对于那些由于计算过于复杂而难以得到解析解或者根本没有解析解的问题,蒙特·卡罗方法是一种有效的求出数值解的方法。一般蒙特·卡罗方法在数学中最常见的应用就是蒙特·卡罗积分。
  蒙特卡罗算法表示采样越多,越近似最优解。举个例子,假如筐里有100个苹果,让我每次闭眼拿1个,挑出最大的。于是我随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……我每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大,但我除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的算法,就属于蒙特卡罗算法。告诉我们样本容量足够大,则最接近所要求解的概率。
  蒙特卡罗方法在,,生物医学,计算物理学(如粒子输运计算、量子热力学计算、空气动力学计算)等领域应用广泛。
  在解决实际问题的时候应用蒙特·卡罗方法主要有两部分工作:
  1. 用蒙特·卡罗方法模拟某一过程时,需要产生各种的。
  2. 用把模型的数字特征估计出来,从而得到实际问题的数值解。
  使用蒙特·卡罗方法进行分子模拟计算是按照以下步骤进行的:
  1. 使用随机数发生器产生一个随机的分子构型。
  2. 对此分子构型的其中粒子坐标做无规则的改变,产生一个新的分子构型。
  3. 计算新的分子构型的能量。
  4. 比较新的分子构型于改变前的分子构型的能量变化,判断是否接受该构型。
若新的分子构型能量低于原分子构型的能量,则接受新的构型,使用这个构型重复再做下一次迭代。
若新的分子构型能量高于原分子构型的能量,则計算玻尔兹曼因子,并产生一个随机数。
若这个随机数大于所计算出的玻尔兹曼因子,则放弃这个构型,重新计算。
若这个随机数小于所计算出的玻尔兹曼因子,则接受这个构型,使用这个构型重复再做下一次迭代。
  5. 如此进行迭代计算,直至最后搜索出低于所给能量条件的分子构型结束。
  蒙特卡罗方法是以概率统计原理为基础,模拟事物的形成过程,以达到认识事物特征及其变化规律的方法。这种方法的前提假设是不确定性参数可以用概率分布来描述。蒙特卡罗方法实施步骤:
  1、通过敏感性分析,确定随机变量;
  2、构造随机变量的概率分布模型;
  3、为各输入随机变量抽取随机数;
  4、将抽得的随机数转化为各输入随机变量的抽样值;
  5、将抽样值组成一组项目评价基础数据;
  6、根据基础数据计算出评价指标值;
  7、整理模拟结果所得评价指标的期望值、方差、标准差和它的概率分布及累计概率,绘制累计概率分布图,计算项目可行或不可行的概率。
  从理论上来说,蒙特卡罗方法需要大量的实验。实验次数越多,所得到的结果才越精确。以上Buffon的投针实验为例、历史上的记录如下表1。
  从表中数据可以看到,一直到公元20世纪初期,尽管实验次数数以千计,利用蒙特卡罗方法所得到的圆周率∏值,还是达不到公元5世纪祖冲之的推算精度。这可能是传统蒙特卡罗方法长期得不到推广的主要原因。
  计算机技术的发展,使得蒙特卡罗方法在最近10年得到快速的普及。现代的蒙特卡罗方法,已经不必亲自动手做实验,而是借助计算机的高速运转能力,使得原本费时费力的实验过程,变成了快速和轻而易举的事情。它不但用于解决许多复杂的科学方面的问题,也被人员经常使用。
  借助计算机技术,蒙特卡罗方法实现了两大优点:
  一是简单,省却了繁复的数学报导和演算过程,使得一般人也能够理解和掌握;
  二是快速。简单和快速,是蒙特卡罗方法在现代中获得应用的技术基础。
  蒙特卡罗方法有很强的适应性,问题的几何形状的复杂性对它的影响不大。该方法的收敛性是指概率意义下的收敛,因此问题维数的增加不会影响它的收敛速度,而且存贮单元也很省,这些是用该方法处理大型复杂问题时的优势。因此,随着电子计算机的发展和科学技术问题的日趋复杂,蒙特卡罗方法的应用也越来越广泛。它不仅较好地解决了多重积分计算、微分方程求解、积分方程求解、特征值计算和非线性方程组求解等高难度和复杂的数学计算问题,而且在统计物理、核物理、真空技术、 、信息科学 、公用事业、地质、医学,及计算机科学等广泛的领域都得到成功的应用。
  中蒙特卡罗模拟方法的一般步骤是:
  1、对每一项活动,输入最小、最大和最可能估计数据,并为其选择一种合适的先验分布模型;
  2、计算机根据上述输入,利用给定的某种规则,快速实施充分大量的;
  3、对的数据进行必要的数学计算,求出结果;
  4、对求出的结果进行处理,求出最小值、最大值以及数学期望值和单位;
  5、根据求出的统计学处理数据,让计算机自动生成曲线和曲线(通常是基于的概率累积);
  6、依据曲线进行项目。
  非权重蒙特卡罗积分,也称确定性抽样,是对被积函数变量区间进行随机均匀抽样,然后对被抽样点的函数值求平均,从而可以得到函数积分的近似值。此种方法的正确性是基于的。当抽样点数为m时,使用此种方法所得近似解的恒为 1除于根号M,不随积分维数的改变而改变。因此当积分维度较高时,蒙特卡罗方法相对于其他数值解法更优。
  一、问题的提出
  随着的逐步完善、经济水平的逐步提高,我国社会经济活动日趋复杂,越来越多变,其影响越来越广泛,越来越深远,逐渐成为时所面临的主要难题。因此,如何在不确定条件下做出,就成为目前理论和实践工作者们广泛关注的一个核心课题。
  传统的投资评价理论——以(NPV) 为代表的方法,其根本缺陷在于它们是事先对未来的做出估计,并假设其为不变或静态的状况,无法衡量不确定因素的影响,不能体现递延决策以应对所带来的管理弹性。所以,在不确定环境下的投资,用评估项目不能体现柔性投资安排决策所体现的价值,无助于项目在决策中。在多变的中,与的反应使实际收入与有所出入, 所以净现值法(NPV) 适用于常规项目,未来不确定性比较小的项目。
  为此理论界对未来投资环境不确定性大的项目提出了实物期权法,但在实践中应用的还是比较少。实物期权法的应用对企业决策者的综合素质要求比较高,对企业资源能力要求也比较高。但是实物期权法改变了我国管理者对的。
  基于以上的分析,我们得出这样的结论:传统的方法对风险项目和不确定性项目的评价有较多不完善之处,有必要对其改进;实物期权法理论上解决了传统决策方法对不确定性的不足,但其应用尚处于体系不成熟阶段,在实践中应用并不广泛。至此,引入蒙特卡罗模型的理论和其分析方法,此方法特别适用于参数波动性大,且服从某一概率分布的项目,例如地质勘察、气田开发等项目。
  蒙特卡罗模型是利用计算机进行数值计算的一类特殊风格的方法, 它是把某一现实或抽象系统的某种特征或部分状态, 用模拟模型的系统来代替或模仿, 使所求问题的解正好是模拟模型的参数或特征量, 再通过统计实验, 求出模型参数或特征量的估计值, 得出所求问题的近似解。目前评价不确定和风险项目多用和,但计算上较为复杂,尤其各因素变化可能出现概率的确定比较困难。蒙特卡罗模型解决了这方面的问题,各种因素出现的概率全部由软件自动给出,通过多次模拟,得出项目是否应该投资。该方法应用面广, 适应性强。
  惠斯通(Weston) 对美国1 000 家大公司所作的统计表明: 在公司中, 采用随机模拟方法的频率占29 % 以上, 远大于其他数学方法的使用频率 。特别, 该方法算法简单, 但计算量大, 在模拟实际问题时, 要求所建模型必须反复验证,这就离不开计算机技术的帮助, 自然可利用任何一门高级语言来实现这种方法。通过一案例具体实现了基于Excel 的Monte Carlo 模拟系统, 由于Microsof tExcel 电子表格软件强大的功能和友好的界面, 使系统实现起来颇感轻松自如。
  二、理论和方法
  蒙特卡洛模拟早在四十年前就用于求解核物理方面的问题。当管理问题更为复杂时,传统的数学方法就难以进行了。模拟是将一个真实事物模型化,然后对该模型做各种实验,模拟也是一个通过实验和纠正来寻求最佳选择的数值性求解的过程。模拟作为一种有效的数值处理方法, 计算量大。以前只是停留在理论探讨上, 手工是无法完成的。在管理领域由于规律复杂随机因素多, 很多问题难以用线性数学公式分析和解决, 用模拟则有效得多。在新式的计算机普及后, 用来求解管理问题已成为可能。
  技术和其它方法相比有以下优点:
  1) 成本低、风险小, 未投产, 实际生产未形成就可以对市场进行分析模拟, 极大地减少费用和风险。
  2) 环境条件要求低, 工作人员不需要高深的数学能力, 完全依靠计算机进行, 在硬件和软件日益降价的情况下, 可以成为现实。
  3) 可信度高, 常用的统计推理方法需要大量历史数据(如平均数法、) , 对无历史资料的场合就无能为力(如新产品) , 而且精度低。
  模拟的最大特点是借助一个随机数来模仿真实的现实, 随机数的产生则由计算机来产生。称为伪随机数。即:
  Rn = F (r - 1 , r - 2 ,……r - k)
  在以对象为中心的软件中, EXCEL 有一个RANE()函数实现伪随机数功能。RANE( )实际上是一个会自动产生伪随机数的子程序。用产生的伪随机数模拟市场, 得出产品销售量, 在相对固定时进而推测出产品的利润。此方法不用编制复杂的程序, 思路假设为, 作为系统内部是可以控制的, 即企业内部可以人为控制, 但系统外部因素是不可控制的(导致的) , 则生产与销售就会产生矛盾。生产量小于, 造成开工不足资源浪费;生产量大于, 造成产品积压, 资金占用, 同样形成资源的浪费。最好生产量等于销售量, 则资源浪费最小, 效益就最高, 实际就是。如果能科学地测算出在什么情况下利润最大, 则这时的产量就是最佳产量, 也就最低。这就是市场作为导向, 以销定产的公认的准则。实际工作中, 很多产品的消费是具有随机性的, 主要是一些大、大、价格低、与日常生活有关的中、小, 如副食品、日用、玩具、轻工业产品。对企业而言利润较高的产品。
  从以上分析可以看出, 蒙特卡洛模拟可以动态实现对产品利润的预测, 从而对产品产量科学控制,实现资源优化, 是一种较好的决策支持方法。
  三、蒙特卡罗模型在Excel 表中的应用
  某气田投资项目期投资、寿命期、残值以及各年的收入、支出,以及的税率、项目的等都是独立的随机变量,他们的概率密度函数如表1所示。
  表 各变量对应概率密度函数表
2概率对应的随机数可能值
3投资Yo0.20450
6寿命N0.506
9残值F0.25040
110.257560
12税率Te0.2045
15年收入R0.150700
160.315750
170.445800
180.1585850
19年支出C0.20100
200.420150
210.360200
220.190250
  本案例用windowsXP 中的Excel2003 对该项目进行模拟如下:
  1) 在A32 单元格(投资Yo 模拟:随机数) 输入:= RANDBETWEEN (0 ,99)&;在B32 单元格(投资Yo模拟:投资) 输入: = VLOO KUP (A32 , $C $3&: $D$5 ,2)&;
  2) 在C32 单元格(寿命N 模拟:随机数) 输入: =RANDBETWEEN (0 ,99)&;在D32 单元格(寿命N 模拟: 寿命) 输入: = VLOO KUP ( C32 , $C $6&: $D$8 ,2)&;
  3) E32 ,G32 , I32 , K32 ,M32 单元格分别输入: =RANDBETWEEN (0 , 99)&; F32 = VLOOPUP ( E32 ,$C $9&: $D $11 , 2) , H32 = VLOOPUP ( G32 , $C$12&: $D $14 ,2) ,J 32 = VLOO KUP ( I32 , $C $15&:$D $18 ,2) ,L32 = VLOO KUP ( K32 , $C $19&: $D$22 ,2) ,
  N32 = VLOO KUP(M32 , $C $23&: $D $27 ,2)
  4) O32 = (B32 - F32) / D32 , P32 = (J 32 - L32 -O32) * (1 - H32/ 100) + O32 ,Q32 = PV (N32/ 100 ,D32 , - P32) - B32&;
  5) H3 = AVERA GE ( Q32 , Q5031 ) , H4 =STDEV (Q32 ,Q5031) ,H5 = MAX ( Q32 , Q5031 ) , H6 = MIN ( Q32 ,Q5031) ,H7 = H4/ H3 ,H8 = COUN TIF (Q32&:Q5031 ,“ & 0”) / COUN T(Q32 ,Q5031) 。
  在Excel 工具表中模拟5000次,结果输出见下表&:
  表 结果输出表(1)
  投资Yo模拟寿命N模拟残值F模拟税率Te模拟
随机数投资随机数寿命随机数残值随机数税率
32174507875150245
333150084887606748
342250063797608851
359555070740508151
363150096820401245
37164501641506648
387955033687605148
39045097878601745
40355004362240545
41345070752508751
427855039669503048
43205003669060245
44965505692604048
455150036690602048
46585003961401145
47445079722402948
488355036640506248
………………………
  表 结果输出表(2)
年收入R模拟年支出C模拟资本成本i模拟
随机数年收入随机数年支出随机数资本成本
321270088200410
3311700882005914
34370079200710
3568800201507716
3623750211505314
3798850732004014
3837750231509918
3972800922501612
4081800962504614
4132750171007416
4270800732001712
4339750782006814
4412700461509218
4579800752001512
4610700521505414
474580011008716
487580047150410
…………………
  表 结果输出表(3)
折旧Dt各年现金流量YtNPV
3275307175840.3314803
33348.18856.3672298
34342.8571
3575374878.0912297
3655.71429364.7429
3762.185714368.1714986.8844068
3873.33333355.9883.9767691
3958.57143299.3714
4083.33333336.5689.9136332
4183.33333326717.7056104
4266.66667344964.3241193
438535218749.9748285
4457.14286347.6429
4564.28571276.4286761.5527004
4676.166667348.8785.2358848
4748.75335.4
4857.5391.6
  所得结果如下:
  表 净现值模拟计算结果表
2净现值模拟计算结果
3净现值期望值952.13017
4净现值标准差198.90501
5净现值最大值
6净现值最小值405.54502
7变异系数0.
8净现值为负的概率0
  表 净现值概率分布统计表
净现值概率分布统计
系统分组分布区间概率累计概率
3003以下00
5004~50.00360.0036
6005~60.02440.028
7006~70.0620.09
8007~80.13220.2222
9008~90.18980.412
10009~100.19920.6112
110010~110.16280.774
120011~120.11620.8902
130012~130.05480.945
140013~140.03380.9788
150014~150.01320.992
160015~160.0050.997
170016~170.00180.9988
180017以上0.00121
  从分析结果得出,虽然此项目未来的不确定性很大,但由图可知,此气田开发项目服从正态分布,模拟5 000次的结果是净现值为负的概率为零,并且项目的期望净现值为952113 万元,说明项目值得开发。
  由以上的案例分析可知,基于蒙特卡罗模拟的风险分析,对于工程实际应用具有较强的参考价值。随机模拟5 000 次,如果仅靠人的大脑进行计算,这在现实世界中是不可能的,但考虑到系统决策支持功能, 算法设计为由使用者自己设计方案, 采用, 这样可以发挥使用者的经验判断;系统实现模拟运算——系统对每一个设定的投资项目期投资、寿命期、残值以及各年的收入、支出,以及的税率、项目的资本成本等随机变量及他们的,通过蒙特卡罗模拟方法,得出了项目在不同概率发生的情况下净现值模拟计算结果。为人们解决不确定性项目的决策提供了简单的方法,节约了人们的工作量和时间。但是利用蒙特卡罗模型分析问题时,收集数据是非常关键的。
蒙特卡罗模型在投资项目决策中的开发应用[J].科技和产业,):119-123
本条目对我有帮助290
&&如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请。
本条目相关文档
& 394页& 37页& 19页& 2页& 4页& 8页& 14页& 8页& 3页& 77页
本条目由以下用户参与贡献
,,,,,,,,,,,,,,,,,.
(window.slotbydup=window.slotbydup || []).push({
id: '224685',
container: s,
size: '728,90',
display: 'inlay-fix'
评论(共15条)提示:评论内容为网友针对条目"蒙特卡罗方法"展开的讨论,与本站观点立场无关。
发表评论请文明上网,理性发言并遵守有关规定。
以上内容根据网友推荐自动排序生成博主最新文章
博主热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)随机模拟与采样方法
随机模拟方法又称为蒙特卡罗方法(Monte Carlo Method)。蒙特卡洛模拟方法的原理是当问题或对象本身具有概率特征时,可以用计算机模拟的方法产生抽样结果,根据抽样计算统计量或者参数的值;随着模拟次数的增多,可以通过对各次统计量或参数的估计值求平均的方法得到稳定结论。由于涉及到时间序列的反复生成,蒙特卡洛模拟法是以高容量和高速度的计算机为前提条件的,因此只是在近些年才得到广泛。
从上面的描述我们不难看出随机模拟方法主要是针对那些确定算法不好解或者解不出来的情况。因此是一种典型的寻求近似解的方法。
针对实际问题建立一个简单易行的概率统计模型,使问题所求的解为该模型的概率分布或者数字特征,比如:某个事件的概率或者是某个随机变量的期望值。
对模型中的随机变量建立抽样方法,在计算机上进行模拟试验,得到足够的随机抽样,并对相关事件进行统计
对试验结果进行分析,给出所求解的估计及其精度(方差)的估计
蒙特卡罗方法在数学中的应用
通常蒙特卡洛方法通过构造匹配一定规则的随机数来解决数学上的各种问题。对于那些由于计算过于复杂而难以得到解析解或者根本没有解析解的问题,蒙特卡洛方法是一种有效的求出数值解的方法。一般蒙特卡洛方法在数学中最常见的应用就是蒙特卡洛积分。下面是蒙特卡罗方法的两个简单应用:
蒙特卡洛方法可用于近似计算圆周率:让计算机每次随机生成两个0到1之间的数,看以这两个实数为横纵坐标的点是否在单位圆内。生成一系列随机点,统计单位圆内的点数与总点数,(圆面积和正方形面积之比为PI:4,PI为圆周率),当随机点获取越多时,其结果越接近于圆周率(然而准确度仍有争议:即使取10的9次方个随机点时,其结果也仅在前4位与圆周率吻合)。用蒙特卡洛方法近似计算圆周率的先天不足是:第一,计算机产生的随机数是受到存储格式的限制的,是离散的,并不能产生连续的任意实数;上述做法将平面分区成一个个网格,在空间也不是连续的,由此计算出来的面积当然与圆或多或少有差距。
蒙特卡罗积分
举个简单的例子,假设我们要求f(x)的积分&baf(x)dx
但是f(x)的形式比较复杂不好求积分,使用蒙特卡罗积分方法转化为&baf(x)q(x)q(x)dx
把q(x)看作是x在区间[a,b]内的概率分布,前面的分数部分看做一个函数,然后再q(x)下抽取n个样本,当n足够大时,可以利用均值来近似(大数定理),1n&if(xi)p(xi)
因此只要q(x)比较容易采样就行。
随机模拟三个要素:随机数,逻辑模型,反复试验。其基本思路就是要把待解决的问题转化为一种可以通过某种采样方法可以解决的问题,因此随机模拟方法的核心就是如何对一个概率分布得到样本,即抽样(sampling)。
常见的采样方法
通过对均匀分布采样,实现对任意分布采样。
一般而言均匀分布 Uniform(0,1)的样本是相对容易生成的。 通过线性同余发生器可以生成伪随机数,我们用确定性算法生成[0,1]之间的伪随机数序列后,这些序列的各种统计指标和均匀分布 Uniform(0,1) 的理论计算结果非常接近。这样的伪随机序列就有比较好的统计性质,可以被当成真实的随机数使用。
而我们常见的概率分布,无论是连续的还是离散的帆布,都可以基于Uniform(0,1)的样本生成。
直接采样步骤:
从Uniform(0,1)随机产生一个样本z 另z=h(y),其中h(y)为y的累积概率分布CDF 计算y=h?1(z) 结果y为对p(y)的采样
注:需要知道累积概率分布的解析表达式,且累积概率分布函数存在反函数
但是如果h(x)不能确定或者没有无法解析求逆则直接抽样不再合适。对于复杂的现实模型其实是不常用的。
接受-拒接采样
简称拒绝采样,基本思想:假设我们需要对一个分布f(x)进行采样,但是却很难直接进行采样,所以我们想通过另外一个容易采样的分布g(x)的样本,用某种机制去除掉一些样本,从而使得剩下的样本就是来自与所求分布f(x)的样本。
给定目标分布密度&(x) 建议密度(proposal density)q(x)和常数M,使得
对q(x)采样比较容易
q(x)的形状比较接近&(x)
对任意x,有&(x)&Mq(x)(包络原则) 通过对q(x)采样实现对&(x)采样
采样过程:
产生样本X~q(x),和U~Uniform[0,1]
若U&&(X)/Mq(x),则接受X,接受的样本服从分布&(x)
Y=Mq(X)U,若Y&&(X),则接受X
在高维空间,接受-拒绝采样会出现两个问题,一是合适的prZ喎"/kf/ware/vc/" target="_blank" class="keylink">vcG9zYWwgZGVuc2l0eSBxKHgpsci9z8TR1dKjrLb4yse63MTRyLe2qNK7uPbXvMi3tcRN1rWho9Xiwb249s7KzOK74bW81sK+3L74wsq63Ljfo6zO3tPDvMbL49T2vNOhozwvcD4NCjxoMiBpZD0="重要性采样">重要性采样
通过从已知采样的概率q(x)采样,近似积分
I=&f(x)&(x)dx=&f(x)&(x)q(x)q(x)dx
从q(x)中抽取N个样本,上述式子就约等于1N&Nif(xi)&(xi)q(xi)。这相当于给每一个样本赋予了一个权重w(xi)=&(xi)q(xi),q(x)大意味着概率大,那么N里面含有这个样本的xi就多,即这些样本的权重大,所以称之为重要性抽样。下面这个链接里关于重要性采样的理解写的很形象:
采样过程:
选择一个容易抽样的分布q(x),产生N个样本X1,...,XN~q(x) 近似解:1N&Nif(xi)&(xi)q(xi)
注:q(x)的形状应与f(x)&(x)的形状足够近似,且q(x)的尾部比&(x)的尾部厚,估计的方差才不为无限大。
在高维空间中合适的q(x)很难找到。
MCMC采样方法
重要性采样和接受-拒绝采样都在q(x)与&(x)很相似的时候才表现好。而且在高维空间问题中,标准的采样方法会失败:
接受-拒绝采样:维数增高,拒绝率&100% 重要性采样:大多数的样本权重&0
而且上述两种采样方法都是独立采样的,效率较低,MCMC采样方法是关联采样,即下一个样本与这个样本有关系。在蒙特卡洛模拟中,我们在后验分布中抽取样本,当这些样本独立时,利用大数定律样本均值会收敛到期望值。如果得到的样本是不独立的,那么就要借助于马尔科夫链进行抽样。MCMC(Markov Chain Monte Carlo)方法就是为了这个目的而诞生的。
MCMC方法的基本思想是:通过构建一个markov chain使得该markov chain的稳定分布是我们所要采样的分布f(x)。如果这个markov chain达到稳定状态,那么来自这个chain的每个样本都是f(x)的样本,从而实现抽样的目的。这里存在一个核心问题,如何构建满足要求的markov chain?
马尔科夫链基础
总之这部分的重点是马氏链的平稳分布,这是MCMC算法的核心基础
马氏链的收敛性质主要由转移矩阵P 决定, 所以基于马氏链做采样的关键问题是如何构造转移矩阵P,使得平稳分布恰好是我们要的分布&(x)。
这里的关键是细致平稳条件(具体内容在上面两个参考链接里都有)。细致平稳条件的好处,就是我们能控制马尔科夫链收敛到我们指定的分布。
构造满足条件的马氏链
假设我们已经有一个转移矩阵为Q的马氏链,q(i,j)表示从状态i到j的概率,通常情况下p(i)q(i,j)&p(j)q(j,i)也就是细致平稳条件不成立,所以p(x)不太可能是这个马氏链的平稳分布。因此,我们就要对这个马氏链进行一些小改造,使他满足细致平滑条件。例如我们引入一个&(i,j)使得
p(i)q(i,j)&(i,j)=p(j)q(j,i)&(j,i)
最简单的我们按照对称性取
&(i,j)=p(j)q(j,i),&(j)=p(i)q(i,j)
就可以使得上式成立,可以看做具有新的转移矩阵Q&的马氏链,其中
Q&(i,j)=q(i,j)&(i,j),Q&(j,i)=q(j,i)&(j,i).
因此马氏链Q&满足细致平稳条件,且平稳分布是p(x)。
在改造 Q的过程中引入的 &(i,j)称为接受率,物理意义可以理解为在原来的马氏链上,从状态 i 以q(i,j) 的概率转跳转到状态j 的时候,我们以&(i,j)的概率接受这个转移,于是得到新的马氏链Q&的转移概率为q(i,j)&(i,j)。
注:当按照上面介绍的构造方法把Q&&Q&后,就不能保证Q&是一个转移矩阵了,即Q&的每一行加和为1。这时应该在当 j != i 的时候概率Q&(i, j) 就如上处理, 当j = i 的时候, Q&(i, i) 应该设置Q&(i, i) = 1- 其它概率之和,归一化概率转移矩阵。
MCMC采样算法(参考文献1)
上述过程中 p(x),q(x"y) 说的都是离散的情形,事实上即便这两个分布是连续的,以上算法仍然是有效,于是就得到更一般的连续概率分布 p(x)的采样算法,而 q(x|y) 就是任意一个连续二元概率分布对应的条件分布。
以上的 MCMC 采样算法已经能很漂亮的工作了,不过它有一个小的问题:马氏链Q在转移的过程中的接受率&(i,j)可能偏小,这样采样过程中马氏链容易原地踏步,拒绝大量的跳转,这使得马氏链遍历所有的状态空间要花费太长的时间,收敛到平稳分布p(x)的速度太慢。有没有办法提升一些接受率呢?
假设 &(i,j)=0.1,&(j,i)=0.2
, 此时满足细致平稳条件,于是
p(i)q(i,j)&0.1=p(j)q(j,i)&0.2
上式两边扩大5倍,我们改写为
p(i)q(i,j)&0.5=p(j)q(j,i)&1
看,我们提高了接受率,而细致平稳条件并没有打破!这启发我们可以把细致平稳条件式中的&(i,j),&(j,i) 同比例放大,使得两数中最大的一个放大到1,这样我们就提高了采样中的跳转接受率。所以我们可以取
&(i,j)=min{p(j)q(j,i)p(i)q(i,j),1}
于是,经过对上述MCMC 采样算法中接受率的微小改造,我们就得到了如下教科书中最常见的 Metropolis-Hastings 算法。
Metropolis-Hasting算法
对于分布p(x),我们构造转移矩阵Q&使其满足细致平稳条件
p(x)Q&(x&y)=p(y)Q&(y&x)
此处x并不要求是一维的,对于高维空间的p(X),如果满足细致平稳条件
p(X)Q&(X&Y)=p(Y)Q&(Y&X)
那么以上的M-H算法一样有效
Gibbs Sampling
对于高维的情况,由于接受率&(通常小于1)的存在,M-H算法效率不够高,能否找到一个转移矩阵Q使得接受率&=1呢?
先看二维的情况,假设有一个概率分布p(x,y),考察x坐标相同的两个点A(x1,y1),B(x1,y2),我们发现
p(x1,y1)p(y2|x1)=p(x1)p(y1|x1)p(y2|x1)
p(x1,y2)p(y1|x1)=p(x1)p(y1|x2)p(y1|x1)
p(x1,y1)p(y2|x1)=p(x1,y2)p(y1|x1)
p(A)p(y2|x1)=p(B)p(y1|x1)
基于以上等式,我们发现,在x=x1这条平行于y轴的直线上,如果使用条件分布p(y|x_1)作为任何两个点之间的转移概率,那么任何两个点之间的转移满足细致平稳条件。同样的,如果我们在y=y1这条直线上任意取两个点A,C则有
p(A)p(x2|y1)=p(C)p(x1|y1)
于是我们可以如下构造平面上任意两点之间的概率转移矩阵Q
有了如上的转移矩阵Q,我们很容易验证对平面上的任意两点X,Y,满足细致平稳条件
p(X)Q(X&Y)=p(Y)Q(Y&X)
于是这个二维空间上的马氏链将收敛到平稳分布p(x,y)。而这个算法就称为 Gibbs Sampling 算法,是 Stuart Geman 和Donald Geman 这两兄弟于1984年提出来的,之所以叫做Gibbs Sampling 是因为他们研究了Gibbs random field, 这个算法在现代贝叶斯分析中占据重要位置。
二维Gibbs Sampling算法
Gibbs Sampling算法中的马氏链转移
以上采样过程中,如图所示,马氏链的转移只是轮换的沿着坐标轴 x轴和y轴做转移,于是得到样本 (x0,y0),(x0,y1),(x1,y1),(x1,y2),(x2,y2),? 马氏链收敛后,最终得到的样本就是 p(x,y) 的样本,而收敛之前的阶段称为 burn-in period。额外说明一下,我们看到教科书上的 Gibbs Sampling 算法大都是坐标轴轮换采样的,但是这其实是不强制要求的。最一般的情形可以是,在t时刻,可以在x轴和y轴之间随机的选一个坐标轴,然后按条件概率做转移,马氏链也是一样收敛的。轮换两个坐标轴只是一种方便的形式。
n 维Gibbs Sampling算法
以上的过程我们很容易推广到高维的情形,如果x1 变为多维情形x1,可以看出推导过程不变,所以细致平稳条件同样是成立的
p(x1,y1)p(y2|x1)=p(x1,y2)p(y1|x1)
此时转移矩阵Q由条件分布p(y|x1)定义。上式知识说明了一根坐标轴的情形,二维情形类似。所以n维空间中对于概率分布p(x1,x2,...,xn)可以如下定义转移矩阵
如果当前状态为(x1,x2,...,xn),马氏链转移的过程中,只能沿着坐标轴做转移,沿着xi这根坐标轴转移时,转移概率由条件概率p(xi|x1,...,xi?1,xi+1,...,xn)定义 其它无法沿着单根坐标轴进行的跳转,转移概率都设置为 0
Gibbs抽样就是在这m个条件分布中迭代产生样本。于是我们可以把吉布斯采样由二维推广到n维:
以上算法收敛后,得到的就是概率分布p(x1,x2,...,xn)的样本,当然这些样本并不独立,但是我们此处要求的是采样得到的样本符合给定的概率分布,并不要求独立。
同样的,在以上算法中,坐标轴轮换采样不是必须的,可以在坐标轴轮换中引入随机性,这时候转移矩阵 Q 中任何两个点的转移概率中就会包含坐标轴选择的概率,而在通常的 Gibbs Sampling 算法中,坐标轴轮换是一个确定性的过程,也就是在给定时刻t,在一根固定的坐标轴上转移的概率是1。
吉布斯采样可以看做是M-H算法的一个特例,即接受率&=1的情况。证明如下:
考虑一个M-H采样的步骤,它涉及到变量zk,剩余变量z?k保持不变。同时,从z到z?的转移概率为qk(z?|z)=p(z?k|z?k)。我们注意到z??k=z?k,因为再采样步骤中,向量的各个元素都不变。又p(z)=p(zk|z?k)p(z?k),因此,确定M-H算法中的接受概率为
A(z?,z)=p(z?)qk(z|z?)p(z)qk(z?|z)=p(z?k|z??k)p(z??k)p(zk|z??k)p(zk|z?k)p(z?k)p(z?k|z?k)=1
收敛性判断
当然无论是metropolis-hasting算法还是gibbs算法,都有一个burn in的过程,所谓burn in的过程就是因为这个两个算法本身都是markov chain的算法,要达到稳定状态需要一定的步骤才能达到,所以需要一个burn in过程,只有在达到平衡状态时候得到的样本才能是平衡状态时候的目标分布的样本,因此,在burn in过程中产生的样本都需要被舍弃。如何判断一个过程是否达到了平衡状态还没有一个成熟的方法来解决,目前常见的方法是看是否状态已经平稳(例如画一个图,如果在较长的过程中,变化已经不大,说明很有可能已经平衡)当然这个方法并不能肯定一个状态是否平衡,你可以举出反例,但是却是实际中没有办法的办法。
MCMC方法依赖于产生的马氏链在t足够大时要收敛。
关于链的收敛有这样一些检验方法。
(1)图形方法 这是简单直观的方法。我们可以利用这样一些图形:
(a)迹图(trace plot):将所产生的样本对迭代次数作图,生成马氏链的一条样本路径。如果当t足够大时,路径表现出稳定性没有明显的周期和趋势,就可以认为是收敛了。
(b)自相关图(Autocorrelation plot):如果产生的样本序列自相关程度很高,用迹图检验的效果会比较差。一般自相关随迭代步长的增加而减小,如果没有表现出这种现象,说明链的收敛性有问题。
(c)遍历均值图(ergodic mean plot):MCMC的理论基础是马尔科夫链的遍历定理。因此可以用累积均值对迭代步骤作图,观察遍历均值是否收敛。
(2)蒙特卡洛误差
(3)Gelman-Rubin方法}

我要回帖

更多关于 概率抽样 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信