有谁能帮我解答一下Dirichlet process中的贝叶斯估计例题？

点击联系发帖人 时间：2016-09-07 15:49

贝叶斯估计matlab程序

 上传我的文档
 下载
 收藏
该文档贡献者很忙，什么也没留下。
 下载此文档
正在努力加载中...
(论文)基于Dirichlet过程的非参数贝叶斯方法研究综述
下载积分：1500
内容提示：(论文)基于Dirichlet过程的非参数贝叶斯方法研究综述
文档格式：PDF|
浏览次数：13|
上传日期： 23:15:56|
文档星级：
该用户还上传了这些文档
(论文)基于Dirichlet过程的非参数贝叶斯方法研究综述
官方公共微信Dirichlet&Process(二)
在这里我们讨论一下Dirichlet Process的Inference，通常来说在mixture
model中我们采用EM方法来进行inference，但是这里由于我们采用了nonparametric的概率分布，使得直接使用EM方法变得比较困难。
一般来说对于Dirichlet Process，我们采用MCMC进行采样或者采用variational
inference进行近似。研究表明采用infinite mixture model的Dirichlet Process
Mixture要比直接利用Dirichlet Process作为概率模型的方法更容易采样，并且收敛也更快一些。
所以我们采用c_i变量表示每个样本是从哪个mixture生成的，如上图所示，在这样的表示下，我们不必直接从Dirichlet
Process中采样，而是转而对每个样本所属的component进行采样。
假设在现阶段，在Markov
Chain中所有的样本的label分别是c_1,c_2,......,c_n。在此基础上我们采用Gibbs
Sampling，对于c_i来说，对它进行采样有以下步骤：
1、如果c_i的component和其他样本的都不相同，则删除c_i所对应的component。
2、c_i的新值从下面分步中采样：
3、如果c_i的新值不和任何其他的component相同，则我们需要对其component的参数进行采样：
最后，对于每个component的参数，我们从下列概率分布中采样：
对于G_0的概率分布不是F的conjugate的情形，我们无法直接采用上述算法，因为其中积分项我们无法处理，因此我们考虑一种折衷的方法——辅助变量方法：
如上图所示，作为对积分的一种折衷，我们采用若干个辅助变量，然后把新component的概率均匀地分给这些辅助变量，这样就完成了对原先不能处理的积分步骤的一种近似。除此之外，对于component参数的采样可以通过Metropolis-Hasting步骤来处理。
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。贝叶斯非参数统计中的先验的估计--《华东师范大学》2014年博士论文
贝叶斯非参数统计中的先验的估计
【摘要】：贝叶斯非参数统计是一个新兴的但发展迅速的统计研究领域,不但其理论成果非常丰富,其实际应用范围也十分广泛。然而,贝叶斯非参数统计的传统研究着眼于一种纯贝叶斯的多层先验结构,其中需要事先确定先验分布。一旦不能事先容易地确定先验,特别是因为贝叶斯非参数统计通常要求一个复杂的过程先验,那么这一多层先验结构将会受到挑战和质疑。传统的贝叶斯非参数统计分析的这一缺陷促使我们采用一种更加灵活,更加稳健的统计框架—经验贝叶斯分析—来实施统计推断和统计建模。这是因为在进行经验贝叶斯分析时,人们通常基于观测数据来估计先验参数,而不是事先主观地给定。另外,众所周知,如果可识别性不成立,那么基于观测值来估计参数将会变得毫无意义,而且,可识别性也是证明参数估计或者后验分布的渐近收敛性质的前提条件之一。许多统计学家试图找出可识别性成立的条件,但据我们所知,确实存在许多关于有限混合可识别性的理论成果；但可数无穷混合的可识别性仍然很少被研究到,因此也是一个开放的问题。例如,Ferguson(1983)指出Dirichlet过程先验的混合模型,作为一个可数无穷混合的特例,其可识别性尚未解决。为了解决贝叶斯非参数统计中这些问题和挑战,基于经验贝叶斯的框架和几种不同的数据结构：一元数据,多元数据和单调缺失数据,我们尝试分别对几类过程先验中的参数进行估计。另外,对可数无穷混合的可识别性问题,我们试图提出某些更加方便验证的充分条件。本博士论文的主要内容如下所述。
首先,在第一章中,我们对贝叶斯非参数统计进行一个全面的回顾,包括：人们为什么使用贝叶斯非参数统计,其简要的历史发展,其丰富的理论成果和实际应用。我们以回顾一系列文献的方式,阐述了贝叶斯非参数统计中的计算问题、未来的研究方向和可能面临的挑战。在此之后,我们引入了人们所熟知的经验贝叶斯假定和几种数据结构。这些数据结构非常普遍且颇具代表性,因而能够表达对多种实际数据进行统计建模的设想。
在第二章,通过引入分布集上的良序和序列的一致收敛,我们提出了一个可数无穷混合可识别性成立的充分条件,并且相信此充分条件比Tallis(1969)所提出的无穷维矩阵条件更加容易验证。然后我们运用此充分条件去重新验证了已知可识别性成立的几个例子,进而考查了几个新分布族的可数无穷混合的可识别性,其中包括：正态分布,伽玛分布,柯西分布,非中心卡方分布和广义逻辑斯蒂分布。
第三章涉及单调缺失数据机制下Dirichlet过程先验中的先验参数估计问题。我们试图基于经验贝叶斯框架下的部分观测数据,来估计DP(α,α)中的未知精度参数α和未知概率测度a。我们发现,在Dirichlet过程先验的假定下,数据的缺失不影响精度参数α的估计,因其可以通过极大化某个似然函数来有效地估计。然而,对假定密度函数存在的概率测度a而言,我们必须借助于处理缺失数据的非参数密度估计方法来对其进行估计。精度参数α的估计的强相合性和渐近正态性在非常一般的条件下得到了证明,同时我们也证明了a的密度估计的L1收敛性。另外基于二维单调缺失数据,通过最小化渐近积分均方误差,我们提出了此密度估计的最优窗宽选取方法,并且发现此密度估计优于单调缺失数据下其他已有的方法。
第四章涉及一元数据下Polya tree先验中的先验参数估计问题,也就是说,在事先确定好分划(?)的情况下,我们试图基于数据来估计PT(π,(?))中参数集合(?)中的参数。首先,我们回顾了Polya tree先验的基本模型和理论性质,然后定义了几类Polya tree先验,并给出了使得它们取绝对连续分布集作为支撑的充分条件。之后,我们提出了Polya tree先验中的先验参数的两种估计：矩估计和极大似然估计,并讨论了相应的理论性质,其中包括该模型与beta-binomial分布之间的联系。最后,我们提供了各种估计的数值模拟来验证各自的理论表现。
在第五章中,基于经验贝叶斯框架下的多元观测数据,我们进行了多元Polya tree先验的参数估计。这一节可以视为上述一元Polya tree先验的参数估计问题的一个多元推广,而且此处的经验贝叶斯分析确实类似于一元情形下的相应的分析。首先我们给出多元Polya tree先验的定义和理论性质,然后提出相应的数据结构和模型假设。接下来,我们给出多元Polya tree先验中的先验参数的矩估计和极大似然估计,并讨论了该模型与Dirichlet-multinomial分布之间的联系。最后,我们进行了数值模拟,并通过相应的图表来说明我们所提出的经验贝叶斯估计的理论性质。
【关键词】：
【学位授予单位】：华东师范大学【学位级别】：博士【学位授予年份】：2014【分类号】：O212.8【目录】：
摘要6-8Abstract8-171 Introduction17-35 1.1 Bayesian Nonparametrics17-29
1.1.1 Why Bayesian nonparametrics18-19
1.1.2 A brief history of Bayesian nonparametrics and related theory fruits19-24
1.1.3 Computation issues24-25
1.1.4 Application directions25-28
1.1.5 Further research topics and challenges28-29 1.2 Model Assumption and Empirical Bayes Method29-32 1.3 Our Main Contributions and Conclusions32-352 A New Sufficient Condition for Identifiability of Countably Infinite Mix-tures35-47 2.1 Introduction35-36 2.2 Definitions and Notations36-37 2.3 Sufficient Condition for Identifiability37-39 2.4 Applications39-42 2.5 Conclusion42 Appendix42-473 Estimation of Dirichlet Process Priors with Monotone Missing Data47-73 3.1 Introduction47-49 3.2 Model49-51 3.3 Estimation of Precision Parameter α51-53 3.4 Estimation of Probability Measure α53-60
3.4.1 Conditional kernel density estimation55-56
3.4.2 Asymptotic properties56-59
3.4.3 Performance of the estimate59-60 3.5 Simulation60-62 3.6 Conclusion62-65 Appendix65-734 On Parameter Estimation of Polya Tree Priors with Multigroup Data73-99 4.1 Introduction73-74 4.2 Polya Tree Priors and Data Structure74-83
4.2.1 Tail-Free and Polya tree priors revisited75-80
4.2.2 Data structure80-83 4.3 Empirical Estimation of Polya Tree Priors83-89
4.3.1 Maximum likelihood estimation84-85
4.3.2 Estimability85-87
4.3.3 Moment estimation87-89 4.4 Simulations89-93
4.4.1 An example of general Polya tree prior90-91
4.4.2 An example of canonical Polya tree prior91-93 4.5 Discussion93-95 Appendix95-995 On Parameter Estimation of Multivariate Polya Tree Priors with Mult-group Data99-121 5.1 Introduction99-100 5.2 Multivariate Polya Tree Prior and Model Assumption100-106
5.2.1 Multivariate Polya tree priors100-104
5.2.2 Data structure104-106 5.3 Empirical Estimation of Multivariate Polya Tree Priors106-112
5.3.1 Maximum likelihood estimate of multivariate Polya tree prior107-109
5.3.2 Relationships with Dirichlet-multinomial distribution109-110
5.3.3 Moment estimation110-112 5.4 Simulations112-114 5.5 Discussion114-116 Appendix116-121Bibliography121-139List of Papers139-141Acknowledgement141-143
欢迎：、、)
支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库
俞雪梨;吴贤毅;;[J];应用概率统计;2011年02期
【共引文献】
中国期刊全文数据库
李志成;秦世引;Itti L;[J];北京航空航天大学学报;2010年06期
;[J];重庆理工大学学报(自然科学);2011年07期
谢昭;高隽;;[J];电子学报;2009年04期
刘硕研;须德;冯松鹤;刘镝;裘正定;;[J];电子学报;2010年05期
高常鑫;桑农;;[J];电子学报;2011年09期
孙显;付琨;王宏琦;;[J];电子与信息学报;2011年02期
胡正平;戎怡;;[J];光电工程;2010年11期
付赛男;朱俊;张瑞;邹维嘉;;[J];电视技术;2013年13期
申晓霞;张桦;高赞;薛彦兵;徐光平;;[J];光电子.激光;2013年08期
孙永宣;谢昭;高隽;;[J];光学学报;2013年10期
中国重要会议论文全文数据库
张洁琳;林秉雄;;[A];第六届和谐人机环境联合学术会议（HHME2010)、第19届全国多媒体学术会议（NCMT2010）、第6届全国人机交互学术会议（CHCI2010）、第5届全国普适计算学术会议（PCC2010）论文集[C];2010年
王晗;滕鹏;梁玮;;[A];第七届和谐人机环境联合学术会议（HHME2011)论文集【poster】[C];2011年
刘林;李金屏;王真;;[A];第十五届全国图象图形学学术会议论文集[C];2010年
Weihai CKai DXingming Wu;;[A];第25届中国控制与决策会议论文集[C];2013年
中国博士学位论文全文数据库
鹿瑞;[D];北京交通大学;2010年
江悦;[D];国防科学技术大学;2010年
解文杰;[D];北京交通大学;2011年
白明;[D];大连理工大学;2011年
周文罡;[D];中国科学技术大学;2011年
魏玲;[D];天津师范大学;2011年
赵才荣;[D];南京理工大学;2011年
黄双萍;[D];华南理工大学;2011年
祝文骏;[D];上海交通大学;2011年
程环环;[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库
林秉雄;[D];大连理工大学;2010年
闫国青;[D];长春工业大学;2010年
蒋志成;[D];浙江大学;2011年
冯爱萍;[D];北京邮电大学;2011年
朱士蓉;[D];合肥工业大学;2011年
贺广南;[D];南京大学;2011年
陈丽霞;[D];电子科技大学;2011年
谭菊;[D];重庆大学;2010年
邱新洁;[D];天津大学;2010年
牛志彬;[D];上海交通大学;2011年
【相似文献】
中国期刊全文数据库
高鹏遐，吴绍敏;[J];华侨大学学报(自然科学版);1994年02期
王锋,吴绍敏;[J];华侨大学学报(自然科学版);2000年04期
王进才,张宏斌,刘永新;[J];电子产品可靠性与环境试验;2004年04期
何风华;;[J];生物学通报;2007年10期
陈茂奇,王龚;[J];江苏统计;2000年03期
高仁祥，张世英，刘豹;[J];系统工程学报;1996年01期
张国华;万钧力;李瑞;周召;;[J];四川理工学院学报(自然科学版);2006年01期
胡浩;;[J];自然辩证法研究;2011年04期
张世英;余国新;;[J];系统工程理论方法应用;1992年01期
陈柏福,阳凯龙;[J];河北科技师范学院学报(社会科学版);2004年04期
中国重要会议论文全文数据库
刘乐平;袁卫;;[A];中国现场统计研究会第12届学术年会论文集[C];2005年
张书田;顾力行;;[A];第六届中国跨文化交际研究会年会论文摘要汇编[C];2005年
严云云;王远清;林亮;;[A];第六届中国不确定系统年会论文集[C];2008年
张弛;王本德;周惠成;;[A];中国水利学会2005学术年会论文集——水旱灾害风险管理[C];2005年
王忠彦;胡林金;张明煊;刘景时;;[A];青藏高原资源·环境·生态建设学术研讨会暨中国青藏高原研究会2007学术年会论文摘要汇编[C];2007年
贾怀勤;;[A];'92对外经济贸易大学学术报告会论文集[C];1992年
林静;韩玉启;朱慧明;;[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
崔嵬;;[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策（上册）[C];2002年
吴灵娇;吴南屏;姚航平;靳昌忠;吴炜;;[A];第二届传染病诊治高峰论坛暨2009年浙江省感染病、肝病学术年会论文汇编[C];2009年
伊林;席真;;[A];中国化学会第27届学术年会第03分会场摘要集[C];2010年
中国重要报纸全文数据库
;[N];中国信息报;2004年
张梦然;[N];科技日报;2011年
朱学蕊;[N];中国能源报;2011年
中国博士学位论文全文数据库
杨磊;[D];华东师范大学;2014年
董洁;[D];河海大学;2005年
管强;[D];华东师范大学;2013年
Kamran A[D];华东师范大学;2013年
刘全明;[D];内蒙古农业大学;2009年
陈伯伦;[D];中国科学技术大学;2008年
顾宝军;[D];上海交通大学;2008年
邵娇芳;[D];浙江大学;2013年
张文专;[D];云南大学;2004年
孔丽娜;[D];暨南大学;2009年
中国硕士学位论文全文数据库
程平平;[D];华东师范大学;2013年
周祥林;[D];河海大学;2006年
于灏;[D];西北工业大学;2003年
张中伟;[D];上海交通大学;2011年
林穗华;[D];华东师范大学;2007年
吴丹宇;[D];武汉理工大学;2008年
岳敏;[D];厦门大学;2009年
魏巧玲;[D];厦门大学;2009年
Mamudu D[D];吉林大学;2009年
孟海英;[D];山西医科大学;2004年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊（光盘版）》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址：北京清华大学 84-48信箱大众知识服务
出版物经营许可证新出发京批字第直0595号
订购热线：400-819-82499
服务热线：010--
在线咨询：
传真：010-
京公网安备75号温馨提示！由于新浪微博认证机制调整，您的新浪微博帐号绑定已过期，请重新绑定！&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
阅读(7211)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_',
blogTitle:'【转】参数估计--MLE、MAP和贝叶斯估计',
blogAbstract:'本文主要介绍三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计MLE首先回顾一下贝叶斯公式',
blogTag:'参数估计,map,mle,贝叶斯估计',
blogUrl:'blog/static/4',
isPublished:1,
istop:false,
modifyTime:0,
publishTime:4,
permalink:'blog/static/4',
commentCount:0,
mainCommentCount:0,
recommendCount:0,
bsrk:-100,
publisherId:0,
recomBlogHome:false,
currentRecomBlog:false,
attachmentsFileIds:[],
groupInfo:{},
friendstatus:'none',
followstatus:'unFollow',
pubSucc:'',
visitorProvince:'',
visitorCity:'',
visitorNewUser:false,
postAddInfo:{},
mset:'000',
remindgoodnightblog:false,
isBlackVisitor:false,
isShowYodaoAd:false,
hostIntro:'',
hmcon:'0',
selfRecomBlogCount:'0',
lofter_single:''
{list a as x}
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人：
{list a as x}
{if !!b&&b.length>0}
他们还推荐了：
{list b as y}
转载记录：
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}3467人阅读
Machine Learning（19）
&&&&&& 首先，我将简单地介绍Dirichlet分布。Dirichlet分布可以看做是分布之上的分布。其定义为对于一个K维的probability simplex:
&&&&&& 我们说这组是Dirichlet
distributed，参数为如果其满足:
&&&&&& 如何理解这个定义呢？我们可以举个例子：假设我们有一个从魔术店买来的骰子，我们不知道这是不是一个和普通骰子一样均匀的骰子，即每面出现的概率都是1/6。那么我们现在就可以用一个分布来描述我们对于这个骰子的uncertainty，也就是说，我们想知道这个骰子是一个公平的骰子的概率是多少。那么这个分布，就可以是一个Dirichlet Distribution，只要我们可以将这个分布描述为上述的数学形式。我们再看一眼这个例子，投掷一次骰子，必然会有一面出现（这是一个好骰子），那么六面出现的概率总和必然为1，换句话说，我们可以用这样一个分布来描述骰子出现的概率。而后我们又想知道，这样一个分布出现的概率是多少，那么我们就可以用Dirichlet分布来描述它。从而我们可以说，Dirichlet分布是一个分布之上的分布。
Dirichlet Process
&&& 接下来，我们将从Dirichlet分布过渡到Dirichlet Process。
&& &首先，我们先来看一下probability measure的概念：我们定义G为可度量空间X上的一个probability measure，如果其满足：
&&&&&& 我们还是从刚才的骰子的例子开始，我们现在认为整个骰子所描述的事件空间为一个可度量的空间。一个骰子投掷出去之后，六面必然有一面出现，那么我们可以自然地将整个空间分成为6个部分，我们称每一个部分为一个划分。那么针对这种六个划分的情况，我们可以有一个对应于这个划分的Dirichlet分布。现在我们想做一些调整，我们将骰子投掷出去的结果分成了2种，一种是大{4,5,6}，另外是小，对应于{1,2,3}。那么我们可以认为整个空间，被分割成为了2个划分，那么相应的，我们可以对这样一种划分有一个对应的Dirichlet分布。现在我们将其进行一个一般性的描述。假设我们现在有一个可度量的空间X，其上的任意一个有限(finite)划分(partition)满足：
&&&&&& 我们说一个probability measure G服从都Dirichlet Process，如果其满足：对于这个可度量空间上的任意一个有限划分，以及一个实数一个probability
measure G0：
&&&&&& 这里G0称作base measure,有些类似于这个DP的均值(mean)，称作Strength
parameter，有些类似于这个DP的inverse-variance，在描述一个DP的时候，我们写作：
&&&&&& 接下来，我将简单介绍一下其对应的几种常见的表现形式
The Chinese Restaurant Process
&&&&&& 把Chinese Restaurant Process(CRP)放在最前，是我认为这是最容易理解的一种表现形式。其对应的并不是G本身，而是对应一个从G进行sampling的过程。
&&&&&& 假设现在有一家中餐馆，里面有无限多的桌子，当然，不是所有桌子上都坐了人。首先进来第一个顾客，第一个顾客只能坐在一号桌子。他坐下之后点了一个菜（这个菜的分量足够大）。然后进来了第二个顾客，他看了一眼一号桌的菜，如果他喜欢吃的话，就坐到一号桌去，如果不喜欢的话，就另外再开一桌，自己点菜。假设这个过程一直下去，当第i个顾客进店的时候，假设这时候已经有了k桌菜，这个顾客巡视了一圈，然后寻找自己喜欢的菜。我们认为他是一个具有大众口味的人，他选择某一桌的概率，完全正比于这桌上坐了多少个顾客。如果他实在没有找到喜欢的菜，他也可以新开一桌，新开一桌的概率正比于某个初始的数值。
&&&&&& 现在我们数学一点来看待这个过程：假设每一个sample，对应于一个顾客。那么我们可以认为第i个sample选择桌子k的概率为的概率，代表了这桌的菜。这个概率正比于已经坐在这桌的顾客数量，而这个顾客开一个新桌的概率则正比于初始化的参数.
&&&&&& 从刚才的描述中，我们已经看出了Dirichlet Process所获得的样本是离散的，并且其抽样过程中体现出了一种聚类的特性。而这些特性不受Base Measure是离散或者连续的影响。
&&&&&& 出了CRP之外，还有一个非常类似的方式，称之为Polya urn scheme(Blackwell 1973)。这个过程和CRP非常相似。假设我们现在有一组samples:
&&&&&& 这组样本是i.i.d的，并且其满足：
&&&&&& 我们可以这样理解抽样的过程：我们现在口袋里有很多很多球，都是不同颜色的。我们从中取出一个球，鉴别了它的颜色，然后拿一个和这个球一样颜色的球和这个球一块儿放回去。如此往复，得到了我们现有的一组样本。
&&&&&& 我们和CRP统一一下，则这个过程可以表现为：
&&&&&& 如果G的sample可以满足上述的分布，我们就认为从G符合DP。
Stick-breaking Construction
&&&&&& 除了CRP之外，我们还可以通过别的方式来构造一个DP，这就是Stick-breaking construction。整个构造过程如下：
&&&&&& 我们观察上面的这个过程，可以发现sample的过程，就相当于CRP中给每个桌子赋予一个值，而获取的过程，则是确定每个桌子上的顾客数量。
&&&&&& 我们注意到:
&&&&&& 所以，我们可以将解释为一个random
probability measure。并且，如果是以这样的方式产生的，我们可以将其写为：
&&&&&& GEM代表三个人名，分别为：Griffith，Engen和McCloskey
Dirichlet Process Mixture
&&&&&& 另一个理解DP的角度，就是从一个混合模型来看。假设在一个混合模型中，我们不知道component的明确数量，这时候我们应该怎么处理呢？常规的方法是，重复做多次试验，每次试验中假设不同的数量的component，而后利用AIC，BIC等判别方式来进行选择。但是这样的方式又耗时又费力，有没有轻松一些的方式呢？DP mixture model给了我们一个新的选择，其关键点在于，认为空间中是有无限多的mixtrue component的，但是根据我们的数据，只有其中有限个的component被激活了，并且，这些激活的component的proportion满足一个Dirichlet
Distribution。下面我们就从一个有限的mixture model出发，来推广到一个DP mixtrue model。
&&&&&& 我们假设这个mixtrue model有L个component，我们用来表示每个component的proportion，并且，我们给这个proportion加上一个对称的Dirichlet先验，则我们有：
&&&&&& 我们用z代表每个sample的component assignment，即选中了哪一个component，用代表每个component的参数，而这组参数符合一个分布G0，则我们有：
&&&&&& 我们此时可以得到一个分布
&&&&&& 而如果我们将L推向infinite，则这个模型便成为了DP mixture，如同下图
&&&&&& 我们再完整地看一次DP mixture的生成过程：
Why Dirichlet Process
&&&&&& 我们用了这么复杂的数学手段，搞出来一个DP，是为什么呢？我们观察DP，发现其有一个非常重要的特性，即在抽样的过程中，可以获取到值相等的2个样本。这有什么重要意义呢？这意味着这一过程本身在重复抽样的过程中，就完成了一个聚类的过程。并且我们注意到，DP对于其Base Measure并无要求，也就是说其Base Measure可以为连续的分布。而我们知道，对于一个连续的分布，其抽样的过程中，两个样本完全相同的概率为绝对的0，而DP则可以在这个分布的基础上，将样本离散化，使得2个样本的值相同的概率不为0。
Hierarchical Dirichlet Process
&&&&&& 我们发现DP具有很好的聚类的特性，并且我们也不用事先设定好类别的数量，使得整个过程变得更为智能。
&&&&&& 那么我们现在考虑另一个问题，假设我们已经有了很多数据，并且数据自身是按照组别出现的，每一组数据都可以看做一个mixture model。除了组别内部是mixture model之外，我们还希望这些mixture component是可以share的。我们换一个角度来看这个问题：假设我们现在有一个巨大的空间，整个空间中包含了无数的mixture component，我们每次选择其中的几个，然后利用这几个component生成一组数据。我们把一组一组的数据放在一起，就得到了我们现在所拥有的数据。我们现在希望可以用mixture
model来描述这样一种数据，DP可以帮上什么忙么？
&&&&&& 我们注意到，在每一组数据中，我们需要进行一次clustering，这意味着我们可以选择DP来描述某一组数据。但是我们又希望在整个数据中share component，一个很原始的原始的想法，就是限制DP的Base Measure为离散的，从而让我们有固定的component可以进行选择。但是这样就使得问题失去了一般性，并且我们还需要面对一个问题，如何选择这样一个Base Measure以及其component数量。这时候，我们发现这个问题其实和针对每一个组内的问题是一致的(jiang1st2010注：我没看明白，具体还是看后面的连锁餐馆的例子吧)，那么我们很自然地就想到了，在这一层上我们再利用一次DP来描述，从而使得我们可以克服这些麻烦的问题。那么在DP之上再引入一层DP的模型，就是Hierarchical
Dirichlet Process(HDP)。其图模型可以参看下图
&&&&&& 现在我们从生成模型的角度，来看一下这整个的过程：
Chinese Restaurant Franchise
&&&&&& 和DP一样，我们也可以用中餐馆这样一个描述方式来加强对于这个问题的理解。
&&&&&& 这次，我们不是有一个中餐馆，我们有一家中餐连锁店，每一家都有一样的一份菜单。对于第j家餐馆，我们考虑其第i个顾客。和之前一样，这个顾客走进这家餐馆之后，选择坐在已有的一桌，或者是新开辟一桌。不过这里有一点特别的是，我们允许不同的餐馆中的不同的桌子点相同的菜，因为这些顾客是从同一份菜单里点菜的，当然，每桌还是只有一个菜。那么从一个餐馆的层面来说，我们有：
&&&&&& 那么，在选择每桌的菜的层面上，我们有：
（jiang1st2010注：整个过程可以这么理解。通过此时整个连锁饭馆点的菜的分布情况，决定了一个新的点菜概率Go（可以理解为更新各道菜的热门程度）。当每有一个顾客进任何一家饭馆时，首先决定新开一桌还是找个已经有的桌坐下。如果是找个已经有人的桌坐下的话，则和这次更新的Go无关（此时只和这家店正在吃什么有关）；而如果是新开一桌的话，这位顾客就要看新的菜单点菜了，那么之前更新的Go才派上用场。）
&&&&&& 我们注意到，在整个过程中，各种菜是可以在组间和组内共享的，这是HDP的关键特性。
Stick-breaking Construction
&&&&&& 现在，我们再从Stick-breaking Construction的角度来看一看HDP。
&&&&&& 从图中我们可以看出，G0是符合DP的，根据之前我们对于DP的描述，我们有：
&&&&&& 其中：
&&&&&& 既然G0有support，那么自然的，以G0为Base
Measure的Gj也有相同的support，则：
&&&&&& 其中，满足:
&&&&&& 在给定的情况下，之间是相互独立的。那么和之间的关系又是如何呢？
&&&&&& 我们知道，根据DP的定义，对于可度量空间上的任意一种有限划分{A1,A2,...,Ar}，我们有：
&&&&&& 那么，这也就意味着：
&&&&&& 从这个式子中，我们就不难看出：
&&&&&& 而和，我们则认为其均为probability
&&&&&& 那么对于图中所描述的混合模型，我们的完整的生成模型为：
&&&&&& 其中
Discussion
&&&&&& 相同的问题，我们为什么要使用HDP？最基本的理由是，如果我们遇到这样的数据集的时候，即一个component会不断变化的mixture model，并且在subgroup中，component是可以共享的这样一个数据集，我们就可以利用HDP来进行建模。实际中，HDP也已经被广泛的使用，应用包括topic modeling，cognitive science等等。
&&&&&& HDP本身是Dependent Dirichlet Process(DDP)的一种具体的形式，它能够有效地描述这种垂直的层级关系。但是HDP也有局限性，其并不能描述即时变化，不能够描述component的生成与消亡。而在解决这个问题上，目前我们可以依靠Poisson Process Based Dependent Dirichlet Process来给出一个方案，这其中利用了Poisson Process，Gamma Process以及DP的内在关系，具体可以看Dahua Lin的NIPS 2010文章。有时间的话，我也会把对那个模型做一个简单的描述。
&&&&&& HDP可以利用Variational Inference和Gibbs Sampling来进行&求解&，Wang Chong也提出了一种Online的算法，其中利用了一种不同的Stick-breaking的构造方式，来使得上下两层关系之间进行解耦，从而能够进行Online的求解过程
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：522614次
积分：5149
积分：5149
排名：第4150名
原创：40篇
转载：16篇
评论：333条
新上线，请点
请在邮件中简单自我介绍。请尽量在博客中给我留言。}

叫阿莫西中心