Dirichlet Process and Stick-Breaking(DP的Stick-breaking 构造)
目录
[toc]
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人,允许禁止转载。
下面是本文博客的另一个地址,http://blog.csdn.net/qy20115549/article/details/62041632
#Dirichlet Process简介 DP是一种非参数贝叶斯模型, 其优点是参数的个数和性质灵活可变, 可通过模型和数据来计算数目, 近年来它已成为机器学习和自然语言处理研究领域中的一个研究热点。举个例子,我们在使用聚类方法k-means时,需要指定k的值(聚成k个簇);在使用LDA时需要指定主题的数目k,但通过DP过程这种非参方法,可以不指定k,而是通过数据学习,自动获取k值。
如下所示为混合模型对等的两个图,其中图二是从随机测度的角度画的概率图。正如图中提到的问题,当k趋向于无穷大的时候,该怎么办呢?
#Stick-Breaking构造
在上图中,当 $k\to\infty$时,有 $G=\sum_{k=1}^\infty \pi_k \delta_{\phi_k}$,所有的$\phi_k$是独立的,并且从 $G_0$抽取。随机序列$\lbrace\pi_k\rbrace{^\infty_{k=1}} $的总和为1。Sethuraman 证明如此构造的分布函数服从 Dirichlet 过程 $DP(\alpha_0,G_0)$ 分布的一个随机分布。
