Indian Buffet Process(印度自助餐过程)介绍
本文为原创博客,仅供学习使用。未经允许,禁止将其复制下来上传到百度文库等平台。如有转载请注明本文博客的地址(链接)
文章CSDN网址:http://blog.csdn.net/qy20115549/article/details/78532939
#简介 无监督学习的目的是从观测数据中,发掘潜在的结构(latent structure)。无监督学习算法的一个关键问题是如何确定潜在结构的数目,如聚类中的类的数目,变量的数目等。以聚类为例,如果能够基于数据之间的内在关系,自动学习类的数目,要比通过经验设置一个数目要好的多。
相比参数化的贝叶斯模型,非参贝叶斯有其独特的地方,也是近些年来,机器学习比较火的一种方法,如DPMM(Dirichlet process mixture model)、层次DP过程(Hierarchical Dirichlet Processes)等。DPMM和HDP模型都是假设一个数据点只能分配到一个潜在类或者簇中(each datapoint is assigned to a latent class),即一个数据点。相反,无监督学习的一些模型中,假设一个数据点可以拥有多个特征,经典的模型有主成分分析(PCA)、因子分析(factor analysis)。从图(1)中可以看出每个数据点 $x$ 对应一个所属的类 $\theta $。 从图(2)中可以看出,每个数据点(顾客)只能被分配到一个类中(即一个顾客只能坐一张座子),在黑白格子的图中,行代表数据点(顾客),列代表隐特征(菜-类),可以看出,每一个数据点,在一行中,只有一个涂黑的。
关于中餐馆过程可以参考我写的另外的博客: 也可参考相关论文(提供一篇中文的,一篇英文的): Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related groups: Hierarchical Dirichlet processes[C]//Advances in neural information processing systems. 2005: 1385-1392.
我们可以看到 $p\left ( c \right )$ 依旧服从Dirichlet分布。 其对隐特征的抽样公式如下: ##中餐馆过程 中国餐馆过程是一个典型的Dirichlet过程混合模型。可以将中国餐馆过程描述如下: 1.假设一个中国餐馆中,可以有无限个桌子。 当 $K\rightarrow \infty $ 时,得: 公式中的p\left ( X|Z \right )为数据似然,计算时,要根据数据的分布。