LDA Mixture Model
LDA模型本身并不对文档进行聚类操作。所有的文档都共享一个相同的Dirichlet先验$\alpha$。假设相同类型的文档应当具有相似的主题分布,那么他们可以被分到一个类别中,并共享一个关于在主题分布的先验。LDA Mixture模型如下图示3-2(b):
假设$M$个文档被分到$L$个类别中。每个类别$c$有一个先验$\alpha_c$。对于文档$j$来说,其类别$c_j$首先来自于一个离散的分布$\eta$,且$\pi_j$来自于$Dir(\pi_j|\alpha_{c_j})$($\pi_j$就是这个文档的文档 - 主题分布)。那么,给定$\{\alpha_c\}$、$\beta$和$\eta$,隐变量$c_j$、$\pi_j$和$z_j$,与观测值(单词)$\textbf{x}_j$的联合概率分布是:
p(\textbf{x}_j,\textbf{z}_j,\pi_j,c_j | \{\alpha_c\},\beta,\eta)= p(c_j|\eta)p(\pi_j|\alpha_{c_j}) \prod_{i=1}^Np(x_{ji}|z_{ji},\beta)
那么,文档$j$的边缘log似然函数为:

