LDA Mixture Model
LDA模型本身并不对文档进行聚类操作。所有的文档都共享一个相同的Dirichlet先验\alpha。假设相同类型的文档应当具有相似的主题分布,那么他们可以被分到一个类别中,并共享一个关于在主题分布的先验。LDA Mixture模型如下图示3-2(b):
假设M个文档被分到L个类别中。每个类别c有一个先验\alpha_c。对于文档j来说,其类别c_j首先来自于一个离散的分布\eta,且\pi_j来自于Dir(\pi_j|\alpha_{c_j})(\pi_j就是这个文档的文档 - 主题分布)。那么,给定\{\alpha_c\}、\beta和\eta,隐变量c_j、\pi_j和z_j,与观测值(单词)\textbf{x}_j的联合概率分布是:
p(\textbf{x}_j,\textbf{z}_j,\pi_j,c_j | \{\alpha_c\},\beta,\eta)= p(c_j|\eta)p(\pi_j|\alpha_{c_j}) \prod_{i=1}^Np(x_{ji}|z_{ji},\beta)
那么,文档j的边缘log似然函数为:
\log p(\textbf{x}_j | \{\alpha_c\},\beta,\eta) = \log \sum_{c_j=1}^L p(c_j|\eta)p(\textbf{x}_j|\alpha_{c_j},\beta)
HDP模型

在HDP模型中,我们首先为整个语料抽取一个先验分布G_0:
G_0 \sim DP(\gamma,H)
得到:
G_0 = \sum_{k=1}^\infty \pi_{0k}\delta_{\phi_k}
这里的\phi_k是主题k的主题 - 词分布,它是一个多项式分布,\phi_k来自于一个狄利克雷先验分布H。
这里的\pi_{0 k}是主题的权重,\delta_{\phi_k}可以理解成指示函数。
这是什么意思呢,也就是说我们不仅抽取了主题-词分布,也抽取了每个主题 - 词分布的权重,那么实际上这个G_0应该是所有文档 - 主题分布的先验。那么,对于每个文档j,我们都要抽取一个随机测度G_j^d,它是来自于集中参数为\alpha和基分布为G_0的狄利克雷过程。即G_{j}^d | \alpha,G_0 \sim DP(\alpha,G_0)。也就是说,每个文档的主题分布G_j^d都与G_0有相同的定义域:\{\phi_k\}_{k=1}^\infty。也就是说,所有的文档都共享相同的主题。即:
G_j^d = \sum_{k=1}^\infty \pi_{jk}\delta_{\phi_k}
这里的G_j^d是文档j下所有的单词的先验,对于文档j中的单词i来说,其参数\theta_{ji}是来自于G_j^d。单词x_{ji}是来自离散分布:
p(x_{ji}|\theta_{ji}) = \theta_{jix_{ji}}
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
