LDA Mixture Model

405 阅读

LDA模型本身并不对文档进行聚类操作。所有的文档都共享一个相同的Dirichlet先验$\alpha$。假设相同类型的文档应当具有相似的主题分布,那么他们可以被分到一个类别中,并共享一个关于在主题分布的先验。LDA Mixture模型如下图示3-2(b):

假设$M$个文档被分到$L$个类别中。每个类别$c$有一个先验$\alpha_c$。对于文档$j$来说,其类别$c_j$首先来自于一个离散的分布$\eta$,且$\pi_j$来自于$Dir(\pi_j|\alpha_{c_j})$($\pi_j$就是这个文档的文档 - 主题分布)。那么,给定$\{\alpha_c\}$、$\beta$和$\eta$,隐变量$c_j$、$\pi_j$和$z_j$,与观测值(单词)$\textbf{x}_j$的联合概率分布是:

p(\textbf{x}_j,\textbf{z}_j,\pi_j,c_j | \{\alpha_c\},\beta,\eta)= p(c_j|\eta)p(\pi_j|\alpha_{c_j}) \prod_{i=1}^Np(x_{ji}|z_{ji},\beta)

那么,文档$j$的边缘log似然函数为:

\log p(\textbf{x}_j | \{\alpha_c\},\beta,\eta) = \log \sum_{c_j=1}^L p(c_j|\eta)p(\textbf{x}_j|\alpha_{c_j},\beta)

HDP模型

在HDP模型中,我们首先为整个语料抽取一个先验分布$G_0$:

G_0 \sim DP(\gamma,H)

得到:

G_0 = \sum_{k=1}^\infty \pi_{0k}\delta_{\phi_k}

这里的$\phi_k$是主题$k$的主题 - 词分布,它是一个多项式分布,$\phi_k$来自于一个狄利克雷先验分布$H$。

这里的$\pi_{0 k}$是主题的权重,$\delta_{\phi_k}$可以理解成指示函数。 这是什么意思呢,也就是说我们不仅抽取了主题-词分布,也抽取了每个主题 - 词分布的权重,那么实际上这个$G_0$应该是所有文档 - 主题分布的先验。那么,对于每个文档$j$,我们都要抽取一个随机测度$G_j^d$,它是来自于集中参数为$\alpha$和基分布为$G_0$的狄利克雷过程。即$G_{j}^d | \alpha,G_0 \sim DP(\alpha,G_0)$。也就是说,每个文档的主题分布$G_j^d$都与$G_0$有相同的定义域:$\{\phi_k\}_{k=1}^\infty$。也就是说,所有的文档都共享相同的主题。即:

G_j^d = \sum_{k=1}^\infty \pi_{jk}\delta_{\phi_k}

这里的$G_j^d$是文档$j$下所有的单词的先验,对于文档$j$中的单词$i$来说,其参数$\theta_{ji}$是来自于$G_j^d$。单词$x_{ji}$是来自离散分布:

p(x_{ji}|\theta_{ji}) = \theta_{jix_{ji}}

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码