Improving Topic Coherence with Regularized Topic Models论文简介及其笔记| 论文笔记好用的论文笔记工具

Improving Topic Coherence with Regularized Topic Models

小木 NIPS 2011-09 2144 2017/02/06 09:56:42

主题模型在处理小规模或者有噪音的数据的文本的时候，通常会产生一些含义不明确、不一致的主题。为了解决这个问题，作者提出了一个正则化的方法来学习主题模型。作者的正则化工作主要是创建了一个结构化的单词的先验，它可以使来自外部数据的模式。第三方数据及显示该模型可以提升话题的一致性指标。
简单来说，作者为主题-词分布$\phi_t$创建了一个结构化的先验，这个先验是来自于其他外部数据，它对标准的LDA有一个正则化的影响。具体来说，这个先验是来自于外部数据的单词的结构化关系，是一个$W \times W$的协方差矩阵C。直觉上来看，C是一个矩阵，它是外部数据中包含的单词之间的依赖关系。同时，作者只对此表中经常出现的词语感兴趣，因此C是一个非常稀疏的矩阵。

##### Quadratic Regularizer (QUAD-REG)
作者的先验定义如下：
```math
p(\phi_t|C) \propto (\phi_t^{T}C\phi_t)^v
```
那么消除无关常量后，log后验是：
```math
\mathcal{L}_{MAP}=\sum_{i=1}^{W}N_{it}\log \phi_{i|t}+v\log (\phi_t^TC\phi_t)
```
最后我们得到了：
```math
\phi_{w|t} \leftarrow  \frac{1}{N_t+2v}(N_{wt}+2v\frac{\phi_{w|t}\sum_{i=1}^{W}C_{iw}\phi_{i|t}}{\phi_t^TC\phi_t})
```
通过上述公式，我们最终就可以得到抽取每个单词的概率公式（Gibbs Sampling）的结果如下：
```math
p(z_{id}=t|x_{id}=w,z^{\rightharpoondown i},\phi_{w|t}) \propto \phi_{w|t}(N_{td}^{\rightharpoondown i}+\alpha)
```

#####Convolved Dirichlet Regularizer (CONV-REG)
另一种使用外部数据依赖的方法是假设每个$\phi_t$是一个单词概率的混合$\psi_t$，其中的系数是收到单词依赖矩阵C的约束：
```math
\phi_t \propto C\psi_t
```
其中$\psi_t \sim \text{Dirichlet}(\gamma 1)$。这样，每个主题都有一个来自Dirichlet的不同的$psi_t$，因此，该模型就是一个卷积Dirichlet。也就是说我们把主题变成包含一系列相关单词的卷积。于是我们有：
```math
p(w|z=t,C,\psi_t) = \prod_{i=1}^{W}(\sum_{j=1}^{W}C_{ij}\psi_{j|t})^{N_{it}}
```
那么最终我们抽取某个单词的主题的概率为：
```math
\psi_{w|t} \propto \sum_{i=1}^{W}\frac{N_{it}C_{iw}}{\sum_{j=1}^{W}C_{ij}\psi_{j|t}}\psi_{w|t}+\gamma
```

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者