数据学习
AI博客
原创AI博客
大模型技术博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型排行榜
大模型综合能力排行榜
大模型编程能力排行榜
LMSys ChatBot Arena排行榜
Berkeley大模型工具使用能力排行榜
OpenLLMLeaderboard中国站
AI大模型大全
大模型部署教程
在线聊天大模型列表
2023年度AI产品总结
Improving Topic Coherence with Regularized Topic Models
小木
NIPS
2011-09
1689
2017/02/06 09:56:42
主题模型在处理小规模或者有噪音的数据的文本的时候,通常会产生一些含义不明确、不一致的主题。为了解决这个问题,作者提出了一个正则化的方法来学习主题模型。作者的正则化工作主要是创建了一个结构化的单词的先验,它可以使来自外部数据的模式。第三方数据及显示该模型可以提升话题的一致性指标。 简单来说,作者为主题-词分布$\phi_t$创建了一个结构化的先验,这个先验是来自于其他外部数据,它对标准的LDA有一个正则化的影响。具体来说,这个先验是来自于外部数据的单词的结构化关系,是一个$W \times W$的协方差矩阵C。直觉上来看,C是一个矩阵,它是外部数据中包含的单词之间的依赖关系。同时,作者只对此表中经常出现的词语感兴趣,因此C是一个非常稀疏的矩阵。 ##### Quadratic Regularizer (QUAD-REG) 作者的先验定义如下: ```math p(\phi_t|C) \propto (\phi_t^{T}C\phi_t)^v ``` 那么消除无关常量后,log后验是: ```math \mathcal{L}_{MAP}=\sum_{i=1}^{W}N_{it}\log \phi_{i|t}+v\log (\phi_t^TC\phi_t) ``` 最后我们得到了: ```math \phi_{w|t} \leftarrow \frac{1}{N_t+2v}(N_{wt}+2v\frac{\phi_{w|t}\sum_{i=1}^{W}C_{iw}\phi_{i|t}}{\phi_t^TC\phi_t}) ``` 通过上述公式,我们最终就可以得到抽取每个单词的概率公式(Gibbs Sampling)的结果如下: ```math p(z_{id}=t|x_{id}=w,z^{\rightharpoondown i},\phi_{w|t}) \propto \phi_{w|t}(N_{td}^{\rightharpoondown i}+\alpha) ``` #####Convolved Dirichlet Regularizer (CONV-REG) 另一种使用外部数据依赖的方法是假设每个$\phi_t$是一个单词概率的混合$\psi_t$,其中的系数是收到单词依赖矩阵C的约束: ```math \phi_t \propto C\psi_t ``` 其中$\psi_t \sim \text{Dirichlet}(\gamma 1)$。这样,每个主题都有一个来自Dirichlet的不同的$psi_t$,因此,该模型就是一个卷积Dirichlet。也就是说我们把主题变成包含一系列相关单词的卷积。于是我们有: ```math p(w|z=t,C,\psi_t) = \prod_{i=1}^{W}(\sum_{j=1}^{W}C_{ij}\psi_{j|t})^{N_{it}} ``` 那么最终我们抽取某个单词的主题的概率为: ```math \psi_{w|t} \propto \sum_{i=1}^{W}\frac{N_{it}C_{iw}}{\sum_{j=1}^{W}C_{ij}\psi_{j|t}}\psi_{w|t}+\gamma ```
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top