AI大模型学习
原创AI博客
大模型技术资讯
大模型评测排行
大模型评测排行榜
大模型数学推理能力排行榜
大模型代码编程能力排行榜
大模型图片编辑能力排行榜
LMSys ChatBot Arena排行榜
Berkeley大模型工具使用能力排行榜
大模型综合能力排行榜(旧)
大模型编程能力排行榜(旧)
OpenLLMLeaderboard中国站
AI大模型大全
最新大模型列表
大模型部署教程
大模型对比工具
大模型评测基准
大模型评测基准
SWE Bench Verified
ARC-AGI-2
AIME 2025
FrontierMath-Tier4
MMMU
AI Agents列表
AI资源仓库
AI领域与任务
AI研究机构
AI数据集
AI开源工具
数据推荐
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI工具导航
AI大模型工具导航网站
在线聊天大模型列表
Improving Topic Coherence with Regularized Topic Models
小木
NIPS
2011-09
2107
2017/02/06 09:56:42
主题模型在处理小规模或者有噪音的数据的文本的时候,通常会产生一些含义不明确、不一致的主题。为了解决这个问题,作者提出了一个正则化的方法来学习主题模型。作者的正则化工作主要是创建了一个结构化的单词的先验,它可以使来自外部数据的模式。第三方数据及显示该模型可以提升话题的一致性指标。 简单来说,作者为主题-词分布$\phi_t$创建了一个结构化的先验,这个先验是来自于其他外部数据,它对标准的LDA有一个正则化的影响。具体来说,这个先验是来自于外部数据的单词的结构化关系,是一个$W \times W$的协方差矩阵C。直觉上来看,C是一个矩阵,它是外部数据中包含的单词之间的依赖关系。同时,作者只对此表中经常出现的词语感兴趣,因此C是一个非常稀疏的矩阵。 ##### Quadratic Regularizer (QUAD-REG) 作者的先验定义如下: ```math p(\phi_t|C) \propto (\phi_t^{T}C\phi_t)^v ``` 那么消除无关常量后,log后验是: ```math \mathcal{L}_{MAP}=\sum_{i=1}^{W}N_{it}\log \phi_{i|t}+v\log (\phi_t^TC\phi_t) ``` 最后我们得到了: ```math \phi_{w|t} \leftarrow \frac{1}{N_t+2v}(N_{wt}+2v\frac{\phi_{w|t}\sum_{i=1}^{W}C_{iw}\phi_{i|t}}{\phi_t^TC\phi_t}) ``` 通过上述公式,我们最终就可以得到抽取每个单词的概率公式(Gibbs Sampling)的结果如下: ```math p(z_{id}=t|x_{id}=w,z^{\rightharpoondown i},\phi_{w|t}) \propto \phi_{w|t}(N_{td}^{\rightharpoondown i}+\alpha) ``` #####Convolved Dirichlet Regularizer (CONV-REG) 另一种使用外部数据依赖的方法是假设每个$\phi_t$是一个单词概率的混合$\psi_t$,其中的系数是收到单词依赖矩阵C的约束: ```math \phi_t \propto C\psi_t ``` 其中$\psi_t \sim \text{Dirichlet}(\gamma 1)$。这样,每个主题都有一个来自Dirichlet的不同的$psi_t$,因此,该模型就是一个卷积Dirichlet。也就是说我们把主题变成包含一系列相关单词的卷积。于是我们有: ```math p(w|z=t,C,\psi_t) = \prod_{i=1}^{W}(\sum_{j=1}^{W}C_{ij}\psi_{j|t})^{N_{it}} ``` 那么最终我们抽取某个单词的主题的概率为: ```math \psi_{w|t} \propto \sum_{i=1}^{W}\frac{N_{it}C_{iw}}{\sum_{j=1}^{W}C_{ij}\psi_{j|t}}\psi_{w|t}+\gamma ```
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top