数据学习
AI博客
原创AI博客
大模型技术博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型排行榜
大模型综合能力排行榜
大模型编程能力排行榜
LMSys ChatBot Arena排行榜
Berkeley大模型工具使用能力排行榜
OpenLLMLeaderboard中国站
AI大模型大全
大模型部署教程
在线聊天大模型列表
2023年度AI产品总结
A Biterm Topic Model for Short Texts
小木
WWW
2013-05
6900
2017/02/06 09:56:52
由于传统的话题模型主要是获取文档级别的词共现,对于短文来来说,数据的稀疏性导致了传统话题模型效果不好。为了解决这个问题,作者提出了一个新的模型(biterm topic model, BTM)来为短文本建模。BTM通过语料级别的词共现来为短文本建模。BTM的主要优点包括:1)直接利用了词共现的优势为短文本建模;2)BTM使用语料级别的词共现模式聚合来解决文档级别的稀疏性。 传统话题模型在短文本上应用困难。现有工作已经有了一些解决方案。一是通过聚合短文本,比如讲一个人发表的所有的微博合在一起作为一篇文档。但这类方法受制于数据。二是通过做一些比较严格的假设,如一个短文本只包含一个话题,或者是一句话来自于同一个话题等。但这些假设破坏了文档的完整性,有过拟合的问题。作者则通过获取语料级别的词共现来解决这个问题。作者的想法来自于两个问题:1)既然话题是由一组相关的词语组成,而相关的词语则是由词共现来揭示,那为什么不直接对词共现进行建模?2)既然短文话题建模受制于文档的数据,那为什么不使用语料级别的词共现模式? BTM 首先从语料级别抽取所有的二元词组,即抽取Biterm对。这个过程很简单。比如“I visit apple store”,去除I停用词后,抽取的二元词组包括{visit apple},{visit store},{apple store}。 然后作者把所有的语料当做一个文档。具体来说,就是作者将语料看做是一组话题的混合,每个二元词组都是来自于某个话题。一个二元词组属于某个话题的概率由二元词组里面两个单词从同一个话题中抽样得到。该模型的生成过程如下: 1)对于每个话题z 抽取话题-词分布$\phi_z \sim \text{Dir}(\beta)$ 2)从Dirichlet先验中获取话题的分布$\theta \sim \text{Dir}(\alpha)$ 3)对于二元词组集合B中的每个二元词b (a)抽取一个主题$z \sim \text{Multi}(\theta)$ (b)抽取两个单词$w_i,w_j \sim \text{Multi}(\phi_z)$ 最终可以得到二元词组的联合概率: ```math P(b) = \sum_z P(z)P(w_i|z)P(w_j|z)=\sum_z\theta_z\phi_{i|z}\phi_{j|z} ``` 最终作者做了几个实验。。但是我看主题下的词语分布,前20个词语的结果与人工判断感觉提升不明显。 ![](http://www.datalearner.com/resources/blog_images/93ef7718-5279-43dd-8d9d-5d1c979cbd74.png)
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top