A Biterm Topic Model for Short Texts论文简介及其笔记| 论文笔记好用的论文笔记工具

A Biterm Topic Model for Short Texts

小木 WWW 2013-05 7919 2017/02/06 09:56:52

由于传统的话题模型主要是获取文档级别的词共现，对于短文来来说，数据的稀疏性导致了传统话题模型效果不好。为了解决这个问题，作者提出了一个新的模型（biterm topic model, BTM）来为短文本建模。BTM通过语料级别的词共现来为短文本建模。BTM的主要优点包括：1）直接利用了词共现的优势为短文本建模；2）BTM使用语料级别的词共现模式聚合来解决文档级别的稀疏性。

传统话题模型在短文本上应用困难。现有工作已经有了一些解决方案。一是通过聚合短文本，比如讲一个人发表的所有的微博合在一起作为一篇文档。但这类方法受制于数据。二是通过做一些比较严格的假设，如一个短文本只包含一个话题，或者是一句话来自于同一个话题等。但这些假设破坏了文档的完整性，有过拟合的问题。作者则通过获取语料级别的词共现来解决这个问题。作者的想法来自于两个问题：1）既然话题是由一组相关的词语组成，而相关的词语则是由词共现来揭示，那为什么不直接对词共现进行建模？2）既然短文话题建模受制于文档的数据，那为什么不使用语料级别的词共现模式？

BTM
首先从语料级别抽取所有的二元词组，即抽取Biterm对。这个过程很简单。比如“I visit apple store”，去除I停用词后，抽取的二元词组包括{visit apple}，{visit store}，{apple store}。
然后作者把所有的语料当做一个文档。具体来说，就是作者将语料看做是一组话题的混合，每个二元词组都是来自于某个话题。一个二元词组属于某个话题的概率由二元词组里面两个单词从同一个话题中抽样得到。该模型的生成过程如下：
1）对于每个话题z
　　抽取话题-词分布$\phi_z \sim \text{Dir}(\beta)$
2）从Dirichlet先验中获取话题的分布$\theta \sim \text{Dir}(\alpha)$
3）对于二元词组集合B中的每个二元词b
　　（a）抽取一个主题$z \sim \text{Multi}(\theta)$
　　（b）抽取两个单词$w_i,w_j \sim \text{Multi}(\phi_z)$

最终可以得到二元词组的联合概率：
```math
P(b) = \sum_z P(z)P(w_i|z)P(w_j|z)=\sum_z\theta_z\phi_{i|z}\phi_{j|z}
```

最终作者做了几个实验。。但是我看主题下的词语分布，前20个词语的结果与人工判断感觉提升不明显。

![](http://www.datalearner.com/resources/blog_images/93ef7718-5279-43dd-8d9d-5d1c979cbd74.png)

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者