Targeted Topic Modeling for Focused Analysis(TTM的理解)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。 未经本人,允许禁止转载。
我给原文作者发了几封邮件,询问一些程序及推理方面的疑问,原文作者都悉心回答了,再次表示衷心感谢。
#问题描述 这篇文章发表在16年ACM会议上,主要是对主题模型的改进。从文章的题目可以看出,该模型可以用来对关注点进行分析。Wang S, Chen Z, Fei G, et al. Targeted topic modeling for focused analysis[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016: 1235-1244.
文本分析的首要任务是挖掘人们到底都谈论了哪些内容(主题),当然这里的挖掘是基于机器学习方面的算法。而主题模型是现在比较流行的一种挖掘用户关注主题的方法。利用主题模型,可以获得用户文档的主题分布以及每个主题对应的词分布。
但现有的主题模型,却存在以下问题: (1)(full analysis on the entire corpus to discover all topics)。 (2)(generated topics are often too coarse and may not even be on target)。
作者提出的模型如上图所示。其生成过程可以描述如下: 其中,这里标红的部分是稀疏LDA的内容,如果感兴趣的话,可以关注一下两篇文章: (a)T. Lin, W. Tian, Q. Mei, and H. Cheng. The dual-sparse topic model: mining focused topics and focused terms in short text. In WWW, pages 539{550. ACM, 2014. (b)C. Wang and D. M. Blei. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process. In NIPS, pages 1982{1989, 2009. [30] H. Wang, Y. Lu, and C. Zhai. Latent aspect