Mining Topics in Documents: Standing on the Shoulders of Big Data论文简介及其笔记| 论文笔记好用的论文笔记工具

Mining Topics in Documents: Standing on the Shoulders of Big Data

小木 KDD 2014-08 2231 2017/02/06 09:56:28

主题模型的一个重要的缺点是需要大量的数据集来提供可靠的统计推断。但在实际中，数据是很缺乏的。最近几年，基于知识的主题模型越发受到关注，人们先提供一些关于主题的先验知识，然后引导模型获得更好的结果。作者的方法却不相同，作者是让模型像人类那样思考，它保留了过去的学习结果，并用来帮助未来的学习。当遇到一个新的任务的时候，我们首先从过去的模型中寻找一些可靠的只是，然后引导模型去推断更加一致的主题。该模型主要挖掘两种形式的知识：must-link（属于同一个主题的词）和cannot-link（不属于同一个主题的词）。它也处理两种自动挖掘的知识：错误的知识和知识转移。实验结果显示该模型不错。
从评论中挖掘观点，如果评论数据过少，那么LDA的模型效果就不好。主要有三种解决方方案：
1）提出一个新的更好的主题模型：但受制于数据，这个方向很难。
2）问用户提供领域知识：如果用户能提供一些话题内的主要特征词或者是某些词语属于不同的主题，也可以帮助我们提升效果。但实际中用户可能并不知道LDA会产生啥结果。
3）像人类一样学习。我们仍然是基于知识的方法。只是我们首先从过去的学习中自动发现一些结果。然后运用于新的任务中。
作者采用第三种方法。主要原因包括两个：
1）尽管很多领域都是不同的，但是领域之间有很多主题都是重合的。比如每个关于产品的评论都包括价格主题，大多数电子产品的评论则包括电池或者屏幕主题。比如如果我们经常发现cost和price在同一个主题中，我们就可以把他们当做是must-link。我们要求经常出现时必须获取可靠的知识。
2）从之前主题挖掘中，我们也会发现“picture”和“price”一般都不会出现在一个主题中。因此，它们可以被当做是cannot-link的结果。这通常是picture在某些主题中很靠前，但price从来不会出现在这个主题中。本模型的原理步骤如下：
**步骤1**、初始化。给定n个先验文档集合$D={D_1,...,D_n$，一个话题模型在每个集合$D_i \in D$中都产生一系列主题$S_i$。假设$S=U_iS_i$，我们称之为先验主题。然后我们使用频繁项集挖掘中最小化支持度来挖掘must-link的结果M
**步骤2**、Lifelong Learning：给定一个新的文档集合D，使用一个带有must-link为M的基于知识的主题模型（knowledge-based topic model, KBTM）来挖掘主题集合A。基于A，算法发现cannot-links的结果C，然后KBTM利用M和C来挖掘最终的主题。现有的模型中，已经有DF-LDA和MC-LDA两种基于知识的主题模型，但是它们有一些问题。比如它们认为用户提供的must-links和cannot-links是对的，且没有冲突。但实际上并不是。
1）自动发现的must-links和cannot-links是有错误的，盲目的信任是有问题的。
2）一个词可能有多个意思，因此A和B是must-links，B和C是must-link，在DF-LDA中，会把ABC放到一个must-link中。但是这样是错的。而MC-LDA则是忽略其中一个结果。
作者则提出了一个叫AMC的方法，来解决上述的问题。

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者