数据学习
AI博客
原创AI博客
大模型技术博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型排行榜
大模型综合能力排行榜
大模型编程能力排行榜
LMSys ChatBot Arena排行榜
Berkeley大模型工具使用能力排行榜
OpenLLMLeaderboard中国站
AI大模型大全
大模型部署教程
在线聊天大模型列表
2023年度AI产品总结
Topic Modeling: Beyond Bag-of-Words
小木
ICML
2006-09
2397
2017/05/05 21:24:45
有一些文本模型使用n-gram统计,有些主题模型则使用“词袋”假设。在这篇文章中,作者将二者结合起来,提出了一个层次生成模型,将一元模型扩展为层次Dirichlet二元模型,既有n-gram的优点,也有隐主题变量的概念。作者的模型来源是两个,一个是MacKay和Peto在1995年发表的层次Dirichlet语言模型,这是一个二元语言模型。另一个是Blei在2003年提出的LDA模型。作者的模型基本原理与LDA相似。只是在某个单词的生成过程有区别。LDA每个单词的生成来源于主题词分布$\phi$,但是作者的模型中,单词的生成是由主题词分布和前一个单词共同决定,即: ```math p(w_t=i|w_{t-1}=j,z_t=k) ``` 这是有$WT(W-1)$个自由参数描述的,它们形成了一个矩阵$\Phi$,其行数是$WT$。$W$是词汇大小,$T$是单词数量。每一行是一个基于单词的分布,它描述某个情景下(即单词$j$和主题$k$情景)下的分布,表示为$\phi\_t$。每个主题$k$的生成过程和LDA完全一样。因此语料中单词和主题的联合分布为: ```math P(w,z|\Phi,\Theta)=\prod_i\prod_j\prod_k\prod_d \phi_{i|j,k}^{N_{i|j,k}} \theta_{k|d}^{N_{k|d}} ``` 因此,这个模型的生成过程如下: ------------ 1、对于每个单词$j$和主题$k$: (a)、从先验$\Phi$中抽取一个$\phi\_{j,k}$: 2、对于每个文档$d$: (a)、从$\text{Dirichlet}(\phi\_{j,k}|\beta\_km\_k)$中抽取主题分布$\theta\_d$ (b)、对于文档$d$中的每个单词$t$: Ⅰ、从主题分布中抽取一个主题$z\_t\sim \text{Discrete}(\theta\_d)$ Ⅱ、根据这个主题$z\_t$和之前的一个单词$w\_{t-1}$抽取一个单词$w\_t$ ------------
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top