AI大模型学习
原创AI博客
大模型技术资讯
大模型评测排行
大模型评测排行榜
大模型数学推理能力排行榜
大模型代码编程能力排行榜
大模型图片编辑能力排行榜
LMSys ChatBot Arena排行榜
Berkeley大模型工具使用能力排行榜
大模型综合能力排行榜(旧)
大模型编程能力排行榜(旧)
OpenLLMLeaderboard中国站
AI大模型大全
最新大模型列表
大模型部署教程
大模型对比工具
大模型评测基准
大模型评测基准
SWE Bench Verified
ARC-AGI-2
AIME 2025
FrontierMath-Tier4
MMMU
AI Agents列表
AI资源仓库
AI领域与任务
AI研究机构
AI数据集
AI开源工具
数据推荐
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI工具导航
AI大模型工具导航网站
在线聊天大模型列表
Topic Modeling: Beyond Bag-of-Words
小木
ICML
2006-09
2891
2017/05/05 21:24:45
有一些文本模型使用n-gram统计,有些主题模型则使用“词袋”假设。在这篇文章中,作者将二者结合起来,提出了一个层次生成模型,将一元模型扩展为层次Dirichlet二元模型,既有n-gram的优点,也有隐主题变量的概念。作者的模型来源是两个,一个是MacKay和Peto在1995年发表的层次Dirichlet语言模型,这是一个二元语言模型。另一个是Blei在2003年提出的LDA模型。作者的模型基本原理与LDA相似。只是在某个单词的生成过程有区别。LDA每个单词的生成来源于主题词分布$\phi$,但是作者的模型中,单词的生成是由主题词分布和前一个单词共同决定,即: ```math p(w_t=i|w_{t-1}=j,z_t=k) ``` 这是有$WT(W-1)$个自由参数描述的,它们形成了一个矩阵$\Phi$,其行数是$WT$。$W$是词汇大小,$T$是单词数量。每一行是一个基于单词的分布,它描述某个情景下(即单词$j$和主题$k$情景)下的分布,表示为$\phi\_t$。每个主题$k$的生成过程和LDA完全一样。因此语料中单词和主题的联合分布为: ```math P(w,z|\Phi,\Theta)=\prod_i\prod_j\prod_k\prod_d \phi_{i|j,k}^{N_{i|j,k}} \theta_{k|d}^{N_{k|d}} ``` 因此,这个模型的生成过程如下: ------------ 1、对于每个单词$j$和主题$k$: (a)、从先验$\Phi$中抽取一个$\phi\_{j,k}$: 2、对于每个文档$d$: (a)、从$\text{Dirichlet}(\phi\_{j,k}|\beta\_km\_k)$中抽取主题分布$\theta\_d$ (b)、对于文档$d$中的每个单词$t$: Ⅰ、从主题分布中抽取一个主题$z\_t\sim \text{Discrete}(\theta\_d)$ Ⅱ、根据这个主题$z\_t$和之前的一个单词$w\_{t-1}$抽取一个单词$w\_t$ ------------
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top