AI大模型学习
AI博客
原创AI博客
大模型技术博客
AI大模型排行榜
业界大模型评测基准
全球大模型最新评测基准结果
大模型综合能力排行榜
大模型编程能力排行榜
LMSys ChatBot Arena排行榜
Berkeley大模型工具使用能力排行榜
OpenLLMLeaderboard中国站
全球大模型最新评测结果
AI大模型大全
大模型部署教程
2023年度AI产品总结
AI资源仓库
AI领域与任务
AI研究机构
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型工具导航
AI大模型工具导航网站
在线聊天大模型列表
Point-of-Interest Recommendation in Location Based Social Networks with Topic and Location Awareness
Vanessa He
Proceedings of the 2013 SIAM International Conference on Data Mining
2013-09
2783
2017/05/16 17:40:36
近些年,基于位置的社交网络服务(Location Based Social Networks,**LBSN**)得到了迅速的发展,比如说国外的Foursquare、Facebook Place和Google Latitude,通过用户的签到经历和签到兴趣地点的评论,用户可以获得更好的兴趣点(Places-of-Interests,**POIs**)服务。以Foursquare为例,用户可以对POIs分类、打标签,用户也可以向其他人分享自己的签到地点经验,用户还可以了解到有多少用户访问过某个POIs和他们访问了多少时间。这样的兴趣点推荐(Point-of-Interests,**POI**)服务是很有意义的,对于POIs拥有者来说,他们可以获得更多的目标用户,而对于用户来说,他们可以获得更多相关的POIs,从而有更好的经历。 但是,POI推荐系统比传统的推荐系统的发展更为复杂,因为面临的挑战有以下方面: (1)对于POI推荐,用户的兴趣因不同时间、不同地点而动态变化着; (2)LBSN的用户行为具有时空相关性,而时空相关性数据的异质性对推荐来说是个较大的挑战; (3)POI通常和分类或标签相关联,然而与POIs相关联的文本信息通常是不完整且模棱两可的; (4)即使是具有相似或相同语义主题的POIs,也因为所处的不同区域而有不同的排序结果。 于是,本文研究首先为POI推荐提出了一个主题和位置的感知方法,这个方法可以有效发现与POIs相关的文本信息(textual information),并且还融入了上下文环境信息(context aware information)。然后,本文基于学习用户、POI主题分布和位置信息为POIs推荐建立了基于主题和位置的概率矩阵分解模型(Topic and Location-aware probabilistic matrix factorization,**TL-PMF**)。 下面来具体看一下研究内容: #### **一、问题描述** 历史签到记录R
M×N
表示M个基于位置的社交网络用户U={u
1
,u
2
,...,u
M
}和N个POIs(兴趣点)C={c
1
,c
2
,...,c
N
},其中的r
ij
表示用户u
i
在POIs(兴趣点)签到的次数(此处可以类比商品评分)。另外,本文假定r
ij
被两个因素影响:(1)鉴于主题,考虑POIs的兴趣和用户兴趣的匹配程度(2)POI的口碑意见(尤其是流行度分数)的区域水平。 对于每一个POI,还有额外的配置信息,如位置信息、区域信息(尤其是城市和州的名称)、文本信息(尤其是种类和标签词,用于形容POI的词)和POI兴趣点c
j
的区域流行度分数(尤其是多少人与之有联系以及这些人到访该POI的次数)。 每一个POI兴趣点c
j
都有:d
c
j
,表示与POI兴趣点c
j
有关的文本items,包括标签和分类;d
u
i
,表示与用户到访过的POI兴趣点c
j
有关的文本items;P
c
j
:根据“总人数”和“总签到次数”而得到的POI兴趣点c
j
的流行度分数。另外,W={w
1
,w
2
,...,w
V
},表示所有与文本信息相关的V词集。 #### **二、用户和POI Profiling** ##### **1、主题提取** 主题提取的目的就是基于用户签到的POIs兴趣点的文本信息,学习用户的兴趣,尤其是主题分布情况。不像之前协同过滤的研究,仅仅依赖其他用户评分来推断给定用户对给定产品的评分,本文通过主题提取profile了用户和POI。潜在狄利克雷分配(LDA)模型是用来从大量文本集中区分潜在主题信息的流行方法。在LDA中,每个文本被表示成主题的概率分布,而每一个主题被表示成许多词的概率分布。 模型中有两个可以从数据中推断出来的参数: (1)文本-主题分布θ; (2)主题-词分布Φ。 为了通过LDA来提取用户感兴趣的主题,本文将所有用户签到过的POIs兴趣点文本集成成一个用户文本d
u
i
,因此,d
u
i
的主题可以代表用户u
i
的兴趣主题。由此来看,本文构建的**集成LDA模型**如下:  每个文档对应一个基于位置的社交网络用户。文档d
u
i
的主题分布代表u
i
的兴趣。每个用户的主题都和某个多项式分布有关,表示成θ。每个兴趣主题的文本词都和某个多项式分布有关,表示成Φ。**兴趣主题的生成过程**如下:  其中,(1)矩阵θ
M×K
中M表示用户数,K表示主题数,θ
ij
表示用户i对主题t
j
感兴趣的概率;(2)矩阵Φ
K×V
中K表示主题数,V表示数据集中独特术语词数,Φ
i
表示包含V个术语词的主题i的概率分布。 另外,我们可以通过学习到的用户-主题-词分布Φ
K×V
,推断出POI兴趣点c
j
的主题分布π
j
。因此,这样我们便可以来计算主题相似性。 ##### **2、参数学习模型** 如图1所示,基于超参数θ和Φ,M个用户文档的模型概率如下:  显而易见,模型参数θ和Φ的估计是很难计算的。在参数估计中,我们需要重点关注Φ
K×V
矩阵(word by topic))和θ
M×K
矩阵(user by topic),因为通过这两个矩阵,我们可以通过吉布斯(Gibbs)抽样评估出主题-词分布和用户-主题分布。为此, (1)首先,先抽样隐变量z的条件分布,其中,表示不属于相应的文档或主题的术语词i的数量;同时,通过抽样结果,我们可以通过和来估计θ和Φ,其中,n
k
(w)
表示主题k下词频,n
i
(k)
表示用户u
i
的文档d
u
i
的主题数,V是词总数,K是主题数,α和β是两个事先设定好的对称先验。 (2)然后,基于训练好的模型M:{θ,Φ}和超参数α、β,推断具有文档d
c
j
的一个POI的主题分布p(π
j
|d
c
j
,M).和上面的参数估计类似,我们依旧使用吉布斯(Gibbs)抽样方法来获得每一个POI的主题分布。所以,吉布斯(Gibbs)抽样的全条件分布是;那么,POI文档d
c
j
的主题分布便是,其中,n
j
(k)
表示POI文档d
c
j
的主题数。 ##### **3、兴趣匹配得分** 在获得用户和POI的兴趣(尤其是主题分布)之后,我们可以通过计算出匹配得分来表示POI兴趣和用户的个性化兴趣的匹配程度。用户u
j
和POI的c
j
的匹配得分被定义为用户兴趣主题分布θ
i
和POI的主题分布π
j
的相似度,用对称JSD(Jensen-Shannon divergence)来计算:。这里的和是KL距离(Kullback-Leibler distance)。然后,定义匹配得分为。 #### **三、TL-PMF模型(A Topic and Location Aware Probabilistic Matrix Factorization)** 因为POI推荐是个性化的、位置相关的和依赖文本信息的,因此,本文介绍了一种考虑了用户兴趣与POI兴趣的匹配程度和POI口碑评分的主题和位置感知的概率矩阵分解模型(TL-PMF)。 ##### **1、基于位置的社交网络中主题和位置感知的POI推荐** 除了有POI文本信息和口碑性信息之外,我们还有基于位置社交网络用户的历史签到记录,构建成用户-POI矩阵,矩阵中的r
ij
表示用户到访某POI的次数,这个矩阵同样可以应用于二元关系变量中,r
ij
=0表示用户没去过某POI,反之r
ij
=1表示用户到访过某POI。本文中将r
ij
视为用户u
i
对POI兴趣点c
j
的评分,这一评分一方面反映出POI主题和用户兴趣主题的匹配程度,另一方面反映出本地区口碑意见水平P
j
。 于是,我们定义了用户u
i
对POI兴趣点c
j
的主题和位置影响力指数如下:。其中,S(u
i
,c
j
)表示用户u
i
与POI兴趣点c
j
间主题分布θ
i
和π
j
的匹配得分。 ##### **2、TL-PMF模型** TL-PMF模型的图模型如下:  其中,r
ij
表示用户u
i
对POI兴趣点c
j
的评分,U
i
和C
j
分别表示用户和POI的隐特征向量。 观测评分的分布如下: 。。。。。。。(1) 其中,表示均值为μ、方差为σ
2
的高斯分布,I
ij
是指示函数。函数表示用户u
i
对POI兴趣点c
j
的评分估计,具体计算如下:,其中,U
i
和C
j
表示用户和POI的D维隐向量,TL
ij
表示用户U
i
对POI C
j
的主题和位置指示值。 本文设定用户和POI隐空间的高斯先验均值为0:和。这样一来,公式(1)的后验分布则变成:  于是,我们需要通过最大化概率来估计参数,对后验分布取log对数之后:  其中,D表示隐向量的维度。 最大化log后验分布也就等同于最小化下面的函数:  其中,、、是F范数。最小化这一函数就是通过随机梯度下降的方法实现的。 ##### **3、预测和推荐** 当用户兴趣主题和参数U、C都被学习到之后,给定一个POI,通过来预测用户的评分,其中γ用来调整匹配分数和区域流行度分数的权重。 因为LBSNs下的推荐对位置是十分敏感的,推荐列表信息应该是在用户目前所处位置附近。本文的TL-PMF模型提供了全部的预测偏好得分,于是在实际中,给定用户位置L
u
i
,在一定范围Range
L
u
i
内,考虑top N预测得分来进行n个推荐。
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top