AI大模型学习
AI博客
原创AI博客
大模型技术博客
AI大模型排行榜
业界大模型评测基准
全球大模型最新评测基准结果
大模型综合能力排行榜
大模型编程能力排行榜
LMSys ChatBot Arena排行榜
Berkeley大模型工具使用能力排行榜
OpenLLMLeaderboard中国站
全球大模型最新评测结果
AI大模型大全
大模型部署教程
2023年度AI产品总结
AI资源仓库
AI领域与任务
AI研究机构
AI数据集
AI开源工具
数据推荐
AI大模型
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI大模型工具导航
AI大模型工具导航网站
在线聊天大模型列表
What Your Images Reveal- Exploiting Visual Contents for Point-of-Interest Recommendation
Vanessa He
WWW '17 Proceedings of the 26th International Conference on World Wide Web
2017-04
4084
2017/04/13 15:05:02
目前现有的POI推荐方法主要聚焦在四个方面:时序模式temporal patterns, 地理位置影响geographical influence, 社交相关性social correlations 和 文本内容显示textual content indications。然而,却很少有POI推荐方法研究是针对图像的。于是,本文就是研究通过图像内容来提高POI推荐的问题。但是,利用图像内容研究POI推荐,面临两个挑战:(1)如何从图像中抽取有用的可视化内容?(2)如何将可视化图像内容用进POI推荐中?为此,本文提出了一个新的提高POI推荐的图像内容框架(a new framework Visual Content Enhanced POI recommendation,**VPOI**)。 本文主要研究贡献: (1)利用可视化图像内容来研究提高POI推荐的问题; (2)提出一个新推荐系统,将图像可视化内容融入概率模型中,用于学习用户和POI隐特征; (3)在真实数据集上实验证明了提出的框架的有效性。 ### **一、一种利用可视化内容提高POI推荐的系统** 问题描述:给定签到矩阵R、用户图像Þ
u
i
(i=1,2...n)和POI图像Þ
l
j
(j=1,2...m),目标是向每个用户推荐K个未被访问的POIs。其中,R是用R
ij
=g(X
ij
)表示的X的标准化形式,X表示用户-POI签到矩阵,X
ij
表示用户u
i
在l
j
的签到频率,Þ
u
i
表示用户u
i
上传的图像集,Þ
l
j
表示被标注标签l
j
的图像集。 #### **1、基本POI推荐模型** 本文选择概率矩阵分解(Probabilistic Matrix Factorization,PMF)作为POI推荐的基本模型。该模型假定观测数据的残余噪音服从高斯分布,即似然函数:  其中,U和V分别表示用户和POIs的隐特征矩阵,Ν(x|μ,σ
2
)表示均值为μ、方差为σ
2
的高斯分布,Y是指示函数,如果R
ij
>0,则Y
ij
=1,反之为0。 PFM设定隐向量U和V的高斯先验:和。其中,σ
u
2
和σ
v
2
是两个高斯分布的方差,I是单位矩阵。 于是,后验分布就可以表示如下:  #### **2、可视化图像内容提取与建模** 卷积神经网络(Convolutional neural network,CNN)是在图像分类和目标侦测方面抽取高层可视化内容的重要深度网络。因此,本文选择CNN来抽取图像特征,并且选择最先进的VGG16模型作为CNN架构。如下图所示,该模型有13个卷积层、5个pooling层、3个全连接层和1个softmax层,其输入是一个224×224×3的图像,224×224表示图像大小,3表示频道(如RGB频道)数;然后,卷积层之后最左边变成了224×224×64大小的特征图,最后一层是用户分类的softmax层。  本文去掉了最后两层用户分类的层,然后输入图像p
k
,最后输出维度d=4096的向量,表示成CNN(p
k
),因为CNN是一个特征学习函数,其权重将会在学习过程中不断更新。但是,实际中,我们使用预先训练好的VGG16和调整的CNN。这样的话,通过CNN抽取特征之后,接下来便是融合这些特征进行POI推荐。 **(1)从图像与用户之间关系来建模** 用户u
i
发表了图像p
s
,则认为图像p
s
中包含了能反映用户偏好的内容,同时,u
i
的偏好还被可区分的隐特征**u
i
**所描述。于是,定义p
s
属于u
i
的概率P(f
is
=1|u
i
,p
s
)如下:  其中,P是可视化内容与隐用户特征之间的交互矩阵,通过最大化概率可使得**u
i
**通过交互矩阵P与可视化内容尽可能相似。这样的话,可视化内容可以指导**u
i
**的学习过程。 **(2)从图像与POI之间关系来建模** 与(1)相似,图像p
t
与地点l
j
有关系,则认为可视化内容p
t
更可能是用来描述POI地点l
j
。同样的,l
j
还被可区分的隐特征**v
j
**所描述。于是,定义p
t
属于l
j
的概率P(g
jt
=1|l
j
,p
t
)如下:  其中,Q是可视化内容与隐POI特征之间的交互矩阵,通过最大化概率可使得**v
j
**通过交互矩阵Q与可视化内容尽可能相似。这样的话,可视化内容可以指导**v
j
**的学习过程。 **(3)联合建模** 可视化内容建模的似然函数如下:  当然,P和Q的高斯先验和,其中,σ
p
2
和σ
q
2
是两个高斯分布的方差。 #### **3、VPOI框架** 通过公式(2)对用户-POI签到数据的建模和公式(5)对图像特征的建模,本文提出了VPOI的框架如下: 这里的后验分布计算过程如下:  于是,最终的公式(6)的目标函数可以被写成:  其中,,这样设定的目的是为了减少超参数,且α=2σ
2
。 而图模型表示如下:  ### **二、一种优化框架** 这一部分主要是用来解决优化问题,主要使用梯度下降的方法来更新变量。 #### **1、负采样(Negative Sampling)** 因为P(f
ik
=1|u
i
,p
k
)和P(g
jk
=1|l
j
,p
k
)涉及到要计算Σ
p
k
∈Þ
exp(u
i
T
·**p**·CNN(p
k
)),而这个综合所有图像并计算操作较复杂,因此为了加快这一计算,本文使用负采样来近似P(f
ik
=1|u
i
,p
k
)和P(g
jk
=1|l
j
,p
k
)如下:   其中,p
k
是来自用户总图像集,而p
ks
不是用户发表的图像,p
kt
不是被标记上l
i
的图像,这样的负采样的核心含义就是为了使得用户u
i
和图像内容p
k
间相似性最大,而使得用户u
i
和图像内容p
ks
以及p
kt
间相似性最小。通过这样的负采样,梯度也被简化。 #### **2、更新规则** Γ表示公式(7)的目标函数。 **(1)更新U**  其中,,第i个a
i
表示如下:  **(2)更新V**  其中,,第i个b
j
表示如下:  **(3)更新P和Q**  也就是表示成如下:  同理,  **(4)调整CNN** 为了更新CNN参数,我们固定U、V、P、Q,然后Γ对调整后的CNN权重集θ的偏导如下:  公式(14)中CNN的梯度可以通过BP(backpropagation)来计算。 #### **3、VPOI算法的学习** 
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top