AI大模型学习
原创AI博客
大模型技术资讯
大模型评测排行
大模型评测排行榜
大模型数学推理能力排行榜
大模型代码编程能力排行榜
大模型图片编辑能力排行榜
LMSys ChatBot Arena排行榜
Berkeley大模型工具使用能力排行榜
大模型综合能力排行榜(旧)
大模型编程能力排行榜(旧)
OpenLLMLeaderboard中国站
AI大模型大全
最新大模型列表
大模型部署教程
大模型对比工具
大模型评测基准
大模型评测基准
SWE Bench Verified
ARC-AGI-2
AIME 2025
FrontierMath-Tier4
MMMU
AI Agents列表
AI资源仓库
AI领域与任务
AI研究机构
AI数据集
AI开源工具
数据推荐
国产AI大模型生态全览
AI模型概览图
AI模型月报
AI基础大模型
AI工具导航
AI大模型工具导航网站
在线聊天大模型列表
What Your Images Reveal- Exploiting Visual Contents for Point-of-Interest Recommendation
Vanessa He
WWW '17 Proceedings of the 26th International Conference on World Wide Web
2017-04
4158
2017/04/13 15:05:02
目前现有的POI推荐方法主要聚焦在四个方面:时序模式temporal patterns, 地理位置影响geographical influence, 社交相关性social correlations 和 文本内容显示textual content indications。然而,却很少有POI推荐方法研究是针对图像的。于是,本文就是研究通过图像内容来提高POI推荐的问题。但是,利用图像内容研究POI推荐,面临两个挑战:(1)如何从图像中抽取有用的可视化内容?(2)如何将可视化图像内容用进POI推荐中?为此,本文提出了一个新的提高POI推荐的图像内容框架(a new framework Visual Content Enhanced POI recommendation,**VPOI**)。 本文主要研究贡献: (1)利用可视化图像内容来研究提高POI推荐的问题; (2)提出一个新推荐系统,将图像可视化内容融入概率模型中,用于学习用户和POI隐特征; (3)在真实数据集上实验证明了提出的框架的有效性。 ### **一、一种利用可视化内容提高POI推荐的系统** 问题描述:给定签到矩阵R、用户图像Þ
u
i
(i=1,2...n)和POI图像Þ
l
j
(j=1,2...m),目标是向每个用户推荐K个未被访问的POIs。其中,R是用R
ij
=g(X
ij
)表示的X的标准化形式,X表示用户-POI签到矩阵,X
ij
表示用户u
i
在l
j
的签到频率,Þ
u
i
表示用户u
i
上传的图像集,Þ
l
j
表示被标注标签l
j
的图像集。 #### **1、基本POI推荐模型** 本文选择概率矩阵分解(Probabilistic Matrix Factorization,PMF)作为POI推荐的基本模型。该模型假定观测数据的残余噪音服从高斯分布,即似然函数:  其中,U和V分别表示用户和POIs的隐特征矩阵,Ν(x|μ,σ
2
)表示均值为μ、方差为σ
2
的高斯分布,Y是指示函数,如果R
ij
>0,则Y
ij
=1,反之为0。 PFM设定隐向量U和V的高斯先验:和。其中,σ
u
2
和σ
v
2
是两个高斯分布的方差,I是单位矩阵。 于是,后验分布就可以表示如下:  #### **2、可视化图像内容提取与建模** 卷积神经网络(Convolutional neural network,CNN)是在图像分类和目标侦测方面抽取高层可视化内容的重要深度网络。因此,本文选择CNN来抽取图像特征,并且选择最先进的VGG16模型作为CNN架构。如下图所示,该模型有13个卷积层、5个pooling层、3个全连接层和1个softmax层,其输入是一个224×224×3的图像,224×224表示图像大小,3表示频道(如RGB频道)数;然后,卷积层之后最左边变成了224×224×64大小的特征图,最后一层是用户分类的softmax层。  本文去掉了最后两层用户分类的层,然后输入图像p
k
,最后输出维度d=4096的向量,表示成CNN(p
k
),因为CNN是一个特征学习函数,其权重将会在学习过程中不断更新。但是,实际中,我们使用预先训练好的VGG16和调整的CNN。这样的话,通过CNN抽取特征之后,接下来便是融合这些特征进行POI推荐。 **(1)从图像与用户之间关系来建模** 用户u
i
发表了图像p
s
,则认为图像p
s
中包含了能反映用户偏好的内容,同时,u
i
的偏好还被可区分的隐特征**u
i
**所描述。于是,定义p
s
属于u
i
的概率P(f
is
=1|u
i
,p
s
)如下:  其中,P是可视化内容与隐用户特征之间的交互矩阵,通过最大化概率可使得**u
i
**通过交互矩阵P与可视化内容尽可能相似。这样的话,可视化内容可以指导**u
i
**的学习过程。 **(2)从图像与POI之间关系来建模** 与(1)相似,图像p
t
与地点l
j
有关系,则认为可视化内容p
t
更可能是用来描述POI地点l
j
。同样的,l
j
还被可区分的隐特征**v
j
**所描述。于是,定义p
t
属于l
j
的概率P(g
jt
=1|l
j
,p
t
)如下:  其中,Q是可视化内容与隐POI特征之间的交互矩阵,通过最大化概率可使得**v
j
**通过交互矩阵Q与可视化内容尽可能相似。这样的话,可视化内容可以指导**v
j
**的学习过程。 **(3)联合建模** 可视化内容建模的似然函数如下:  当然,P和Q的高斯先验和,其中,σ
p
2
和σ
q
2
是两个高斯分布的方差。 #### **3、VPOI框架** 通过公式(2)对用户-POI签到数据的建模和公式(5)对图像特征的建模,本文提出了VPOI的框架如下: 这里的后验分布计算过程如下:  于是,最终的公式(6)的目标函数可以被写成:  其中,,这样设定的目的是为了减少超参数,且α=2σ
2
。 而图模型表示如下:  ### **二、一种优化框架** 这一部分主要是用来解决优化问题,主要使用梯度下降的方法来更新变量。 #### **1、负采样(Negative Sampling)** 因为P(f
ik
=1|u
i
,p
k
)和P(g
jk
=1|l
j
,p
k
)涉及到要计算Σ
p
k
∈Þ
exp(u
i
T
·**p**·CNN(p
k
)),而这个综合所有图像并计算操作较复杂,因此为了加快这一计算,本文使用负采样来近似P(f
ik
=1|u
i
,p
k
)和P(g
jk
=1|l
j
,p
k
)如下:   其中,p
k
是来自用户总图像集,而p
ks
不是用户发表的图像,p
kt
不是被标记上l
i
的图像,这样的负采样的核心含义就是为了使得用户u
i
和图像内容p
k
间相似性最大,而使得用户u
i
和图像内容p
ks
以及p
kt
间相似性最小。通过这样的负采样,梯度也被简化。 #### **2、更新规则** Γ表示公式(7)的目标函数。 **(1)更新U**  其中,,第i个a
i
表示如下:  **(2)更新V**  其中,,第i个b
j
表示如下:  **(3)更新P和Q**  也就是表示成如下:  同理,  **(4)调整CNN** 为了更新CNN参数,我们固定U、V、P、Q,然后Γ对调整后的CNN权重集θ的偏导如下:  公式(14)中CNN的梯度可以通过BP(backpropagation)来计算。 #### **3、VPOI算法的学习** 
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top