登录
注册
原创博客
(current)
算法案例
(current)
技术进展
(current)
论文笔记
期刊会议
期刊列表
会议列表
期刊查询
核心期刊
南大核心(CSSCI)
中科院JCR期刊分区
AJG(ABS)星级期刊
合工大小核心
合工大大核心
数据推荐
工具推荐
网址导航
Accurate and scalable social recommendation using mixed-membership stochastic block models
Vanessa He
PNAS
2016-12
986
2017/03/17 10:21:26
推荐系统的目标就是预测用户喜欢什么电影、用户会购买什么书、用户会约会中的什么感兴趣,而大多推荐方法就是依据“用户以相似方式与相似产品有关系”(similar users relate to similar items in similar ways),也就是说购买相似产品的用户给相同产品相似评分,这边引起很多基于用户评分来实现推荐的研究,比如协同过滤,然而他们都没有考虑到用户或产品的特性。慢慢地,开始有了很多的扩展算法,比如矩阵分解和隐特征方法,假定用户和产品以一种抽象的低维空间形式存在,然而这种空间对于是否能够解释用户行为的多样性却很少讨论。因此,这些现有的方法就比更具社交现实意义的基于用户偏好模型的方法的精准度较差一些,而这些具有现实意义的方法却在大数据集上缺乏实战。 基于这些现有研究的问题,本文研究了基于对用户行为的现实可能性假定的用户评分预测模型和算法。正如在现有的研究中,我们也假定(1)用户对产品的评分与群隶属度有关系,(2)每个用户和产品可以属于不同的群组里,(3)每两个群组的评分服从相同的概率分布。结合这些假定,本文的研究认为评分自由地依赖于用户或产品群组,并且服从一种概率分布,而这种带有的预测评分可以通过EM(Expectation-maximization期望最大化)算法求解出来,并且这种算法的时间复杂度是与观测评分的数量成线性关系的,也可以在大数据集上预测用户偏好。 ### **A Mixed-Membership Block Model 混合隶属度块模型** 本文的研究方法是来源于MMSBM模型(mixed-membership stochastic block model),该模型是[2007年发表在Journal of Machine Learning Research上的一篇文章](http://papers.nips.cc/paper/3578-mixed-membership-stochastic-blockmodels.pdf "2007年发表在Journal of Machine Learning Research上的一篇文章")。正如原文和相关其他研究,本文假定用户与产品的双向图中的每个节点都是属于混合群组的,构建了一个与MMSBM模型相像的模型,模型中的用户对产品的评分是从一个依赖于他们的群隶属度的概率分布中抽样的。下面来具体看一下: **1、模型问题描述** N个用户,M个产品,双边图R={(u,i)},(u,i)表示产品i被用户u赋予了评分,评分r
ui
属于有限集S,比如S={1,2,3,4,5,}。给定一个观测评分R
O
,模型目的就是对用户和产品进行分类,并连接(u,i)的未知评分r
ui
进行预测。 **2、生成模型构建** 针对评分的生成模型构建如下: K组用户,L组产品。对于每对群组k、l,假定u完全属于群组k,i完全属于群组l,u给i的评分服从概率分布p
ui
(r)。 为了给**混合隶属度**进行建模,每个用户u有向量θ
u
,θ
uk
表示用户u与群组k的隶属度,相似地,每个产品i有向量η
i
,η
il
表示产品i与群组l的隶属度,Σ
k
θ
uk
=Σ
l
η
il
=1。所以,评分r
ui
的概率分布如下:  用θ、η、p缩写所有参数,评分**似然**如下:  然后利用有效的**EM算法**通过**最大化似然**来推断参数值即可。这样便可以利用推断模型,对每一对(u,i)∉R
O
,预测未观测评分r
ui
。 ### **Scalable Inference of Model Parameters 模型参数的可扩展推断** 本文使用经典变分方法来通过最大化似然函数求解模型参数:  这里的∂
u
={i|(u,i)∈R
O
}和∂
i
={u|(u,i)∈R
O
}表示u的邻居和i的邻居。d
u
=|∂
u
|和d
i
=|∂
i
|表示节点度,或者说是用户u对产品i的观测评分的数量。变分方法的概率估计: 。 这些公式可以通过EM算法求解: (1)首先初始化模型参数θ、η、p; (2)然后重复下面步骤直至收敛到固定节点:(1)expectation step:计算w
ui
(k,l),(2)maximization step:计算θ
uk
、η
il
、p
kl
(r)。 #### *如果想要进一步了解模型的细节求解、基准方法的对比以及如何解决大数据集和冷启动的问题,可以参考[论文的支持信息](http://www.pnas.org/content/suppl/2016/11/23/1606316113.DCSupplemental/pnas.201606316SI.pdf "论文的支持信息")。* ### **:tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f::tw-1f31f:附:Mixed Membership Stochastic Blockmodels混合隶属度随机块模型** (关于混合隶属度随机块模型,此处只简单介绍,详细请参考原论文) 关系型数据与传统数据的区别就在于是否满足独立同分布,在分析关系型数据的研究历史中,一个较好的研究问题便是聚类问题,而在标准的基于模型的聚类方法中,如混合模型(mixture models)因其假定聚类任务下的对象条件非独立而无法应用在关系型数据上,又如隐随机块模型(the latent stochastic blockmodel,1987)改进混合模型应用于关系型数据中,但是模型认为每个对象仅属于一个聚类且对象间关系由彼此之间的关系决定。 混合隶属度模型(MMB)认为每个观测对象通过隶属度概率向量表示而可能属于多个聚类结果。模型断定通过如下过程来确定概率图模型。  
赏
支付宝扫码打赏
如果文章对您有帮助,欢迎打赏鼓励作者
Back to Top