Variational Inference for Crowdsourcing论文简介及其笔记| 论文笔记好用的论文笔记工具

Variational Inference for Crowdsourcing

小木 NIPS 2012-11 2152 2017/02/07 09:39:17

[TOC]

众包（Crowdsourcing）是一个非常有效的标注大规模数据的方式。但是，由于中报的对象是大量的普通用户，因此其主要的问题是标签是不可靠且多样化的。甚至存在一些欺诈者“spammers”，提交一些随机的甚至是相反的答案。解决这个问题的一个一般性的策略是增加标签的冗余来提高标签的可靠性。基本的算法就是取得票多的结果。但这种方式很容易出错，因为它将所有的用户当作是同样的标注着。一般情况下，聚合不同用户的信息结果应当考虑不同用户的标注能力。
解决这样一个问题原则上可以采用生成模型来模拟用户的标注过程，并使用标准的推断工具来获得最终的标签。早先的相关工作主要是获取用户的混淆矩阵（confusion matrices），然后使用EM算法推断标签。但是EM算法的局部最优问题总是被人诟病。而另一方面，变分的方法，如置信度传播（Belief Propagation）和均值场（Mean Field）等方法，则为概率图模型提供了有力的推导工具。作者认为，当前虽然没有使用变分的方法解决众包的问题，但是这是一个很好的解决方案。

####问题描述：
假设我们有$N$个任务，每个任务都有一个二分类的标签${\pm1}$。这些标注工作由$M$个人完成。假设任务$i$的真实标签为$z\_{i}$，$[N]$表示前$N$个整数；$N\_j$是用户$j$的标注集合，$M\_i$表示标注了任务$i$的用户集合。因此整个标注可以用一个二部图表示，其中$(i,j)$表示任务$i$被用户$j$标注了。因此标注结果是一个矩阵$L={0,\pm1}^{N \times M}$，其中$L\_{ij} \in {\pm1}$表示用户$j$对任务$i$的标注结果，如果该值为0，表示该用户对该任务没有标注结果。我们最终的目标是寻找在给定观测结果$L$情况下关于真是标签$z$的一个最优的估计量$\hat{z}$，即最小化位操作的错误（minimizing the average bit-wise error rate）$\frac{1}{N}\sum\_{i\in[N]}\text{prob}[\hat{z}\_i \neq z\_i]$。

假设所有的任务都具有相同的难度系数，但是用户有不同的预测能力。根绝 Karger 的理论，我们可以假设每个用户$j$的能力，是由一个参数$q\_j$确定的，这个参数就是用户能标注正确结果的概率，即$q\_{j}=\text{prob}[L\_{ij}=z\_i]$。一般情况下，用户的标注能力都是可以用一个混淆矩阵度量的。

在这里，$q\_{j}$反应了用户的能力：当$q\_{j}\approx 1$的时候，表明该用户是专家用户，可以提供可靠的答案；当$q\_{j}\approx 1/2$的时候，表明用户是一个欺诈者，他会提供一个与问题无关的随机答案；当$q\_{j} < 1/2$的时候，表明该用户总是提供相反的答案。这里我们可以看出欺诈者和持相反意见的人应当被区别对待。我们假设所有的用户的$q\_{j}$都来自于一个共同的先验$p(q\_{j}|\theta)$，其中$\theta$是超参数。为了避免欺诈者和持有相反意见的人主导任务，我们要求$E[q\_{j}] > 1/2$。典型的先验包括Beta先验$p(q\_{j}|\theta) \propto q\_{j}^{\alpha-1}(1-q\_{j})^{\beta-1}$或者是离散的先验，比如uspammer-hammer模型，$q\_{j}$以相同的概率取 0.5或者 1。

####使用EM方法求解
作者首先描述了如何用EM方法求解该问题的步骤。求每个用户的权重需要我们估计$q_j$，我们通常可以使用极大后验估计$\hat{q}=\text{argmax} \log p(q|L,\theta) = \log\sum_z p(q,z|L,\theta)$。这通常都可以使用[EM算法求解](http://www.datalearner.com/blog/1051486385181459 "EM算法求解")。假设$q_j$的先验为$\text{Beta}(\alpha,\beta)$，那么EM算法的E步骤和M步骤分别如下：
```math
\mu_i(z_i) \propto \prod_{j \in \mathscr{M}_i} \hat{q_j}^{\delta_{ij}}(1-\hat{q}_j)^{(1-\delta_{ij})}
```

```math
\hat{q}_j = \frac{\sum_{i \in \mathscr{N}_j} \mu_i(L_{ij})+\alpha-1 } {|\mathscr{N_j}| + \alpha + \beta - 2}
```

在这里，$\delta\_{ij}=I[L\_{ij}=z_i]$。然后$\hat{z}= \text{argmax}\_z \mu\_i(z\_i)$。

####用图模型推断众包模型
作者将标注聚合问题转换成了图模型中的一个标准的推断问题，并提出了几种求解方法。
首先写出所有标注者标注能力$q=\\{qj:j \in [M]\\}$与真实的标签$z = \\{z_i : i\in[N]\\}$联合后验分布，它们是在给定观测标注结果$L$和超参数$\theta$的条件下的联合后验分布：
```math
p(z,q|L,\theta) \propto \prod_{j\in[M]} p(q_j|\theta) \prod_{i\in \mathscr{N}_j}p(L_{ij}|z_i,q_j)= \prod_{j \in [M]}p(q_j|\theta)q_j^{c_j}(1-q_j)^{\gamma_j-c_j}
```

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者