Maximum Likelihood Estimation of Observer Error-rates using the EM Algorithm论文简介及其笔记| 论文笔记好用的论文笔记工具

Maximum Likelihood Estimation of Observer Error-rates using the EM Algorithm

小木 Applied statistics 1979-09 2791 2017/02/07 16:16:12

作者主要研究的是临床医学领域的错误矫正问题。但该思路是信息融合方面论文的较早的模型源头。作者主要解决在有多个观测者，观测同一对象时给出不同记录情况下，应当如何求得正确记录。

当一个病人面对不同的临床医生的相同的问题的时候，可能会给出不同的答案。这有很多种可能的原因。比如单词拼写的差异，病人发现某些问题难以回答，然后每次都给出了不一样的解释。类似的，当将某种病症分到相应的类型、严重程度、周期等等时候，病人与医生可能有不同的划分方式。这种情况我们认为是因为观察者的错误，无法正确地记录病人回复的结果。甚至是较低的错误也会导致诊断信息的丢失。作者在这篇文章中主要是度量观测者的错误。假设临床医生在记录病人的陈述的时候有一定几率发生记录错误的情况。比如某个问题的答案有$1,...,J$几种可能。假设用户给出的答案是$j$，但是医生可能记录的结果为$l$。医生$k$发生这种错误的概率是$\pi\_{jl}^{(k)}$，这个概率称作**个体错误率**。这里的$j,l \in 1,...,J$。错误率是个条件概率，因此有：
```math
\sum_{l=1}^J \pi_{jl}^{(k)}=1 \space\space\space\space\text{for each j and k}
```

作者在两种情况下估计了上述的错误率。
####CASE 1 - 已知正确回复的情况下
假设$\\{T\_{ij}:j=1,...,J\\}$是一组表征病人$i$的指标。如果病人回复的$q$是真实的结果，那么$T\_{iq}=1$且$T\_{ij} = 0(j \neq q)$。假设病人是随机抽取的，他们回答的结果是$j$的概率为$p_j$。通常情况下，这种概率都是未知的。现在，我们假设有一个病人$i$和一个医生$k$。假设$q$是正确的回复，那么医生得到的每一种回答结果的数量是一个多项式分布，其似然函数与如下结果成正比例：
```math
\prod_{l=1}^J (\pi_{ql}^{(k)})^{n_{il}^{(k)}}
```
当$T\_{iq}=1$时，那么所有的医生获得的回复应当与病人$i$回复是：
```math
\prod_{k=1}^{K}\prod_{l=1}^J(\pi_{ql}^{(k)})^{n_{il}^{(k)}}
```
当$T\_{iq} \neq 1$时，即其他情况下为：
```math
\prod_{j=1}^J \{ p_j \prod_{k=1}^K \prod_{l=1}^J (\pi_{ql}^{(k)})^{n_{il}^{(k)}} \}^{T_{ij}}
```
上式与病人i的所有的数据呈正比例。它由$J$个项的乘积得到，其中$J-1$项的结果为1，还有一项的结果为：
```math
p(\text{responses obtained} | T_{iq} = 1 )p(T_{iq}=1)
```

由于我们假设所有的病人之间是相互独立的，因此所有的数据的似然函数是：
```math
\prod_{i=1}^I \prod_{j=1}^J \{p_j \prod_{k=1}^K \prod_{l=1}^J (\pi_{ql}^{(k)})^{n_{il}^{(k)}} \}^{T_{ij}}
```
在上式中，$n\_{il}^{(k)}$，$T\_{ij}$和$p_j$都是知道的。因此极大似然估计很容易计算：
```math
\hat{\pi}_{jl}^{(k)} = \sum_i T_{ij} n_{il}^{(k)}/\sum_l \sum_i T_{ij} n_{il}^{(k)}
```
这个估计结果很简单，就是如下：
```math
\hat{\pi}_{jl}^{(k)} = \frac{ \textbf{number of times observer k records l when j is correct} }{ \textbf{ number of patients seen by observer k where j is correct} }
```
当概率$p_j$未知的时候，我们也可以用如下公式来简单的估计：
```math
\hat{p}_j = \sum_i T_{ij} / I
```
到这里，$p\_{j}$和错误率$\pi\_{jl}^{(k)}$我们都已经能计算得到了。

####CASE 2 - 当真实回复未知的时候
这种情况就是真正的回答$q$是未知的，也就是我们不知道哪个回答是对的：
```math
p( \textbf{data on patient i} ) \propto \sum_{j=1}^J p_j \prod_{k=1}^K \prod_{l=1}^J (\pi_{jl}^{(k)})^{n_{il}^{(k)}}
```
在前面的公式里，数据的似然函数是个多项式分布，这里我们不知道$T\_{ij}$，它是一个混合分布，其中$p_j$是每个部分的权重。因此，所有数据的似然函数是：
```math
\prod_{i=1}^I (\sum_{j=1}^J p_j \prod_{k=1}^K \prod_{l=1}^J (\pi_{jl}^{(k)})^{n_{il}^{(k)}})
```
这个公式的计算不那么容易了。最后作者使用EM算法求解的。

赏

支付宝扫码打赏

如果文章对您有帮助，欢迎打赏鼓励作者