贝叶斯分析推断的一些基础知识
贝叶斯分析在概率模型中有非常重要的作用,这些年以来比较有影响力的模型如LDA、非参数贝叶斯模型等都是基于贝叶斯分析的。贝叶斯分析有一些非常基础性的知识,在这里我们描述了贝叶斯分析里面的一些基本表示和一些分析准则等内容。
来源1:Bayesian Data Analysis, Third Edition. By. Andrew Gelman. etl.
- 1、统计推断的一般性表达(General notation for statistical inference)
- 1.1、参数、数据和预测(Parameters,data, and predictions)
- 1.2、观测单元和变量(Observational units and variables)
- 1.3、交换性(Exchangeability)
- 1.4、解释变量(Explanatory variables)
- 2、贝叶斯推断(Bayesian inference)
- 2.1、概率表示(Probability notation)
- 2.2、贝叶斯准则(Bayes' rule)
- 2.3、预测(Prediction)
- 2.4、似然(Likelihood)
- 2.5、似然比和优势比(likelihood and odds ratio)
1、统计推断的一般性表达(General notation for statistical inference)
统计推断关心的是从数值数据中推断无法观测的变量。例如,设计一个新的抗癌药物的临床试验,可以使用比较摄入该药物的癌症患者的五年存活率与不使用该药物的癌症患者存活率进行对比。这里的存活率是指总体癌症患者的存货概率,这显然是不可行且无法获得的。因此,推断实际的概率是要基于一组病人的样本数据的。在这个例子中,即使我们能获取所有的总体数据,也无法使的用户处于两种治疗状态下。因此,因果推断(causal inference)依然是统计推断的一项重要任务。 这里需要区分两种估计量(estimands)——估计量指的是统计推断中的未知量——第一个是潜在的观测量,比如一个未来的观测量,在上述例子中指的是未接受临床试验的患者。第二个是无法直接观测的量,也就是由假设管理的参数,它们产生了观测量。二者之间的差别并不总是精确的,但对于如何使用模型为实际世界中的问题进行建模有很好的帮助。
1.1、参数、数据和预测(Parameters,data, and predictions)
一般情况下,我们使用$$\theta$$表示无法观测的向量值或者是我们感兴趣的总体中的参数(如抗癌药物试验中的患者存活率),$$y$$表示观测数据,而$$\hat y$$表示未知,但是是潜在的观测量(比如与当前试验类似的新的病人的治疗结果)。通常,这些变量都是多元变量。通常我们使用希腊字母表示参数,小写罗马字母表示观测值或者观测向量,大写罗马字母表示观测矩阵。当我们使用矩阵表示的时候,我们使用的是列向量。比如$$u$$是有$$n$$个元素的向量,那么$$u^{T}u$$表示一个值,$$uu^{T}$$表示一个矩阵。
1.2、观测单元和变量(Observational units and variables)
在很多统计学习中,数据都是来自于$$n$$个对象或者单元的集合,我们可以把数据写成一个向量$$y=(y_{1},...,y_{n})$$。在临床试验中,当五年后病人依然活着,我们可以把$$y_{i}$$标记成1,如果病人死了可以把它标记成0.如果每个单元有好几个变量,那么每一个$$y_{i}$$实际上都是一个向量,那么整个数据集$$y$$就是一个矩阵(一般为$$n$$行)。这$$y$$个变量叫做产出(“outcomes”),在推断中,我们认为它们是随机的。由于总体的差异和抽样过程,我们认为这些观测变量有一定几率是其他的值。
1.3、交换性(Exchangeability)
统计分析的起点通常都是假设$$n$$个$$y_{i}$$都是可交换的,也就是联合概率密度$$p(y_{1},...,y_{n})$$的结果不随着索引的变化而改变。当产出的结果信息是相关的,与索引位置有关的时候,我们需要建立不可交换的模型。可交换性的思想是统计的基础,在很多问题中都存在。我们通常把来自具有交换性的分布的数据看作是在给定未知参数$$\theta$$,其分布是$$p(\theta)$$时,独立同分布的样本(independently and identically, i.i.d.)。在临床试验的例子中,我们可以把$$y_{i}$$看作是给定参数$$\theta$$时的独立同分布样本,其存活率是未知的概率。
1.4、解释变量(Explanatory variables)
有一些变量我们不需要当作是随机变量。在临床试验中,年龄、性别或者是以前的健康状况都可以看作是这样的变量。我们把这一类的变量叫做解释变量(explanatory variables),或者是协变量(covariates),我们把他们记作是$$x$$。我们使用$$X$$表示所有$$n$$个单元的所有的解释变量。如果每个单元有$$k$$个解释变量,我们的$$X$$就是$$n$$行$$k$$列。把$$X$$当成是随机的,那么原来的分布的可交换性可以扩展成$$(x,y)_{i}$$。我们总可以在引入足够多的相关信息后把模型建立成可交换的模型。如果我们愿意,任何解释变量都可以移到$$y$$类别中。
2、贝叶斯推断(Bayesian inference)
贝叶斯统计主要关注参数$$\theta$$或者是未观测数据$$\hat{y}$$,并以概率的形式定义它们。这些概率的声明都是基于观测值为条件的,这里我们记作$$p(\theta|y)$$或者$$p(\hat{y}|y)$$。我们也隐含着以任何已知的协变量$$x$$作为条件。以观测值为条件是贝叶斯统计推断和其他统计推断的主要差别。尽管二者之间不同,但很多简单的问题下会得到类似的结论,然而使用贝叶斯方法分析可以很容易扩展到相对复杂的问题中。
2.1、概率表示(Probability notation)
这里需要对概率的表示做一些简单的说明。首先,$$p(\cdot|\cdot)$$是基于条件的概率,其参数依赖于情景而定,类似的表示,$$p(\cdot)$$,表示边缘概率。我们并不区分“分布”和“密度”的概念。相同的概念可以用来表示连续密度函数也可以作为离散概率质量函数。不同的分布会用相同的形式$$p(\cdot)$$表达。尽管这在数学上表达不是很严谨,就像我们使用$$p(\cdot)$$表达离散事件的概率,也会用来表达样本空间。依赖于情景,有时候我们也会用$$\Pr(\cdot)$$来表示事件的概率。当我们使用标准分布,我们用分布的名字来表示符号。比如,$$\theta$$有一个均值为$$\mu$$方差为$$\sigma^{2}$$的正态分布,我们写$$\theta \sim N(\mu,\sigma^{2})$$或者$$p(\theta)=N(\theta|\mu,\sigma^{2})$$。甚至更清楚一些会写$$p(\theta|\mu,\sigma^{2})=N(\theta|\mu.\sigma^{2})$$。同时,我们使用如$$N(\mu,\sigma^{2})$$来表示随机变量,用$$N(\theta|\mu,\sigma^{2})$$表示密度函数。
2.2、贝叶斯准则(Bayes' rule)
为了说明给定$$y$$条件下的$$\theta$$,我们首先要建立$$y$$和$$\theta$$的联合概率分布。联合质量函数或者联合密度函数通常可以写成先验$$p(\theta)$$和样本分布$$p(y|\theta)$$的乘积。以已知数据作为条件,使用条件概率的属性(即贝叶斯准则),能够产生后验概率:
p(\theta|y) = \frac{p(\theta,y)}{p(y)} = \frac{p(\theta)p(y|\theta)}{p(y)}
其中,$$p(y)=\sum_{\theta}p(\theta)p(y|\theta)$$,求和是针对所有可能的$$\theta$$值(或者当$$\theta$$是连续值时有,$$p(y)=\int p(\theta)p(y|\theta)d\theta$$)。上式可以去掉不依赖于$$\theta$$的$$p(y)$$,产生了没有正规化的后验密度(unnormalized posterior density):
p(\theta|y) \propto p(\theta)p(y|\theta)
上式右侧的第二个项$$p(y|\theta)$$是$$\theta$$的函数,不是关于$$y$$的。这些公式压缩成贝叶斯推断的核心技术,就是寻找$$p(\theta,y)$$的模型,并以合适的方式计算$$p(\theta|y)$$的汇总情况。
2.3、预测(Prediction)
为了推断未知观测量(通常称为预测推断),我们有如下的逻辑。在考虑$$y$$之前,针对给定可观测量$$y$$条件下的未知量的分布如下:
p(y) = \int p(y,\theta) d\theta = \int p(y|\theta)p(\theta) d\theta
这个式子通常称为$$y$$的边缘分布,更加信息化叫法叫做先验预测分布(prior predictive distribution):称为先验是因为它不依赖于任何之前的观测结果,称为预测是因为它是观测量的分布。
在有了观测量数据$$y$$之后,我们可以根据相同的过程来预测新的观测量$$\hat{y}$$。例如,$$y=({y_{1},...,y_{n}})$$可能是物体重量测量$$n$$次的测量结果。$$\theta=(\mu,\sigma^{2})$$可能是物体真实的重量及其测量误差范围。$$\hat{y}$$是即将测量的物体的重量。那么$$\hat{y}$$的分布就是后验预测分布,后验是因为它是基于$$y$$的条件,预测是因为它是观测量$$\hat{y}$$的预测结果:
p(\hat{y}|y) = \int p(\hat{y},\theta|y)d\theta = \int p(\hat{y}|\theta,y)p(\theta|y)d\theta = \int p(\hat{y}|\theta)p(\theta|y)d\theta
上式前两步是将后验预测分布改写成以$$\theta$$后验分布为条件的形式(displays the posterior predictive distribution as an average of conditional predictions over the posterior distribution of $$\theta$$),最后一步是假设$$y$$和$$\hat{y}$$相互独立。
2.4、似然(Likelihood)
使用贝叶斯准则作为概率模型意味着数据只通过$$p(y|\theta)$$来影响后验推断,这个式子是固定$$y$$时关于$$\theta$$的函数,称为似然函数。在这种情况下,贝叶斯准则遵守所谓的似然准则(likelihood principle),它意味着给定眼本数据情况下,任意两个概率模型$$p(y|\theta)$$都有相同的似然函数,对$$\theta$$产生相同的推断结果。
似然准则是合理的,但也只是针对采用特定分析的模型来说。在实际中,我们很少能非常确信我们选择的模型是正确的。样本分布对分布假设的检测非常重要。实际上,使用贝叶斯统计就是我们希望在各种可能的模型下使用贝叶斯准则。
2.5、似然比和优势比(likelihood and odds ratio)
在给定的模型下,点$$\theta_{1}$$和$$\theta_{2}$$的后验密度$$p(\theta|y)$$的比值叫做$$\theta_{1}$$对$$\theta_{2}$$的后验优势比。这个概念最常用的地方是,在离散参数下,$$\theta_{2}$$作为$$\theta_{1}$$的补充。它是概率的另一种表达方式,并且当有如下表达时,具有一些非常有用的性质:
\frac{p(\theta_{1}|y)}{p(\theta_{2}|y)} = \frac{p(\theta_{1})p(y|\theta_{1})/p(y))}{p(\theta_{2})p(y|\theta_{2})/p(y))} = \frac{p(\theta_{1})}{p(\theta_{2})}\frac{p(y|\theta_{1})}{p(y|\theta_{2})}
也就是说,后验优势比等于先验乘以后验优势比。
