分布函数是指随机变量小于某个值的函数,即$F(x)=P(X< x)$,它和**累积密度函数(Cumulative Density Function)概率密度函数(Probability Density Function)**的积分:$F(x)=\int_{-\infty}^{\infty} f(x) dx$。对离散型分布来说,分布函数或者累积密度函数是一个阶梯状的分段函数。
很多时候,统计的目标是做模型的参数估计。一般情况下,我们都有一堆已知的观测数据(观测结果,观测值)$Y=\{y_1,y_2,\cdots,y_n\}$。通常,我们通过观察、根据理论等方式假设它是来自一个参数为$\theta$的某个分布,其参数未知,我们的目标就是估计这个参数的值(或者区间等)。同时,在贝叶斯推断中,还需要假设该分布的参数来自于另一个分布,称为先验分布,其参数为$\alpha$(很多时候,我们也是用参数表示该分布,比如用$\alpha$表示先验分布),它是我们在有观测值之前的一个主观判断,表明在有观测数据之前,你对这个分布或者数据的假设。另一个任务就是对新的观测值为$\tilde{y}$的预测,即计算预测分布。通常,我们会假设所有的数据都是相互独立,且来自相同的分布,即独立同分布假设(independent and identically distributed random variables, i.i.d.)
6、后验概率(Posterior Probability)
指某个随机事件,在某些证据(观测值)存在的条件下的概率。也就是指某个随机变量在有观测值条件下的概率,它是一个条件概率,即$p(\theta|Y)$,后验概率分布(Posterior Probability Distribution)(简称“后验”)就是这个变量的分布。根据贝叶斯公式,后验概率的计算如下:
p(\theta|Y) = \frac{p(Y|\theta)p(\theta)}{p(Y)} = c \times p(Y|\theta)p(\theta) \propto p(Y|\theta)p(\theta)