狄利克雷过程(Dirichlet Process Mixture Model,DPMM)的详细推导
首先,我们从高斯混合模型开始。有K个类别的高斯混合模型可以写成如下形式:
p(x|\theta_1,\cdots,\theta_K)= \sum_{j=1}^K \pi_j \mathcal{N}(x|\mu_j,S_j)
参数集合$\theta_j = \{\mu_j,S_j,\pi_j\}$是第$j$个组件的参数。$\pi$是混合比例(正值,且总和为1),$\mu_j$是组件$j$的均值向量,$S_j$是精度(是逆协方差矩阵)。当我们对所有组件的参数定义一个联合先验分布$G_0$,且引入一个指示变量$c_i,i=1,\cdots,n$,那么上述模型可以写成如下形式:
\begin{aligned}
x_i|c_i,\Theta & \sim \mathcal{N}(\mu_{c_i}, S_{c_i}) \\
&\\
c_i|\pi & \sim Dsicrete(\pi_1,.\cdots,\pi_K) \\
&\\
(\mu_j,S_j) & \sim G_0 \\
&\\
\pi|\alpha & \sim Dir(\alpha/K,\cdots,\alpha/K)
\end{aligned}
在给定了混合比例&\pi&的情况下,每个组件包含的观测值数量称之为占有数量,是一个多项式分布:


