扩散模型是如何工作的：从0开始的数学原理——How diffusion models work: the math from scratch | DataLearnerAI

扩散模型是如何工作的：从0开始的数学原理——How diffusion models work: the math from scratch | DataLearnerAI

q(x_t|x_{t-1}) = \mathcal{N}(x_t;\mu_t=\sqrt{1-\beta_t}x_{t-1},\sum_t=\beta_tI)

q(x_{1:T}|x_0) = \prod_{t=1}^{T}q(x_t|x_{t-1})

\begin{aligned}
   x_t&=\sqrt{1-\beta_t}x_{t-1} + \sqrt{\beta_t}\epsilon_{t-1} \\
   &\\
  &=\sqrt{\alpha}x_{t-2} + \sqrt{1-\alpha_t}\epsilon_{t-2} \\
  &\\
  &=\cdots \\
  &\\
  &=\sqrt(\overline{\alpha}_t)x_0+\sqrt{1-\overline{\alpha}_t}\epsilon_0
\end{aligned}

x_t\sim q(x_t|x_0)=\mathcal{N}(x_t;\sqrt{\overline{\alpha}_t}x_0,(1-\overline{\alpha_t}I)

p_{\theta}(x_{t-1}|x_t)=\mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sum_\theta(x_t,t))

p_\theta(x_{0:T})=p_\theta(x_T)\prod_{t=1}^Tp_\theta(x_{t-1}|x_t)

\bold{x}_0 = \frac{1}{\sqrt{\overline\alpha_t}}(\bold{x}_t-\sqrt{1-\overline{\alpha}_t\bold{\epsilon}})

\tilde{\mu}_t(x_t)=\frac{1}{\sqrt{\alpha_t}}(x_t - \frac{\beta_t}{\sqrt{1-\overline{\alpha}_t}}\epsilon)

\tilde{\mu}_\theta(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t - \frac{\beta_t}{\sqrt{1-\overline{\alpha}_t}}\epsilon_\theta(x_t,t))

L_t^{\text{simple}} = E_{x0,t,\epsilon}[||\bold{\epsilon}-\bold{\epsilon}_0(\sqrt{\overline{\alpha}_t}\bold{x}_0 + \sqrt{1-\overline{\alpha}_t}\bold{\epsilon},t)||^2]

p_\theta(\bold{x}_{0:T}|y) = p_\theta(\bold{x}_T)\prod_{t=1}^Tp_\theta(\bold{x}_{t-1}|\bold{x}_t,y)

\nabla\log p_\theta(\bold{x}_t|y) = \nabla\log p_\theta(\bold{x}_t) + s \cdot \nabla \log (p_\theta(y|\bold{x}_t))

\hat{\mu}(\bold{x}_t|y) = \mu_\theta(\bold{x}_t|y) + s\cdot \sum_\theta(\bold{x}_t|y) \nabla_{x_t}\log f_\phi(y|\bold{x}_t,t)

\hat{\mu}(\bold{x}_t|c) = \mu_(\bold{x}_t|c) + s\cdot \sum_\theta(\bold{x}_t|c) \nabla_{x_t}g(x_t)\cdot h(c)

\nabla\log p_\theta(\bold{x}_t|y) = s\cdot\nabla\log p(\bold{x}_t|y) + (1-s)\cdot \nabla \log p(\bold{x}_t)

L_{DM} = E_{x,t,\epsilon}[||\epsilon - \epsilon_\theta(\bold{x}_t,t)||^2]

L_{DM} = E_{\xi(x),t,\epsilon}[||\epsilon - \epsilon_\theta(\bold{z}_t,t)||^2]

p_{\sigma_i}(x)=\int p(y)\mathcal N(x;y,\sigma_i^2 I)d \bold{y}


\sum_{i=1}^L\lambda(i)E_{p\sigma_i(x)}[||\nabla_x\log p_{\sigma_i}(\bold{x})-s_\theta(\bold{x},i)||^2_2]

d\bold{x} = \bold{f}(\bold{x},t)dt + g(t)d\bold{w}

d\bold{x} = [\bold{f}(\bold{x},t)dt - g^2(t)\nabla_x \log p_t(\bold{x})]dt + g(t) d\bold{w}