IDDPM
- IDDPM的原理
- DDPM中将方差设置为常数。而IDDPM中,提出了可学习的方差(模型会额外输出一个向量用于预测方差),并把它加入到loss中(L_{vlb}),其中L_{vlb}表示变分下界损失(优化时采用重要性采样)。
- IDDPM认为DDPM的加噪方式会导致早期阶段加噪过快,因此提出了cosine schedule的加噪方式。
ADM(Guided-diffusion)
Guided-diffusion模型结构的改进
- 保持模型大小不变,增加深度,降低宽度
- 增加 Attention 头的数量
- 不只是在 16x16 分比率使用 Attention,在 32x32 和 8x8 也使用
- 在上采样和下采样激活时使用 BigGAN 的 residual block
- 在 residual connection 中采用 1/sqrt(2) 的缩放
ADM使用的条件引导
使用了Classifier Guidance。
GLIDE
- GLIDE的贡献
将Diffusion用于文本条件图像生成,并比较了两种不同的引导策略:CLIP Guidance和Classifier Free Guidance。
IMAGEN
- IMAGEN的模型结构
文本编码器使用T5,训练过程中始终冻结。
扩散模型级联了三层,第一层去噪生成图像,第二、三层是超分辨率。
训练及采样过程中同样使用了CFG。