Indigo的云上小屋

AIGC论文阅读——DALLE(unCLIP)系列

DALL-E 1 DALL-E 1的模型架构第一阶段，训练一个VQVAE。第二阶段，训练一个自回归的prior模型，这里用的是decoder-only的Transformer（与VQGAN很像，但是这里将文本作为prefix预置条件，实现了Text-conditional生成） DALL-E 2(unCLIP) DALL-E 2的模型结构共由三部分组成，预训练的CLIP，...

2024-10-31 论文阅读AIGC

阅读全文

AIGC论文阅读——Diffusion及其加速采样系列

DDPM DDPM的前向加噪过程 DDPM的反向去噪过程 DDPM的训练过程随机采样时间步t和前向噪声epsilon，用神经网络拟合该epsilon。 DDPM的采样过程首先从高斯分布采样初始噪声xt，然后每一步预测出epsilon来还原x_{t-1}。由于x_{t-1}是有均值方差的高斯分布，因此预测出epsilon还原出均值后，还需要从标准正...

2024-10-31 论文阅读AIGC

阅读全文

AIGC论文阅读——SD 1.x,SD 2.x,SDXL系列

SD 1.x SD中的VAE。重构损失：L1 loss,Perceptual loss，对抗损失：Patch-based GAN loss,正则化：KL loss. 为了避免latent太过无序，使用正则项对latent space进行规范。原文中使用了两种：（1）KL-reg，但权重设置得很小（过强的正则化会导致生成的图像模糊）；（2）VQ-reg，使用很大的codebook。 ...

2024-10-31 论文阅读AIGC

阅读全文

AIGC论文阅读——iDDPM,ADM,GLIDE,IMAGEN

IDDPM IDDPM的原理 DDPM中将方差设置为常数。而IDDPM中，提出了可学习的方差（模型会额外输出一个向量用于预测方差），并把它加入到loss中（L_{vlb}），其中L_{vlb}表示变分下界损失（优化时采用重要性采样）。 IDDPM认为DDPM的加噪方式会导致早期阶段加噪过快，因此提出了cosine schedule的加噪方式。 ADM（Guided-diffus...

2024-10-31 论文阅读AIGC

阅读全文

AIGC论文阅读——VAE,GAN系列

VAEVAE VAE模型 VAE公式推导见知乎文章。 KL项的作用 KL loss类似于一个正则项，用于规范latent的范围，这也是与AE的最大区别。 VQ-VAE VQ-VAE模型结构前向时，Encoder出来的latent会与codebook中的code做最近邻，直接使用codebook中的code作为latent。 VQ-VAE实质上是AE，用来将...

2024-10-31 论文阅读AIGC

阅读全文