Indigo
暗黑模式
首页
博客
项目
文章
Github
关于我
暗黑模式
首页
博客
项目
文章
Github
关于我
「Indigo的云上小屋」
Indigo's Blog
博客
项目
文章
Github
关于我
AIGC论文阅读——DALLE(unCLIP)系列
DALL-E 1 DALL-E 1的模型架构 第一阶段,训练一个VQVAE。第二阶段,训练一个自回归的prior模型,这里用的是decoder-only的Transformer(与VQGAN很像,但是这里将文本作为prefix预置条件,实现了Text-conditional生成) DALL-E 2(unCLIP) DALL-E 2的模型结构 共由三部分组成,预训练的CLIP,...
2024-10-31
论文阅读
AIGC
论文阅读
AIGC
阅读全文
AIGC论文阅读——Diffusion及其加速采样系列
DDPM DDPM的前向加噪过程 DDPM的反向去噪过程 DDPM的训练过程 随机采样时间步t和前向噪声epsilon,用神经网络拟合该epsilon。 DDPM的采样过程 首先从高斯分布采样初始噪声xt,然后每一步预测出epsilon来还原x_{t-1}。由于x_{t-1}是有均值方差的高斯分布,因此预测出epsilon还原出均值后,还需要从标准正...
2024-10-31
论文阅读
AIGC
论文阅读
AIGC
阅读全文
AIGC论文阅读——SD 1.x,SD 2.x,SDXL系列
SD 1.x SD中的VAE。 重构损失:L1 loss,Perceptual loss,对抗损失:Patch-based GAN loss,正则化:KL loss. 为了避免latent太过无序,使用正则项对latent space进行规范。原文中使用了两种:(1)KL-reg,但权重设置得很小(过强的正则化会导致生成的图像模糊);(2)VQ-reg,使用很大的codebook。 ...
2024-10-31
论文阅读
AIGC
论文阅读
AIGC
阅读全文
AIGC论文阅读——iDDPM,ADM,GLIDE,IMAGEN
IDDPM IDDPM的原理 DDPM中将方差设置为常数。而IDDPM中,提出了可学习的方差(模型会额外输出一个向量用于预测方差),并把它加入到loss中(L_{vlb}),其中L_{vlb}表示变分下界损失(优化时采用重要性采样)。 IDDPM认为DDPM的加噪方式会导致早期阶段加噪过快,因此提出了cosine schedule的加噪方式。 ADM(Guided-diffus...
2024-10-31
论文阅读
AIGC
论文阅读
AIGC
阅读全文
AIGC论文阅读——VAE,GAN系列
VAEVAE VAE模型 VAE公式推导 见知乎文章。 KL项的作用 KL loss类似于一个正则项,用于规范latent的范围,这也是与AE的最大区别。 VQ-VAE VQ-VAE模型结构 前向时,Encoder出来的latent会与codebook中的code做最近邻,直接使用codebook中的code作为latent。 VQ-VAE实质上是AE,用来将...
2024-10-31
论文阅读
AIGC
论文阅读
AIGC
阅读全文
上一页
2 / 2