AIGC论文阅读——DALLE(unCLIP)系列

DALL-E 1

DALL-E 1的模型架构

第一阶段，训练一个VQVAE。第二阶段，训练一个自回归的prior模型，这里用的是decoder-only的Transformer（与VQGAN很像，但是这里将文本作为prefix预置条件，实现了Text-conditional生成）

DALL-E 2的模型结构

共由三部分组成，预训练的CLIP，prior模型，decoder模型。之所以叫unCLIP，是因为这里是和CLIP反过来的，将Image embedding还原成图片。
DALL-E 2训练过程
1. 在图文对上预训练CLIP模型，之后一直是冻结的。
2. 训练Prior模型，由文本embedding还原得到对应的图片embedding。实现上使用了两种结构：（1）自回归Prior。（2）扩散模型prior。最终选用了扩散模型Prior。
3. 训练Decoder模型，由CLIP图片embedding解码为真实的图片（因此叫unCLIP）。生成分辨率为64*64，为了生成高清大图，还训练了两个扩散模型的超分模型，上采样到 256 * 256和1024 * 1024.