抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

DALL-E 1

  • DALL-E 1的模型架构

    第一阶段,训练一个VQVAE。第二阶段,训练一个自回归的prior模型,这里用的是decoder-only的Transformer(与VQGAN很像,但是这里将文本作为prefix预置条件,实现了Text-conditional生成)

DALL-E 2(unCLIP)

  • DALL-E 2的模型结构

    共由三部分组成,预训练的CLIP,prior模型,decoder模型。之所以叫unCLIP,是因为这里是和CLIP反过来的,将Image embedding还原成图片。
  • DALL-E 2训练过程

    1. 在图文对上预训练CLIP模型,之后一直是冻结的。
    2. 训练Prior模型,由文本embedding还原得到对应的图片embedding。实现上使用了两种结构:(1)自回归Prior。(2)扩散模型prior。最终选用了扩散模型Prior。
    3. 训练Decoder模型,由CLIP图片embedding解码为真实的图片(因此叫unCLIP)。生成分辨率为64*64,为了生成高清大图,还训练了两个扩散模型的超分模型,上采样到 256 * 256和1024 * 1024.

DALL-E 3

  • DALL-E 3主要贡献

    对图文数据集recaptioning,即训练一个 captioner 模型,来为图片生成更完整的文本描述。用这种合成的(synthetic)图像文本对数据集,来训练文生图模型,prompt following 能力显著提升。