Indigo
暗黑模式
首页
博客
项目
文章
Github
关于我
暗黑模式
首页
博客
项目
文章
Github
关于我
「Indigo的云上小屋」
Indigo's Blog
博客
项目
文章
Github
关于我
多模态论文阅读——BLIP系列
BLIP BLIP的主要贡献 提出了一种Multimodal mixture of Encoder-Decoder(MED)的多模态预训练模式。 提出了一种Captioning and Filtering的Dataset Bootstrapping机制,对原始数据集进行清洗。 微调后在下游Image-text retrieval、Image captioning、VQA等任务上达到了...
2024-10-31
论文阅读
多模态
论文阅读
多模态
阅读全文
多模态论文阅读——CLIP及其微调方法
CLIP CLIP模型结构 Image Encoder有两种架构:一种是ResNet50,将全局平均池化替换为注意力池化;第二种是ViT(Pre-norm)。Text Encoder实际上是GPT-2架构,即Transformer decoder,将文本用[SOS]和[EOS]括起来,取[EOS]上的feature过一层Linear作为文本特征。 CLIP训练时的损失函数 Info...
2024-10-31
论文阅读
多模态
论文阅读
多模态
阅读全文
多模态论文阅读——Flamingo,Mini-GPT4,ViLA
Flamingo Flamingo的贡献 桥接预训练好的视觉模型和语言模型 可以处理任意交错的图文对数据 可以同时以图像和视频数据作为输入Flamingo实现了多模态领域的Few-shot learning(in-context learning)能力,即多模态领域的GPT-3。 Flamingo模型结构 通过Perceiver Resampler和Gated Xatten...
2024-10-31
论文阅读
多模态
论文阅读
多模态
阅读全文
多模态论文阅读——LLaVa系列
LLaVa LLaVa数据集的构建 根据COCO中的caption和bbox,可以利用language-only GPT-4,对其进行In-context learning来生成三种instruction data. Conversation: 多轮对话,根据caption中的每一部分,生成一个人不断提问某张图片的instruction数据。 Detailed description...
2024-10-31
论文阅读
多模态
论文阅读
多模态
阅读全文
多模态论文阅读——Qwen-VL系列
Qwen-VL Qwen-VL的模型架构 LLM:使用Qwen-7B初始化Vision Encoder:采用OpenCLIP-ViT-bigG-14Adapter:Position-aware VL Adapter。 该adapter包含一个随机初始化的单层cross-attention模块,该模块使用一组可训练的embedding作为query向量,使用视觉编码器输出的图像特征作为...
2024-10-31
论文阅读
多模态
论文阅读
多模态
阅读全文