Indigo的云上小屋

LLM论文阅读——Qwen系列

Qwen Qwen的技术要点数据：公共网络文档，百科全书，书籍，代码等。此外，数据集是多语言的，其中很大一部分数据是英语和中文的。最终数据集多达3万亿token。 Tokenizer：采用开源的BPE，并以vocabulary C1100K base作为起始点，增加了常用的中文字符和单词以及其他语言的词汇。此外，仿照LLAMA2，将数字分为单个数字，最终词汇量大约是152K. 模型结...

2024-10-31 论文阅读LLM

阅读全文

LLM论文阅读——Tokenizer系列

Tokenizer的种类和区别 Tokenize有三种粒度： Word：对于英文等自然语言来说，存在着天然的分隔符；但是对于一些东亚文字包括中文来说，就需要某种分词算法才行。由于长尾现象的存在，词汇表可能会超大。 Char：词汇表只有最基本的字符。这样做的问题是，由于字符数量太小，我们在为每个字符学习嵌入向量的时候，每个向量就容纳了太多的语义在内，学习起来非常困难。 Subword：...

2024-10-31 论文阅读LLM

阅读全文

LLM论文阅读——RAG系列

RAG流程

2024-10-31 论文阅读LLM

阅读全文

LLM论文阅读——模型训练技巧

训练显存 FP32,FP16,BF16 FP32:1位符号，8位指数，23位尾数。FP16:1位符号，5位指数，10位尾数。BF16:1位符号，8位指数，7位尾数。BF16提供了与FP32相同的动态范围，但精度低于FP32和FP16。如何计算训练大模型需要的显存？模型参数：如果模型有P个参数，使用FP32保存的话，需要4P字节的显存。梯度：大小与模型参数相同。使用FP32...

2024-10-31 论文阅读LLM

阅读全文

多模态论文阅读——BLIP系列

BLIP BLIP的主要贡献提出了一种Multimodal mixture of Encoder-Decoder(MED)的多模态预训练模式。提出了一种Captioning and Filtering的Dataset Bootstrapping机制，对原始数据集进行清洗。微调后在下游Image-text retrieval、Image captioning、VQA等任务上达到了...

2024-10-31 论文阅读多模态

阅读全文

多模态论文阅读——CLIP及其微调方法

CLIP CLIP模型结构 Image Encoder有两种架构：一种是ResNet50，将全局平均池化替换为注意力池化；第二种是ViT(Pre-norm)。Text Encoder实际上是GPT-2架构，即Transformer decoder，将文本用[SOS]和[EOS]括起来，取[EOS]上的feature过一层Linear作为文本特征。 CLIP训练时的损失函数 Info...

2024-10-31 论文阅读多模态

阅读全文

多模态论文阅读——Flamingo,Mini-GPT4,ViLA

Flamingo Flamingo的贡献桥接预训练好的视觉模型和语言模型可以处理任意交错的图文对数据可以同时以图像和视频数据作为输入Flamingo实现了多模态领域的Few-shot learning(in-context learning)能力，即多模态领域的GPT-3。 Flamingo模型结构通过Perceiver Resampler和Gated Xatten...

2024-10-31 论文阅读多模态

阅读全文

多模态论文阅读——LLaVa系列

LLaVa LLaVa数据集的构建根据COCO中的caption和bbox，可以利用language-only GPT-4，对其进行In-context learning来生成三种instruction data. Conversation: 多轮对话，根据caption中的每一部分，生成一个人不断提问某张图片的instruction数据。 Detailed description...

2024-10-31 论文阅读多模态

阅读全文

多模态论文阅读——Qwen-VL系列

Qwen-VL Qwen-VL的模型架构 LLM：使用Qwen-7B初始化Vision Encoder：采用OpenCLIP-ViT-bigG-14Adapter：Position-aware VL Adapter。该adapter包含一个随机初始化的单层cross-attention模块，该模块使用一组可训练的embedding作为query向量，使用视觉编码器输出的图像特征作为...

2024-10-31 论文阅读多模态

阅读全文