0%
URL
TL;DR
Qwen2.5-VL
是 Qwen
团队推出的一个多模态大模型,在 Qwen2.5
的基础上,增加了视觉模态的支持,输入支持 text
和 image
和 video
的混合输入,输出为 text
Algorithm

模型架构
- 视觉编码器(
Vision Encoder
):基于重新设计的 Vision Transformer
(ViT
),处理原生分辨率的图像和视频输入
- 语言模型(
Large Language Model
,LLM
):基于 Qwen2.5
LLM
,负责文本理解和生成,初始化时预训练权重被微调以支持多模态任务
- 视觉-语言合并器(
Vision-Language Merger
):一个 MLP-based
模块,压缩视觉特征以匹配文本嵌入维度,减少计算开销
三阶段训练
第一阶段
- 随机初始化
Vision Encoder
开始训练
- 使用的
(text, image)
数据如下:
Image captions
:图像和对应的文本描述
Visual knowledge
: 涵盖名人、地标、动植物等识别数据,帮助模型积累视觉常识
OCR
数据:从图像中提取的文本信息
- 用了
CLIP
作为优化目标,对齐 ViT
和 Qwen2.5
的 text
模态
token
长度为 8k
,数据规模为 1.5T tokens
第二阶段
ViT
和 Qwen2.5
的联合预训练
token
长度为 8k
,数据规模为 2T tokens
第三阶段
- 长上下文优化,目标是视频/文档序列理解
token
长度为 32k
,数据规模为 0.6T tokens
关键技术解析
1. 动态 ViT
架构
- 输入尺寸自适应:图像按
14×14
分块,尺寸调整为 28
的倍数
- 窗口注意力:
32
层中仅 4
层用全局注意力,其余用 112×112
窗口注意力(计算复杂度从 O(n²)
降至 O(n)
)
- 位置编码:
2D
旋转位置嵌入(RoPE
)保留空间关系
2. 多模态动态处理
- 空间维度:
- 原生分辨率坐标:直接使用图像实际尺寸表示物体位置(非相对坐标)
- 支持
JSON/XML
格式输出,兼容开放词汇检测(10,000+
类别)
- 时间维度:
- 动态帧率采样:适应不同速度的视频内容
- 绝对时间对齐:
RoPE
时间 ID
与时间戳直接绑定,理解事件节奏(图1机制)
3. 多模态位置编码(MRoPE
)
- 三维分解:时间、高度、宽度独立位置
ID
- 视频处理:时间
ID
按帧递增,空间 ID
与静态图像一致
- 升级点:时间
ID
关联绝对时间戳,解决 Qwen2-VL
的时序理解局限
性能
- 共有
3B / 7B / 72B
三个尺寸

Thoughts