深度调研报告
Qwen 系列完整技术演进
从 LLaMA 追随者到全模态架构创新者的进化之路
Qwen-1Qwen2Qwen2.5Qwen3
VLOmniMoEThinking
覆盖 10 个模型版本 · 2023.08 → 2025.09 · 50+ 原创图表
键盘:← → 翻页 | O 总览 | F 全屏 | S 笔记
全系列时间线演进
横轴发布时间,纵轴分 Text / VL / Omni 三条产品线
六大架构演进脉络总览
注意力机制 / 位置编码 / 视觉编码器 / 上下文长度 / 架构范式 / 模态支持
Part I
纯文本 LLM 系列
Qwen-1 → Qwen2 → Qwen2.5 → Qwen3
从 LLaMA 继承到 MoE 引领
Qwen-1 · 2023.08 · 追随期
初代 Qwen:LLaMA 架构的继承与优化
继承 LLaMA 的四大核心组件
| 组件 | 技术选型 | 设计原理 |
| 归一化 | RMSNorm (pre-norm) | 移除均值项,仅用 RMS 缩放,快 7-10% |
| 激活函数 | SwiGLU | Swish 门控 + 双投影,避免神经元死亡 |
| 位置编码 | RoPE | 旋转矩阵编码相对位置,支持外推 |
| 注意力 | Standard MHA | 标准多头注意力,全参数 |
定位:验证「Decoder-Only Transformer + 中文优化」路线的可行性,为后续创新奠定架构基因。
RoPE 旋转位置编码:位置 m 对应旋转角度 θ·m
SwiGLU vs ReLU/GELU 激活函数对比
Qwen-1 · 差异化设计
Qwen-1 的三项独特创新
LayerNorm(5 步) vs RMSNorm(3 步)计算流程
151,643
词表大小(LLaMA 仅 32K)
多语言优化,中文分词效率提升 ~2x
QKV
Bias 偏置项
提供与输入无关的「默认」注意力方向
Untied
嵌入不绑定
输入输出嵌入独立,更好的输出分布
关键成就:Qwen-14B 超越 LLaMA2-13B ~10 分;中文 C-Eval 领先 40 分;代码 HumanEval 领先 20 分。证明中文词表 + 高质量数据可以弥补架构差距。
Qwen2 · 2024.07 · 独立期
Qwen2:架构独立创新的起点
MHA vs MQA vs GQA:Q/KV 头数分配
创新 1:全尺寸 GQA(Grouped Query Attention)
- 激进策略:所有尺寸(含 0.5B)均用 GQA,LLaMA 仅 70B 使用
- KV Cache 节省 8x:128K 上下文从 4GB → 512MB
- 核心判断:长上下文时代,推理效率 > 训练时 0.3 MMLU 损失
- 用 7T 高质量数据补偿 GQA 性能损失
创新 2:QK-Norm 替代 QKV Bias
- 长序列下 QKV Bias 导致 attention logits 累积爆炸
- QK-Norm 将 Q/K 归一化到单位范数,动态范围可控
- 比 QKV Bias 提升 0.5-1 MMLU
Qwen2 · 长上下文扩展
Qwen2 创新 3:NTK-aware RoPE 频率分区
NTK-aware RoPE 三区间频率处理
问题:简单线性插值将所有频率等比压缩 → 高频信息(局部细节)失真。
NTK-aware 分频策略
- 高频维度(i 小):保持原频率,保留局部细节分辨率
- 中频维度:平滑渐进插值,过渡区域
- 低频维度(i 大):按比例压缩,适应更长序列
比喻:只降低贝斯音调以适应更大厅堂,小提琴高音保持不变 — 长距离信号频率降低以覆盖更长范围
里程碑:Qwen2-72B 首次超越 LLaMA3-70B 全部主要基准,MT-Bench 达到 GPT-4 级别(9.1 vs 9.2)
Qwen2.5 · 2024.12 · 突破期
Qwen2.5:数据规模与长上下文突破
72B 模型 3T → 36T 数据的 MMLU 提升曲线
关键决策:架构完全继承 Qwen2,不引入新组件。当架构已足够优秀时,数据质量和规模才是性能上限的决定因素。
创新 1:18T 数据(6x Qwen-1)
- Over-Training:12.5x Chinchilla 最优 — 推理成本远大于训练成本
- 合成数据 ~20%:用 Qwen2-72B 生成推理样本,引入新信息维度
- OCR 提取:Qwen2.5-VL 从 PDF 提取结构化文本
Qwen2.5 · 长上下文 + 推理强化
Qwen2.5 创新 2-3:YaRN 与 GRPO
创新 2:YaRN — 128K → 1M 上下文
- 分频处理:高频不变 / 中频渐进 / 低频压缩
- 注意力缩放:t = 0.1·ln(s) + 1,抵消注意力稀释
- 渐进式扩展:4K → 32K → 128K → 1M,每阶段用不同训练数据
- Needle-in-Haystack 1M 准确率 98.5%
创新 3:GRPO 无 Critic 强化学习
- 核心思想:每题采样 G=8 个输出,组内 z-score 做优势估计
- 无需 Critic:显存节省 ~30%(对 72B 意味着省 72B 参数)
- 三阶段 RL:DPO(对齐)→ GRPO(推理)→ PPO(长文本)
- MATH 达 85 分,超越 GPT-4o(76.6)
Qwen3 · 2025.05 · 引领期
Qwen3:混合 MoE 与动态推理革命
Qwen3 Technical Report: MoE + Thinking 架构
两项范式级创新:① 统一 Thinking/Non-Thinking 模式 ② 混合 Dense + MoE 产品线
| 维度 | Qwen2.5 | Qwen3 |
| 训练数据 | 18T / 29 语言 | 36T / 119 语言 |
| 架构 | 纯 Dense | Dense + MoE |
| 推理模式 | 单一 | Thinking + Non-Thinking |
| 旗舰 | 72B Dense | 235B-A22B MoE |
| MMLU | ~87 | ~89 |
Qwen3 · 创新 1
MoE 路由:128 专家 Top-8 + 共享专家
Token → Router → Top-8 加权 + 共享专家
Auxiliary Loss 平衡专家负载分布
核心思想:Dense 的容量与推理成本强绑定 — MoE 实现「按需调用」知识存储。235B 容量但仅 22B 推理成本。
| 模型 | 总参 | 激活 | MMLU/激活参数 |
| Qwen3-235B | 235B | 22B | 4.05(最优) |
| DeepSeek-V3 | 671B | 37B | 2.38 |
| LLaMA3-405B | 405B | 405B | 0.21 |
负载均衡三策略
- 辅助损失(λ=0.01):惩罚高负载 × 高概率的专家
- 容量因子(CF=1.25):限制单专家最大负载
- 共享专家(1 个):保底能力 + 吸收溢出 token
Qwen3 · 创新 2
统一 Thinking Mode:动态推理深度控制
四阶段训练:CoT 冷启动 → GRPO → Fusion → General RL
核心思想:计算量由问题难度动态决定 — 同一个大脑,简单问题直觉回答,复杂问题深度推理。
四阶段训练流程
- Stage 1:Long-CoT 冷启动(~100K 精选样本)— 教模型「先想后答」
- Stage 2:GRPO 推理 RL(仅 3,995 query)— 质量极高,G=16 采样
- Stage 3:Thinking Fusion — 统一 /think 与 /no_think(1:2 混合)
- Stage 4:General RL — PPO + DPO 全面对齐
惊人效果:Thinking Mode 使 Qwen3-1.7B 达到 Qwen2.5-7B 水平 — 4x 参数差距被推理深度弥补;小模型增益(+15%)远大于大模型(+5%)。
Qwen3 · 创新 3
强到弱蒸馏:90% 训练成本节省
LKL(暗知识 α=0.7)+ LMSE(特征对齐 β=0.3)
暗知识(Dark Knowledge)
- 教师输出 [0.02, 0.15, 0.70, 0.10, 0.03] — 包含错误选项间的相对排序
- 学生不仅学「C 最好」,还学「B 比 D 好,A 和 E 都差」
蒸馏路线
- 235B-A22B → 30B-A3B(MoE 到 MoE)
- 32B → 0.6B / 1.7B / 4B(Dense 到 Dense)
- 成本:30,000 GPU hours → 3,000 GPU hours
- 关键:小模型也获得 Thinking 能力(蒸馏传递推理模式)
蒸馏哲学:「学我怎么做决策,而非学我怎么思考」— 输出分布比内部表示更有迁移价值。
Part II
多模态 VL 系列
Qwen-VL → Qwen2-VL → Qwen2.5-VL → Qwen3-VL
从 Cross-Attention 到 MoE + Thinking
Qwen-VL · 2023.08 · 首个多模态
Qwen-VL:Cross-Attention Resampler 范式
ViT-bigG → Cross-Attention → 固定 256 token → Qwen-7B
三组件设计
- ViT-bigG(1.9B):OpenCLIP 预训练权重,视觉特征提取
- VL Adapter:256 可学习 query + 2D 绝对位置编码 — 核心创新
- Qwen-7B:语言理解与生成
三阶段训练
- Stage 1:冻结 LLM,训练 ViT + Adapter(224² 分辨率)
- Stage 2:全模型训练 7 类任务(448²,OCR 数据 24.8M 占比最大)
- Stage 3:冻结 ViT,SFT 35 万指令
成就与局限:7B 超越 Flamingo-80B(10x 参数差);但固定 256 token 形成信息瓶颈,高分辨率细节被强制压缩。
Qwen2-VL · 2024.10 · 多模态起步
Qwen2-VL 创新 1:M-RoPE 多模态位置编码
M-RoPE:head 维度三等分,编码 t/h/w 三维
问题:1D-RoPE 将图像 patch 展平为序列 — 无法区分「同行相邻」vs「不同行但展平后相邻」。
M-RoPE 三维分解
| Token 类型 | t(时间) | h(高度) | w(宽度) |
| 文本 | pos | pos | pos |
| 图像 (r, c) | 固定常量 | 行索引 r | 列索引 c |
| 视频帧 f (r, c) | 帧序号 f | 行索引 r | 列索引 c |
比喻:GPS 坐标系 — 经度/纬度/海拔唯一确定每个点;文本 token 三坐标同步递增时退化为 1D-RoPE
Qwen2-VL · 创新 2-3
Qwen2-VL:动态分辨率 + 3D Tube 视频压缩
创新 2:朴素动态分辨率
- 任意尺寸输入,不 resize / 不 pad
- Token 数 = (H/28) × (W/28)(含 PatchMerger 4:1 压缩)
- 模拟人类视觉选择性注意力:需要细看的分配更多 token
创新 3:3D Tube 时空压缩
- Conv3d [2, 14, 14]:相邻两帧同一位置压缩为 1 token
- 时间 2x 压缩 + PatchMerger 4:1 空间压缩 = 总 8:1
- 视频相邻帧 99% 内容相同 — 利用时间冗余
- 静态图像:复制为 2 帧,统一走 3D Tube 路径
里程碑:OCRBench 866 大幅领先 GPT-4o(736);MathVista 70.5 超越 GPT-4o(63.8)。但 GUI ScreenSpot = 1.6,几乎不可用。
Qwen2.5-VL · 2025.02 · 视觉深化
Qwen2.5-VL 创新 1:从零训练 ViT + Window Attention
28 层 Window + 4 层 Global(第 7/15/23/31 层)
为什么放弃 CLIP? 对比学习优化全局语义匹配 — 对 OCR、公式、小物体等细粒度任务有固有缺陷。预训练权重是负担而非资产。
从零训练的设计自由度
- Window Attention:8×8 patch 窗口内注意力,O(N²) → O(N),120x 加速
- 4 层全局 Attention:浅/中/深层各有全局感知,打破信息孤岛
- 统一组件:RMSNorm + SwiGLU 与 LLM 对齐
- 三尺寸共享:3B/7B/72B 用同一 ViT(~600M),训练一次复用
ViT 是「眼睛」,无论配给初级工程师还是资深学者,人眼分辨率相同。
Qwen2.5-VL · 创新 2-3
MLP Merger 精妙设计 + 绝对时间对齐
创新 2:MLP Merger(替代 PatchMerger)
- 2×2 patch concat → 双层 MLP + SiLU → LLM hidden dim
- 非线性变换学习跨 patch 空间纹理 — 区分「一」和「二」的笔划
- 4:1 压缩,每个 LLM token 对应 28×28 像素区域
创新 3:M-RoPE 绝对时间对齐
- 问题:Qwen2-VL 用帧序号(0,1,2)— 不同帧率视频无法感知真实时间
- 改进:temporal_id = 实际时间戳(秒数)
- 2fps:[0.0, 0.5, 1.0, 1.5...] / 30fps:[0.000, 0.033, 0.067...]
- Charades-STA mIoU 提升到 50.9
训练规模:4.1T tokens 三阶段(ViT 预训练 1.5T → 联合多模态 2.0T → 长上下文 0.6T)。GUI ScreenSpot 从 1.6 → 43.6(27x 提升)。
Qwen3-VL · 2025 下半年 · 视觉 MoE
Qwen3-VL 创新 1:Interleaved-MRoPE 全局坐标系
左:M-RoPE 多图坐标碰撞 / 右:全局坐标系解决方案
致命缺陷:M-RoPE 每张图从 (0,0) 开始 — 100 张图就有 100 个 (0,0),256K 上下文完全无法区分。
全局坐标系
- 每张图在全局位置空间分配唯一偏移
- h_id = base + r,w_id = base + c(base = 全局起始位置)
- 256K 上下文 100+ 张图,每个 patch 全局唯一
比喻:M-RoPE 像每栋楼都有「101 室」但不知在哪条街 — Interleaved 加了街道地址
Qwen3-VL · 创新 2-3
DeepStack 多层融合 + VL 首次引入 MoE
创新 2:DeepStack 多层 ViT 特征融合
- Qwen2.5-VL 仅用 ViT 最后一层 — 深层语义丰富但浅层细节丢失
- 浅层(1-10):边缘/笔划 → OCR
- 中层(11-22):字符组合 → 文字行
- 深层(23-32):全局语义 → VQA
- 可学习权重自适应融合,OCR 加大浅层,VQA 加大深层
创新 3:MoE 首入 VL 领域
- Qwen3-VL-235B-A22B:128 专家 + 8 激活 + 1 共享
- VL 任务多样性(OCR/VQA/Grounding/视频/GUI)→ 不同专家子集
- Thinking Mode:视觉 CoT + GRPO 强化学习
- 256K 原生多模态上下文:100+ 图 / 60+ 分钟视频
Part III
全模态 Omni 系列
Qwen2.5-Omni → Qwen3-Omni
Thinker-Talker 双轨架构 → 234ms 极速流式
Qwen2.5-Omni · 2025.03 · 统一期
Qwen2.5-Omni 创新 1:Thinker-Talker 双轨架构
Thinker(推理大脑)+ Talker(语音嘴巴)
根本矛盾:文本生成(离散 ~150K 词表, ~30 tok/s)与语音生成(声学 ~1024 码本, ~75 frames/s)优化目标冲突,强行合并双双退化。
Thinker:多模态感知大脑
- Qwen2.5-7B 骨干,输入文本+图像+音频+视频
- 输出 ①文本 token ②Hidden States(传给 Talker)
Talker:语音合成嘴巴
- 轻量 Transformer,接收 Hidden States + 历史 audio codec
- 与 Thinker 并行运行,边理解边说
为什么传 Hidden States 而非 Token IDs? 保留完整语义梯度(语气/强调/情感),支持端到端联合优化。
Qwen2.5-Omni · 创新 2-3
TMRoPE 物理时间轴 + 流式音频编码
创新 2:TMRoPE — 统一物理时间坐标
- 问题:视频帧和音频块时间单位不统一
- 方案:pos_idt = ⌊实际秒数 × rref⌋
- 同一时刻的音视频 token 自动获得相近 temporal ID
- 模型隐式学习「画面嘴动 ↔ 声音出现」的时序关联
创新 3:Whisper-like 流式音频编码
- 16kHz → 80ch Mel → CNN 2x 下采样 → Transformer 32 层 → MLP
- Block-wise 流式:每 ~2 秒一个 Block,边接收边理解
- 首包延迟 = 1 个 Block 处理时间,而非完整说话时长
防灾难遗忘:渐进解冻 + 持续文本复习 20-30% + Thinker-Talker 物理隔离 → 各单模态能力退化 <1%
Qwen3-Omni · 2025.09 · 极速全模态
Qwen3-Omni 创新 1:DiT → Causal ConvNet
DiT(非因果多步 ~600ms)→ Causal ConvNet(因果单步 234ms)
膨胀因果卷积:dilation=1,2,4,8 扩展感受野
关键判断:300ms 以下延迟是硬约束(人类感知阈值),MOS 下降 5% 内用户无感。延迟 > 音质。
DiT 的两个延迟瓶颈
- 非因果感受野:等待窗口填满 ~500ms
- 多步迭代去噪:20-50 步扩散 ~100-300ms
Causal ConvNet 方案
- 严格因果:padding 只在左侧,不看未来
- 单步前向:O(1) 延迟 vs DiT 的 O(W)+O(T)
- 膨胀卷积:4 层覆盖 ~500ms 历史上下文
- + Multi-Codebook RVQ 补偿声学细节
Qwen3-Omni · 创新 2-3
234ms 首包延迟 + Multi-Codebook RVQ
创新 2:延迟分解 — 234ms 瀑布图
| 环节 | 耗时 |
| 音频编码(first block) | ~80ms |
| Thinker 首 token | ~60ms |
| Talker 首 audio token | ~30ms |
| ConvNet 解码(单步) | ~40ms |
| Vocoder 首帧 | ~24ms |
| 总计 | 234ms |
创新 3:Multi-Codebook RVQ
- 多层码本逐层量化残差:每增一层,误差减半
- K 层后误差 ≈ 原始的 2-K
- 为 Causal ConvNet 提供更丰富输入:单层→多层 codes
- 最终音质差距缩小到 <5% MOS
MoE Thinker:30B-A3B 替换 Dense 7B — 容量 4.3x 提升,激活参数反而更少(3B < 7B),推理更快。
VL 模型四代核心演进对比
| 维度 | Qwen-VL | Qwen2-VL | Qwen2.5-VL | Qwen3-VL |
| 视觉编码器 | CLIP ViT 固定 | DFN ViT 675M | 从零训练+Window | +DeepStack |
| 融合机制 | Cross-Attention | PatchMerger | MLP Merger | +多层融合 |
| 位置编码 | 2D 绝对 | M-RoPE | M-RoPE+绝对时间 | Interleaved-MRoPE |
| MoE / Thinking | ❌ / ❌ | ❌ / ❌ | ❌ / ❌ | ✅ / ✅ |
| 上下文 | 2-8K | 32-128K | 128K | 256K |
纯文本 LLM 四代核心对比
| 维度 | Qwen-1 | Qwen2 | Qwen2.5 | Qwen3 |
| 注意力 | MHA | GQA | GQA+QK-Norm | GQA+MoE |
| 扩展技术 | — | NTK-aware | YaRN | 渐进训练 |
| 数据量 | ~3T | 7T | 18T | 36T |
| 上下文 | 16K | 128K | 1M | 256K 原生 |
| 旗舰 MMLU | 65 | 84 | 87 | 89 |
| RL 策略 | PPO | PPO+DPO | GRPO | GRPO+蒸馏 |
关键观察
- 架构创新递减:Qwen2 GQA 带来 +26 MMLU;Qwen3 MoE 带来 +2
- 数据 Scaling 主导:Qwen2.5 不改架构纯靠 18T 数据仍提升 +3
- 参数效率跃迁:Qwen3-32B ≈ Qwen2.5-72B(2.3x 参数效率)
- MoE 最优效率:Qwen3-235B MMLU/激活参数 = 4.05,远超竞品
趋势:从「改架构提性能」转向「好架构 + 海量高质量数据 + MoE 参数效率」三轮驱动。
纯文本 vs VL vs Omni 管线对比
| 维度 | 纯文本 LLM | VL 模型 | Omni 模型 |
| 输入模态 | 文本 | 文本 + 图像/视频 | 文本 + 图像/视频 + 音频 |
| 输出模态 | 文本 | 文本(含坐标) | 文本 + 流式语音 |
| 生成架构 | 单路自回归 | 单路自回归 | Thinker + Talker 双轨并行 |
| 位置编码 | 1D-RoPE | M-RoPE / Interleaved | TMRoPE(物理时间轴) |
| KV cache 压力 | 中 | 高(大量视觉 token) | 极高(实时递增音频) |
六大技术演进趋势
1. 分辨率
固定 224² → 动态 → 原生分辨率
从「描述图片」到「理解文档」
2. 时间感知
静态图 → 帧序号 → 绝对秒数 → 文本时间戳 → 实时流式
3. 架构范式
跨模态桥接 → 端到端统一 → 思考-说话分离
特征空间统一,输出空间分离
4. Dense → MoE
纯文本 → VL → Omni 全面 MoE
打破容量-成本线性绑定
5. Thinking Mode
无推理 → 文本 CoT → 视觉 CoT → 全模态 CoT
感知工具 → 推理引擎
6. 延迟优化
非流式 → DiT ~600ms → ConvNet 234ms
随 AI 产品化,工程指标权重上升
展望 Qwen3-Next:75% DeltaNet(线性 O(N))+ 25% 标准注意力 + 512 超稀疏 MoE — 80B 总参 / 3B 激活 / 训练成本仅 32B 的 10%
Qwen 系列演进的核心启示
架构设计
- 每一代只解决上一代暴露的最紧迫问题
- 架构创新的边际收益递减 — 好架构 + 好数据 > 新架构
- 统一性优于特化 — M-RoPE 一套编码服务三种模态
训练范式
- 「先对齐,再理解,再跟随」— 逐步解冻是课程学习
- RL 算法复杂度应匹配奖励信号结构(GRPO vs PPO)
- 合成数据引入新信息维度,打破 Scaling Law 收益递减
工程决策
- Over-Training 是工业部署的最优策略 — 训练时间换推理质量
- 延迟 300ms 是硬约束,MOS 5% 是软约束 — 选 ConvNet 弃 DiT
- Thinker-Talker 分离是防跨模态干扰最可靠的架构方案
效率哲学
- MoE 打破容量-成本绑定 — 235B 知识/22B 推理
- 强到弱蒸馏 — 90% 成本节省 + Thinking 能力传递
- Window Attention — 120x 加速,仅 4 层全局足矣
Thank You
好架构 + 海量高质量数据 + 工程极致优化
= 开源追赶闭源的核心公式
报告日期 2026.04.12 · 覆盖 10 个模型版本 · 50+ 原创图表