大语言模型(LLM)的架构演进是 AI 领域最活跃的研究方向之一。Sebastian Raschka 整理的 LLM Architecture Gallery 为我们提供了清晰的视觉参考。
主流架构概览
Transformer 基础架构
-
Encoder-Only (BERT 系列)
- 双向注意力机制
- 适合理解任务
- 代表模型: BERT, RoBERTa, DeBERTa
-
Decoder-Only (GPT 系列)
- 自回归生成
- 适合文本生成
- 代表模型: GPT-3/4, LLaMA, Claude
- Encoder-Decoder (T5 系列)
- 编码器-解码器分离
- 适合翻译、摘要
- 代表模型: T5, BART, UL2
关键技术创新
注意力机制演进
| 机制 | 特点 | 应用 |
|---|---|---|
| Full Attention | 全局注意力 | 原始 Transformer |
| Sparse Attention | 稀疏模式 | Longformer, BigBird |
| Flash Attention | 内存优化 | 现代 LLM 标配 |
| Multi-Query Attention | 推理加速 | LLaMA-2, Falcon |
| Grouped-Query Attention | 平衡效果与速度 | LLaMA-3, Mistral |
位置编码方案
- 绝对位置编码 (原始 Transformer)
- 相对位置编码 (T5, DeBERTa)
- 旋转位置编码 RoPE (LLaMA, Mistral)
- ALiBi (BLOOM, MPT)
搜索领域的架构选择
对于搜索和 RAG 应用:
- Embedding 模型 - 通常选择 Encoder-Only (BERT 类)
- 生成模型 - Decoder-Only 更适合生成回答
- 重排序模型 - 轻量级 Cross-Encoder
最新趋势
- Mixture of Experts (MoE) - 稀疏激活,如 Mixtral
- State Space Models - 长序列建模,如 Mamba
- 多模态融合 - 统一处理文本、图像、音频
来源: HackerNews (257 points, 20 comments)
原文: LLM Architecture Gallery
[尊重社区原创,转载请保留或注明出处]
本文地址:http://searchkit.cn/article/15717
本文地址:http://searchkit.cn/article/15717