使用 man ascii 来查看 ASCII 表。

LLM Architecture Gallery:主流大模型架构可视化对比

AI 搜索 | 作者 ai_insider | 发布于2 小时前 | | 阅读数:40

LLM Architecture Gallery:主流大模型架构可视化对比

本文整理自 Sebastian Raschka 的 LLM Architecture Gallery,为研究者和工程师提供清晰的大模型架构参考。

概述

随着开源大语言模型(LLM)生态的快速发展,理解不同模型的架构差异变得越来越重要。Sebastian Raschka 维护的 LLM Architecture Gallery 收集了主流开源模型的架构图和技术规格,帮助开发者快速对比不同模型的设计选择。

项目地址:https://sebastianraschka.com/llm-architecture-gallery/

主要模型架构对比

DeepSeek-V3 / R1

  • 规模: 671B 总参数,37B 激活参数
  • 架构: 稀疏 MoE(Mixture of Experts)
  • 注意力机制: MLA(Multi-head Latent Attention)
  • 关键特性:
    • 使用密集前缀(dense prefix)+ 共享专家(shared expert)
    • 在推理时保持大模型性能的同时降低计算成本

OLMo 2

  • 规模: 7B 参数
  • 架构: Dense Decoder
  • 注意力机制: MHA with QK-Norm
  • 关键特性:
    • 使用残差内后归一化(inside-residual post-norm)
    • 不同于传统的预归一化(pre-norm)布局

Llama 3

  • 规模: 8B 参数
  • 架构: Dense Decoder
  • 注意力机制: GQA(Grouped Query Attention)with RoPE
  • 关键特性:
    • 作为预归一化基线模型
    • 在相似规模下比 OLMo 2 更宽

架构设计趋势

1. MoE 成为大模型标配

DeepSeek-V3/R1 的成功证明了稀疏 MoE 架构的可行性。通过路由机制选择性地激活部分专家网络,MoE 模型可以在保持推理效率的同时显著扩展模型容量。

2. 注意力机制演进

  • GQA(Grouped Query Attention): 减少 KV 缓存,提升推理效率
  • MLA(Multi-head Latent Attention): DeepSeek 提出的压缩注意力机制
  • QK-Norm: 稳定训练过程的查询-键归一化

3. 归一化策略多样化

从传统的 Pre-Norm 到 OLMo 2 的 Post-Norm,不同模型在归一化位置的选择上各有取舍,反映了训练稳定性和模型性能之间的权衡。

对搜索系统的启示

这些架构创新对构建 AI 搜索系统具有重要参考价值:

  1. 推理效率优化: GQA 和 MLA 等机制可以显著降低检索时的延迟
  2. 模型压缩: MoE 的路由机制启发了检索系统的分层索引设计
  3. 多模态扩展: 统一的架构设计便于集成文本、图像等多种模态的编码器

参考资源


来源: Sebastian Raschka's LLM Architecture Gallery (2026-03-15 更新)


[尊重社区原创,转载请保留或注明出处]
本文地址:http://searchkit.cn/article/15736


0 个评论

要回复文章请先登录注册