LLM 架构演变追踪器 2018–2026

沿 4 角度框架追踪 ① 物种 · ② 骨架 · ③ 肌肉 · ④ 神经 的演变 · 开智学堂出品

已筛 Shown

总计 Total

家族 Families

组织 Orgs

筛选 Filters 点击右侧展开

① 物种 Species · Transformer 三兄弟

按注意力方向分三类：仅编码器 Encoder-Only（BERT 系）只理解不生成，编解码器 Encoder-Decoder（T5 系）输入输出异构适合翻译，仅解码器 Decoder-Only（GPT/OLMo/Llama 系）因果生成——本讲主角。另有非 Transformer 的 SSM/RNN 远亲（Mamba、RWKV）点到即止。

📖

如何阅读 · How to read：堆叠面积图的 100% 代表"当年每一种选择的占比"。颜色面积变大 = 这种选择变流行。开智红代表"当下主流/现代主导方案"，灰色代表遗留方案。鼠标悬浮看具体数字，点击色块查看当年所有该类模型。

② 骨架 Skeleton · 多大

骨架是"尺寸"——层数 num_layers（模型有几层，跑几轮信号）和宽度 hidden_size（每层主干道多宽）。一旦定义就不能改，数字放大就是放大版的同一个 DNA。

📖

如何阅读：分档显示不同尺寸的模型占比。开智红 ≥ 最大档，灰色是小档——看红色面积何时开始扩张，就是行业在"做大"的时间点。

③ 肌肉 Muscle · 多壮

肌肉是"容量"——词表 vocab（认识多少种信号）、上下文 context（短期记忆多长）、注意力类型（KV 缓存如何省显存）。下面"注意力类型"图里的缩写：
• MHA Multi-Head Attention · 每个注意力头独立一份 KV（最耗显存）
• GQA Grouped-Query · 多个头共用一份 KV（Llama/OLMo 主流）
• MLA Multi-head Latent · KV 压缩到潜变量（DeepSeek 独创，最省）
• MQA Multi-Query · 所有头共用一份 KV（早期方案）

📖

如何阅读：三张图对应三种"省力方式"。词表/上下文做大是增肌，GQA/MLA 是"省显存的巧劲"。开智红表示当下的主导做法。

④ 神经 Nerve · 多灵

神经是"信号处理器件"——五类组件的选择决定模型的灵巧度：
• 激活函数：每层的非线性开关（ReLU → GeLU → SwiGLU）
• 归一化：信号稳定器（LayerNorm → RMSNorm）
• 位置编码：告诉模型"这是第几个词"（Learned → RoPE）
• 注意力偏置：每个头是否带 bias 参数
• 词嵌入绑定：入口嵌入表和出口预测头是否共享
这是 2017–2026 年变化最激烈的战场。

📖

如何阅读：五张图都在讲"从早期默认 → 现代主导方案"的迁移。看开智红面积从小变大的时间点，就是行业共识形成的年份。

🖱

交互提示 · Tips：点击行展开完整配置（Hidden Size、Num Layers、Model Type 等）。点击表头按该列排序。支持模糊搜索所有字段。顶部筛选器会同时作用于此表。

模型详情 · Model Details

🔬 对比 Compare · 三模型并排

选任意 2–3 个模型，按 4 角度框架并排展示它们的基因差异。雷达图对比尺寸维度，表格对比每一项架构选择——差异项以开智红标出。

🔬

推荐对比组合：① OLMo-3 7B vs Qwen3 0.6B vs DeepSeek-V3（看"近亲/远亲"的基因差异）· ② GPT-2 vs Llama 2 vs Llama 3（看同族 4 年的演化）· ③ BERT vs T5 vs GPT（看三兄弟本体差异）

属性
选择至少 2 个模型开始对比