LLM 架构演变追踪器 2018–2026

沿 4 角度框架追踪 ① 物种 · ② 骨架 · ③ 肌肉 · ④ 神经 的演变 · 开智学堂出品

0
已筛 Shown
0
总计 Total
0
家族 Families
0
组织 Orgs
筛选 Filters 点击右侧展开
国家 Country
时间 Time
参数量 Params (B=十亿)
组织 Org (全部)
家族 Family (全部)

① 物种 Species · Transformer 三兄弟

按注意力方向分三类:仅编码器 Encoder-Only(BERT 系)只理解不生成,编解码器 Encoder-Decoder(T5 系)输入输出异构适合翻译,仅解码器 Decoder-Only(GPT/OLMo/Llama 系)因果生成——本讲主角。另有非 Transformer 的 SSM/RNN 远亲(Mamba、RWKV)点到即止。

📖
如何阅读 · How to read:堆叠面积图的 100% 代表"当年每一种选择的占比"。颜色面积变大 = 这种选择变流行。开智红代表"当下主流/现代主导方案",灰色代表遗留方案。鼠标悬浮看具体数字,点击色块查看当年所有该类模型。

② 骨架 Skeleton · 多大

骨架是"尺寸"——层数 num_layers(模型有几层,跑几轮信号)和宽度 hidden_size(每层主干道多宽)。一旦定义就不能改,数字放大就是放大版的同一个 DNA。

📖
如何阅读:分档显示不同尺寸的模型占比。开智红 ≥ 最大档,灰色是小档——看红色面积何时开始扩张,就是行业在"做大"的时间点。

③ 肌肉 Muscle · 多壮

肌肉是"容量"——词表 vocab(认识多少种信号)、上下文 context(短期记忆多长)、注意力类型(KV 缓存如何省显存)。下面"注意力类型"图里的缩写:
MHA Multi-Head Attention · 每个注意力头独立一份 KV(最耗显存)
GQA Grouped-Query · 多个头共用一份 KV(Llama/OLMo 主流)
MLA Multi-head Latent · KV 压缩到潜变量(DeepSeek 独创,最省)
MQA Multi-Query · 所有头共用一份 KV(早期方案)

📖
如何阅读:三张图对应三种"省力方式"。词表/上下文做大是增肌,GQA/MLA 是"省显存的巧劲"。开智红表示当下的主导做法。

④ 神经 Nerve · 多灵

神经是"信号处理器件"——五类组件的选择决定模型的灵巧度:
激活函数:每层的非线性开关(ReLU → GeLU → SwiGLU)
归一化:信号稳定器(LayerNorm → RMSNorm)
位置编码:告诉模型"这是第几个词"(Learned → RoPE)
注意力偏置:每个头是否带 bias 参数
词嵌入绑定:入口嵌入表和出口预测头是否共享
这是 2017–2026 年变化最激烈的战场。

📖
如何阅读:五张图都在讲"从早期默认 → 现代主导方案"的迁移。看开智红面积从小变大的时间点,就是行业共识形成的年份。
🖱
交互提示 · Tips点击行展开完整配置(Hidden Size、Num Layers、Model Type 等)。点击表头按该列排序。支持模糊搜索所有字段。顶部筛选器会同时作用于此表。
模型详情 · Model Details

🔬 对比 Compare · 三模型并排

选任意 2–3 个模型,按 4 角度框架并排展示它们的基因差异。雷达图对比尺寸维度,表格对比每一项架构选择——差异项以开智红标出。

🔬
推荐对比组合:① OLMo-3 7B vs Qwen3 0.6B vs DeepSeek-V3(看"近亲/远亲"的基因差异)· ② GPT-2 vs Llama 2 vs Llama 3(看同族 4 年的演化)· ③ BERT vs T5 vs GPT(看三兄弟本体差异)
属性
选择至少 2 个模型开始对比