沿 4 角度框架追踪 ① 物种 · ② 骨架 · ③ 肌肉 · ④ 神经 的演变 · 开智学堂出品
按注意力方向分三类:仅编码器 Encoder-Only(BERT 系)只理解不生成,编解码器 Encoder-Decoder(T5 系)输入输出异构适合翻译,仅解码器 Decoder-Only(GPT/OLMo/Llama 系)因果生成——本讲主角。另有非 Transformer 的 SSM/RNN 远亲(Mamba、RWKV)点到即止。
骨架是"尺寸"——层数 num_layers(模型有几层,跑几轮信号)和宽度 hidden_size(每层主干道多宽)。一旦定义就不能改,数字放大就是放大版的同一个 DNA。
肌肉是"容量"——词表 vocab(认识多少种信号)、上下文 context(短期记忆多长)、注意力类型(KV 缓存如何省显存)。下面"注意力类型"图里的缩写:
• MHA Multi-Head Attention · 每个注意力头独立一份 KV(最耗显存)
• GQA Grouped-Query · 多个头共用一份 KV(Llama/OLMo 主流)
• MLA Multi-head Latent · KV 压缩到潜变量(DeepSeek 独创,最省)
• MQA Multi-Query · 所有头共用一份 KV(早期方案)
神经是"信号处理器件"——五类组件的选择决定模型的灵巧度:
• 激活函数:每层的非线性开关(ReLU → GeLU → SwiGLU)
• 归一化:信号稳定器(LayerNorm → RMSNorm)
• 位置编码:告诉模型"这是第几个词"(Learned → RoPE)
• 注意力偏置:每个头是否带 bias 参数
• 词嵌入绑定:入口嵌入表和出口预测头是否共享
这是 2017–2026 年变化最激烈的战场。
选任意 2–3 个模型,按 4 角度框架并排展示它们的基因差异。雷达图对比尺寸维度,表格对比每一项架构选择——差异项以开智红标出。
| 属性 | |||
|---|---|---|---|
| 选择至少 2 个模型开始对比 | |||