INFO · info-20251219-073
生成式AI Decoder模型:完整数学公式框架
[INFO] 生成式AI Decoder模型:完整数学公式框架
- 时间: 2024-12-19
- 类型: 技术原理/数学框架
- 来源: Transformer技术文档
- 置信度: 10/10
- 标签: #Transformer #Decoder #数学公式 #注意力机制 #深度学习
核心概述
从输入token到输出概率分布的完整计算流程,涵盖注意力机制、前馈网络、归一化等核心组件。
一、输入表示与位置编码
1.1 词嵌入 (Word Embedding)
E = W_e · X
| 符号 | 含义 | 维度 |
|---|---|---|
| X | 输入token的one-hot向量 | |V| × 1 |
| W_e | 词嵌入矩阵 | d_model × |V| |
| E | 词嵌入向量 | d_model × 1 |
1.2 位置编码 (Positional Encoding)
对于位置 pos 和维度 i:
PE_(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE_(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
原理:使用sin/cos函数的不同频率来编码位置信息。
1.3 最终输入表示
H^(0) = E + PE
二、注意力机制
2.1 QKV投影
Q = H^(l-1) · W_Q
K = H^(l-1) · W_K
V = H^(l-1) · W_V
| 符号 | 含义 |
|---|---|
| Q | Query(查询) |
| K | Key(键) |
| V | Value(值) |
2.2 注意力分数计算
Attention(Q, K, V) = softmax(QK^T / √d_k) · V
√d_k 的作用:缩放因子,防止点积值过大导致 softmax 梯度消失。
2.3 多头注意力
MultiHead(Q, K, V) = Concat(head_1, ..., head_h) · W_O
其中:
head_i = Attention(Q·W_Q^(i), K·W_K^(i), V·W_V^(i))
优势:允许模型在不同位置关注不同的表示子空间。
三、前馈神经网络 (FFN)
FFN(x) = ReLU(x·W_1 + b_1) · W_2 + b_2
结构:两层全连接网络,中间维度通常为 4 × d_model。
四、残差连接与层归一化
4.1 注意力层后
Z^(l) = LayerNorm(H^(l-1) + MultiHead(Q, K, V))
4.2 前馈层后
H^(l) = LayerNorm(Z^(l) + FFN(Z^(l)))
残差连接:缓解深层网络的梯度消失问题。
五、输出层与概率计算
5.1 Logits计算
z = H^(L) · W_output
其中 W_output 维度为 d_model × |V|
5.2 Softmax概率分布
P(w_i | context) = exp(z_i) / Σ_j exp(z_j)
六、采样算法
6.1 贪心采样
w_next = argmax_i P(w_i | context)
特点:确定性,每次选概率最大的token。
6.2 温度采样
P'(w_i) = exp(z_i/τ) / Σ_j exp(z_j/τ)
| 温度τ | 效果 |
|---|---|
| τ < 1 | 更确定,分布更尖锐 |
| τ = 1 | 原始分布 |
| τ > 1 | 更随机,分布更平坦 |
6.3 Top-k采样
w_next ~ Categorical({P(w_i)}_{i ∈ top-k})
原理:从概率最大的k个token中随机采样。
6.4 Top-p采样(Nucleus)
选择累积概率达到 p 的最小 token 集合。
七、训练目标
交叉熵损失
L = -1/N · Σ_i log P(w_i | w_{<i})
含义:最大化正确token的对数概率。
八、完整前向传播流程
对于第 l 层:
1. Q^(l) = H^(l-1) · W_Q^(l)
2. K^(l) = H^(l-1) · W_K^(l)
3. V^(l) = H^(l-1) · W_V^(l)
4. A^(l) = softmax(Q^(l) · (K^(l))^T / √d_k)
5. Attn^(l) = A^(l) · V^(l)
6. Z^(l) = LayerNorm(H^(l-1) + Attn^(l))
7. H^(l) = LayerNorm(Z^(l) + FFN(Z^(l)))
九、关键参数维度
| 参数 | 含义 | 典型值 |
|---|---|---|
| d_model | 模型隐藏维度 | 512, 768, 1024 |
| d_k = d_v | 每个头的维度 | d_model / h |
| h | 注意力头数量 | 8, 12, 16 |
| |V| | 词表大小 | 30K-100K |
| L | Transformer层数 | 12, 24, 48 |
十、模型推理的数学表示
给定上下文 C = [w_1, w_2, ..., w_t]:
w_{t+1} ~ Decoder(E(C) + PE(1:t))
其中 Decoder 表示完整的 Transformer 解码器前向传播。
十一、关键组件总结
| 组件 | 作用 |
|---|---|
| 词嵌入 | 将离散token映射到连续向量空间 |
| 位置编码 | 注入序列位置信息 |
| 自注意力 | 建模序列内部依赖关系 |
| 多头机制 | 从多个子空间学习表示 |
| FFN | 非线性变换,增加模型容量 |
| 残差连接 | 缓解梯度消失 |
| 层归一化 | 稳定训练过程 |
| Softmax | 将logits转换为概率分布 |
与知识库的关联
与INFO-062外推能力的关联
INFO-062 讨论的位置编码外推问题,正是本文 1.2 节位置编码公式的延伸:
- 原始 sin/cos 位置编码有外推限制
- RoPE 通过旋转矩阵改进
- ALiBi 通过注意力偏置改进
与INFO-055四元数的数学关联
INFO-055 讨论的四元数运算,与本文的注意力机制在数学层面有类比:
- 四元数乘法 ≈ 旋转变换
- 注意力机制 ≈ 加权聚合
计算流程的"流水线"视角
输入 → 嵌入 → 位置编码 → [注意力 → FFN] × L → 输出层 → 采样
这与 INFO-054 Option-Based Agent 的 PPLA 循环有结构相似性——都是分阶段处理的流水线架构。
核心金句
这个数学框架展示了从输入token到输出概率分布的完整计算流程,是理解大语言模型工作原理的基础。
关联
- 相关: INFO-20251219-062(外推能力与位置编码)
- 相关: INFO-20251219-055(四元数数学基础)
- 相关: INFO-20251219-054(Agent流水线架构)
- 相关: INFO-20251219-067(大统一理论思维)
- 触发规则: -
- 待验证: -