[INFO] 生成式AI Decoder模型：完整数学公式框架

时间: 2024-12-19
类型: 技术原理/数学框架
来源: Transformer技术文档
置信度: 10/10
标签: #Transformer #Decoder #数学公式 #注意力机制 #深度学习

核心概述

从输入token到输出概率分布的完整计算流程，涵盖注意力机制、前馈网络、归一化等核心组件。

一、输入表示与位置编码

1.1 词嵌入 (Word Embedding)

E = W_e · X

符号	含义	维度
X	输入token的one-hot向量	\|V\| × 1
W_e	词嵌入矩阵	d_model × \|V\|
E	词嵌入向量	d_model × 1

1.2 位置编码 (Positional Encoding)

对于位置 pos 和维度 i：

PE_(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE_(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

原理：使用sin/cos函数的不同频率来编码位置信息。

1.3 最终输入表示

H^(0) = E + PE

二、注意力机制

2.1 QKV投影

Q = H^(l-1) · W_Q
K = H^(l-1) · W_K
V = H^(l-1) · W_V

符号	含义
Q	Query（查询）
K	Key（键）
V	Value（值）

2.2 注意力分数计算

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

√d_k 的作用：缩放因子，防止点积值过大导致 softmax 梯度消失。

2.3 多头注意力

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) · W_O

其中：

head_i = Attention(Q·W_Q^(i), K·W_K^(i), V·W_V^(i))

优势：允许模型在不同位置关注不同的表示子空间。

三、前馈神经网络 (FFN)

FFN(x) = ReLU(x·W_1 + b_1) · W_2 + b_2

结构：两层全连接网络，中间维度通常为 4 × d_model。

四、残差连接与层归一化

4.1 注意力层后

Z^(l) = LayerNorm(H^(l-1) + MultiHead(Q, K, V))

4.2 前馈层后

H^(l) = LayerNorm(Z^(l) + FFN(Z^(l)))

残差连接：缓解深层网络的梯度消失问题。

五、输出层与概率计算

5.1 Logits计算

z = H^(L) · W_output

其中 W_output 维度为 d_model × |V|

5.2 Softmax概率分布

P(w_i | context) = exp(z_i) / Σ_j exp(z_j)

六、采样算法

6.1 贪心采样

w_next = argmax_i P(w_i | context)

特点：确定性，每次选概率最大的token。

6.2 温度采样

P'(w_i) = exp(z_i/τ) / Σ_j exp(z_j/τ)

温度τ	效果
τ < 1	更确定，分布更尖锐
τ = 1	原始分布
τ > 1	更随机，分布更平坦

6.3 Top-k采样

w_next ~ Categorical({P(w_i)}_{i ∈ top-k})

原理：从概率最大的k个token中随机采样。

6.4 Top-p采样（Nucleus）

选择累积概率达到 p 的最小 token 集合。

七、训练目标

交叉熵损失

L = -1/N · Σ_i log P(w_i | w_{<i})

含义：最大化正确token的对数概率。

八、完整前向传播流程

对于第 l 层：

1. Q^(l) = H^(l-1) · W_Q^(l)
2. K^(l) = H^(l-1) · W_K^(l)
3. V^(l) = H^(l-1) · W_V^(l)
4. A^(l) = softmax(Q^(l) · (K^(l))^T / √d_k)
5. Attn^(l) = A^(l) · V^(l)
6. Z^(l) = LayerNorm(H^(l-1) + Attn^(l))
7. H^(l) = LayerNorm(Z^(l) + FFN(Z^(l)))

九、关键参数维度

参数	含义	典型值
d_model	模型隐藏维度	512, 768, 1024
d_k = d_v	每个头的维度	d_model / h
h	注意力头数量	8, 12, 16
\|V\|	词表大小	30K-100K
L	Transformer层数	12, 24, 48

十、模型推理的数学表示

给定上下文 C = [w_1, w_2, ..., w_t]：

w_{t+1} ~ Decoder(E(C) + PE(1:t))

其中 Decoder 表示完整的 Transformer 解码器前向传播。

十一、关键组件总结

组件	作用
词嵌入	将离散token映射到连续向量空间
位置编码	注入序列位置信息
自注意力	建模序列内部依赖关系
多头机制	从多个子空间学习表示
FFN	非线性变换，增加模型容量
残差连接	缓解梯度消失
层归一化	稳定训练过程
Softmax	将logits转换为概率分布

与知识库的关联

与INFO-062外推能力的关联

INFO-062 讨论的位置编码外推问题，正是本文 1.2 节位置编码公式的延伸：

原始 sin/cos 位置编码有外推限制
RoPE 通过旋转矩阵改进
ALiBi 通过注意力偏置改进

与INFO-055四元数的数学关联

INFO-055 讨论的四元数运算，与本文的注意力机制在数学层面有类比：

四元数乘法 ≈ 旋转变换
注意力机制 ≈ 加权聚合

计算流程的"流水线"视角

输入 → 嵌入 → 位置编码 → [注意力 → FFN] × L → 输出层 → 采样

这与 INFO-054 Option-Based Agent 的 PPLA 循环有结构相似性——都是分阶段处理的流水线架构。

核心金句

这个数学框架展示了从输入token到输出概率分布的完整计算流程，是理解大语言模型工作原理的基础。

关联

相关: INFO-20251219-062（外推能力与位置编码）
相关: INFO-20251219-055（四元数数学基础）
相关: INFO-20251219-054（Agent流水线架构）
相关: INFO-20251219-067（大统一理论思维）
触发规则: -
待验证: -