GrowPIP
← 返回所有素材

INFO · info-20251219-073

生成式AI Decoder模型:完整数学公式框架

[INFO] 生成式AI Decoder模型:完整数学公式框架

  • 时间: 2024-12-19
  • 类型: 技术原理/数学框架
  • 来源: Transformer技术文档
  • 置信度: 10/10
  • 标签: #Transformer #Decoder #数学公式 #注意力机制 #深度学习

核心概述

从输入token到输出概率分布的完整计算流程,涵盖注意力机制、前馈网络、归一化等核心组件。

一、输入表示与位置编码

1.1 词嵌入 (Word Embedding)

E = W_e · X
符号含义维度
X输入token的one-hot向量|V| × 1
W_e词嵌入矩阵d_model × |V|
E词嵌入向量d_model × 1

1.2 位置编码 (Positional Encoding)

对于位置 pos 和维度 i:

PE_(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE_(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

原理:使用sin/cos函数的不同频率来编码位置信息。

1.3 最终输入表示

H^(0) = E + PE

二、注意力机制

2.1 QKV投影

Q = H^(l-1) · W_Q
K = H^(l-1) · W_K
V = H^(l-1) · W_V
符号含义
QQuery(查询)
KKey(键)
VValue(值)

2.2 注意力分数计算

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

√d_k 的作用:缩放因子,防止点积值过大导致 softmax 梯度消失。

2.3 多头注意力

MultiHead(Q, K, V) = Concat(head_1, ..., head_h) · W_O

其中:

head_i = Attention(Q·W_Q^(i), K·W_K^(i), V·W_V^(i))

优势:允许模型在不同位置关注不同的表示子空间。

三、前馈神经网络 (FFN)

FFN(x) = ReLU(x·W_1 + b_1) · W_2 + b_2

结构:两层全连接网络,中间维度通常为 4 × d_model。

四、残差连接与层归一化

4.1 注意力层后

Z^(l) = LayerNorm(H^(l-1) + MultiHead(Q, K, V))

4.2 前馈层后

H^(l) = LayerNorm(Z^(l) + FFN(Z^(l)))

残差连接:缓解深层网络的梯度消失问题。

五、输出层与概率计算

5.1 Logits计算

z = H^(L) · W_output

其中 W_output 维度为 d_model × |V|

5.2 Softmax概率分布

P(w_i | context) = exp(z_i) / Σ_j exp(z_j)

六、采样算法

6.1 贪心采样

w_next = argmax_i P(w_i | context)

特点:确定性,每次选概率最大的token。

6.2 温度采样

P'(w_i) = exp(z_i/τ) / Σ_j exp(z_j/τ)
温度τ效果
τ < 1更确定,分布更尖锐
τ = 1原始分布
τ > 1更随机,分布更平坦

6.3 Top-k采样

w_next ~ Categorical({P(w_i)}_{i ∈ top-k})

原理:从概率最大的k个token中随机采样。

6.4 Top-p采样(Nucleus)

选择累积概率达到 p 的最小 token 集合。

七、训练目标

交叉熵损失

L = -1/N · Σ_i log P(w_i | w_{<i})

含义:最大化正确token的对数概率。

八、完整前向传播流程

对于第 l 层:

1. Q^(l) = H^(l-1) · W_Q^(l)
2. K^(l) = H^(l-1) · W_K^(l)
3. V^(l) = H^(l-1) · W_V^(l)
4. A^(l) = softmax(Q^(l) · (K^(l))^T / √d_k)
5. Attn^(l) = A^(l) · V^(l)
6. Z^(l) = LayerNorm(H^(l-1) + Attn^(l))
7. H^(l) = LayerNorm(Z^(l) + FFN(Z^(l)))

九、关键参数维度

参数含义典型值
d_model模型隐藏维度512, 768, 1024
d_k = d_v每个头的维度d_model / h
h注意力头数量8, 12, 16
|V|词表大小30K-100K
LTransformer层数12, 24, 48

十、模型推理的数学表示

给定上下文 C = [w_1, w_2, ..., w_t]:

w_{t+1} ~ Decoder(E(C) + PE(1:t))

其中 Decoder 表示完整的 Transformer 解码器前向传播。

十一、关键组件总结

组件作用
词嵌入将离散token映射到连续向量空间
位置编码注入序列位置信息
自注意力建模序列内部依赖关系
多头机制从多个子空间学习表示
FFN非线性变换,增加模型容量
残差连接缓解梯度消失
层归一化稳定训练过程
Softmax将logits转换为概率分布

与知识库的关联

与INFO-062外推能力的关联

INFO-062 讨论的位置编码外推问题,正是本文 1.2 节位置编码公式的延伸:

  • 原始 sin/cos 位置编码有外推限制
  • RoPE 通过旋转矩阵改进
  • ALiBi 通过注意力偏置改进

与INFO-055四元数的数学关联

INFO-055 讨论的四元数运算,与本文的注意力机制在数学层面有类比:

  • 四元数乘法 ≈ 旋转变换
  • 注意力机制 ≈ 加权聚合

计算流程的"流水线"视角

输入 → 嵌入 → 位置编码 → [注意力 → FFN] × L → 输出层 → 采样

这与 INFO-054 Option-Based Agent 的 PPLA 循环有结构相似性——都是分阶段处理的流水线架构。

核心金句

这个数学框架展示了从输入token到输出概率分布的完整计算流程,是理解大语言模型工作原理的基础。

关联

  • 相关: INFO-20251219-062(外推能力与位置编码)
  • 相关: INFO-20251219-055(四元数数学基础)
  • 相关: INFO-20251219-054(Agent流水线架构)
  • 相关: INFO-20251219-067(大统一理论思维)
  • 触发规则: -
  • 待验证: -