INFO · info-20260121-126
Pearl 因果推理:AI 关联性计算的边界
[INFO] Pearl 因果推理:AI 关联性计算的边界
- 时间: 2026-01-21
- 类型: 引用
- 来源: Judea Pearl 因果推理理论、2024-2025 研究综述
- 置信度: 9/10
- 标签: #AI #因果推理 #Pearl #LLM局限 #认知科学
内容
核心框架:因果阶梯(Ladder of Causation)
┌─────────────────────────────────────────────────────────┐
│ │
│ Rung 3: 反事实 (Counterfactual) │
│ ───────────────────────────────────────────── │
│ "如果当时 X 没发生,Y 还会发生吗?" │
│ → 想象 / 假设推理 │
│ → 需要完整的因果模型 │
│ ▲ │
│ │ 更难 │
│ Rung 2: 干预 (Intervention) │
│ ───────────────────────────────────────────── │
│ "如果我做 X,会导致 Y 吗?" │
│ → do(X) 操作符 │
│ → 区分"看到"和"导致" │
│ ▲ │
│ │ │
│ Rung 1: 关联 (Association) │
│ ───────────────────────────────────────────── │
│ "看到 X 时,Y 的概率是多少?" │
│ → P(Y|X) │
│ → **当前 ML/LLM 所在的层级** │
│ │
└─────────────────────────────────────────────────────────┘
三层的本质区别
| 层级 | 问题类型 | 例子 | 能力 |
|---|---|---|---|
| 关联 | 观察 | "吸烟者得肺癌的比例高" | 统计相关 |
| 干预 | 行动 | "如果我让他戒烟,会降低肺癌风险吗?" | 因果效应 |
| 反事实 | 想象 | "如果他当时没吸烟,现在会得肺癌吗?" | 假设推理 |
关键区分:
关联: P(癌症|吸烟) = ? → 看到吸烟者,癌症概率多少?
干预: P(癌症|do(吸烟)) = ? → 强制让人吸烟,癌症概率多少?
这两个值可能不同!(混杂因素:如基因同时影响吸烟倾向和癌症风险)
LLM 在因果阶梯的位置
| 能力 | LLM 表现 | 原因 |
|---|---|---|
| 关联(Rung 1) | 强 | 统计模式匹配 |
| 干预(Rung 2) | 弱 | 无法区分相关和因果 |
| 反事实(Rung 3) | 很弱 | 没有真正的因果模型 |
2024-2025 研究发现:
- GPT-4o 在新场景下因果推理准确率从 99% 暴跌到 69%
- LLM 是"因果鹦鹉"(Causal Parrots)——复述训练数据中的因果知识,而非真正推理
- 在训练数据之外的因果问题上表现很差
Pearl 对 LLM 的修正观点
Pearl 最初认为:纯观察数据无法回答因果问题。
但他后来承认:
"我没考虑到训练数据(文本)本身可能包含因果信息。LLM 可以直接引用文本中的因果描述。"
所以 LLM 的因果能力来自:
- 训练语料中人类写的因果描述
- 而不是 LLM 自己的因果推理
结构因果模型(SCM)
Pearl 的数学工具:
结构因果模型 = 变量 + 因果图 + 函数
例:
U(混杂因素:基因)
↓
┌────┴────┐
↓ ↓
吸烟 ────→ 肺癌
方程:
吸烟 = f₁(基因, 噪声₁)
肺癌 = f₂(吸烟, 基因, 噪声₂)
do-calculus:一套规则,用于从观察数据推断干预效果(在某些条件下)
新兴方向:LLM + Causal 结合
| 方法 | 思路 |
|---|---|
| 反事实提示 | 用"如果...会怎样"的问法触发 LLM 的因果模拟 |
| LLM 辅助建模 | 用 LLM 提取领域知识,构建因果图,再用传统方法验证 |
| 大因果模型(LCM) | SCM + LLM 的混合架构 |
核心洞察:两位批评者的共识
| 批评者 | 核心观点 | 指向 |
|---|---|---|
| Hawkins | AI 缺乏"世界模型" | 参考框架、千脑理论 |
| Pearl | AI 缺乏"因果模型" | 因果阶梯、SCM |
共同指向:当前 AI 只是统计关联(Rung 1),没有真正理解世界的因果结构。
关联
-
直接相关:
- INFO-113(AI智能本质:关联性计算引擎)- Pearl 的因果阶梯精确定义了"关联性计算"的边界
- INFO-125(HTM vs LLM 反思)- Hawkins 和 Pearl 的批评殊途同归
- INFO-115(AI前沿研究综述)- 因果推理是研究热点之一
-
理论价值:
- 因果阶梯提供了评估 AI 能力的清晰框架
- "因果鹦鹉"概念解释了 LLM 看似能做因果推理的原因
-
待探索:
- do-calculus 的具体算法
- LLM + SCM 的混合架构(大因果模型)
- 因果发现(从数据自动构建因果图)