机器学习发展历史与前沿研究

萌芽期（1950s–1960s）

符号主义的黎明：AI从哲学走向科学

这一时期的核心特征是：研究以符号主义为主，依赖人工编写的规则，但神经网络的理论源头已经出现。AI从哲学走向科学，感知机开启了机器从数据中学习的最初尝试。

1943M-P神经元模型

沃伦·麦卡洛克（Warren McCulloch）和沃尔特·皮茨（Walter Pitts）提出首个数学神经元模型，用逻辑运算模拟生物神经元的兴奋与抑制：

$$y = \varphi\left(\sum_{i} w_i x_i + b\right)$$

其中 $x_i$ 为输入，$w_i$ 为连接权重，$b$ 为偏置，$\varphi$ 为阶跃激活函数。该模型首次证明：复杂的认知功能可以通过简单的数学单元组合实现，奠定了神经网络的理论基础。

历史意义：M-P模型首次将生物神经元的兴奋-抑制机制抽象为可计算的数学函数，证明了复杂认知功能可以通过简单逻辑门的组合实现。这是神经网络理论的数学起点——后续所有人工神经元模型（感知机、Adaline、Sigmoid神经元）都是在此基础上的变体与扩展。

x₁→w₁ x₂→w₂ x₃→w₃

w₁,w₂,w₃ → ∑+b → φ(·) → y

多个输入分别乘权重 → 求和加偏置 → 激活 → 输出

1949Hebb学习规则

唐纳德·赫布（Donald Hebb）提出Hebb学习规则，核心思想是："一起激活的神经元连在一起"（Cells that fire together, wire together）。

$$\Delta w_{ij} = \eta \cdot x_i \cdot x_j$$

其中 $\Delta w_{ij}$ 是连接权重变化量，$\eta$ 为学习率。当两个神经元同时强烈激活时，它们之间的连接会加强。这一规则成为无监督学习和神经可塑性研究的生物学启发源头。

历史意义：Hebb规则是首个基于数学公式的局部学习算法，为后续所有无监督学习（自组织映射、竞争学习）和神经可塑性研究提供了理论框架。其"相关性驱动更新"的思想至今仍是深度学习中对比学习、Hebbian学习的核心原理。

1957感知机 Perceptron

弗兰克·罗森布拉特（Frank Rosenblatt）提出感知机，这是最早的人工神经网络模型。其数学本质是加权求和加阶跃函数：

$$y = \text{step}\left(\sum_{i} w_i x_i + b\right)$$

数学本质：感知机是一个分段线性函数：$y = \text{step}(\sum w_i x_i + b)$。它把输入空间 $\mathbb{R}^n$ 用一条超平面分成两个半空间——超平面一侧的所有点输出1，另一侧输出0。决策边界就是方程 $\sum w_i x_i + b = 0$ 定义的直线（二维）或平面（三维）。

核心局限：感知机本质上是一个线性分类器，决策边界是一条直线，只能解决线性可分问题（如AND、OR），无法解决XOR等非线性问题。这一局限将在1969年被系统证明，并引发第一次AI寒冬。

历史意义：感知机第一次证明机器可以从数据中学习权重，而不是由工程师手动编写规则。

线性可分 ✓

●●●

XOR 线性不可分 ✗

●● ●●

无法一条直线分开

1960Adaline / Madaline

伯纳德·威德罗（Bernard Widrow）和特德·霍夫（Ted Hoff）提出自适应线性神经元，引入最小均方（LMS）算法：

$$w \leftarrow w - \eta \cdot (y - \hat{y}) \cdot x$$

与感知机使用阶跃函数不同，Adaline在训练阶段直接使用线性输出计算误差，通过梯度下降最小化均方误差。这是感知机的重要进化版，也是现代随机梯度下降（SGD）的先驱。

什么是梯度？对于一元函数 $f(x)$，梯度就是导数 $f'(x)$，表示函数在某点的瞬时变化率。对于多元函数（如损失函数 $L(w_1, w_2, \dots)$），梯度是各偏导数组成的向量：$\nabla L = (\frac{\partial L}{\partial w_1}, \frac{\partial L}{\partial w_2}, \dots)$。它的方向是函数值增长最快的方向，大小是增长速率。梯度下降就是沿梯度的反方向更新参数：$w \leftarrow w - \eta \cdot \nabla L$，每一步都让损失函数值减小。

什么是连续梯度？感知机的阶跃函数 $\text{step}(z)$ 在 $z=0$ 处发生跳跃间断——左极限为0，右极限为1，导数不存在。因此误差对权重的导数要么为0（分类正确时），要么无定义（恰好在边界上），权重更新是"全有或全无"的。

Adaline使用线性输出，误差函数 $E = (y - \hat{y})^2$ 是二次函数（抛物线），处处可导：$\frac{\partial E}{\partial w} = -2(y - \hat{y}) \cdot x$。导数在任何位置都有定义且连续变化：预测偏差越大，导数绝对值越大，权重调整幅度也就越大。这种光滑可导性是链式法则能逐层传播的前提，也是训练深层网络的数学基础。

历史意义：Adaline首次将连续可导的误差函数引入神经网络训练，用梯度下降替代了感知机的离散跳变更新。这一光滑优化框架是反向传播算法的前提条件——没有连续梯度，链式法则无法逐层传播，深层网络就不可训练。

瓶颈期（1960s中–1970s末）

第一次AI寒冬：理论局限与算力不足

理论局限与算力不足让神经网络研究陷入低谷——但也指明了"需要更深层的架构"。

1969感知机的理论局限

马文·明斯基（Marvin Minsky）和西蒙·派珀特（Seymour Papert）在《Perceptrons》一书中用数学严格证明了单层感知机的根本局限。

XOR问题：考虑四个样本点：

$$(0,0) \rightarrow 0, \quad (0,1) \rightarrow 1, \quad (1,0) \rightarrow 1, \quad (1,1) \rightarrow 0$$

无论怎么画一条直线，都无法将输出为0和输出为1的两类样本完全分开。这不是工程实现问题，而是数学上的不可能——单层感知机的决策边界只能是直线，只能处理线性可分问题。

历史影响：政府与企业投资大幅缩减，神经网络进入"第一次AI寒冬"。但也指明了突破方向：需要更深层的非线性架构。

关键教训：AI的发展需要数据 + 算力 + 理论的三重支撑，缺一不可。

历史意义：XOR问题的严格数学证明不仅终结了单层感知机的热潮，更指明了突破方向：必须引入非线性激活函数和多层结构。这一理论打击虽然导致了第一次AI寒冬，但也为20年后的反向传播和深度学习革命埋下了伏笔。

重振期（1980s）

反向传播与连接主义复兴

反向传播算法的成熟，使神经网络从单层感知机走向多层架构，开启了「连接主义」AI的新篇章。

1981反向传播 Backpropagation

保罗·韦伯斯（Paul Werbos）在博士论文中首次系统提出反向传播算法，1986年辛顿等人推广。BP解决了「如何训练多层网络」这一核心难题。

$$\frac{\partial L}{\partial w_i} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial w_i}$$

数学本质：BP算法是链式法则的系统性应用。对于多层网络，损失 $L$ 对第 $l$ 层权重 $w^{(l)}$ 的偏导数为：$\frac{\partial L}{\partial w^{(l)}} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial h^{(l)}} \cdot \frac{\partial h^{(l)}}{\partial w^{(l)}}$。误差从输出层逐层向输入层传播，每一层只计算"局部梯度"，再与上游传来的梯度相乘。这样无论网络多深，每一层的权重都能得到明确的更新方向。

核心流程：前向传播计算输出 → 计算损失函数误差 → 反向传播梯度 → 逐层更新权重

历史意义：BP算法解决了多层神经网络的训练问题，使"深层"从不可能变为可行。它是连接主义复兴的核心引擎——没有BP，就没有1980年代的神经网络热潮，更没有后来的深度学习革命。链式法则的系统化应用至今仍是所有神经网络优化的数学基础。

输入层 → 前向 → 隐藏层 → 前向 → 输出层

↓ 反向传播 ↓

误差梯度回流

1982Hopfield神经网络

约翰·霍普菲尔德（John Hopfield）提出Hopfield网络，引入能量函数概念：

$$E = -\frac{1}{2} \sum_{i,j} w_{ij} s_i s_j + \sum_i \theta_i s_i$$

网络会自发收敛到能量局部最小值，具有联想记忆能力：给定部分或受损的输入，能回忆出完整模式。为后续循环神经网络（RNN）的发展奠定了重要基础。

历史意义：Hopfield网络首次用能量函数的数学框架描述神经网络动力学，证明了网络可以作为内容寻址的联想记忆存储器。这一思想直接启发了后续的能量模型（玻尔兹曼机、RBM）和循环神经网络（RNN、LSTM）的发展。

1985–86玻尔兹曼机与RBM

杰弗里·辛顿等人提出受限玻尔兹曼机（RBM），一种双层无向图模型。通过对比散度（CD）算法进行无监督预训练，学习数据的低维特征表示。

$$E(v,h) = -\sum_i a_i v_i - \sum_j b_j h_j - \sum_{i,j} v_i w_{ij} h_j$$

其中 $v$ 为可见单元，$h$ 为隐藏单元。RBM的逐层堆叠为2006年深度信念网络（DBN）的诞生奠定了基础，是深度学习复兴的重要先驱。

历史意义：RBM是首个能有效进行无监督预训练的概率图模型，其逐层特征学习的思想为2006年深度信念网络（DBN）的诞生铺平了道路。Hinton等人用RBM堆叠实现MNIST上的突破性结果，直接引发了21世纪深度学习的复兴。

MNIST 基准数据集——深度学习的 "Hello World"：由 70,000 张 28×28 像素手写数字灰度图组成（0–9 共 10 类，训练集 60,000 张、测试集 10,000 张）。它是评估图像分类算法的标准 benchmark。2006 年 Hinton 用 DBN（RBM 逐层堆叠）在 MNIST 上首次突破传统方法准确率天花板，证明了深层网络在无监督预训练 + 有监督微调范式下的强大表征学习能力。

为什么叫 "Hello World"？MNIST 数据量适中（70K 样本）、图像尺寸统一（28×28 单通道）、类别平衡（每类约 6,000 张）、任务目标明确（10 分类），且人类识别准确率已达约 98%，为算法提供了清晰的性能上限参照。这些特性使其成为所有深度学习框架（TensorFlow、PyTorch）、教材和课程的入门首选——正如 C 语言的 printf("Hello World") 是编程的第一课，MNIST 手写数字识别是深度学习的第一课。

1986ID3决策树

昆兰（Quinlan）提出ID3决策树，开创符号主义与统计学习结合的新方向。利用信息增益选择最优分裂属性：

$$IG(S,A) = H(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} H(S_v)$$

数学本质：ID3的核心是信息论中的熵和条件熵。熵 $H(S) = -\sum p_i \log p_i$ 度量数据集的"混乱程度"——所有样本属于同一类时 $H(S)=0$（最纯），两类各占50%时 $H(S)=1$（最混乱）。每次分裂选择使信息增益 $IG = H(S) - \sum \frac{|S_v|}{|S|}H(S_v)$ 最大的特征，即让子节点的"平均混乱度"下降最多。这是一个贪心优化策略：每一步做局部最优选择，期望全局结果也不错。

并列概念精确定义：
熵 $H(S)$：度量数据集的不确定性。$H(S)=0$ 表示所有样本属于同一类（完全确定），$H(S)=1$ 表示两类各半（最不确定）。
条件熵 $H(S|A)$：已知特征 $A$ 的取值后，数据集 $S$ 的剩余不确定性。$H(S|A) = \sum \frac{|S_v|}{|S|}H(S_v)$。
信息增益 $IG(S,A)$：$IG = H(S) - H(S|A)$，表示用特征 $A$ 分裂后不确定性减少了多少。增益越大，说明该特征对分类越有帮助。
贪心算法：ID3在每一步选择使信息增益最大的特征进行分裂，但不保证全局最优。因为早期的一个次优选择可能导致后期无法得到最好的树结构。贪心策略的优点是计算高效（$O(n \cdot m \cdot \log m)$），缺点是对数据噪声敏感、容易过拟合。

从单棵树到森林：ID3的单个决策树虽然可解释性强，但容易过拟合且对训练数据波动敏感。随机森林（后文 2001 年）通过 Bagging 策略解决这一问题：从原始数据集中有放回地随机抽取多个子集，每个子集训练一棵决策树，最终对所有树的预测结果进行投票。随机性（样本随机 + 特征随机）让每棵树都有独特视角，集体决策显著降低方差、提升泛化能力。这一"民主投票"思想是决策树从可解释模型向高性能集成模型跃迁的关键一步。

历史意义：ID3首次将信息论的熵概念系统性地应用于机器学习，开创了"用数据自身结构指导模型构建"的范式。决策树的可解释性使其在医疗诊断、金融风控等对透明度要求高的领域至今不可替代，XGBoost和LightGBM仍是Kaggle竞赛的常胜算法。

天气?

晴 → 去

雨 → 风?

大 → 不去

小 → 去

成型期（1990s–2000s初）

统计学习的黄金时代：SVM统治十年

机器学习从符号推理向统计方法转型。SVM等统计学习方法在精度和理论上占据上风，神经网络再次进入相对低谷期。但LSTM为神经网络保留了序列处理的火种。

1995支持向量机 SVM

瓦普尼克（Vapnik）提出SVM，以其优美的数学理论统治机器学习近十年。寻找最大间隔分类超平面：

$$\min_{w,b} \frac{1}{2}||w||^2 \quad \text{s.t.} \quad y_i(w^T x_i + b) \geq 1$$

核技巧（Kernel Trick）：通过核函数将数据映射到高维空间，使非线性问题线性可分：

$$K(x_i, x_j) = \varphi(x_i)^T \varphi(x_j)$$

几何本质：SVM寻找的是一个最大间隔超平面。在二维平面上，两类数据点之间存在无数条分割线，SVM选择使最近样本到直线的距离（间隔）最大的那一条。优化目标 $\min_{w,b} \frac{1}{2}\|w\|^2$ 约束 $y_i(w^T x_i + b) \geq 1$ 的数学含义是：让超平面的"法向量长度"最小（即间隔 $2/\|w\|$ 最大），同时保证所有样本被正确分类且距离边界至少为 $1/\|w\|$。这是一个标准的二次规划问题。

● ● ● ●

● ●

虚线 = 支持向量边界

中间实线 = 最优超平面
间隔越大，泛化能力越强

1997长短期记忆网络 LSTM

Hochreiter和Schmidhuber提出LSTM，通过三个门控机制控制信息流动，有效解决RNN的梯度消失问题。

遗忘门（决定丢弃多少旧信息）：

$$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$$

输入门（决定存入多少新信息）：

$$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$$

输出门（决定输出什么）：

$$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$$

数学结构：LSTM通过三个 sigmoid 门控函数（取值范围 $[0,1]$）控制信息流动。遗忘门 $f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$ 决定保留多少旧记忆（$f_t \approx 1$ 全保留，$f_t \approx 0$ 全丢弃）；输入门 $i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$ 决定写入多少新信息；输出门 $o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$ 决定读出多少内容。细胞状态的更新公式 $C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$ 是线性组合，梯度可以沿这条恒等连接的加法路径直接回流，避免了传统RNN的梯度消失问题。

现代应用：LSTM 仍是序列建模的重要工具，广泛应用于语音识别（Siri、Alexa 等语音助手）、机器翻译（早期 Google 翻译核心）、时间序列预测（股价、气象）、手写识别和音乐生成。在 Transformer 出现前，LSTM 是 NLP 和语音领域的主流架构，至今在资源受限的边缘设备上仍有应用。

旧记忆 C_t-1

↓

× 遗忘门

+ 输入门

↓

新记忆 C_t

↓ × 输出门

输出 h_t

1997AdaBoost

Freund和Schapire提出AdaBoost，开创Boosting集成学习范式。将多个弱学习器按顺序训练，每个新学习器重点关注前面分类错误的样本，最终加权组合成强学习器。

$$D_{t+1}(i) = \frac{D_t(i) \exp(-\alpha_t y_i h_t(x_i))}{Z_t}$$

后来的XGBoost、LightGBM都是其精神继承者。

现代应用：AdaBoost 的核心思想——提升弱学习器——直接催生了 XGBoost 和 LightGBM，后者仍是 Kaggle 竞赛和工业界的常胜算法。Viola-Jones 人脸检测器（基于 AdaBoost）是早期数码相机和 OpenCV 人脸检测的标准方法。

弱学习器①

标记错误样本 ↓

弱学习器②（关注错误）

标记错误样本 ↓

弱学习器③

↓ 加权组合 ↓

强学习器

2001随机森林 Random Forest

Breiman提出随机森林，通过Bagging策略集成多棵决策树：

$$\hat{y} = \frac{1}{B} \sum_{b=1}^{B} T_b(x)$$

每棵树从训练集中有放回地随机抽取样本（Bootstrap），每个节点分裂时只考虑随机子集中的特征。通过随机性降低过拟合，泛化能力显著提升。

现代应用：随机森林因其可解释性强、训练速度快、对异常值不敏感，广泛应用于金融风控（欺诈检测）、医疗诊断（疾病预测）、推荐系统和特征重要性分析。在需要模型可解释性的监管行业（银行、保险）中，随机森林仍是首选算法之一。

树①
随机样本A
随机特征X

树②
随机样本B
随机特征Y

树③
随机样本C
随机特征Z

↓ 投票 / 平均 ↓

最终预测

爆发期（上）：深度学习革命

2006 – 2014

三大驱动力交汇，深度学习从边缘走向中心。算法创新 + 海量数据 + GPU算力爆发，共同推动了深度学习从实验室走向产业基石。

2006深度信念网络 DBN

辛顿（Hinton）和Salakhutdinov在《Science》发表文章，提出DBN，开启深度学习浪潮。核心思想是逐层贪婪预训练——先用RBM对每一层进行无监督预训练，再用BP进行全局微调。

DBN首次证明深层网络可以有效训练，打破了"神经网络只能浅层"的固有认知。

现代应用：DBN 的逐层预训练思想为后续深度学习的发展指明了方向，但其本身已被端到端训练取代。如今，无监督预训练的思想以自监督学习（如 BERT 的掩码预测、GPT 的自回归）的形式重生，成为大语言模型的核心训练范式。

输入层

↑ RBM预训练

隐藏层①

↑ RBM预训练

隐藏层②

↑ RBM预训练

隐藏层③

↓ BP全局微调 ↓

输出层

2010ReLU 激活函数

ReLU被广泛应用于深层网络，有效缓解梯度消失问题：

$$f(x) = \max(0, x)$$

计算简单，梯度在正区间恒为1不会饱和，加速训练收敛，成为现代神经网络的标配。

现代应用：ReLU 是现代几乎所有深度神经网络（CNN、Transformer、ResNet 等）的默认激活函数。其变体——Leaky ReLU、GELU（BERT/GPT 使用）、Swish（Google 搜索）——在各自场景下进一步优化了非线性表达能力。

ReLU

x<0 → 0

x≥0 → x

Sigmoid

两端饱和

梯度→0

ReLU避免梯度消失，训练深层网络更快

2012AlexNet 与 CNN

辛顿团队提出AlexNet，在ImageNet图像分类竞赛中以压倒性优势获胜，错误率从26.2%骤降至15.3%。

数学操作：CNN 的核心是卷积运算。用一个小矩阵（卷积核/滤波器 $K$）在图像上滑动，每到一个位置计算逐元素乘积之和：$(I * K)(i,j) = \sum_m \sum_n I(i+m, j+n) \cdot K(m,n)$。这相当于用核函数对图像的局部区域做加权平均。第一层核学习检测边缘（如垂直/水平梯度），第二层把边缘组合成纹理，第三层把纹理组合成部件——每一层都在前一层的基础上做更高层次的特征组合。参数共享（同一个核遍历整张图）和局部连接使参数量远小于全连接网络。

8层深度卷积神经网络，结合ReLU激活、Dropout正则化和GPU并行训练，标志着深度学习在计算机视觉中的重大突破。

现代应用：CNN 是计算机视觉的基石架构，广泛应用于医学影像分析（肿瘤检测、X光诊断）、自动驾驶（车道线检测、障碍物识别）、工业质检（缺陷检测）、安防监控（人脸识别、行为分析）和遥感图像解译。

原始图像

↓ 卷积+池化

边缘 / 线条

↓ 卷积+池化

纹理 / 图案

↓ 卷积+池化

部件 / 形状

↓ 全连接

类别预测

2013Word2Vec

Tomas Mikolov等人提出Word2Vec，通过神经网络学习单词的分布式向量表示：

$$\vec{king} - \vec{man} + \vec{woman} \approx \vec{queen}$$

两种架构：CBOW（用上下文预测中心词）和 Skip-gram（用中心词预测上下文）。证明了神经网络可以学习语言的语义结构，为BERT、GPT等预训练语言模型铺平了道路。

Latent Space（潜在空间）：Word2Vec 学到的词向量空间本身就是一个 latent space——一个低维、连续、结构化的表示空间。在这个空间中，每个词是一个点，语义相近的词距离近，语义关系表现为向量运算（"国王 - 男人 + 女人 ≈ 女王"）。

Latent Space 的历史脉络：1901 年 PCA 首次提出降维思想，将高维数据投影到低维空间；1980s 自编码器用神经网络学习压缩表示；2013 年 Word2Vec 证明离散符号（词）也可以映射到连续向量空间，且保留语义结构；同年 VAE 将概率引入潜在空间；2014 年 GAN 从潜在空间采样生成图像；2022 年 Stable Diffusion 在潜在空间而非像素空间进行扩散，效率提升 10 倍。Latent space 已成为现代 AI 的通用语言——从词向量到图像生成，本质都是"在高维数据与低维语义之间建立桥梁"。

现代应用：Word2Vec 开创的词嵌入思想仍是现代 NLP 的基础。其应用场景包括搜索引擎（语义查询扩展）、推荐系统（商品/内容相似度计算）、知识图谱构建和情感分析。虽然被 BERT 等上下文嵌入超越，但在轻量级应用中仍广泛使用。

CBOW

上下文

↓ 预测 ↓

中心词

Skip-gram

中心词

↓ 预测 ↓

上下文

2013变分自编码器 VAE

Kingma和Welling提出VAE，将概率图模型与神经网络结合。学习潜在变量 $z$ 的后验分布，通过ELBO优化：

$$\mathcal{L}(\theta, \phi; x) = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x) \| p(z))$$

其中第一项是重构损失，第二项是KL散度正则化。VAE的潜在空间连续且结构化，适合插值生成和表示学习。

Latent Space 的概率化：VAE 将 Word2Vec 的"确定性向量"升级为"概率分布"。编码器输出均值 $\mu$ 和方差 $\sigma^2$，定义了潜在空间中的一个高斯分布 $q_\phi(z|x) = \mathcal{N}(z; \mu, \sigma^2)$。采样得到的 $z$ 就是这个分布中的一个点。KL 散度项 $D_{KL}(q_\phi(z|x) \| p(z))$ 强制潜在空间接近标准正态分布 $p(z) = \mathcal{N}(0,I)$，确保空间全局连续、局部平滑——任意两个点之间的插值都有意义。这是 VAE 相比传统自编码器的核心创新：不仅压缩数据，还学会了数据的生成规律。

现代应用：VAE 广泛应用于图像生成与编辑（人脸合成、风格迁移）、异常检测（工业设备故障预警）、数据压缩和药物分子生成。其概率编码思想也为后续扩散模型和流模型的发展奠定了基础。

输入 x

↓ 编码器

μ(均值)

σ(方差)

↓ 采样 z

潜在变量 z

↓ 解码器

重构 x̂

2014生成对抗网络 GAN

Ian Goodfellow提出GAN，开创生成模型新范式。生成器 $G$ 从潜在空间（latent space）采样低维噪声 $z$，学习将其映射到数据空间；判别器 $D$ 判断样本真假。两者的 minimax 博弈：

$$\min_G \max_D V(D,G) = \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]$$

数学博弈：GAN 是一个双人零和博弈。生成器 $G$ 的目标是最小化 $\log(1 - D(G(z)))$，即让判别器把假样本判为真；判别器 $D$ 的目标是最大化 $\log D(x) + \log(1 - D(G(z)))$，即正确区分真假。两者形成 minimax 优化：$\min_G \max_D V(D,G)$。在理论上，当 $G$ 学到真实数据分布 $p_{data}$ 时，$D$ 无法区分真假（对所有样本输出 0.5），此时达到纳什均衡。

Latent Space 的生成视角：GAN 的生成器 $G(z)$ 本质上是一个从 latent space 到数据空间的映射函数。$z$ 通常是从简单分布（如标准正态 $\mathcal{N}(0,I)$）中采样的低维向量，$G$ 将它转换为高维图像。在 latent space 中移动 $z$，数据空间中的图像会平滑变化——这意味着 GAN 不仅学会了生成，还学到了数据的语义流形（semantic manifold）。StyleGAN 更进一步，将 latent space 解耦为风格层，实现对生成图像的精细控制。

让AI从"识别世界"迈向"创造世界"，催生了图像生成、风格迁移等大量应用。

现代应用：GAN 催生了图像合成、风格迁移（Prisma）、超分辨率（老照片修复）、数据增强和深度伪造检测等应用。StyleGAN 生成的高清人脸图像已难辨真假；CycleGAN 实现了无配对的图像风格转换。

生成器 G

噪声 z

↓

假样本

判别器 D

真/假

↓

概率

对抗博弈 → 共同进化

G目标：骗过D ｜ D目标：识破G

爆发期（中）：注意力革命

2015 – 2017

Transformer用自注意力重新定义序列建模，GNN让AI开始理解关系与结构。这一时期奠定了大模型时代的技术底座。

2014–15Seq2Seq + Attention

Sutskever、Bahdanau等人提出Seq2Seq架构并引入Attention机制。Seq2Seq用Encoder将输入序列编码为上下文向量，再用Decoder生成输出序列。

Attention让Decoder在每一步都动态关注输入序列的不同部分，是Transformer的直接前身，彻底改变了序列建模的范式。

端到端学习（End-to-End Learning）：在 Seq2Seq 之前，机器翻译是典型的多模块流水线：语音识别 → 分词 → 词性标注 → 句法分析 → 人工编写翻译规则 → 目标语言生成。每个模块独立设计、独立优化，错误在模块间逐级累积，系统复杂且难以调优。

Seq2Seq 的 radical 创新在于端到端：输入原始序列（如英文句子），直接输出目标序列（如中文句子），中间没有任何人工设计的中间模块。Encoder 和 Decoder 是一个统一的神经网络，用反向传播端到端地联合训练。这彻底改变了 AI 系统的设计哲学——从"人工设计特征 + 组合多个专家模块"转向"数据驱动 + 神经网络自动学习全部表示"。CNN 让图像识别端到端，Seq2Seq 让序列转换端到端，Transformer 则让几乎所有任务都能端到端。

现代应用：Seq2Seq+Attention 是早期机器翻译（Google Neural Machine Translation）、语音识别和文本摘要的核心架构。虽然其地位已被 Transformer 取代，但编码器-解码器框架和注意力对齐思想仍是现代序列生成模型的设计基础。

输入序列

↑ 权重分配 ↑

高低低高

↓ 加权求和 ↓

当前输出词

每个输出词"盯"输入的不同位置

2015残差网络 ResNet

何恺明等人提出ResNet，通过跳跃连接成功训练152层甚至更深的网络：

$$y = \mathcal{F}(x, \{W_i\}) + x$$

网络不再需要直接学习 $y = \mathcal{F}(x)$，而是学习残差 $y - x$。残差连接让梯度可以直接回传，缓解了梯度消失，解决了深层网络的退化问题。

历史意义：ResNet在ImageNet 2015上夺冠，开启了"越深得越好"的时代。

现代应用：ResNet 仍是当今计算机视觉的标准骨干网络（backbone）——几乎所有视觉系统（人脸识别的 FaceNet、目标检测的 Faster R-CNN、图像分割的 U-Net/DeepLab、自动驾驶感知系统）都以 ResNet-50/101/152 为基础架构提取特征。更重要的是，残差连接已成为所有现代深度网络的标配组件：Transformer 的每一层都是"自注意力 + 残差连接 + LayerNorm"，扩散模型（Stable Diffusion）、生成模型（StyleGAN）和语音识别系统都依赖残差连接来训练深层网络。没有残差连接，就没有今天的深度学习和 GPT。

输入 x

卷积层

↓ 学习残差

x 直连

输出 y = F(x) + x

恒等映射捷径让梯度畅通无阻

2015Batch Normalization

通过对每一层的输入进行归一化，加速训练收敛并允许使用更高的学习率：

$$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}, \quad y_i = \gamma \hat{x}_i + \beta$$

其中 $\mu_B$ 和 $\sigma_B^2$ 是小批量数据的均值和方差，$\gamma$ 和 $\beta$ 是可学习的缩放和平移参数。迅速成为深度网络的标准组件。

现代应用：BatchNorm 是现代深度网络的标配组件，几乎所有主流架构（ResNet、VGG、EfficientNet）都使用它。后续发展出 LayerNorm（Transformer 使用）、GroupNorm 和 InstanceNorm，分别适用于不同任务场景。

原始输入

↓ 减均值

中心化

↓ 除标准差

标准化

↓ γ缩放 + β平移

可学习分布

2015–16AlphaGo

DeepMind的AlphaGo击败围棋世界冠军李世石，系统架构包括：

策略网络：学习人类棋手的走棋策略
价值网络：评估当前局面的胜率
蒙特卡洛树搜索（MCTS）：结合神经网络评估进行高效搜索

后续AlphaGo Zero完全通过自我对弈学习，不再依赖人类棋谱，证明了自我博弈在复杂策略学习中的威力。

现代应用：AlphaGo 的神经网络+蒙特卡洛树搜索范式已被推广到更广泛的领域：游戏 AI（StarCraft II、Dota 2）、组合优化（芯片布局、物流调度）、药物发现（分子生成）和蛋白质折叠预测（AlphaFold）。

策略网络
直觉走棋

价值网络
胜率评估

↓ 指导 ↓

MCTS 树搜索

↓ 推演百万步 ↓

最优落子

2017Transformer 自注意力

Google提出Transformer，完全摒弃循环和卷积，依赖自注意力捕捉全局依赖：

$$\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

数学本质：Attention 的核心是加权平均。给定查询矩阵 $Q$、键矩阵 $K$、值矩阵 $V$，先计算相似度分数 $S = QK^T / \sqrt{d_k}$，再用 softmax 归一化为权重 $A = \text{softmax}(S)$，最后输出加权求和 $\text{Attention}(Q,K,V) = AV$。每个输出位置都是所有输入位置的线性组合，权重由"查询-键"的相似度决定。$\sqrt{d_k}$ 是缩放因子，防止内积值过大导致 softmax 梯度消失。多头注意力（Multi-Head）则是并行计算多组 $Q,K,V$，让模型同时捕捉不同类型的依赖关系。

与 RNN 的复杂度对比：RNN/LSTM 每个时间步只依赖前一时刻的隐藏状态 $h_{t-1}$，计算量为 $O(n)$，但必须顺序计算，无法并行。Transformer 的自注意力需要计算所有位置对的相似度，矩阵 $QK^T$ 的大小是 $n \times n$，时间复杂度和空间复杂度均为 $O(n^2)$——当序列长度 $n$ 从 1K 增加到 100K 时，计算量从 $10^6$ 暴增到 $10^{10}$。这正是 Transformer 的致命弱点：短序列下 GPU 并行优势显著，长序列下 $O(n^2)$ 成为不可承受的负担。此外，Transformer 需要显式的位置编码（Positional Encoding）来注入顺序信息，而 RNN 天然具备序列记忆。RNN 的梯度消失问题被 LSTM 门控缓解，但 Transformer 用残差连接和自注意力彻底绕开了这一问题——代价是平方复杂度。

多头注意力：并行使用多组QKV投影，同时关注句法、语义、指代等不同关系。催生了BERT、GPT系列，成为大语言模型的标准骨架。

现代应用：Transformer 是大语言模型（GPT、Claude、LLaMA）和视觉模型（ViT、Swin Transformer）的统一骨架。其自注意力机制也是多模态模型（CLIP、DALL·E）和代码生成模型（GitHub Copilot）的核心组件。

查询

索引

内容

Q × K^T → Softmax → × V

加权输出

每个位置 = 全序列的加权平均
权重由相似度决定

2017图卷积网络 GCN

Kipf和Welling提出GCN，通过消息传递机制让神经网络处理非欧关系数据：

$$h_v^{(l+1)} = \sigma\left(\sum_{u \in \mathcal{N}(v)} W^{(l)} h_u^{(l)}\right)$$

数学操作：GCN 的消息传递公式为 $h_v^{(l+1)} = \sigma(\sum_{u \in N(v)} W^{(l)} h_u^{(l)})$。每个节点 $v$ 在第 $l+1$ 层的特征，是它所有邻居节点 $N(v)$ 在第 $l$ 层特征的线性变换之和，再通过激活函数 $\sigma$。这本质上是图上的局部平均操作——每一层聚合距离为1的邻居信息，$k$ 层后每个节点感受野扩展到距离为 $k$ 的邻居。与图像卷积（规则网格）不同，图卷积处理的是任意拓扑结构的关系数据。

图结构上的消息传递：Message → Aggregate → Update

分子作为图：原子为节点，化学键为边

开创了图神经网络的新方向，应用于社交网络、分子结构、知识图谱等领域。

现代应用：GCN 及其后续变体（GraphSAGE、GAT）广泛应用于社交网络分析（好友推荐、社区发现）、推荐系统（PinSage 用于 Pinterest）、药物发现（分子性质预测）、知识图谱推理和交通流量预测。

目标节点

↑ 收集 ↑

邻居A 邻居B 邻居C

↑ 再收集 ↑

二阶邻二阶邻

多层传播 = 扩大"感受野"

爆发期（下）：大模型时代

2018 – 2025

预训练+微调范式确立，架构创新持续涌现——大模型成为AI新基础设施。参数从1750亿到6710亿，但MoE让激活参数仅370亿，实现"大智慧"与"高效率"的平衡。

2018BERT / GPT：预训练+微调范式

Google发布BERT，OpenAI发布GPT-1，预训练+微调范式确立：先用大规模无标注数据进行自监督预训练，再用下游任务的少量标注数据进行微调。大幅提升了NLP各项任务的性能。

两阶段训练：预训练阶段在大规模无标注语料上进行自监督学习——BERT 用"掩码语言模型"（随机遮住15%的词，让模型预测被遮住的词），GPT 用"自回归语言模型"（给定前 $t$ 个词，预测第 $t+1$ 个词）。两个阶段的目标函数都是最大化条件概率的对数似然。微调阶段在下游任务的标注数据上继续训练，由于预训练已经学到了语言的通用表示，微调只需要少量样本就能达到很好的效果。这就是迁移学习：把从大数据中学到的知识迁移到小数据任务上。

现代应用：预训练+微调范式是当代 NLP 工业标准。BERT 用于搜索引擎（Google 搜索理解）、智能客服、文本分类和命名实体识别；GPT 系列用于内容创作、对话系统和代码生成。该范式也已扩展到视觉（MAE）和多模态领域。

BERT

← 双向 ←

[MASK]

填词预测

GPT

→ 单向 →

上文...

续写下文

2020GPT-3

OpenAI发布GPT-3（1750亿参数），展示了上下文学习（In-context Learning）能力——无需微调，仅通过提示（Prompt）中的几个示例就能完成新任务。

条件概率推断：GPT-3 的上下文学习本质是贝叶斯推断。模型在预训练时学会了语言的概率分布 $P(x)$，当给定提示中的几个示例 $(x_1, y_1), (x_2, y_2)$ 时，它实际上在计算条件概率 $P(y_3 | x_3, x_1, y_1, x_2, y_2)$。由于参数量足够大，模型在训练数据中见过足够多的"示例→规律→应用"模式，因此能直接从上下文中提取隐含的映射关系，无需梯度更新。这展示了大规模模型强大的少样本泛化能力。

现代应用：GPT-3 及其后续模型（GPT-4、Claude）已成为通用 AI 基础设施，应用场景包括：内容创作（文案、小说）、代码生成（GitHub Copilot）、智能客服、教育辅导、法律文档分析和数据分析报告生成。API 调用量已达数十亿次/天。

示例①：猫 → cat

示例②：狗 → dog

↓ 推理规则 ↓

问题：鸟 → ?

↓ 无需训练 ↓

回答：bird

2021视觉Transformer ViT

Dosovitskiy等人提出ViT，将图像分割为Patches视为Token，直接用Transformer处理视觉任务：

$$\text{图像} \rightarrow \text{Patches} \rightarrow \text{Tokens} \rightarrow \text{Transformer}$$

数学操作：ViT 把 $H \times W$ 的图像切成 $N$ 个 $P \times P$ 的 patch（如 $16 \times 16$），每个 patch 拉平为向量 $x_p \in \mathbb{R}^{P^2 \cdot C}$，再通过线性投影映射到 $D$ 维嵌入空间。这样图像就变成了一组 $N$ 个 $D$ 维向量——和 NLP 中的"词向量序列"结构完全一致。加上位置编码后，直接用标准 Transformer Encoder 处理。这证明了自注意力机制是通用的序列建模工具，不限于文本。

打破了CNN在计算机视觉领域长达十年的垄断，证明通用架构可以跨越文本/图像模态。

现代应用：ViT 已成为计算机视觉的新标准，广泛应用于医学影像分析（病理切片分类）、遥感图像解译、自动驾驶感知系统和工业视觉检测。其统一架构也推动了多模态大模型（如 GPT-4V）的发展。

4×4 = 16个Patches
每个Patch = 一个Token

2022ChatGPT 与 RLHF

OpenAI发布ChatGPT，引入基于人类反馈的强化学习（RLHF），三阶段流程：

SFT（监督微调）：用高质量对话数据教模型基本对话格式
奖励模型：收集人类偏好排序，训练模型预测"人类更喜欢哪个回答"
PPO强化学习：最大化奖励评分，让输出对齐人类价值观

三阶段优化：第一阶段 SFT（监督微调）用高质量对话数据训练模型，让模型学会基本的回答格式。第二阶段训练奖励模型 $r_\phi(x,y)$：收集同一问题的多个回答，让人类排序，用 Bradley-Terry 模型 $p^*(y_1 \succ y_2 | x) = \frac{\exp r^*(x,y_1)}{\exp r^*(x,y_1) + \exp r^*(x,y_2)}$ 学习人类偏好。第三阶段用 PPO 强化学习最大化期望奖励 $\mathbb{E}[r_\phi(x,y)] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$，同时用 KL 散度约束新策略不要偏离原始模型太远。

现代应用：RLHF 是 ChatGPT、Claude 等对话模型价值观对齐的核心技术。应用场景包括：AI 助手（ChatGPT、Claude）、内容安全审核、教育辅导、心理咨询辅助和创意写作。DPO 等改进算法进一步降低了 RLHF 的实现门槛。

2022–24扩散模型与MoE

扩散模型通过前向加噪和反向去噪实现高质量生成。Stable Diffusion、DALL·E 3、Sora将生成推向图像和视频时代。

潜在扩散模型（Latent Diffusion）的核心洞察：直接在像素空间（如 $512 \times 512 \times 3$ = 786,432 维）进行扩散计算量巨大。Stable Diffusion 先用 VAE 将图像压缩到 latent space（如 $64 \times 64 \times 4$ = 16,384 维，压缩比 48×），然后在低维潜在空间中进行扩散和去噪。这让训练和推理速度提升约 10 倍，同时保持生成质量。Latent space 在这里既是压缩表示，也是生成战场。

MoE（混合专家模型）让模型拥有海量参数却只激活少量专家：

$$y = \sum_{i=1}^{N} G(x)_i \cdot E_i(x)$$

其中 $G$ 是门控网络，$E_i$ 是第 $i$ 个专家网络。DeepSeek-V3拥有6710亿总参数，但仅激活约370亿，实现了"大智慧"与"高效率"的平衡。

MoE混合专家模型架构：Token经Router路由到Top-K专家，共享专家始终激活

扩散模型：前向过程按马尔可夫链逐步给图像加高斯噪声：$\small q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t I)$。训练神经网络学习逆向去噪：$\small p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t,t), \Sigma_\theta(t))$。损失函数是预测噪声与真实噪声的均方误差。推理时从纯噪声 $\small x_T \sim \mathcal{N}(0,I)$ 出发，逐步去噪还原出图像。

MoE：混合专家模型的输出是 $\small y = \sum_{i=1}^N G(x)_i \cdot E_i(x)$，其中 $G$ 是门控网络（softmax 输出的概率分布），$E_i$ 是第 $i$ 个专家网络。每次前向传播只激活 Top-K 个专家（如 K=2），但模型拥有 $N$ 个专家的总参数量。这实现了"总容量巨大、单次计算量小"的效果。

现代应用：扩散模型驱动了 Stable Diffusion、Midjourney、DALL·E 3 等图像生成工具，以及 Sora 等视频生成系统。MoE 架构被用于 GPT-4、Mixtral 和 DeepSeek-V3 等大模型，在保持推理成本可控的前提下大幅扩展模型容量。

2024Mamba 状态空间模型

Mamba提出选择性状态空间模型，挑战Transformer的统治地位：

$$h_t = \bar{A}h_{t-1} + \bar{B}x_t, \quad y_t = Ch_t$$

复杂度对比：Transformer 的自注意力需要计算所有位置对的相似度，矩阵 $QK^T$ 的大小是 $n \times n$，时间复杂度为 $O(n^2)$，空间复杂度也是 $O(n^2)$。当序列长度 $n$ 从1千增加到10万时，计算量从 $10^6$ 暴增到 $10^{10}$。

Mamba 的选择性状态空间模型把序列建模转化为递推问题：$h_t = \bar{A}_t h_{t-1} + \bar{B}_t x_t$，$y_t = C_t h_t$。每个时间步只依赖前一时刻的状态 $h_{t-1}$，时间复杂度为 $O(n)$，空间复杂度为 $O(1)$（只需维护一个固定大小的状态向量）。这从根本上解决了长序列的复杂度瓶颈。

矩阵 $\bar{A}, \bar{B}, C$ 依输入动态计算——选择性记住/遗忘，在长序列场景下效率优势显著。

现代应用：Mamba 在长序列建模场景下展现出潜力，已应用于基因组学（DNA 序列分析）、长文档处理、音频建模和高分辨率图像处理。其线性复杂度特性使其成为 Transformer 在长序列场景下的有力竞争者。

Transformer

O(n²)

全连接注意力
序列长→爆炸

Mamba

O(n)

状态转移
线性增长

n=10万时，n²=100亿 vs n=10万
10000倍效率差距

算法脉络：从历史中读懂未来

七十余年的算法演进不是随机跳跃，每一次突破都回应了上一次的核心挑战

年份	算法	回答的核心问题
1943	M-P神经元	如何用数学模型描述生物神经元？
1957	感知机	机器能否从数据中学习权重？
1981	反向传播	如何训练多层神经网络？
1995	SVM	如何在理论上保证泛化能力？
1997	LSTM	如何让神经网络记住长期信息？
2012	AlexNet/CNN	深度+数据+算力如何重新定义视觉？
2013	VAE	如何学习数据的概率分布并生成新样本？
2014	GAN	机器能否通过对抗学习创造数据？
2015	ResNet	如何训练数百层的超深网络？
2017	Transformer	如何用统一架构处理序列数据？
2022	扩散模型	生成式模型何时进入实用化时代？
2022	RLHF	大模型如何对齐人类价值观？
2024	Mamba	如何突破Transformer的长序列复杂度瓶颈？

两条路线：判别式 vs 生成式

🔍 判别式模型 Discriminative

建模目标：学习条件概率 $P(Y|X)$，直接建模从输入到输出的决策边界。

核心思想："给定数据，判断它是什么"——专注于区分不同类别。

代表算法：SVM、CNN、RNN、BERT、GPT（作为条件生成器时也属此类）

典型任务：图像分类、目标检测、文本分类、语义分割、情感分析

✨ 生成式模型 Generative

建模目标：学习联合概率 $P(X,Y)$ 或边缘概率 $P(X)$，建模数据的生成机制。

核心思想："理解数据的本质，创造新的样本"——学习数据的底层分布。

代表算法：VAE、GAN、扩散模型、GPT（作为无条件生成器时）

典型任务：图像生成、风格迁移、超分辨率、文本生成、数据增强

生成式模型的成熟时间线

2013年前——判别式主导：机器学习以判别式为主流。SVM、CNN、RNN、BERT 等算法专注于"识别"和"分类"，生成式模型仅限于简单的高斯混合模型和朴素贝叶斯。

2013–2014——生成式觉醒：VAE 将神经网络与概率图模型结合，首次实现了高质量的连续潜在空间；GAN 通过对抗博弈开辟了全新的生成范式。生成式模型从理论走向实践。

2022年——生成式成熟：扩散模型（Stable Diffusion、DALL·E 2）让图像生成达到商用级别；ChatGPT 展示了大语言模型的文本生成能力。生成式模型正式从实验室走向大众。

2024年——两者融合：GPT-4o、Gemini 等模型同时具备强大的理解（判别）和创造（生成）能力，判别式与生成式的界限逐渐模糊，统一的多模态架构成为新趋势。

核心规律：感知机线性局限 → BP训练多层 | RNN遗忘问题 → LSTM门控 | CNN专用性 → Transformer通用架构 | 梯度消失 → ResNet跳跃连接 | Transformer $O(n^2)$ → Mamba $O(n)$

🎯

后训练时代

预训练边际效益递减，强化学习在后训练中赋予模型自我进化能力。长上下文建模、推理增强（CoT/Long CoT）、高效架构（MoE、Mamba）成为新主战场。

Bradley-Terry 奖励模型： $$p^*(y_1 \succ y_2 \mid x) = \frac{\exp\,r^*(x,y_1)}{\exp\,r^*(x,y_1) + \exp\,r^*(x,y_2)}$$ PPO 对齐目标（带 KL 惩罚）： $$\max_{\pi_\theta}\; \mathbb{E}_{x\sim D,\,y\sim\pi_\theta(y|x)}\big[r_\phi(x,y)\big] - \beta\,D_{\mathrm{KL}}\big[\pi_\theta(y|x)\,\|\,\pi_{\mathrm{ref}}(y|x)\big]$$

关键论文：Ouyang et al. "Training language models to follow instructions with human feedback" (NeurIPS 2022, InstructGPT); Rafailov et al. "Direct Preference Optimization" (NeurIPS 2023, DPO).

SFT 监督微调

↓

RM 奖励模型训练

↓

PPO/DPO 强化对齐

三阶段：先学对话 → 再学偏好 → 最后对齐人类

👁️

原生多模态

从拼接式到原生多模态，AI正在建立跨模态的统一语义空间。GPT-4o、Gemini 3.0端到端统一建模，Sora、DiT架构成为视频生成主流。

CLIP 对比学习损失（对称交叉熵）： $$\mathcal{L}_{\mathrm{CLIP}} = -\frac{1}{2N}\sum_{i=1}^{N}\Big[\underbrace{\log\frac{e^{\langle I_i,T_i\rangle/\tau}}{\sum_j e^{\langle I_i,T_j\rangle/\tau}}}_{\text{image}\to\text{text}} + \underbrace{\log\frac{e^{\langle I_i,T_i\rangle/\tau}}{\sum_j e^{\langle I_j,T_i\rangle/\tau}}}_{\text{text}\to\text{image}}\Big]$$ DiT 潜空间去噪（预测噪声）： $$\mathcal{L}_{\mathrm{DiT}} = \mathbb{E}_{t,\,x_0,\,\varepsilon}\big[\|\varepsilon - \varepsilon_\theta(x_t,t)\|^2\big]$$

关键论文：Radford et al. "Learning Transferable Visual Models From Natural Language Supervision" (ICML 2021, CLIP); Peebles & Xie "Scalable Diffusion Models with Transformers" (ICCV 2023, DiT).

🤖

具身智能

AI从"数字大脑"到"物理身体"的范式跃迁。VLA模型（RT-2/RT-X）实现感知—认知—行动闭环，2025年人形机器人量产元年。

RT-2 动作 Token 化表示： $$\text{action} = [\underbrace{\text{terminate}}_{\text{终止标志}},\,\underbrace{\Delta x,\Delta y,\Delta z}_{\text{位置}},\,\underbrace{\Delta\theta_x,\Delta\theta_y,\Delta\theta_z}_{\text{旋转}},\,\underbrace{g}_{\text{夹爪}}]$$ Co-finetuning 目标（VLA 统一训练）： $$\mathcal{L} = \mathcal{L}_{\mathrm{VQA}} + \lambda\,\mathcal{L}_{\mathrm{robot}}$$

关键论文：Brohan et al. "RT-2: Vision-Language-Action Models" (CoRL 2023, Google DeepMind); OpenVLA Team "An Open-Source Vision-Language-Action Model" (2024).

🌍

世界模型

让AI学习环境动态规律，建立内部"世界模拟器"。Sora路径（像素级生成）vs JEPA路径（抽象表征预测），从统计预测迈向因果推理。

JEPA 表征空间预测（LeCun 2022）： $$\mathcal{L}_{\mathrm{JEPA}} = \big\|s_y - \mathrm{Pred}\big(s_x\big)\big\|^2$$ 扩散模型 DDPM 去噪目标： $$\mathcal{L} = \mathbb{E}_{t,\,x_0,\,\varepsilon}\Big[\big\|\varepsilon - \varepsilon_\theta(\sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\,\varepsilon,\,t)\big\|^2\Big]$$

关键论文：LeCun "A Path Towards Autonomous Machine Intelligence" (2022, JEPA); Rombach et al. "High-Resolution Image Synthesis with Latent Diffusion Models" (CVPR 2022, LDM); Brooks et al. "Video generation models as world simulators" (OpenAI, 2024, Sora).

🎬 Sora vs 🧠 JEPA：两条世界模型路径的系统对比

Sora 路径（生成派）

核心哲学：生成即理解——能逼真生成视频，说明模型掌握了物理规律

建模空间：像素空间（高维，如 1920×1080×3）

学习信号：扩散去噪（重建损失）

预测目标：生成下一帧/下一段视频 $x_{t+1}$

物理理解：隐式、统计相关

可解释性：低（黑盒生成）

计算成本：极高（像素级扩散，推理分钟级）

典型场景：视频生成、内容创作

JEPA 路径（预测派）

核心哲学：预测即理解——能在抽象空间准确预测未来，说明掌握了因果

建模空间：表征/latent 空间（低维抽象）

学习信号：自监督预测（表征差异最小化）

预测目标：预测下一状态表征 $z_{t+1} = f_\phi(z_t)$

物理理解：显式、因果结构

可解释性：高（可拆解因果链）

计算成本：低（表征空间预测，推理毫秒级）

典型场景：机器人规划、自动驾驶决策

关键分歧：Sora 认为"能生成就能理解"（类似图灵测试的思路）；JEPA 认为"必须先在抽象空间学会因果，才能可靠行动"（类似人类心智模型的思路）。两条路线并非对立——未来的世界模型可能需要在 latent space 中既能预测因果，又能生成逼真视频。

状态转移学习：世界模型的本质是学习环境的动态方程：$s_{t+1} = f(s_t, a_t) + \epsilon$。给定当前状态 $s_t$ 和动作 $a_t$，模型预测下一状态 $s_{t+1}$。Sora 在像素空间直接建模（视频帧 $x_{t+1} = f_{\theta}(x_t)$），JEPA 在抽象表征空间建模（$z_{t+1} = f_{\phi}(z_t)$）。如果模型能准确预测"推杯子→杯子掉落→破碎"的因果链，就说明它掌握了物理规律。

Latent Space 与世界模型：JEPA 的"表征空间"本质上就是我们一直在讨论的 latent space。回顾 latent space 的演进脉络：Word2Vec 将离散词语映射到连续语义空间，VAE 将概率引入潜在空间，GAN 和扩散模型从 latent space 采样生成图像——而世界模型将 latent space 的用途从"生成"扩展到"理解"：JEPA 在 latent space 中学习物理动态方程 $z_{t+1} = f(z_t)$，让模型掌握"推杯子→掉落→破碎"的因果规律。这意味着 latent space 不仅是压缩和生成的工具，更成为了 AI 理解世界、进行因果推理的认知空间。

像素空间

↓

Sora 路径

↓

视频帧预测

表征空间

↓

JEPA 路径

↓

抽象因果预测

两条路径：像素级生成 vs 抽象表征预测

🧑‍💻

AI智能体

Agent架构赋予AI感知、规划、记忆、工具、行动的闭环能力。ReAct（推理+行动交替）、Reflexion（自我反思）、多智能体协作成为关键框架。

ReAct 循环（推理 → 行动 → 观察）： $$\text{Thought}_t \xrightarrow{\text{生成}} \text{Action}_t \xrightarrow{\text{执行}} \text{Observation}_t \xrightarrow{\text{反馈}} \text{Thought}_{t+1} \;\cdots\; \xrightarrow{} \text{Answer}$$ Reflexion 自我反思更新： $$\text{Memory}_{t+1} = \text{Memory}_t \cup \{\text{Feedback}(\text{Trajectory}_t)\}$$

关键论文：Yao et al. "ReAct: Synergizing Reasoning and Acting in Language Models" (ICLR 2023); Shinn et al. "Reflexion: Self-Reflective Agents with Dynamic Memory" (NeurIPS 2023); Park et al. "Generative Agents" (ACM UIST 2023).

感知环境

→

推理规划

→

调用工具

→

执行行动

→

记忆更新

Agent 闭环：感知→规划→工具→行动→记忆

⏱️

推理时计算扩展

与其无限扩大模型，不如让模型"多思考一会儿"。思维树（ToT）、自洽性、长思维链（Long CoT）在固定模型大小下实现性能跃升。

CoT 自洽性投票（Self-Consistency）： $$\text{answer} = \arg\max_a \sum_{i:\,\text{final}_i=a} 1$$ ToT 搜索框架（Yao et al. 2023）： $$\text{ToT} = \langle \text{Thought Gen},\; \text{State Eval},\; \text{BFS/DFS} \rangle$$

关键论文：Wang et al. "Self-Consistency Improves Chain of Thought Reasoning in LLMs" (ICLR 2023); Yao et al. "Tree of Thoughts: Deliberate Problem Solving with Large Language Models" (NeurIPS 2023); OpenAI "Learning to Reason with LLMs" (o1, 2024).

🔄

合成数据

"数据墙"倒逼合成数据从辅助手段升级为核心基础设施。大模型自举生成、Self-Play自我对弈、物理仿真器三大技术路径。

GAN 生成对抗目标（Goodfellow et al. 2014）： $$\min_G \max_D \,V(D,G) = \mathbb{E}_{x\sim p_{\mathrm{data}}}\big[\log D(x)\big] + \mathbb{E}_{z\sim p_z}\big[\log(1-D(G(z)))\big]$$ Self-Play 迭代提升（AlphaGo Zero）： $$\theta_{t+1} = \theta_t + \eta \nabla_\theta \mathbb{E}_{\pi_{\theta_t}}[R]$$

关键论文：Silver et al. "Mastering the game of Go without human knowledge" (Nature 2017, AlphaGo Zero); Eldan & Li "TinyStories" (2023); Liu et al. "What Makes Good Data for Alignment?" (2024).

真实数据

↓

训练模型

合成数据

↓

迭代增强

合成数据闭环：模型生成→筛选→再训练→更强模型

🔐

神经符号 / XAI

神经网络模式识别 + 符号系统逻辑推理 = 高性能且可解释的AI。注意力可视化、探测分类器、机械可解释性打开黑箱。

Transformer 多头注意力（可解释性基础）： $$\mathrm{Attention}(Q,K,V) = \mathrm{softmax}\Big(\frac{QK^\top}{\sqrt{d_k}}\Big)V$$ 探测分类器（Probing）目标： $$\min_{W_p}\; \mathbb{E}_{h\sim H}\big[\ell(f(W_p\,h),\,y)\big]$$ 其中 $h$ 为隐藏层表征，$W_p$ 为线性探测头，用于检验网络是否编码了某概念。

关键论文：Vaswani et al. "Attention Is All You Need" (NeurIPS 2017); Ghorbani et al. "Towards Automatic Concept-based Explanations" (NeurIPS 2019); Meng et al. "Locating and Editing Factual Associations in GPT" (NeurIPS 2022, ROME).

互补融合：神经网络是连续函数逼近器：$y = f_{\theta}(x)$，擅长从数据中学习复杂模式，但推理过程不透明。符号系统是离散规则引擎：用逻辑公式（如 $\forall x: \text{Cat}(x) \Rightarrow \text{HasFur}(x)$）进行可验证的演绎推理，但难以处理模糊和噪声。神经符号AI把两者结合——神经网络把原始输入（图像、文本）编码为符号表示，符号系统在此基础上做逻辑推理，最后用神经网络把符号结果解码回人类可理解的形式。

未来展望

五大趋势

🏗️

架构多元化

Transformer不再是唯一答案，Mamba、RWKV、混合架构成主流

Mamba 选择性状态空间递推（Gu & Dao 2023）： $$h_t = \bar{A}_t h_{t-1} + \bar{B}_t x_t, \qquad y_t = C_t h_t$$ 复杂度对比： $$\text{Transformer 自注意力: } O(n^2) \quad\text{vs}\quad \text{Mamba SSM: } O(n)$$

关键论文：Gu & Dao "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (2023); Peng et al. "RWKV: Reinventing RNNs for the Transformer Era" (2023).

Transformer

↓

O(n²)

↓

全局注意力

Mamba

↓

O(n)

↓

选择性状态空间

Transformer 全连接注意力 vs Mamba 线性递推

🧠

AGI路径探索

从"规模即一切"到"效率+推理+具身"的综合路线

Kaplan Scaling Laws（OpenAI 2020）： $$L(N,D) = \frac{A}{N^\alpha} + \frac{B}{D^\beta} + E$$ Chinchilla 最优分配（Hoffmann et al. 2022）： $$N_{\mathrm{opt}} \propto C^{0.63}, \quad D_{\mathrm{opt}} \propto C^{0.44}$$

关键论文：Kaplan et al. "Scaling Laws for Neural Language Models" (OpenAI 2020); Hoffmann et al. "Training Compute-Optimal Large Language Models" (DeepMind 2022, Chinchilla).

📱

边缘AI

模型压缩、量化、蒸馏让大模型走向手机与机器人

均匀量化（INT8）： $$x_q = \mathrm{round}\Big(\frac{x - z}{s}\Big), \qquad x \approx s\,(x_q + z)$$ 知识蒸馏损失（Hinton et al. 2015）： $$\mathcal{L}_{\mathrm{distill}} = \alpha\mathcal{L}_{\mathrm{CE}} + (1-\alpha)\tau^2\mathrm{KL}\Big(\mathrm{softmax}\frac{z_T}{\tau},\; \mathrm{softmax}\frac{z_S}{\tau}\Big)$$

关键论文：Hinton et al. "Distilling the Knowledge in a Neural Network" (NeurIPS Workshop 2015); Jacob et al. "Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference" (CVPR 2018).

模型压缩三要素：量化：把 32 位浮点权重映射到 8 位整数 $\small w_q = \text{round}((w-z)/s)$，存储量减少 4 倍，推理用整数运算加速。蒸馏：大模型（教师）输出软标签概率分布 $\small P_T = \text{softmax}(z_T/\tau)$，小模型（学生）学习匹配这个分布，损失函数 $\small \mathcal{L} = \alpha\mathcal{L}_{\text{CE}} + (1-\alpha)\tau^2 \text{KL}(P_T \| P_S)$。剪枝：把权重绝对值小于阈值的连接置零，稀疏矩阵可用特殊格式存储。三种技术可以组合使用。

大模型（云端）

→

蒸馏 / 量化 / 剪枝

→

小模型（端侧）

模型压缩三件套：蒸馏传知识、量化减精度、剪枝砍连接

🔬

AI for Science

AlphaFold改写结构生物学，材料发现、药物设计蓄势待发

AlphaFold2 Evoformer 注意力更新： $$\text{MSA} \xrightarrow{\text{外层注意力}} \text{Pair Repr.} \xrightarrow{\text{三角更新}} \text{Structure}$$ 扩散模型逆向去噪（DDPM）： $$p_\theta(x_t|x_{t+1}) = \mathcal{N}\big(x_t;\; \mu_\theta(x_{t+1},t),\; \Sigma_\theta(t)\big)$$

关键论文：Jumper et al. "Highly accurate protein structure prediction with AlphaFold" (Nature 2021); Ho et al. "Denoising Diffusion Probabilistic Models" (NeurIPS 2020); Noé et al. "Boltzmann Generators" (Science 2019).

氨基酸序列

→

Evoformer 注意力

→

3D 结构坐标

AlphaFold：从序列到结构的端到端预测

🤝

人机协作

AI从"替代人类"转向"增强人类"，成为科研、创作、决策的智能伙伴

人在回路决策（HITL）混合框架： $$P_{\mathrm{final}} = \alpha\,P_{\mathrm{human}} + (1-\alpha)\,P_{\mathrm{AI}}$$ 置信度触发的人机切换： $$\text{if } \mathrm{conf}(\text{AI}) < \theta \;\Rightarrow\; \text{request\_human()}$$

关键论文：Amershi et al. "Guidelines for Human-AI Interaction" (CHI 2019); Kamar et al. "Directions in Hybrid Intelligence" (Comm. ACM 2016); Wang et al. "Human-AI Collaboration in Data Science" (2021).

混合决策框架：人机协作可以用数学方式建模。设人类判断为 $P_{\text{human}}$，AI判断为 $P_{\text{AI}}$，最终决策是加权融合：$P_{\text{final}} = \alpha P_{\text{human}} + (1-\alpha) P_{\text{AI}}$。当AI置信度 $\text{conf}(\text{AI}) < \theta$ 时触发人工接管。这种框架把AI定位为概率估计器——它提供候选答案和置信度，人类基于自身知识和价值观做最终判断。关键是让AI在"擅长区"（大规模数据处理、模式识别）全力输出，在"不确定区"主动求助人类。

"从理解世界，到参与世界"

机器学习七十余年，每一次低谷都孕育新的突破

1950s 感知机 → 2020s 大语言模型 → 未来具身智能 / 世界模型 / Agent