《强化学习的数学原理》学习笔记(1-3)

发表于 2026-04-05 分类于强化学习，《强化学习的数学原理》本文字数： 3.7k 阅读时长 ≈ 5 分钟

内容包括基本核心概念，状态值与贝尔曼方程、最优状态值与最优决策，对应《强化学习的数学原理》前三章。

一、基本核心概念

从状态 $s_1$ 采取动作 $a_k$ 转移到 $s_2$（$s_1 \xrightarrow{a_k} s_2$），可通过条件概率描述。

$\pi(a|s)$：在状态 $s$ 下采取动作 $a$ 的概率。

$r(s, a)$：是关于状态 $s$ 和动作 $a$ 的函数。

轨迹 (Trajectory): 状态-动作-奖励链条。例如：$s_1 \xrightarrow[r_1]{a_1} s_2 \xrightarrow[r_2]{a_2} s_3$
回报 (Return): 一条轨迹上即时奖励之和。
折扣因子 ($\gamma \in [0, 1)$):
1. 使无限长轨迹的回报（Return）收敛。
2. 权衡近期与远期奖励的权重。
回合 (Episode): 从初始状态到终止状态的一条有限长的轨迹。

集合	模型	策略
$S$ (状态集)	状态转移概率: $\sum_{s’ \in S} P(s’	s, a) = 1$
$A$ (动作集)	奖励概率: $\sum_{r \in \mathcal{R}} P(r	s, a) = 1$

系统的下一个状态和奖励仅取决于当前的状态和动作，而与过去的历史无关：

结论：当策略 $\pi$ 确定后，MDP 会演变成马尔可夫过程（MP）。

按定义计算：

$$V_1 = r_1 + \gamma r_2 + \gamma^2 r_3 + \dots$$

$$V_2 = r_2 + \gamma r_3 + \gamma^2 r_4 + \dots$$
自举 (Bootstrapping)：利用相邻状态间的关系简化计算

$$V_1 = r_1 + \gamma (r_2 + \gamma r_3 + \dots) = r_1 + \gamma V_2$$

$$V_2 = r_2 + \gamma V_3$$
矩阵向量形式：

$$V = r + \gamma PV \implies V = (I - \gamma P)^{-1} r$$

过程：$S_t \xrightarrow{A_t} S_{t+1}, R_{t+1}$。其中 $S_t, A_t, S_{t+1}, R_{t+1}$ 均为随机变量。
回报 (Return)：$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots$
定义：状态值是回报的期望

$$V_\pi(s) = E[G_t | S_t = s]$$

推导过程：

将 $G_t$ 拆解为：$G_t = R_{t+1} + \gamma G_{t+1}$
代入状态值定义：

$$V_\pi(s) = E[R_{t+1} + \gamma G_{t+1} | S_t = s] = E[R_{t+1} | S_t = s] + \gamma E[G_{t+1} | S_t = s]$$
第一项（即时奖励期望）：

$$E[R_{t+1} | S_t = s] = \sum_{a \in A} \pi(a|s) \cdot E[R_{t+1} | S_t = s, A_t = a]$$

$$= \sum_{a \in A} \pi(a|s) \sum_{r \in R} p(r|s, a) r$$

直观理解推导：通过策略确定了动作，确定了状态和动作，再将奖励期望展开写成奖励概率与奖励的乘积的和
第二项（未来奖励期望）：

$$E[G_{t+1} | S_t = s] = E[G_{t+1} | S_t = s, S_{t+1} = s’]P(s’|s) $$

马尔可夫性告诉我们，一旦 $S_{t+1}$ 确定了，未来的回报 $G_{t+1}$ 只取决于 $S_{t+1}$，与过去的状态 $S_t$ 无关：

$$ E[G_{t+1} | S_t = s, S_{t+1} = s’]P(s’|s) = E[G_{t+1} | S_{t+1} = s’]P(s’|s) $$

$$ =\sum_{s’ \in S} P(S_{t+1} = s’ | S_t = s) \cdot V_\pi(s’)$$

$$= \sum_{s’ \in S} V_\pi(s’) ( \sum_{a \in A} p(s’ | s, a) \pi(a|s) $$
最终形式：

$$V_\pi(s) = \sum_{a \in A} \pi(a|s) \left[ \sum_{r \in \mathcal{R}} p(r|s, a)r + \gamma \sum_{s’ \in S} p(s’|s, a) V_\pi(s’) \right]$$

如果我们将 $r$ 和 $s’$ 的联合概率分布 $p(s’, r | s, a)$ 写在一起，就是最常见的形式：

$$V_\pi(s) = \sum_{a \in A} \pi(a|s) \sum_{s’, r} p(s’, r | s, a) [r + \gamma V_\pi(s’)]$$

解析解 (Analytical Solution)：

$$V_\pi = (I - \gamma P_\pi)^{-1} r_\pi$$
数值解 (Iterative Solution)：

通过迭代公式 $V_{k+1} = r_\pi + \gamma P_\pi V_k$。

从初始猜测 $V_0 \in \mathbb{R}^n$ 出发，序列 ${V_0, V_1, V_2, \dots}$ 最终将收敛到真实值。

定义：在状态 $s$ 采取动作 $a$ 后的期望回报

$$q_\pi(s, a) = E[G_t | S_t = s, A_t = a]$$
与状态值的关系：

$$V_\pi(s) = E_{A_t \sim \pi(s)} [q_\pi(s, A_t)] = \sum_{a} \pi(a|s) q_\pi(s, a)$$

注意：计算状态值必须确定当前策略 $\pi$，计算动作值可以是当前策略没走的动作。

在强化学习中，我们的目标是找到一个能够最大化累积奖励的策略。

贝尔曼最优方程通过选择当前最优动作来描述状态值之间的关系：

$$V(s) = \max_{a \in A(s)} \sum_{s’, r} p(s’, r | s, a) [r + \gamma V(s’)]$$

核心定义：将使右侧 $g(s, a)$ 达到最大的动作 $a$ 作为最优策略。

简化形式：

$$V(s) = \max_{a \in A(s)} g(s, a)$$

为了便于计算和理论分析，可以将方程写成向量形式：

对于方程 $x = f(x)$，如果函数 $f$ 是一个压缩映射（即满足 $|f(V_1) - f(V_2)| \leq \gamma |V_1 - V_2|$，其中 $0 \leq \gamma < 1$），则具有以下性质：

存在性：一定存在一个不动点 $x^$ 满足 $f(x^) = x^*$。
唯一性：不动点 $x^*$ 是唯一的（最优解唯一）。
算法收敛性（值迭代）：
- 通过迭代公式 $x_{k+1} = f(x_k)$。
- 从任意初始值 $V_0$ 出发，当 $k \to \infty$ 时，$x_k \to x^*$。
贝尔曼最优方程也满足以上性质，由于 $\gamma < 1$，贝尔曼算子 $T$ 是一个 $\gamma$-压缩映射。这意味着无论你从什么随机的 $V_0$ 开始迭代（值迭代 Value Iteration），最后一定会收敛到唯一的 $V^*$。