《强化学习的数学原理》学习笔记(1-3)

内容包括基本核心概念,状态值与贝尔曼方程、最优状态值与最优决策,对应《强化学习的数学原理》前三章。

一、基本核心概念

1. 状态与动作

  • 状态 (State): $S = {s_1, s_2, \dots, s_n}$
  • 动作 (Action): $A = {a_1, a_2, \dots, a_m}$

2. 状态转移

从状态 $s_1$ 采取动作 $a_k$ 转移到 $s_2$($s_1 \xrightarrow{a_k} s_2$),可通过条件概率描述。

3. 策略 (Policy)

$\pi(a|s)$:在状态 $s$ 下采取动作 $a$ 的概率。

4. 奖励 (Reward)

$r(s, a)$:是关于状态 $s$ 和动作 $a$ 的函数。

5. 轨迹、回报、回合

  • 轨迹 (Trajectory): 状态-动作-奖励链条。例如:$s_1 \xrightarrow[r_1]{a_1} s_2 \xrightarrow[r_2]{a_2} s_3$
  • 回报 (Return): 一条轨迹上即时奖励之和。
  • 折扣因子 ($\gamma \in [0, 1)$):
    1. 使无限长轨迹的回报(Return)收敛。
    2. 权衡近期与远期奖励的权重。
  • 回合 (Episode): 从初始状态到终止状态的一条有限长的轨迹。

6. 马尔可夫决策过程 (MDP)

1. 组成要素

集合 模型 策略
$S$ (状态集) 状态转移概率: $\sum_{s’ \in S} P(s’ s, a) = 1$
$A$ (动作集) 奖励概率: $\sum_{r \in \mathcal{R}} P(r s, a) = 1$

2. 马尔可夫性 (Markov Property)

系统的下一个状态和奖励仅取决于当前的状态和动作,而与过去的历史无关:

  • $P(s_{t+1} | s_t, a_t, \dots, s_0, a_0) = P(s_{t+1} | s_t, a_t)$
  • $P(r_{t+1} | s_t, a_t, \dots, s_0, a_0) = P(r_{t+1} | s_t, a_t)$

结论:当策略 $\pi$ 确定后,MDP 会演变成马尔可夫过程(MP)。

二、状态值与贝尔曼方程

1. 回报计算 (Return Calculation)

  • 按定义计算

    $$V_1 = r_1 + \gamma r_2 + \gamma^2 r_3 + \dots$$

    $$V_2 = r_2 + \gamma r_3 + \gamma^2 r_4 + \dots$$

  • 自举 (Bootstrapping):利用相邻状态间的关系简化计算

    $$V_1 = r_1 + \gamma (r_2 + \gamma r_3 + \dots) = r_1 + \gamma V_2$$

    $$V_2 = r_2 + \gamma V_3$$

  • 矩阵向量形式

    $$V = r + \gamma PV \implies V = (I - \gamma P)^{-1} r$$

2. 状态值 (State Value)

  • 过程:$S_t \xrightarrow{A_t} S_{t+1}, R_{t+1}$。其中 $S_t, A_t, S_{t+1}, R_{t+1}$ 均为随机变量。

  • 回报 (Return):$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots$

  • 定义:状态值是回报的期望

    $$V_\pi(s) = E[G_t | S_t = s]$$

3. 贝尔曼方程 (Bellman Equation)

推导过程

  1. 将 $G_t$ 拆解为:$G_t = R_{t+1} + \gamma G_{t+1}$

  2. 代入状态值定义:

    $$V_\pi(s) = E[R_{t+1} + \gamma G_{t+1} | S_t = s] = E[R_{t+1} | S_t = s] + \gamma E[G_{t+1} | S_t = s]$$

  3. 第一项(即时奖励期望):

    $$E[R_{t+1} | S_t = s] = \sum_{a \in A} \pi(a|s) \cdot E[R_{t+1} | S_t = s, A_t = a]$$

    ​ $$= \sum_{a \in A} \pi(a|s) \sum_{r \in R} p(r|s, a) r$$

    直观理解推导:通过策略确定了动作,确定了状态和动作,再将奖励期望展开写成奖励概率与奖励的乘积的和

  4. 第二项(未来奖励期望):

    $$E[G_{t+1} | S_t = s] = E[G_{t+1} | S_t = s, S_{t+1} = s’]P(s’|s) $$

    马尔可夫性告诉我们,一旦 $S_{t+1}$ 确定了,未来的回报 $G_{t+1}$ 只取决于 $S_{t+1}$,与过去的状态 $S_t$ 无关:

    $$ E[G_{t+1} | S_t = s, S_{t+1} = s’]P(s’|s) = E[G_{t+1} | S_{t+1} = s’]P(s’|s) $$

    ​ $$ =\sum_{s’ \in S} P(S_{t+1} = s’ | S_t = s) \cdot V_\pi(s’)$$

    ​ $$= \sum_{s’ \in S} V_\pi(s’) ( \sum_{a \in A} p(s’ | s, a) \pi(a|s) $$

  5. 最终形式:

    $$V_\pi(s) = \sum_{a \in A} \pi(a|s) \left[ \sum_{r \in \mathcal{R}} p(r|s, a)r + \gamma \sum_{s’ \in S} p(s’|s, a) V_\pi(s’) \right]$$

    如果我们将 $r$ 和 $s’$ 的联合概率分布 $p(s’, r | s, a)$ 写在一起,就是最常见的形式:

    $$V_\pi(s) = \sum_{a \in A} \pi(a|s) \sum_{s’, r} p(s’, r | s, a) [r + \gamma V_\pi(s’)]$$

4. 求解状态值

  • 解析解 (Analytical Solution)

    $$V_\pi = (I - \gamma P_\pi)^{-1} r_\pi$$

  • 数值解 (Iterative Solution)

    通过迭代公式 $V_{k+1} = r_\pi + \gamma P_\pi V_k$。

    从初始猜测 $V_0 \in \mathbb{R}^n$ 出发,序列 ${V_0, V_1, V_2, \dots}$ 最终将收敛到真实值。

5. 动作值 (Action Value)

  • 定义:在状态 $s$ 采取动作 $a$ 后的期望回报

    $$q_\pi(s, a) = E[G_t | S_t = s, A_t = a]$$

  • 与状态值的关系

    $$V_\pi(s) = E_{A_t \sim \pi(s)} [q_\pi(s, A_t)] = \sum_{a} \pi(a|s) q_\pi(s, a)$$

    注意:计算状态值必须确定当前策略 $\pi$,计算动作值可以是当前策略没走的动作。

三、最优状态值与最优决策

1. 最优状态值与最优策略

在强化学习中,我们的目标是找到一个能够最大化累积奖励的策略。

  • 判断标准:若 $V(x(s)) > V(s)$,则 $x(s)$ 被视为更优的策略。
  • 最优状态值:表示在所有可能策略中,状态 $s$ 所能达到的最大期望回报。

2. 贝尔曼最优方程 (Bellman Optimality Equation)

贝尔曼最优方程通过选择当前最优动作来描述状态值之间的关系:

$$V(s) = \max_{a \in A(s)} \sum_{s’, r} p(s’, r | s, a) [r + \gamma V(s’)]$$

核心定义:将使右侧 $g(s, a)$ 达到最大的动作 $a$ 作为最优策略。

简化形式:

$$V(s) = \max_{a \in A(s)} g(s, a)$$

3. 矩阵向量形式

为了便于计算和理论分析,可以将方程写成向量形式:

  • 形式:$V = \max_{a \in A(s)} (v_1 + v_2 V)$

  • 由于方程右侧是关于 $V$ 的函数,可以抽象为:

    $$V = f(V)$$

4. 压缩映射定理 (Contraction Mapping Theorem)

对于方程 $x = f(x)$,如果函数 $f$ 是一个压缩映射(即满足 $|f(V_1) - f(V_2)| \leq \gamma |V_1 - V_2|$,其中 $0 \leq \gamma < 1$),则具有以下性质:

  1. 存在性:一定存在一个不动点 $x^$ 满足 $f(x^) = x^*$。

  2. 唯一性:不动点 $x^*$ 是唯一的(最优解唯一)。

  3. 算法收敛性(值迭代)

    • 通过迭代公式 $x_{k+1} = f(x_k)$。
    • 从任意初始值 $V_0$ 出发,当 $k \to \infty$ 时,$x_k \to x^*$。

    贝尔曼最优方程也满足以上性质,由于 $\gamma < 1$,贝尔曼算子 $T$ 是一个 $\gamma$-压缩映射。这意味着无论你从什么随机的 $V_0$ 开始迭代(值迭代 Value Iteration),最后一定会收敛到唯一的 $V^*$

5. 影响最优策略的因素

  1. 折扣因子 ($\gamma$):决定了对远期奖励的重视程度。$\gamma$ 越小,智能体越“短视”。
  2. 奖励的相对值:奖励函数 $R$ 的具体数值设定(如惩罚项的大小、目标奖励的高度)直接影响最优路径的选择。