Amekiny's Diary

《强化学习的数学原理》学习笔记(9-10)

发表于 2026-04-12 分类于强化学习，《强化学习的数学原理》本文字数： 2.9k 阅读时长 ≈ 4 分钟

内容包括策略梯度方法、Actor-Critic 方法，对应《强化学习的数学原理》9-10章。

发表于 2026-04-11 更新于 2026-04-12 分类于强化学习，《强化学习的数学原理》本文字数： 2.2k 阅读时长 ≈ 3 分钟

内容包括时序差分方法、值函数近似，对应《强化学习的数学原理》7-8章。

发表于 2026-04-06 更新于 2026-07-31 分类于强化学习，《强化学习的数学原理》本文字数： 3.1k 阅读时长 ≈ 4 分钟

内容包括值迭代与策略迭代、蒙特卡罗方法、随机近似算法，对应《强化学习的数学原理》4-6章。

发表于 2026-04-05 更新于 2026-07-31 分类于强化学习，《强化学习的数学原理》本文字数： 3.7k 阅读时长 ≈ 5 分钟

内容包括基本核心概念、状态值与贝尔曼方程、最优状态值与最优决策，对应《强化学习的数学原理》1-3章。

发表于 2026-04-02 本文字数： 35 阅读时长 ≈ 1 分钟

内容包括PPO，dpo，grpo的概念介绍、公式、以及简单的代码实现。

发表于 2025-11-14 更新于 2026-04-05 分类于强化学习，速成攻略本文字数： 7.1k 阅读时长 ≈ 9 分钟

内容包括ε-greedy策略，Q-learning，DQN的概念介绍、公式、以及简单的代码实现。