《强化学习的数学原理》学习笔记(9-10)
内容包括策略梯度方法、Actor-Critic 方法,对应《强化学习的数学原理》9-10章。
内容包括策略梯度方法、Actor-Critic 方法,对应《强化学习的数学原理》9-10章。
内容包括时序差分方法、值函数近似,对应《强化学习的数学原理》7-8章。
内容包括值迭代与策略迭代、蒙特卡罗方法、随机近似算法,对应《强化学习的数学原理》4-6章。
内容包括基本核心概念、状态值与贝尔曼方程、最优状态值与最优决策,对应《强化学习的数学原理》1-3章。
内容包括PPO,dpo,grpo的概念介绍、公式、以及简单的代码实现。