《强化学习的数学原理》学习笔记(4-6) 发表于 2026-04-06 分类于 强化学习 , 《强化学习的数学原理》 本文字数: 3k 阅读时长 ≈ 4 分钟 内容包括值迭代与策略迭代、蒙特卡罗方法、随机近似算法,对应《强化学习的数学原理》4-6章。 阅读全文 »
《强化学习的数学原理》学习笔记(1-3) 发表于 2026-04-05 更新于 2026-04-06 分类于 强化学习 , 《强化学习的数学原理》 本文字数: 3.7k 阅读时长 ≈ 5 分钟 内容包括基本核心概念、状态值与贝尔曼方程、最优状态值与最优决策,对应《强化学习的数学原理》1-3章。 阅读全文 »
强化学习入门基础 发表于 2025-11-14 更新于 2026-04-05 分类于 强化学习 , 速成攻略 本文字数: 7.1k 阅读时长 ≈ 9 分钟 内容包括ε-greedy策略,Q-learning,DQN的概念介绍、公式、以及简单的代码实现。 阅读全文 »