Amekiny's Diary

学习、编程、生活

  • 首页
  • 分类
  • 标签
  • 归档
  • 关于
  • 文章目录
  • 站点概览
Amekiny

Amekiny

Move fast and break things.
3 日志
3 分类
2 标签

LLM后训练中的强化学习

发表于 2026-04-02 本文字数: 35 阅读时长 ≈ 1 分钟

内容包括PPO,dpo,grpo的概念介绍、公式、以及简单的代码实现。

强化学习入门基础
《强化学习的数学原理》学习笔记(1-3)
© 2026 Amekiny
11k
由 Hexo & NexT.Gemini 强力驱动
0%