Amekiny's Diary
学习、编程、生活
首页
分类
标签
归档
关于
LLM后训练中的强化学习
发表于
2026-04-02
本文字数:
35
阅读时长 ≈
1 分钟
内容包括PPO,dpo,grpo的概念介绍、公式、以及简单的代码实现。
0%
Theme NexT works best with JavaScript enabled