监督信号的粒度与训练效率
从 DPI 和 η 框架理解合成数据为什么有时有效有时崩溃,以及监督信号的粗细如何决定训练效率、泛化能力和 reward hacking 风险。
通过 RSS 订阅,第一时间获取最新博客文章
复制链接到你的 RSS 阅读器
https://www.xwysyy.cn/rss.xml
从 DPI 和 η 框架理解合成数据为什么有时有效有时崩溃,以及监督信号的粗细如何决定训练效率、泛化能力和 reward hacking 风险。
梳理 2024-2026 年推理 LLM 强化学习的主要进展,从 REINFORCE、PPO 讲起,到 GRPO 及 DAPO、CISPO、GSPO 等后续改进方法。
P-Lib 2026 年第一次讲座的视频学习笔记:从后训练(SFT / RLHF / RLVR / DPO)到 Agent 时代的演进,涵盖推理能力三层次、Benchmark 评估方法、Agent RL 训练范式以及 LLM 能力边界的判断。
北京大学 Linux 俱乐部 HPCGame 2026 赛前讲座笔记,覆盖大模型训练、推理系统、并行策略、GPU 与高性能网络。
本文介绍如何通过配置SSH密钥和VSCode插件,实现从Windows系统远程连接Linux服务器进行开发。
本文介绍Git LFS安装、代理配置及常用操作,包括连接远程仓库、提交代码、清除记录和版本回退等实用技巧。
RSS(Really Simple Syndication)是一种用于发布经常更新内容的标准格式。通过 RSS,你可以:
RSS 包含博客文章更新;课程笔记等归档内容请通过归档或分类页浏览。
推荐使用 Feedly、Inoreader 或其他 RSS 阅读器来订阅本站。