原 OPD: On-Policy Distillation 介于 SFT 与 RL 之间的第三条路 作者:XD / 发表: 2026年6月30日 02:22 / 科研学习/ 阅读量:18 OPD: On-Policy Distillation 介于 SFT 与 RL 之间的第三条路