EADST

强化学习算法GRPO, DAPO, GSPO简单介绍

GRPO, DAPO, GSPO都是用于训练大语言模型(LLM)的强化学习算法,它们的目标都是让模型通过“试错”来变得更聪明。

它们的核心差异在于“如何给模型的回答打分”以及“如何利用这些分数来更新模型”

1. 核心区别总结

GRPO(Group Relative Policy Optimization)

  • 全称:组相对策略优化
  • 核心痛点:传统 PPO 需要额外的“裁判模型”(Critic),显存占用高且训练复杂
  • 主要做法:让模型对同一问题生成一组回答,计算组内平均分;高于平均奖励、低于平均惩罚
  • 一句话比喻:“班级排名法”:没有绝对标准,只看你在本次小组作业里排第几

DAPO(Decoupled Clip & Dynamic Sampling)

  • 全称:解耦裁剪与动态采样策略优化
  • 核心痛点:GRPO 在长逻辑推理中容易跑偏,或被裁剪限制探索能力
  • 主要做法:对优势大的样本放宽裁剪限制(让好苗子多学点),并动态调整采样权重(少练简单题)
  • 一句话比喻:“特长生培养法”:对表现特别好的允许“出格”发展,且根据难度动态调整练习量

GSPO(Group Sequence Policy Optimization)

  • 全称:组序列策略优化
  • 核心痛点:Token 级更新导致梯度方差大,容易让 MoE 模型训练崩溃
  • 主要做法:按整段输出的序列级权重进行梯度更新,不再逐 Token 纠结好坏
  • 一句话比喻:“整体打分法”:作文评分不按词扣分,而是读完全文给总评,避免断章取义

2. 简单例子说明(用“教学生写作文”来比喻)

假设你要训练一个学生(模型)写一篇关于“苹果”的作文。

场景:

学生写了 4 篇不同的作文(生成了一组数据)。

  • 作文 A:写得很好(80分)
  • 作文 B:写得一般(60分)
  • 作文 C:写得跑题(20分)
  • 作文 D:写得凑合(40分)
  • 平均分:50分

1. GRPO(组相对策略优化)—— “跟同学比”

  • 逻辑:GRPO 没有老师拿标准答案去批改(不需要 Critic 模型)。它只看这 4 篇作文的相对好坏
  • 操作
  • 算出平均分是 50 分。
  • 作文 A (80分) 比平均分高 大幅奖励(学它!)。
  • 作文 B (60分) 比平均分高一点 小幅奖励
  • 作文 C (20分) 比平均分低很多 大幅惩罚(别学它!)。

  • 优点:省钱省力,不需要额外的“裁判”老师,显存占用少。

  • 缺点:如果全班都很烂(都写0分),它可能也会在一堆烂作文里挑一个“相对好的”去学。

2. DAPO(解耦裁剪与动态采样)—— “重点培养与因材施教”

  • 逻辑:DAPO 发现 GRPO 有时候太死板。比如作文 A 既然是天才之作,GRPO 会因为防止“步子迈太大”而限制对 A 的学习力度(Clipping)。DAPO 觉得这不行。
  • 操作
  • Clip Higher(解耦裁剪):对于作文 A 这种明显优秀的,允许模型“大步”学习,不受常规限制。
  • Dynamic Sampling(动态采样):如果作文 C 和 D 这种错误太低级,以后就少练这种题,把精力集中在更有价值的样本上。

  • 差异点:它是 GRPO 的进阶补丁,专门为了解决长思维链(CoT)中模型容易变“平庸”的问题。

3. GSPO(组序列策略优化)—— “看整体不看细节”

  • 逻辑:GRPO 和 PPO 通常是盯着作文里的每一个词(Token)看。比如作文 C 虽然跑题,但里面用了几个好词,传统方法可能会错误地奖励这几个词。GSPO 认为这不对,烂作文就是烂作文。
  • 操作
  • Sequence Level(序列级):它计算权重时,不再把作文拆成碎字,而是算一个几何平均数,给整篇作文定一个“基调”。
  • 如果是烂作文,整篇文里的所有词都要受罚,不管你个别词用得多么华丽。

  • 差异点:它主要解决的是稳定性问题。特别是在训练 MoE(混合专家模型)时,GRPO 那种逐字计算容易让模型精神分裂(梯度方差大),GSPO 这种“整体打包”算分的方式更稳。


3. 总结

  • 如果你想省显存,快速把 DeepSeek-R1 这种推理模型跑起来 用 GRPO
  • 如果你在训练超长逻辑推理(如数学竞赛题),发现模型总是学不到位 尝试 DAPO
  • 如果你在训练 Qwen3 (MoE) 这种架构,发现训练过程很抖动、不收敛 用 GSPO
相关标签
About Me
XD
Goals determine what you are going to be.
Category
标签云
transformers CUDA ONNX News 顶会 Plotly Paddle Tensor EXCEL Domain mmap uwsgi JSON Tiktoken 多进程 SVR PyTorch PyCharm Knowledge UI tqdm XGBoost MD5 Math SQL FP32 Quantize uWSGI 阿里云 Heatmap ModelScope Google 关于博主 Template CC WebCrawler Food NLP GGML Firewall Interview SAM RGB Miniforge Paper Color v0.dev 多线程 Magnet OCR 搞笑 Windows Ubuntu Hilton Augmentation Proxy 递归学习法 NLTK Video TensorRT TSV Attention VSCode CAM Bitcoin Mixtral Markdown Claude Crawler Pytorch LaTeX FP8 SQLite Python llama.cpp FP64 Qwen2 Pickle Ptyhon LLM LoRA Tracking Excel IndexTTS2 Hungarian PDB WAN git-lfs AI Conda Land 腾讯云 API UNIX BF16 Sklearn YOLO Base64 CSV Datetime hf CLAP ChatGPT Use Translation Review Search Bert TTS Pillow diffusers FastAPI 公式 Vmess Numpy 证件照 继承 QWEN Agent InvalidArgumentError GPTQ Cloudreve Website Permission LeetCode PDF Disk Bipartite logger Anaconda Image2Text 第一性原理 C++ Card LLAMA Distillation CEIR Statistics HaggingFace git tar Qwen RAR Hotel Web torchinfo 报税 版权 VGG-16 GIT PIP COCO Gemma Plate Quantization Logo BTC CV Docker Django 算法题 Algorithm DeepSeek Safetensors DeepStream Jetson FlashAttention Diagram Freesound Data HuggingFace Git Vim OpenAI Password Streamlit 签证 GoogLeNet SPIE XML 图形思考法 Llama Bin Animate Baidu Pandas scipy GPT4 音频 Dataset 飞书 NameSilo Jupyter 强化学习 Github 域名 Linux 净利润 Shortcut FP16 Qwen2.5 printf 云服务器 Nginx VPN 财报 Input CTC Michelin OpenCV BeautifulSoup ResNet-50 Random TensorFlow v2ray Transformers Clash Zip Breakpoint
站点统计

本站现有博文321篇,共被浏览763895

本站已经建立2439天!

热门文章
文章归档
回到顶部