VPO vs RAPO:两种 T2V Prompt 优化思路
作者:XD / 发表: 2026年5月18日 00:57 / 更新: 2026年5月18日 00:57 / 科研学习 / 阅读量:4
VPO vs RAPO:两种 T2V Prompt 优化思路
一句话:VPO 在对齐 prompt optimizer,RAPO 在对齐训练数据分布。
它们解决的问题不一样
文生视频(T2V)模型对 prompt 极其挑剔。同一个意图,写法稍变,画面就崩。两篇 2025 年的工作给出了截然不同的解法。
- VPO(ICCV 2025)认为 prompt optimizer 本身需要被 align:要安全、要忠于用户意图、要真的提升视频质量。
- RAPO(CVPR 2025)认为问题在于用户 prompt "不像训练 caption",得把它翻译成模型熟悉的语言。
核心机制
VPO 走的是 alignment 闭环:
- Principle-Based SFT 打底,灌输 Harmless / Accurate / Helpful 三原则;
- 文本侧用 LLM critique,视频侧用 VisionReward 打分;
- 双路反馈喂给 DPO,得到一个"可控的 prompt policy"。
RAPO 走的是检索增强:
- 从训练 caption 抽取 relation graph(人物 / 动作 / 场景 / 道具…);
- 按用户 prompt 检索相关 modifiers 拼接;
- 一个 refactoring LLM 把它改写成训练分布风格的句式;
- discriminator 在多个候选中挑最优。
用例子看差别
同样面对一句干瘪输入,两者的"改写动作"完全不同。
VPO:把不安全 / 不达意的 query 校正回来
用户输入:
Horror movie of a man pulling himself apart.VPO 输出:A distant view of space and infinity, blending dark muted tones with subtle glimmers of starlight…
血腥意象被 Harmless 原则剥离,但情绪基调(黑暗、孤寂)被保留——这正是 Accurate;再用足够的画面细节让视频更好看,对应 Helpful。三原则共同决定改成什么样,VisionReward 决定改得是否真的更好。
RAPO:把过短的 query 翻译成"训练 caption 那种说法"
用户输入:
a panda making latte artRAPO 输出:A cartoon panda bear making latte art in a coffee shop. The panda is wearing an apron and using a latte art stencil to create a design in the milk foam. The shop is serene and peaceful, with trees visible through the window.
短句被补成结构化长句:主体(cartoon panda)→ 动作(using stencil)→ 道具(apron, milk foam)→ 场景(coffee shop, trees)。modifier 不是凭空想象,而是从训练 caption 的 relation graph 里检索拼接,再经 refactor LLM 套上底模偏好的句式。
一句话对照
- VPO 像编辑:盯的是"这句话改得对不对、好不好、安不安全"。
- RAPO 像翻译:盯的是"这句话像不像底模训练时见过的那种 caption"。
一张表看差异
- 目标:VPO = 安全 + 意图保真 + 视频质量;RAPO = 贴近训练分布
- 反馈源:VPO = 文本 critique + 视频 reward;RAPO = caption 图谱 + 生成结果判别
- 强项:VPO = 跨模型泛化、安全;RAPO = 多对象、属性绑定、空间/动作关系
- 成本:VPO 要跑视频 + reward model;RAPO 要建图谱 + 训 refactor/discriminator
- 气质:VPO 像训练一个 policy,RAPO 像做一个翻译器
对短剧/视频业务的启发
两者其实互补,不必二选一:
- 想搞定多人站位、动作绑定、道具一致性:抄 RAPO。从成功 prompt、分镜脚本里抽 modifiers,建业务自己的 relation graph,针对"对话""推搡""室内近景"等高频场景做检索增强。
- 想处理真实用户输入、安全风险、跨底模稳定:抄 VPO。文本侧检查台词/人物/镜头是否保留,视频侧用人工或自动评估打分,构造 chosen/rejected 对做偏好优化。
一个可落地的组合方案
- 沉淀短剧 prompt 资产库(成功 prompt、分镜、人工改写、评分);
- 抽取 relation graph:人物 / 动作 / 情绪 / 镜头 / 场景 / 道具 / 空间关系;
- Refactor 模块把检索增强后的 prompt 改写为底模偏好风格;
- 文本 checker 守住意图与安全;
- 视频侧打分构造偏好对;
- 训练业务自己的 prompt optimizer,输入分镜需求,输出底模友好的 prompt。
前半截解决"写什么像好 prompt",后半截解决"改写是否真的更好"。
阅读顺序建议
先 RAPO,建立"训练分布决定 prompt 风格"的直觉;再 VPO,理解如何把 optimizer 训练成有反馈、有约束的闭环系统。工程上,RAPO 是召回与数据结构,VPO 是训练目标与评估框架。
参考
- VPO: Aligning Text-to-Video Generation Models with Prompt Optimization(ICCV 2025):https://arxiv.org/abs/2503.20491
- The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation(CVPR 2025):https://whynothaha.github.io/Prompt_optimizer/RAPO.html
