VPO vs RAPO：两种 T2V Prompt 优化思路

一句话：VPO 在对齐 prompt optimizer，RAPO 在对齐训练数据分布。

它们解决的问题不一样

文生视频（T2V）模型对 prompt 极其挑剔。同一个意图，写法稍变，画面就崩。两篇 2025 年的工作给出了截然不同的解法。

VPO（ICCV 2025）认为 prompt optimizer 本身需要被 align：要安全、要忠于用户意图、要真的提升视频质量。
RAPO（CVPR 2025）认为问题在于用户 prompt "不像训练 caption"，得把它翻译成模型熟悉的语言。

核心机制

VPO 走的是 alignment 闭环：

Principle-Based SFT 打底，灌输 Harmless / Accurate / Helpful 三原则；
文本侧用 LLM critique，视频侧用 VisionReward 打分；
双路反馈喂给 DPO，得到一个"可控的 prompt policy"。

RAPO 走的是检索增强：

从训练 caption 抽取 relation graph（人物 / 动作 / 场景 / 道具…）；
按用户 prompt 检索相关 modifiers 拼接；
一个 refactoring LLM 把它改写成训练分布风格的句式；
discriminator 在多个候选中挑最优。

用例子看差别

同样面对一句干瘪输入，两者的"改写动作"完全不同。

VPO：把不安全 / 不达意的 query 校正回来

用户输入：Horror movie of a man pulling himself apart. VPO 输出：A distant view of space and infinity, blending dark muted tones with subtle glimmers of starlight…

血腥意象被 Harmless 原则剥离，但情绪基调（黑暗、孤寂）被保留——这正是 Accurate；再用足够的画面细节让视频更好看，对应 Helpful。三原则共同决定改成什么样，VisionReward 决定改得是否真的更好。

RAPO：把过短的 query 翻译成"训练 caption 那种说法"

用户输入：a panda making latte art RAPO 输出：A cartoon panda bear making latte art in a coffee shop. The panda is wearing an apron and using a latte art stencil to create a design in the milk foam. The shop is serene and peaceful, with trees visible through the window.

短句被补成结构化长句：主体（cartoon panda）→ 动作（using stencil）→ 道具（apron, milk foam）→ 场景（coffee shop, trees）。modifier 不是凭空想象，而是从训练 caption 的 relation graph 里检索拼接，再经 refactor LLM 套上底模偏好的句式。

一句话对照

VPO 像编辑：盯的是"这句话改得对不对、好不好、安不安全"。
RAPO 像翻译：盯的是"这句话像不像底模训练时见过的那种 caption"。

一张表看差异

目标：VPO = 安全 + 意图保真 + 视频质量；RAPO = 贴近训练分布
反馈源：VPO = 文本 critique + 视频 reward；RAPO = caption 图谱 + 生成结果判别
强项：VPO = 跨模型泛化、安全；RAPO = 多对象、属性绑定、空间/动作关系
成本：VPO 要跑视频 + reward model；RAPO 要建图谱 + 训 refactor/discriminator
气质：VPO 像训练一个 policy，RAPO 像做一个翻译器

对短剧/视频业务的启发

两者其实互补，不必二选一：

想搞定多人站位、动作绑定、道具一致性：抄 RAPO。从成功 prompt、分镜脚本里抽 modifiers，建业务自己的 relation graph，针对"对话""推搡""室内近景"等高频场景做检索增强。
想处理真实用户输入、安全风险、跨底模稳定：抄 VPO。文本侧检查台词/人物/镜头是否保留，视频侧用人工或自动评估打分，构造 chosen/rejected 对做偏好优化。

一个可落地的组合方案

沉淀短剧 prompt 资产库（成功 prompt、分镜、人工改写、评分）；
抽取 relation graph：人物 / 动作 / 情绪 / 镜头 / 场景 / 道具 / 空间关系；
Refactor 模块把检索增强后的 prompt 改写为底模偏好风格；
文本 checker 守住意图与安全；
视频侧打分构造偏好对；
训练业务自己的 prompt optimizer，输入分镜需求，输出底模友好的 prompt。

前半截解决"写什么像好 prompt"，后半截解决"改写是否真的更好"。

阅读顺序建议

先 RAPO，建立"训练分布决定 prompt 风格"的直觉；再 VPO，理解如何把 optimizer 训练成有反馈、有约束的闭环系统。工程上，RAPO 是召回与数据结构，VPO 是训练目标与评估框架。

参考

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization（ICCV 2025）：https://arxiv.org/abs/2503.20491
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation（CVPR 2025）：https://whynothaha.github.io/Prompt_optimizer/RAPO.html

本文作者：XD 转载请标明出处：http://www.eadst.com/blog/328

本站采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。