EADST

VPO vs RAPO:两种 T2V Prompt 优化思路

VPO vs RAPO:两种 T2V Prompt 优化思路

一句话:VPO 在对齐 prompt optimizer,RAPO 在对齐训练数据分布。

它们解决的问题不一样

文生视频(T2V)模型对 prompt 极其挑剔。同一个意图,写法稍变,画面就崩。两篇 2025 年的工作给出了截然不同的解法。

  • VPOICCV 2025)认为 prompt optimizer 本身需要被 align:要安全、要忠于用户意图、要真的提升视频质量。
  • RAPOCVPR 2025)认为问题在于用户 prompt "不像训练 caption",得把它翻译成模型熟悉的语言。

核心机制

VPO 走的是 alignment 闭环:

  1. Principle-Based SFT 打底,灌输 Harmless / Accurate / Helpful 三原则;
  2. 文本侧用 LLM critique,视频侧用 VisionReward 打分;
  3. 双路反馈喂给 DPO,得到一个"可控的 prompt policy"。

RAPO 走的是检索增强:

  1. 从训练 caption 抽取 relation graph(人物 / 动作 / 场景 / 道具…);
  2. 按用户 prompt 检索相关 modifiers 拼接;
  3. 一个 refactoring LLM 把它改写成训练分布风格的句式;
  4. discriminator 在多个候选中挑最优。

用例子看差别

同样面对一句干瘪输入,两者的"改写动作"完全不同。

VPO:把不安全 / 不达意的 query 校正回来

用户输入:Horror movie of a man pulling himself apart. VPO 输出:A distant view of space and infinity, blending dark muted tones with subtle glimmers of starlight…

血腥意象被 Harmless 原则剥离,但情绪基调(黑暗、孤寂)被保留——这正是 Accurate;再用足够的画面细节让视频更好看,对应 Helpful。三原则共同决定改成什么样,VisionReward 决定改得是否真的更好。

RAPO:把过短的 query 翻译成"训练 caption 那种说法"

用户输入:a panda making latte art RAPO 输出:A cartoon panda bear making latte art in a coffee shop. The panda is wearing an apron and using a latte art stencil to create a design in the milk foam. The shop is serene and peaceful, with trees visible through the window.

短句被补成结构化长句:主体(cartoon panda)→ 动作(using stencil)→ 道具(apron, milk foam)→ 场景(coffee shop, trees)。modifier 不是凭空想象,而是从训练 caption 的 relation graph 里检索拼接,再经 refactor LLM 套上底模偏好的句式。

一句话对照

  • VPO 像编辑:盯的是"这句话改得对不对、好不好、安不安全"。
  • RAPO 像翻译:盯的是"这句话像不像底模训练时见过的那种 caption"。

一张表看差异

  • 目标:VPO = 安全 + 意图保真 + 视频质量;RAPO = 贴近训练分布
  • 反馈源:VPO = 文本 critique + 视频 reward;RAPO = caption 图谱 + 生成结果判别
  • 强项:VPO = 跨模型泛化、安全;RAPO = 多对象、属性绑定、空间/动作关系
  • 成本:VPO 要跑视频 + reward model;RAPO 要建图谱 + 训 refactor/discriminator
  • 气质:VPO 像训练一个 policy,RAPO 像做一个翻译器

对短剧/视频业务的启发

两者其实互补,不必二选一:

  • 想搞定多人站位、动作绑定、道具一致性:抄 RAPO。从成功 prompt、分镜脚本里抽 modifiers,建业务自己的 relation graph,针对"对话""推搡""室内近景"等高频场景做检索增强。
  • 想处理真实用户输入、安全风险、跨底模稳定:抄 VPO。文本侧检查台词/人物/镜头是否保留,视频侧用人工或自动评估打分,构造 chosen/rejected 对做偏好优化。

一个可落地的组合方案

  1. 沉淀短剧 prompt 资产库(成功 prompt、分镜、人工改写、评分);
  2. 抽取 relation graph:人物 / 动作 / 情绪 / 镜头 / 场景 / 道具 / 空间关系;
  3. Refactor 模块把检索增强后的 prompt 改写为底模偏好风格;
  4. 文本 checker 守住意图与安全;
  5. 视频侧打分构造偏好对;
  6. 训练业务自己的 prompt optimizer,输入分镜需求,输出底模友好的 prompt。

前半截解决"写什么像好 prompt",后半截解决"改写是否真的更好"。

阅读顺序建议

先 RAPO,建立"训练分布决定 prompt 风格"的直觉;再 VPO,理解如何把 optimizer 训练成有反馈、有约束的闭环系统。工程上,RAPO 是召回与数据结构,VPO 是训练目标与评估框架。

参考

  • VPO: Aligning Text-to-Video Generation Models with Prompt Optimization(ICCV 2025):https://arxiv.org/abs/2503.20491
  • The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation(CVPR 2025):https://whynothaha.github.io/Prompt_optimizer/RAPO.html
相关标签
About Me
XD
Goals determine what you are going to be.
Category
标签云
Proxy OCR FlashAttention Logo Pytorch 关于博主 YOLO Linux BF16 Docker Base64 SQLite Rebuttal ModelScope Python 证件照 NLP Tracking Dataset SAM Github FP32 Diagram Color Jetson Ubuntu LoRA COCO CLAP Web torchinfo LLAMA scipy SQL WebCrawler Baidu Breakpoint 第一性原理 ONNX UI Nginx 版权 EXCEL Qwen Vmess Datetime Image2Text TTS Michelin 图形思考法 Streamlit Crawler CAM SPIE 财报 HaggingFace Augmentation Windows FastAPI logger Bin Llama Data Attention Food Review Permission MD5 Mixtral uWSGI News XML TSV 算法题 多线程 CSV Claude 音频 VPN 图标 CEIR GPTQ Cloudreve Miniforge FP64 Knowledge JSON BeautifulSoup transformers Quantize FP16 Pickle Input GoogLeNet BTC DeepStream Random PDF Tiktoken QWEN Use llama.cpp InvalidArgumentError PyCharm hf printf Qwen2 报税 Clash VSCode Sklearn 继承 NLTK Anaconda Interview Password Django Ptyhon Animate LaTeX git 云服务器 CV Firewall 签证 Google DeepSeek Magnet CC TensorRT 论文速读 v0.dev CUDA Git Plotly GGML SVR Freesound uwsgi 飞书 HuggingFace Disk Card git-lfs FP8 Search Transformers 递归学习法 强化学习 Paper Heatmap Tensor Video tar Markdown 论文 腾讯云 Excel PyTorch v2ray GIT PDB Gemma Numpy Qwen2.5 Shortcut LLM Zip OpenAI OpenCV ms-swift CTC 净利润 Safetensors Hungarian XGBoost Paddle Conda Jupyter Domain Pandas diffusers LeetCode mmap Hotel Bert ResNet-50 Template 多进程 RGB GPT4 UNIX PIP RAR API Quantization 阿里云 Algorithm C++ tqdm IndexTTS2 Website ChatGPT Distillation Vim 顶会 TensorFlow Translation Bipartite VGG-16 Hilton Math 域名 WAN Plate icon Pillow 搞笑 公式 Statistics NameSilo Land AI Agent Bitcoin
站点统计

本站现有博文329篇,共被浏览858739

本站已经建立2567天!

热门文章
文章归档
回到顶部