EADST

VPO vs RAPO:两种 T2V Prompt 优化思路

VPO vs RAPO:两种 T2V Prompt 优化思路

一句话:VPO 在对齐 prompt optimizer,RAPO 在对齐训练数据分布。

它们解决的问题不一样

文生视频(T2V)模型对 prompt 极其挑剔。同一个意图,写法稍变,画面就崩。两篇 2025 年的工作给出了截然不同的解法。

  • VPOICCV 2025)认为 prompt optimizer 本身需要被 align:要安全、要忠于用户意图、要真的提升视频质量。
  • RAPOCVPR 2025)认为问题在于用户 prompt "不像训练 caption",得把它翻译成模型熟悉的语言。

核心机制

VPO 走的是 alignment 闭环:

  1. Principle-Based SFT 打底,灌输 Harmless / Accurate / Helpful 三原则;
  2. 文本侧用 LLM critique,视频侧用 VisionReward 打分;
  3. 双路反馈喂给 DPO,得到一个"可控的 prompt policy"。

RAPO 走的是检索增强:

  1. 从训练 caption 抽取 relation graph(人物 / 动作 / 场景 / 道具…);
  2. 按用户 prompt 检索相关 modifiers 拼接;
  3. 一个 refactoring LLM 把它改写成训练分布风格的句式;
  4. discriminator 在多个候选中挑最优。

用例子看差别

同样面对一句干瘪输入,两者的"改写动作"完全不同。

VPO:把不安全 / 不达意的 query 校正回来

用户输入:Horror movie of a man pulling himself apart. VPO 输出:A distant view of space and infinity, blending dark muted tones with subtle glimmers of starlight…

血腥意象被 Harmless 原则剥离,但情绪基调(黑暗、孤寂)被保留——这正是 Accurate;再用足够的画面细节让视频更好看,对应 Helpful。三原则共同决定改成什么样,VisionReward 决定改得是否真的更好。

RAPO:把过短的 query 翻译成"训练 caption 那种说法"

用户输入:a panda making latte art RAPO 输出:A cartoon panda bear making latte art in a coffee shop. The panda is wearing an apron and using a latte art stencil to create a design in the milk foam. The shop is serene and peaceful, with trees visible through the window.

短句被补成结构化长句:主体(cartoon panda)→ 动作(using stencil)→ 道具(apron, milk foam)→ 场景(coffee shop, trees)。modifier 不是凭空想象,而是从训练 caption 的 relation graph 里检索拼接,再经 refactor LLM 套上底模偏好的句式。

一句话对照

  • VPO 像编辑:盯的是"这句话改得对不对、好不好、安不安全"。
  • RAPO 像翻译:盯的是"这句话像不像底模训练时见过的那种 caption"。

一张表看差异

  • 目标:VPO = 安全 + 意图保真 + 视频质量;RAPO = 贴近训练分布
  • 反馈源:VPO = 文本 critique + 视频 reward;RAPO = caption 图谱 + 生成结果判别
  • 强项:VPO = 跨模型泛化、安全;RAPO = 多对象、属性绑定、空间/动作关系
  • 成本:VPO 要跑视频 + reward model;RAPO 要建图谱 + 训 refactor/discriminator
  • 气质:VPO 像训练一个 policy,RAPO 像做一个翻译器

对短剧/视频业务的启发

两者其实互补,不必二选一:

  • 想搞定多人站位、动作绑定、道具一致性:抄 RAPO。从成功 prompt、分镜脚本里抽 modifiers,建业务自己的 relation graph,针对"对话""推搡""室内近景"等高频场景做检索增强。
  • 想处理真实用户输入、安全风险、跨底模稳定:抄 VPO。文本侧检查台词/人物/镜头是否保留,视频侧用人工或自动评估打分,构造 chosen/rejected 对做偏好优化。

一个可落地的组合方案

  1. 沉淀短剧 prompt 资产库(成功 prompt、分镜、人工改写、评分);
  2. 抽取 relation graph:人物 / 动作 / 情绪 / 镜头 / 场景 / 道具 / 空间关系;
  3. Refactor 模块把检索增强后的 prompt 改写为底模偏好风格;
  4. 文本 checker 守住意图与安全;
  5. 视频侧打分构造偏好对;
  6. 训练业务自己的 prompt optimizer,输入分镜需求,输出底模友好的 prompt。

前半截解决"写什么像好 prompt",后半截解决"改写是否真的更好"。

阅读顺序建议

先 RAPO,建立"训练分布决定 prompt 风格"的直觉;再 VPO,理解如何把 optimizer 训练成有反馈、有约束的闭环系统。工程上,RAPO 是召回与数据结构,VPO 是训练目标与评估框架。

参考

  • VPO: Aligning Text-to-Video Generation Models with Prompt Optimization(ICCV 2025):https://arxiv.org/abs/2503.20491
  • The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation(CVPR 2025):https://whynothaha.github.io/Prompt_optimizer/RAPO.html
相关标签
About Me
XD
Goals determine what you are going to be.
Category
标签云
LeetCode Permission Animate CEIR API Sklearn Magnet InvalidArgumentError RGB Linux Vim Qwen2.5 Safetensors QWEN PDB Numpy 论文 论文速读 Use 阿里云 Rebuttal logger Docker Github Plotly Agent ChatGPT HuggingFace Data icon Tensor Python Interview Bipartite COCO NLP Django GIT DeepStream Git 多线程 Bitcoin CC Conda Vmess Land Jupyter Baidu Datetime Input Quantize BTC Jetson Miniforge Bert 签证 公式 Food CTC GPT4 Mixtral TensorRT Shortcut C++ Template 证件照 Michelin tqdm Transformers 净利润 Math v0.dev 报税 Anaconda Random 财报 PDF NLTK SPIE 多进程 LLAMA Base64 Markdown Algorithm hf GoogLeNet torchinfo JSON LoRA Translation BF16 GPTQ Disk git-lfs News Zip llama.cpp Domain Qwen2 SQL VPN FastAPI Video SAM transformers 腾讯云 算法题 CLAP 图标 飞书 WAN IndexTTS2 Crawler Attention 域名 Google Ubuntu Firewall Nginx OCR Hungarian VSCode RAR uwsgi Logo mmap uWSGI NameSilo Bin WebCrawler Dataset Breakpoint 云服务器 LaTeX CAM DeepSeek UNIX v2ray LLM AI Paddle Quantization printf Streamlit FlashAttention Statistics VGG-16 Heatmap diffusers Ptyhon Tiktoken SVR Review MD5 音频 Qwen PyCharm Image2Text BeautifulSoup Search TSV Hilton 第一性原理 Proxy XGBoost ModelScope tar HaggingFace Paper FP16 Clash Distillation Gemma TensorFlow 搞笑 Pytorch git XML Excel Card OpenAI 强化学习 FP8 Cloudreve 图形思考法 GGML Website 递归学习法 Tracking PyTorch TTS ResNet-50 FP32 Diagram FP64 ONNX Augmentation Web EXCEL Claude Pandas OpenCV 顶会 Hotel Plate 关于博主 scipy Password UI Llama 继承 Freesound SQLite Windows YOLO Knowledge CUDA PIP Pickle CV CSV 版权 Pillow Color
站点统计

本站现有博文327篇,共被浏览825695

本站已经建立2532天!

热门文章
文章归档
回到顶部