2026年1月11日AI图片与视频领域最新成果盘点

作者：XD / 发表： 2026年1月20日 05:49 / 更新： 2026年1月20日 05:49 / 生活随记 / 阅读量：847

2026年1月11日AI图片与视频领域最新成果盘点（含开源链接/入口）

发布日期：2026 年 1 月 11 日

本文总结近期 AI 在 视频生成、数字人、语音转录、可控视角/4D、机器人 等方向的进展，并给出对应的论文/开源仓库/工具入口，便于快速上手与检索。

一、核心成果汇总（图片与视频为主）

1）视频生成与编辑类模型

DreamID-V（字节跳动）——高保真视频级换脸模型

核心能力：参考图 + 源视频实现高一致性换脸，强调身份一致性与时序一致性。
资源链接：
代码仓库：DreamID-V GitHub
论文：DreamID-V arXiv
项目页：DreamID-V Project Page

LTX-2（Lightricks）——音画同步视频生成模型

核心能力：统一生成视频与音频（对话/音效/环境音等），强调音画同步；可用于高质量视频生产工作流。
资源链接：
代码仓库：LTX-2 GitHub
论文：LTX-2 arXiv
系统要求：LTX Docs - System Requirements
ComfyUI 节点：ComfyUI-LTXVideo

研究社区代表项目（可核对的开源条目）

参考图驱动的视频风格控制（风格参考图 → 视频风格）
StyleCrafter GitHub
StyleCrafter Project Page
StyleCrafter arXiv HTML
任意两类 3D 物体的连续变形（3D morphing）
MorphAny3D GitHub
MorphAny3D Project Page
单目视频 → 新视角/大视角视频合成（驾驶/街景场景常见）
GCD GitHub
GCD Project Page
GCD arXiv HTML
可控视角 4D 视频生成（强调极端视角一致性）
EX-4D GitHub
EX-4D Project Page
EX-4D arXiv HTML
可控“视频世界模型”/显式 4D 控制方向代表
VerseCrafter GitHub

2）数字人相关技术

Google Veo 3 / Veo 3.1 + Flow + Google Vids

核心能力（Veo 3）：原生生成音画并与画面同步（对话/音效/环境音等），提升短片、讲解类视频制作效率与真实感。
能力延伸（Veo 3.1 / Flow）：参考图控制（Ingredients）、首尾帧过渡（Frames）、视频延长（Scene Extension）、视频内对象添加/删除等。
资源链接（官方入口/文档）：
Veo 模型页（DeepMind）
Google AI Studio - Veo 3
Flow（Google Labs）
Flow / Veo 更新说明（官方博客）
Veo 3.1 Ingredients 更新（官方博客）
Vertex AI - Veo 文档
Gemini API - Video 文档
Google Vids 产品页
Vids 集成 Veo 3（Workspace Updates）

HRM²Avatar（阿里）——移动端高保真数字人生成框架

核心能力：通过手机扫描/拍摄生成高保真数字人，降低制作门槛，适合实时渲染与驱动。
资源链接：
HRM²Avatar 代码（Taobao3D）
HRM²Avatar 项目页
HRM²Avatar arXiv
HRM²Avatar ACM DOI

3）其他关联 AI 成果（跨领域支持）

ElevenLabs Scribe v2 ——语音转录/字幕制作

核心能力：高质量语音转录，可用于字幕制作、内容整理与多语种工作流（以官方产品能力为准）。
资源链接：
Scribe v2 官方博客
Speech-to-Text 文档

DeepTutor（港大）——开源研究/学习辅助工具

核心能力：上传资料后进行问答、学习辅助、研究工作流支持（具体功能以仓库版本为准）。
资源链接：
DeepTutor GitHub

SleepFM（斯坦福）——睡眠与健康分析模型

核心能力：健康/睡眠相关基础模型与分析能力（偏健康数据方向）。
资源链接：
SleepFM GitHub

4）人形机器人与视觉技术关联

Boston Dynamics Atlas（新一代电驱 Atlas）

亮点：面向工业落地的电驱 Atlas 迭代，运动控制、视觉感知与环境互动能力持续增强（与 3D 视觉、动态理解方向存在技术关联）。
资源链接：
Introducing Electric Atlas（官方博客）
Atlas Ships to Hyundai（官方博客）

二、资源索引（文字版，无表格）

下面按“成果名称 → 类型 → 资源链接”列出，方便复制与二次整理：

DreamID-V（开源视频换脸）
DreamID-V GitHub
DreamID-V arXiv
DreamID-V Project Page
LTX-2（开源音画同步视频生成）
LTX-2 GitHub
LTX-2 arXiv
LTX 系统要求
ComfyUI-LTXVideo
Google Veo 3 / Veo 3.1（视频/数字人能力链路）
Veo 模型页（DeepMind）
Google AI Studio - Veo 3
Flow（Google Labs）
Google Vids
Gemini API - Video
Vertex AI - Veo 文档
HRM²Avatar（开源数字人框架）
HRM²Avatar GitHub（Taobao3D）
HRM²Avatar 项目页
HRM²Avatar arXiv
ElevenLabs Scribe v2（语音转录/字幕）
Scribe v2 Blog
Scribe 文档
DeepTutor（HKU）（开源研究辅助）
DeepTutor GitHub
SleepFM（Stanford）（健康/睡眠模型）
SleepFM GitHub
StyleCrafter（视频风格控制）
StyleCrafter GitHub
MorphAny3D（3D 物体变形）
MorphAny3D GitHub
GCD（Generative Camera Dolly）（单目视频新视角生成）
GCD GitHub
EX-4D（可控视角 4D 视频）
EX-4D GitHub
VerseCrafter（可控视频世界模型方向）
VerseCrafter GitHub

本文作者：XD 转载请标明出处：http://www.eadst.com/blog/321

本站采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

上一篇
强化学习算法GRPO, DAPO, GSPO简单介绍

下一篇
云服务器 Ubuntu 通过 VNC 搭建图形界面

原 2026年1月11日AI图片与视频领域最新成果盘点

作者：XD / 发表： 2026年1月20日 05:49 / 更新： 2026年1月20日 05:49 / 生活随记 / 阅读量：847

2026年1月11日AI图片与视频领域最新成果盘点（含开源链接/入口）

一、核心成果汇总（图片与视频为主）

1）视频生成与编辑类模型

DreamID-V（字节跳动）——高保真视频级换脸模型

LTX-2（Lightricks）——音画同步视频生成模型

研究社区代表项目（可核对的开源条目）

2）数字人相关技术

Google Veo 3 / Veo 3.1 + Flow + Google Vids

HRM²Avatar（阿里）——移动端高保真数字人生成框架

3）其他关联 AI 成果（跨领域支持）

ElevenLabs Scribe v2 ——语音转录/字幕制作

DeepTutor（港大）——开源研究/学习辅助工具

SleepFM（斯坦福）——睡眠与健康分析模型

4）人形机器人与视觉技术关联

Boston Dynamics Atlas（新一代电驱 Atlas）

二、资源索引（文字版，无表格）

2026年1月11日AI图片与视频领域最新成果盘点