2026年1月11日AI图片与视频领域最新成果盘点
作者:XD / 发表: 2026年1月20日 05:49 / 更新: 2026年1月20日 05:49 / 生活随记 / 阅读量:6
2026年1月11日AI图片与视频领域最新成果盘点(含开源链接/入口)
发布日期:2026 年 1 月 11 日
本文总结近期 AI 在 视频生成、数字人、语音转录、可控视角/4D、机器人 等方向的进展,并给出对应的论文/开源仓库/工具入口,便于快速上手与检索。
一、核心成果汇总(图片与视频为主)
1)视频生成与编辑类模型
DreamID-V(字节跳动)——高保真视频级换脸模型
- 核心能力:参考图 + 源视频实现高一致性换脸,强调身份一致性与时序一致性。
- 资源链接:
- 代码仓库:DreamID-V GitHub
- 论文:DreamID-V arXiv
- 项目页:DreamID-V Project Page
LTX-2(Lightricks)——音画同步视频生成模型
- 核心能力:统一生成视频与音频(对话/音效/环境音等),强调音画同步;可用于高质量视频生产工作流。
- 资源链接:
- 代码仓库:LTX-2 GitHub
- 论文:LTX-2 arXiv
- 系统要求:LTX Docs - System Requirements
- ComfyUI 节点:ComfyUI-LTXVideo
研究社区代表项目(可核对的开源条目)
- 参考图驱动的视频风格控制(风格参考图 → 视频风格)
- StyleCrafter GitHub
- StyleCrafter Project Page
-
任意两类 3D 物体的连续变形(3D morphing)
- MorphAny3D GitHub
-
单目视频 → 新视角/大视角视频合成(驾驶/街景场景常见)
- GCD GitHub
- GCD Project Page
-
可控视角 4D 视频生成(强调极端视角一致性)
- EX-4D GitHub
- EX-4D Project Page
-
可控“视频世界模型”/显式 4D 控制方向代表
- VerseCrafter GitHub
2)数字人相关技术
Google Veo 3 / Veo 3.1 + Flow + Google Vids
- 核心能力(Veo 3):原生生成音画并与画面同步(对话/音效/环境音等),提升短片、讲解类视频制作效率与真实感。
- 能力延伸(Veo 3.1 / Flow):参考图控制(Ingredients)、首尾帧过渡(Frames)、视频延长(Scene Extension)、视频内对象添加/删除等。
- 资源链接(官方入口/文档):
- Veo 模型页(DeepMind)
- Google AI Studio - Veo 3
- Flow(Google Labs)
- Flow / Veo 更新说明(官方博客)
- Veo 3.1 Ingredients 更新(官方博客)
- Vertex AI - Veo 文档
- Gemini API - Video 文档
- Google Vids 产品页
- Vids 集成 Veo 3(Workspace Updates)
HRM²Avatar(阿里)——移动端高保真数字人生成框架
- 核心能力:通过手机扫描/拍摄生成高保真数字人,降低制作门槛,适合实时渲染与驱动。
- 资源链接:
- HRM²Avatar 代码(Taobao3D)
- HRM²Avatar 项目页
- HRM²Avatar arXiv
- HRM²Avatar ACM DOI
3)其他关联 AI 成果(跨领域支持)
ElevenLabs Scribe v2 ——语音转录/字幕制作
- 核心能力:高质量语音转录,可用于字幕制作、内容整理与多语种工作流(以官方产品能力为准)。
- 资源链接:
- Scribe v2 官方博客
- Speech-to-Text 文档
DeepTutor(港大)——开源研究/学习辅助工具
- 核心能力:上传资料后进行问答、学习辅助、研究工作流支持(具体功能以仓库版本为准)。
- 资源链接:
- DeepTutor GitHub
SleepFM(斯坦福)——睡眠与健康分析模型
- 核心能力:健康/睡眠相关基础模型与分析能力(偏健康数据方向)。
- 资源链接:
- SleepFM GitHub
4)人形机器人与视觉技术关联
Boston Dynamics Atlas(新一代电驱 Atlas)
- 亮点:面向工业落地的电驱 Atlas 迭代,运动控制、视觉感知与环境互动能力持续增强(与 3D 视觉、动态理解方向存在技术关联)。
- 资源链接:
- Introducing Electric Atlas(官方博客)
- Atlas Ships to Hyundai(官方博客)
二、资源索引(文字版,无表格)
下面按“成果名称 → 类型 → 资源链接”列出,方便复制与二次整理:
- DreamID-V(开源视频换脸)
- DreamID-V GitHub
- DreamID-V arXiv
-
LTX-2(开源音画同步视频生成)
- LTX-2 GitHub
- LTX-2 arXiv
- LTX 系统要求
-
Google Veo 3 / Veo 3.1(视频/数字人能力链路)
- Veo 模型页(DeepMind)
- Google AI Studio - Veo 3
- Flow(Google Labs)
- Google Vids
- Gemini API - Video
-
HRM²Avatar(开源数字人框架)
- HRM²Avatar GitHub(Taobao3D)
- HRM²Avatar 项目页
-
ElevenLabs Scribe v2(语音转录/字幕)
- Scribe v2 Blog
-
DeepTutor(HKU)(开源研究辅助)
-
SleepFM(Stanford)(健康/睡眠模型)
-
StyleCrafter(视频风格控制)
-
MorphAny3D(3D 物体变形)
-
GCD(Generative Camera Dolly)(单目视频新视角生成)
-
EX-4D(可控视角 4D 视频)
-
VerseCrafter(可控视频世界模型方向)
- VerseCrafter GitHub
相关标签
