本文由加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同完成。第一作者魏聪为加拿大滑铁卢大学计算机科学系二年级博士生,导师为陈文虎教授,陈文虎教授为通讯作者。
近年来,视频生成技术在动作真实性方面取得了显著进展,但在角色驱动的叙事生成这一关键任务上仍存在不足,限制了其在自动化影视制作与动画创作中的应用潜力。现有方法多聚焦于 Talking Head 场景,仅生成面部区域,且高度依赖 辅助条件 (如首帧图像或精确关键点),导致生成内容在动作幅度与连贯性方面受限,难以展现自然流畅的全身动态与丰富的对话场景。此外,已有方法通常仅支持 单角色 说话,无法满足多角色对话与交互的生成需求。
为此,研究团队提出了 MoCha ,首个面向 Talking Characters 任务的视频生成方法,致力于 仅基于语音(Speech)与文本 (text) 输入,直接生成完整角色的对话视频 ,无需依赖任何辅助信号,突破了现有技术仅限于面部区域生成(Talking Head)及动作受限的局限,为自动化叙事视频生成提供了全新解决方案。
该方法面向角色 近景至中景(close shot to medium shot) 的全身区域,支持 一个或多个人物在多轮对话场景中的动态交互 。为实现语音与视频内容的精准同步,MoCha 设计了 Speech-Video Window Attention 机制,有效对齐语音与视频的时序特征,确保角色口型与身体动作的一致性。同时,针对大规模语音标注视频数据稀缺的问题,研究团队提出了 联合训练策略 ,充分利用语音标注与文本标注的视频数据,显著提升了模型在多样角色动作与对话内容下的泛化能力。此外,团队创新性地设计了 结构化提示模板 ,引入角色标签,使 MoCha 首次实现了 多角色、多轮对话的生成 ,能够驱动 AI 角色在上下文连贯的场景中展开 具备电影叙事性的对话 。通过大量定性与定量实验,包括用户偏好调研与基准对比,研究团队验证了 MoCha 在 真实感、表现力、可控性与泛化性 方面的领先性能,为 AI 驱动的电影叙事生成树立了新标杆。
目前,该研究在 X 平台上引起了广泛的关注与讨论,相关热帖已经有一百多万的浏览量。
性能展示
MoCha 能够实现基于角色对话驱动的叙事视频生成。以下为研究团队基于 MoCha 生成的视频样例,并通过简单剪辑制作成宣传视频,以展示未来自动化电影生成的可行性与潜力。
MoCha 能够生成 高度准确的唇动同步效果,展现出精细的语音 - 视频对齐能力。
情绪可控性:MoCha能够根据输入文本灵活控制角色情绪,自动生成符合语境的角色表情与情绪动作,同时保证 唇动同步 与 面部表情与上下文的一致性。
动作可控性:MoCha支持通过文本提示灵活控制角色动作,生成符合语境的动态表现,同时确保 唇动同步 与 面部表情与上下文的协调性。
Zero-shot中文对话生成(无间道台词):尽管MoCha未在中文语音数据上进行训练,模型仍展现出良好的跨语言泛化能力,能够生成同步较为自然的中文对话视频。
多角色对话生成:MoCha支持多角色对话生成,能够在单角色发言时,保证所角色的动作与表现合理连贯,整体对话场景保持视觉一致性与叙事连贯性。
多角色多轮对话生成:MoCha支持多角色、多轮对话(Turn-based Dialog)生成,能够实现镜头切换与多角色动态对话的自然衔接,突破现有方法仅支持单角色发言的局限,生成具有镜头语言与剧情连贯性的复杂对话视频。
核心方法
下图展示了 MoCha 的整体框架。
端到端训练,无需辅助条件: 与现有方法(如 EMO、OmniHuman-1、SONIC、Echomimicv2、Loopy 和 Hallo3)不同,这些方法通常依赖参考图像、骨骼姿态或关键点等外部控制信号,MoCha实现了 完全基于语音与文本的端到端训练,无需任何辅助条件。这一设计有效简化了模型架构,同时显著提升了动作多样性与泛化能力。
十八🈲下载 | 2天前 |
林妙妙全身赤裸无删减版 |
双男隐私㊙️黄www网站 | 3天前 |
深喉165分钟无删减版 |
李妍曦裸乳大尺度视频 | 1天前 |
放荡少妇2做爰小说 |
韩国片R级巜干柴烈火之吻 | 7天前 |
男男被❌到爽🔞无套作文 |
旅馆民工粗大硬男同 | 8天前 |
又爽❌又黄❌ |
塞尔吉尼奥巅峰身价 | 7天前 |
穿越三国收服张辽和高顺 |
宁荣荣撩起裙子让唐三 | 5天前 |
网红博雅被C免费观看 |
www.91Pron.com | 1天前 |
绝区零简穿泳装跳舞 |
柳岩又大又白的奶 | 4天前 |
hhhteam |
妇女户外小树林野战A片 | 2天前 |
在线看喂奶露出两个奶头 |