腾讯研究突破：数字人动作同步及相关技术进展

豆抖大人2025-11-11 09:21:43

腾讯最新研究让手部动作不再是数字人的漏洞。视频中的郭德纲和罗翔的动作都是AI捕捉其他人动作，然后让目标动起来的。并且除了手部动作同步，人物脸型、口型都支持同步，而且还支持换脸技术。换句话说，一个人开启这个动作的和你视频以后，你以为对面是陈冠希，但实际上可能是赵本山。之所以该研究有如此大的突破，主要是传统的基于gan的方法通常只关注面部区域的编辑，而mako Anker采用了结构引导的扩散模型，该模型能够保持三弟网格条件生成人类视频，从而实现对全身动作的精确控制和渲染。通过将三弟网格条件嵌入到生成过程中，学习从姿势到目标视频帧的对应映射，这使得生成的视频能够保持身份特征和运动的连贯性。为了让人物动作时背景不露馅，研究者们提出了一种两阶段训练策略，包括在多个身份上进行预训练以增强模型的运动生成能力，以及在特定个体上进行微调以绑定动作和外观。这种策略允许模型在快速泛化到新个体身份的同时记住背景信息，从而生成和谐的主播视频提高了技术的泛用性，使得克隆一个人所需的材料就是对方一分钟的短视频就够了。此外为了生成任意长度的时序一致视频，研究者们提出了一种无需额外训练的视频扩散模型，通过引入全真交叉注意力模块来替代图像扩散模型中的自注意力。通过批重叠时间去噪算法将长时间运动序列输入分成多个重叠的窗口，并在每个去噪步骤中逐一处理这些窗口，然后对窗口之间的噪声进行归一化，以确保连贯性。以往的技术中，由于面部区域在整个图像中相对较小，直接生成高质量的面部特征是挑战。为了解决这个问题，研究者们采用一种基于修复的方法，通过裁剪和混合操作来修正面部区域。通过面部对齐和修复增强面部细节的生成，提高输出视频的面部区域视觉质量。与现有的最先进方法进行比较，包括pose、RIMGTPS、dream pose和disco。Make your ranker在图像质量、时间连贯性和结构保持方面取得了更好的性能。可以预料得到，这项技术一旦开源不加以管控的话，估计网上可以出现一堆明星带货，当然数字人的门槛也会更低。

腾讯研究,数字人,手部动作,同步技术,换脸技术
[Q]：腾讯这项研究对手部动作有什么改进？
[A]：让手部动作不再是数字人的漏洞，能精准同步。
[Q]：除手部动作外，还有哪些同步？
[A]：人物脸型、口型都支持同步，还支持换脸技术。
[Q]：研究突破采用了什么模型？
[A]：采用了结构引导的扩散模型。
[Q]：如何实现对全身动作的精确控制和渲染？
[A]：通过将三弟网格条件嵌入生成过程。
[Q]：两阶段训练策略是什么？
[A]：在多个身份预训练增强运动生成能力，在特定个体微调绑定动作和外观。
[Q]：怎样生成任意长度的时序一致视频？
[A]：提出无需额外训练的视频扩散模型，引入相关模块和算法。
[Q]：面部处理针对什么问题？
[A]：面部区域小，直接生成高质量面部特征有挑战。
[Q]：与现有方法比较有哪些优势？
[A]：在图像质量、时间连贯性和结构保持方面性能更好。