机器之心发布
在与3D数字人对话的过程中,是否曾感受到过令人不安的瞬间:它的嘴在蠕动,而面部表情却显得死板;它的手在抖动,然而与所说内容毫不相干。这种表面上酷似真人却举止生硬的违和感,令人不禁陷入“恐怖谷”的境地。
这一问题的本质在于,人类交流并不仅仅由语言或单一动作构成。一个简单的耸肩可能传达无奈,一个轻微的点头能够表示同意,而微微扬起的眉毛则暗示了质疑。这些由手势、姿态和面部表情构成的非语言信号,是真实沟通中不可或缺的重要部分。
目前,绝大多数3D数字人的动作生成技术依旧停留在简单的动作拼接上,无法承载复杂的语义与情感表达。然而,这种自然流畅且富有情感的表现力对3D数字角色至关重要:这不仅是数字人与人建立信任的需要,更是机器人与人类协作以及游戏角色表现生动性的基础。
AI初创公司SentiPulse联手中国人民大学高瓴人工智能学院的博士生团队,提出了一种全新的3D数字人动作生成范式——SentiAvatar,旨在构建一种具有表现力的交互式3D数字人框架。基于这一框架,团队打造了虚拟角色SUSU,使其能够实时进行语言表达、动作表现及情感传递。
视频链接:点击这里观看
今天,SentiAvatar框架、3D数字人SUSU角色模型及高质量动作数据集SuSuInterActs已全球同步开源。
一眼假的 3D 数字人
困在三个 "无人区"
使3D数字人在真实对话中自然地展现动作,听起来似乎只是工程上的挑战,实际上却涉及到三个长期以来未被解决的研究难题:
第一,高质量数据短缺。现有的数据集往往以英语为主,且缺乏与动作同步的面部表情,尤其是在中文对话场景中,高质量的全身动作数据几乎为零。
第二,复合语义动作的缺失。当描述从简单的“挥手”变为更复合的语义,例如“无奈地耸肩”和“认同地点头”时,模型对语义的理解能力会急剧下降。
第三,对话节奏的错位。模型生成的动作,要么呈现出机械的统一速度,要么与语音的重音和停顿完全失去关联。
是否能够让数字人既能理解“要表达什么”,又能做出与语言节奏同步的自然动作?
问题核心
语义与韵律是跨越两个时间尺度的问题
当前的方法在对话驱动的动作生成上面临两难:全局语义的对齐要求模型理解行为的句子级意义,如“无奈地耸肩”,并生成宏观的动作结构;而帧级韵律的对齐则要求动作的节奏变化与语音中的重音、停顿及韵律变换精准同步。两者分别作用于句子级和帧级的时间尺度,单一模型普遍难以兼顾。
以往的共语音手势生成技术(如EMAGE、TalkShow)将动作视为音频的低阶映射,缺乏高级的句子级语义规划;而文本驱动的动作生成方法(如T2M-GPT、MoMask)则完全忽视音频信号,无法捕捉语音韵律对动作时序的细微调控。
SentiAvatar提出了一种解耦方案,将句子级语义规划与帧级韵律驱动逐步处理,而非强制纳入一个端到端的模型之中。
SentiAvatar
3D数字人动作生成的创新范式
为了解决上述问题,SentiPulse团队在统一的技术框架SentiAvatar下打造了虚拟角色SUSU,并构建了SuSuInterActs数据集(包含2.1万段片段,总计37小时),该数据集通过光学动捕技术收集,围绕单一角色,涵盖同步的语音、全身动作和面部表情。团队还在超过20万条动作序列上预训练了一个动作基础模型Motion Foundation Model,使其具备丰富的动作先验,远超对话场景的需求。
SuSuInterActs 数据集
在面对数据瓶颈时,SentiAvatar的先行策略显得尤为重要。现有的共语音数据集存在两个主要局限:1)大多以英语为主 2)缺乏同步的面部表情数据,在中文对话场景中问题尤为突出。
SentiPulse围绕单一虚拟角色SUSU(22岁,性格温柔活泼,情感丰富),从零开始构建了SuSuInterActs数据集。该数据集包含2.1万段片段和37小时的多模态对话语料,涵盖语音同步、行为标注文本、全身动作及面部表情。
数据采集过程分为四个步骤:
- 角色与场景设计。
- 使用LLM生成带行为标注的对话脚本,例如:动作“摊手无奈”、表情“担忧”等。
- 通过专业的动捕演员使用Nokov光学动捕系统、MANUS手套以及iPhone ARKit流程完成录制。
- 进行后处理与时间校准(统一帧率20FPS,帧级同步)。
最终数据集规模达到了21,133条片段,36.9小时,覆盖日常聊天、情感支持、趣味互动等多种场景。每条样本包含四路同步模态:中文对话文本(带行为语义标注)、语音音频(WAV)、全身骨骼动作(63个关节,6D旋转表示)、面部混合形状系数(blendshape coefficient)(51维ARKit参数)。其中14,278条含有非默认动作标注,9,412条包括非默认表情标注。
将焦点放在单一角色上是一个深思熟虑的设计选择,相比BEAT2等多角色数据集,这种做法能带来更一致的行为模式,有助于特定角色的动作及表情风格学习。
动作基础模型:200K序列的跨领域预训练
对话数据集的动作分布受到场景限制。团队在预训练阶段引入了自研的Motion Foundation Model作为动作基础模型,在200K+条异质动作序列(约676小时)上进行训练,以获得通用运动先验。数据的来源包括:
在蒸馏流程方面,通过提取原子动词、LLM扩展同义短语、合成模板以生成复合动作描述(最多4个动作),并引入运动、仿生动作等专项领域,系统地拓宽了动作先验的覆盖范围。
以Qwen-0.5B为骨干模型,基础模型扩展了词汇表以包含2,048个动作Token(R-VQVAE,4层残差量化,每层码本512)和音频Token(HuBERT K-means量化)。预训练的任务为文本-动作生成,所有文本描述统一转换为中文,以保持语言空间的一致性。
核心架构 plan-then-infill
用对话生成动作的关键在于理解高层次语义意图,模型需要明确“要执行哪些动作”,然后再决定“如何逐帧实施”。这一过程涉及到规划问题的建模。SentiAvatar采用双通道并行架构plan-then-infill,身体动作与面部表情分开处理,身体动作通道分为两个阶段。
1. 身体动作通道
在第一阶段中,LLM语义规划器接收行为标签文本和稀疏音频Token,推出稀疏关键帧动作Token序列。为了支持多轮连贯生成,模型使用前一句的最后两个关键帧的音频-动作Token对作为上下文前缀,进而实现无缝地跨句过渡。
第二阶段由Body Infill Transformer完成,它在相邻关键帧间填补中间3帧,使用逐帧的HuBERT连续特征(768维,20FPS)作为条件信号。模型采用5帧滑动窗口,已知首尾帧后,预测中间的3帧(共12个动作Token)。推理时使用迭代的置信度解码策略(默认6轮),逐步接受高置信度预测,以防止一次性预测导致的质量下降。
2. 面部表情通道
面部表情的动态与语音韵律紧密相连,因此此通道直接绕过LLM规划阶段。Face Infill Transformer结构与Body Infill Transformer类似,但操作2Token/帧的面部离散表示,直接从音频特征生成面部Token,再通过Face R-VQVAE解码成51维的ARKit混合形状系数序列。
两个通道共享HuBERT特征提取,端到端操作大约在0.53秒内生成6秒动作,该架构支持无限轮次的流式输出。
实时性能:0.3秒内生成6秒输出
FGD/BC双重刷新SOTA
整体实验结果:跨数据集均达最优水平
实验结果显示,SentiAvatar在SuSuInterActs和BEATv2两个数据集上都达到了当前的最优表现。
- 在自建的SuSuInterActs测试集中,SentiAvatar的文本-动作检索召回率R@1达43.64%,接近次优基线T2M-GPT(23.12%)的两倍,FID降至8.912(与T2M-GPT的67.78,EMAGE的441.6对比)。
- 在跨数据集评测BEATv2中,SentiAvatar以FGD 4.941和BC 8.078同时刷新两项指标的SOTA,超越之前最佳的Language-of-Motion(FGD 5.301)和SynTalker(BC 7.971),验证了其跨语言、跨数据集的泛化能力。
- SentiAvatar在所有生成方法中的ESD最低(0.456秒,真实动作基准为0.308秒)。
注:评测指标ESD(Event Sync Distance),用于衡量生成动作与驱动信号(如语音节奏)间的时间同步性,直观反映数字人或机器人动作与语言的协调程度。
定性分析结果:SentiAvatar的动作生成效果最佳
团队将SentiAvatar与当前主流的3D动作生成AI模型进行了对比。以下图示中的每一行展示了特定动作与语音的关键帧序列,使用相同颜色的文字和箭头指代同一时间点,而红色箭头则表示动作错误。
模型对比结果:SentiAvatar展现了最自然的生成效果,动作语义准确,且在时间上与音频波形高度对齐。MoMask能够从文本标签中部分捕抓动作语义,但由于缺乏音频信息,生成的动作节奏相对静态,且与音频无对应关系。MEAGE尽管可以生成与音频同步的动作,但动作更加通用,未能考虑标签中指定的语义意图。而AT2M-GPT则会因错误理解动作语义而影响表现。HunYuan-Motion表现最差,因缺乏高质量动捕数据的训练,生成结果中出现明显的身体畸形和不自然姿态。
消融实验结果:验证核心架构各部分的不可替代性
在架构消融实验中,去除LLM规划器会导致性能显著下降:R@1从43.64%骤降至28.06%,FID从8.912恶化至27.567,表明句子语义规划是至关重要的;此外,移除Infill Transformer也会导致所有指标下降,R@1降至27.52%,ESD恶化至0.503秒,因仅依赖稀疏关键帧会产生不连续、节奏不自然的动作。
音频条件消融进一步揭示,Infill Transformer中的连续HuBERT特征是帧级同步的主要驱动力,而LLM中的离散音频Token则更有助于整体动作质量和节奏规划,这验证了“粗粒度音频规划与细粒度音频对齐”的协同效应。
除了实验能力以外,工程落地能力同样至关重要。SentiAvatar实现了在0.3秒内生成6秒的动作序列,支持无限轮次的流式互动。这意味着数字人可以在实时对话中持续生成流畅的动作和表情,而无需在句子结束后再集中处理。
开源与未来
从"数字人"到下一代"数字生命"
今天,SentiAvatar框架、SuSuInterActs数据集及预训练模型已重磅开源,上线GitHub。SentiPulse团队诚邀全球研究机构、开发者一同突破3D动作生成技术与应用的新边界。
SentiPulse的视野不仅限于此。当前3D数字人的竞争焦点仍集中于视觉形象与基础语音动作能力,而未来的技术跃迁将是构建像人类一样的认知与表达能力:更完整的表达模型、更统一的人格系统以及持久的交互记忆。3D数字人未来竞争的核心将不在于谁的渲染更为真实,而是谁能建立更完整的认知-表达闭环。
当数字人不再只是“提线木偶”,而是能够感知语境、理解情绪并主动表达的互动主体时,人机关系的底层逻辑将被重新定义,而下一代“数字生命”也将真正走入现实。



