SentiAvatar革新3D虚拟人动作生成的模式

机器之心发布

在与3D数字人对话的过程中，是否曾感受到过令人不安的瞬间：它的嘴在蠕动，而面部表情却显得死板；它的手在抖动，然而与所说内容毫不相干。这种表面上酷似真人却举止生硬的违和感，令人不禁陷入“恐怖谷”的境地。

这一问题的本质在于，人类交流并不仅仅由语言或单一动作构成。一个简单的耸肩可能传达无奈，一个轻微的点头能够表示同意，而微微扬起的眉毛则暗示了质疑。这些由手势、姿态和面部表情构成的非语言信号，是真实沟通中不可或缺的重要部分。

目前，绝大多数3D数字人的动作生成技术依旧停留在简单的动作拼接上，无法承载复杂的语义与情感表达。然而，这种自然流畅且富有情感的表现力对3D数字角色至关重要：这不仅是数字人与人建立信任的需要，更是机器人与人类协作以及游戏角色表现生动性的基础。

AI初创公司SentiPulse联手中国人民大学高瓴人工智能学院的博士生团队，提出了一种全新的3D数字人动作生成范式——SentiAvatar，旨在构建一种具有表现力的交互式3D数字人框架。基于这一框架，团队打造了虚拟角色SUSU，使其能够实时进行语言表达、动作表现及情感传递。

视频链接：点击这里观看

今天，SentiAvatar框架、3D数字人SUSU角色模型及高质量动作数据集SuSuInterActs已全球同步开源。

论文标题：SentiAvatar: Towards Expressive and Interactive Digital Humans
论文地址：点击查看
项目主页：访问项目

一眼假的 3D 数字人

困在三个 "无人区"

使3D数字人在真实对话中自然地展现动作，听起来似乎只是工程上的挑战，实际上却涉及到三个长期以来未被解决的研究难题：

第一，高质量数据短缺。现有的数据集往往以英语为主，且缺乏与动作同步的面部表情，尤其是在中文对话场景中，高质量的全身动作数据几乎为零。

第二，复合语义动作的缺失。当描述从简单的“挥手”变为更复合的语义，例如“无奈地耸肩”和“认同地点头”时，模型对语义的理解能力会急剧下降。

第三，对话节奏的错位。模型生成的动作，要么呈现出机械的统一速度，要么与语音的重音和停顿完全失去关联。

是否能够让数字人既能理解“要表达什么”，又能做出与语言节奏同步的自然动作？

问题核心

语义与韵律是跨越两个时间尺度的问题

当前的方法在对话驱动的动作生成上面临两难：全局语义的对齐要求模型理解行为的句子级意义，如“无奈地耸肩”，并生成宏观的动作结构；而帧级韵律的对齐则要求动作的节奏变化与语音中的重音、停顿及韵律变换精准同步。两者分别作用于句子级和帧级的时间尺度，单一模型普遍难以兼顾。

以往的共语音手势生成技术（如EMAGE、TalkShow）将动作视为音频的低阶映射，缺乏高级的句子级语义规划；而文本驱动的动作生成方法（如T2M-GPT、MoMask）则完全忽视音频信号，无法捕捉语音韵律对动作时序的细微调控。

SentiAvatar提出了一种解耦方案，将句子级语义规划与帧级韵律驱动逐步处理，而非强制纳入一个端到端的模型之中。

SentiAvatar

3D数字人动作生成的创新范式

为了解决上述问题，SentiPulse团队在统一的技术框架SentiAvatar下打造了虚拟角色SUSU，并构建了SuSuInterActs数据集（包含2.1万段片段，总计37小时），该数据集通过光学动捕技术收集，围绕单一角色，涵盖同步的语音、全身动作和面部表情。团队还在超过20万条动作序列上预训练了一个动作基础模型Motion Foundation Model，使其具备丰富的动作先验，远超对话场景的需求。

SuSuInterActs 数据集

在面对数据瓶颈时，SentiAvatar的先行策略显得尤为重要。现有的共语音数据集存在两个主要局限：1）大多以英语为主 2）缺乏同步的面部表情数据，在中文对话场景中问题尤为突出。

SentiPulse围绕单一虚拟角色SUSU（22岁，性格温柔活泼，情感丰富），从零开始构建了SuSuInterActs数据集。该数据集包含2.1万段片段和37小时的多模态对话语料，涵盖语音同步、行为标注文本、全身动作及面部表情。

数据采集过程分为四个步骤：

角色与场景设计。
使用LLM生成带行为标注的对话脚本，例如：动作“摊手无奈”、表情“担忧”等。
通过专业的动捕演员使用Nokov光学动捕系统、MANUS手套以及iPhone ARKit流程完成录制。
进行后处理与时间校准（统一帧率20FPS，帧级同步）。

最终数据集规模达到了21,133条片段，36.9小时，覆盖日常聊天、情感支持、趣味互动等多种场景。每条样本包含四路同步模态：中文对话文本（带行为语义标注）、语音音频（WAV）、全身骨骼动作（63个关节，6D旋转表示）、面部混合形状系数（blendshape coefficient）（51维ARKit参数）。其中14,278条含有非默认动作标注，9,412条包括非默认表情标注。

将焦点放在单一角色上是一个深思熟虑的设计选择，相比BEAT2等多角色数据集，这种做法能带来更一致的行为模式，有助于特定角色的动作及表情风格学习。

动作基础模型：200K序列的跨领域预训练

对话数据集的动作分布受到场景限制。团队在预训练阶段引入了自研的Motion Foundation Model作为动作基础模型，在200K+条异质动作序列（约676小时）上进行训练，以获得通用运动先验。数据的来源包括：

在蒸馏流程方面，通过提取原子动词、LLM扩展同义短语、合成模板以生成复合动作描述（最多4个动作），并引入运动、仿生动作等专项领域，系统地拓宽了动作先验的覆盖范围。

以Qwen-0.5B为骨干模型，基础模型扩展了词汇表以包含2,048个动作Token（R-VQVAE，4层残差量化，每层码本512）和音频Token（HuBERT K-means量化）。预训练的任务为文本-动作生成，所有文本描述统一转换为中文，以保持语言空间的一致性。

核心架构 plan-then-infill

用对话生成动作的关键在于理解高层次语义意图，模型需要明确“要执行哪些动作”，然后再决定“如何逐帧实施”。这一过程涉及到规划问题的建模。SentiAvatar采用双通道并行架构plan-then-infill，身体动作与面部表情分开处理，身体动作通道分为两个阶段。

1. 身体动作通道

在第一阶段中，LLM语义规划器接收行为标签文本和稀疏音频Token，推出稀疏关键帧动作Token序列。为了支持多轮连贯生成，模型使用前一句的最后两个关键帧的音频-动作Token对作为上下文前缀，进而实现无缝地跨句过渡。

第二阶段由Body Infill Transformer完成，它在相邻关键帧间填补中间3帧，使用逐帧的HuBERT连续特征（768维，20FPS）作为条件信号。模型采用5帧滑动窗口，已知首尾帧后，预测中间的3帧（共12个动作Token）。推理时使用迭代的置信度解码策略（默认6轮），逐步接受高置信度预测，以防止一次性预测导致的质量下降。

2. 面部表情通道

面部表情的动态与语音韵律紧密相连，因此此通道直接绕过LLM规划阶段。Face Infill Transformer结构与Body Infill Transformer类似，但操作2Token/帧的面部离散表示，直接从音频特征生成面部Token，再通过Face R-VQVAE解码成51维的ARKit混合形状系数序列。

两个通道共享HuBERT特征提取，端到端操作大约在0.53秒内生成6秒动作，该架构支持无限轮次的流式输出。

实时性能：0.3秒内生成6秒输出

FGD/BC双重刷新SOTA

整体实验结果：跨数据集均达最优水平

实验结果显示，SentiAvatar在SuSuInterActs和BEATv2两个数据集上都达到了当前的最优表现。

在自建的SuSuInterActs测试集中，SentiAvatar的文本-动作检索召回率R@1达43.64%，接近次优基线T2M-GPT（23.12%）的两倍，FID降至8.912（与T2M-GPT的67.78，EMAGE的441.6对比）。
在跨数据集评测BEATv2中，SentiAvatar以FGD 4.941和BC 8.078同时刷新两项指标的SOTA，超越之前最佳的Language-of-Motion（FGD 5.301）和SynTalker（BC 7.971），验证了其跨语言、跨数据集的泛化能力。
SentiAvatar在所有生成方法中的ESD最低（0.456秒，真实动作基准为0.308秒）。

注：评测指标ESD（Event Sync Distance），用于衡量生成动作与驱动信号（如语音节奏）间的时间同步性，直观反映数字人或机器人动作与语言的协调程度。

定性分析结果：SentiAvatar的动作生成效果最佳

团队将SentiAvatar与当前主流的3D动作生成AI模型进行了对比。以下图示中的每一行展示了特定动作与语音的关键帧序列，使用相同颜色的文字和箭头指代同一时间点，而红色箭头则表示动作错误。

模型对比结果：SentiAvatar展现了最自然的生成效果，动作语义准确，且在时间上与音频波形高度对齐。MoMask能够从文本标签中部分捕抓动作语义，但由于缺乏音频信息，生成的动作节奏相对静态，且与音频无对应关系。MEAGE尽管可以生成与音频同步的动作，但动作更加通用，未能考虑标签中指定的语义意图。而AT2M-GPT则会因错误理解动作语义而影响表现。HunYuan-Motion表现最差，因缺乏高质量动捕数据的训练，生成结果中出现明显的身体畸形和不自然姿态。

消融实验结果：验证核心架构各部分的不可替代性

在架构消融实验中，去除LLM规划器会导致性能显著下降：R@1从43.64%骤降至28.06%，FID从8.912恶化至27.567，表明句子语义规划是至关重要的；此外，移除Infill Transformer也会导致所有指标下降，R@1降至27.52%，ESD恶化至0.503秒，因仅依赖稀疏关键帧会产生不连续、节奏不自然的动作。

音频条件消融进一步揭示，Infill Transformer中的连续HuBERT特征是帧级同步的主要驱动力，而LLM中的离散音频Token则更有助于整体动作质量和节奏规划，这验证了“粗粒度音频规划与细粒度音频对齐”的协同效应。

除了实验能力以外，工程落地能力同样至关重要。SentiAvatar实现了在0.3秒内生成6秒的动作序列，支持无限轮次的流式互动。这意味着数字人可以在实时对话中持续生成流畅的动作和表情，而无需在句子结束后再集中处理。

开源与未来

从"数字人"到下一代"数字生命"

今天，SentiAvatar框架、SuSuInterActs数据集及预训练模型已重磅开源，上线GitHub。SentiPulse团队诚邀全球研究机构、开发者一同突破3D动作生成技术与应用的新边界。

SentiPulse的视野不仅限于此。当前3D数字人的竞争焦点仍集中于视觉形象与基础语音动作能力，而未来的技术跃迁将是构建像人类一样的认知与表达能力：更完整的表达模型、更统一的人格系统以及持久的交互记忆。3D数字人未来竞争的核心将不在于谁的渲染更为真实，而是谁能建立更完整的认知-表达闭环。

当数字人不再只是“提线木偶”，而是能够感知语境、理解情绪并主动表达的互动主体时，人机关系的底层逻辑将被重新定义，而下一代“数字生命”也将真正走入现实。

阅读推荐

约基奇为何成为掘金的隐忧？

梅西谈小罗纪录片：他在我心中的独特

今日！CCTV5直播CBA北京首钢，网络转播

阿德莱德球员双双创纪录 同日送出1

阿德莱德球员双双创纪录同日送出1