中传、三星、北航团队提出VarGes框架,真现语音驱动多样化3D姿态死成

中传、三星、北航团队提出VarGes框架,真现语音驱动多样化3D姿态死成

12 6 月, 2025 阅读 2 字数 602 评论 0 喜欢 0

查看引用/信息源请点击:Nweon

从音频中生成富有表现力和多样性的人类姿态

(Nweon 2025年06月12日)从音频中生成富有表现力和多样性的人类姿态在VR等领域至关重要。尽管现有的方法已经取得了显著的性能,但由于数据集的多样性和音频输入的信息量有限,它们经常表现出局限性。

为了应对所述挑战,中国传媒大学,三星和北京航空航天大学团队提出了VarGes。这个variation-driven框架旨在通过整合视觉样式线索来增强语音姿态生成,同时尽量保持自然。

所述方法从Variation-Compensation Style Encoder(VEFE)模块开始,无缝地将样式参考视频数据整合到3D人体姿势估计网络中以提取StyleCLIPS,从而丰富输入的样式信息。

随后,采用Variation-Compensation Style Encoder(VCSE)来对不同的StyleCLIPS表示进行鲁棒编码,并有效地管理样式变化。最后,Variation-Driven Gesture Predictor (VDGP)模块通过交叉注意将MFCC音频特征与StyleCLIPS编码融合,将融合的数据注入交叉条件自回归模型中,以基于音频输入和样式线索调制3D人体姿态生成。

……(全文 1746 字,剩余 1411 字)

请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
会员可直接登入网站阅读
PICO员工可联系免费获取权限

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注