音频驱动数字人口型动画工作原理

AI 知识库3周前发布
734 0 0
熊猫办公
音频驱动数字人基本都遵从基本的工作模式,下面以我们研发的新一代数字人视频系统来介绍下工作原理。
数字人系统通过结合音频特征和人脸特征来生成数字人说话的口型动画,整个过程分为以下几个关键步骤:

1. 音频特征提取系统首先使用WeNet模型从输入音频中提取语音特征:

  • 音频预处理:在音频前后添加静音段以确保特征提取的稳定性
  • MFCC特征提取:将音频转换为梅尔频率倒谱系数(MFCC)特征
  • 深度特征提取:使用WeNet的Conformer编码器提取更高层次的语音表示
  • 特征适配:将提取的特征适配到与视频帧率相匹配的时间维度

2. 人脸特征提取与处理系统使用SCRFD人脸检测器和PFPLD关键点检测器从参考视频中提取人脸特征:

  • 人脸检测:使用SCRFD模型检测每一帧中的人脸位置
  • 关键点定位:使用PFPLD模型提取人脸的68个关键点
  • 面部掩码生成:基于关键点生成面部区域掩码,重点关注嘴部区域
  • 面部对齐:将检测到的人脸裁剪并对齐到标准尺寸

3. 数字人面部动画生成这是核心步骤,系统使用一个深度学习模型将音频特征映射到面部动画:

  • 模型架构:基于生成对抗网络(GAN)的架构,包含生成器(G)和判别器(D)
  • 输入融合:将音频特征、参考人脸图像和面部掩码作为输入
  • 口型合成:生成器网络根据音频特征调整嘴型,生成与语音同步的面部动画
  • 融合处理:将生成的面部动画与原始人脸图像进行平滑融合

4. 视频合成与后处理

  • 帧合成:将生成的面部动画逐帧合成到视频序列中
  • 超分辨率处理:根据需要对视频帧进行超分辨率增强
  • 视频编码:将处理后的帧序列编码为最终视频,并与原始音频合成

工作流程总结

  1. 准备阶段
    • 加载参考视频(提供数字人的外观)
    • 加载驱动音频(提供说话内容和语调)
  2. 特征提取阶段
    • 从音频中提取语音特征(音素、语调等)
    • 从参考视频中提取人脸特征(面部结构、关键点等)
  3. 动画生成阶段
    • 使用深度学习模型将音频特征映射到面部动画参数
    • 根据这些参数调整嘴型和面部表情
  4. 视频合成阶段
    • 将生成的面部动画与参考视频融合
    • 进行必要的后处理(如超分辨率增强)
    • 与原始音频同步生成最终视频

这种技术被称为”音频驱动的面部动画”(Audio-driven facial animation),能够生成与语音高度同步的自然面部动画,特别适用于数字人、虚拟主播等应用场景。

下面给几个我们系统的生成效果案例:
如果你有这方面的需求,可以通过在线网站在线订阅使用:

https://www.mindtechassist.com/

音频驱动数字人口型动画工作原理

音频驱动数字人口型动画工作原理

音频驱动数字人口型动画工作原理
这个系统也支持私有化部署,支持本地部署和云端部署,系统支持nvidia gpu和 华为 npu,详细信息请参考:

https://ai.feishu.cn/wiki/Mu5nwfNrqiytllkkrWhcuGbJnPh

音频驱动数字人口型动画工作原理

© 版权声明

相关文章