
之前那些可以人脸克隆的数字人视频,还只是停留在对口型的阶段。
AI直播说实话也没有真正落地,因为那些数字人基本都是定制人脸,实际的交互体验一塌糊涂。
这超越SOTA的框架,它可不是为了让你做短视频,而是在视频会议、虚拟陪伴、直播互动中,提供一个真正能骗过你眼睛的实时化身,这是真的可以让AI直播落地了。
项目简介
在保持高保真视觉效果的同时,实现了1.5秒首帧低延迟和25fps的稳定实时响应 ,并且能通过多模态指令精细控制数字人的面部表情与肢体动作,如倾听、思考、手势,让整个交互过程更加生动、真实。

观察面部表情和肢体语言,非常自然,即使视频时间很长依然非常稳定,没有出现长视频常见的崩脸现象。
视频会议
泛化能力
技术特点

传统视频模型是一次性生成整个片段,不仅慢而且显存占用大。FlowAct-R1采用了分块扩散强制策略。简单来说就是它把视频切成一小块一小块地生成,同时利用结构化记忆库,来确保每一块画面都能完美衔接上一块,从而实现理论上的无限时长生成。
2. 实时性能
这是在A100的显卡测试的数据,A100并不一定比4090推理更快,只是显存大,目前模型估计还在优化,我也不清楚具体会需要多少显存,但是优化之后应该是可以在单张4090跑的。
- 模型蒸馏: 采用了多阶段蒸馏技术,将扩散模型的去噪步数压缩到了惊人的3步。
- FP8量化和算子融合: 大幅降低了显存读写开销。最终实现了25fps、480p的实时生成能力,让视频通话不再卡顿。
这也是FlowAct-R1会更加自然的原因。它引入了一个 多模态大语言模型作为大脑来进行动作规划。模型会根据当前的语音和上下文,判断数字人此刻应该做什么,是倾听、思考还是手舞足蹈。这种细粒度的控制,让数字人消除了僵硬的机械感。
https://grisoon.github.io/FlowAct-R1/

© 版权声明
文章版权归作者所有,未经允许请勿转载。
