字节发布「实时交互数字人框架」,AI直播终于要实现了,无限时长+全身动作控制。

熊猫办公
字节发布「实时交互数字人框架」,AI直播终于要实现了,无限时长+全身动作控制。
字节新发布的这个数字人框架FlowAct-R1,确实是太领先了,每一个看过Demo的人都会惊呼!
之前那些可以人脸克隆的数字人视频,还只是停留在对口型的阶段。
AI直播说实话也没有真正落地,因为那些数字人基本都是定制人脸,实际的交互体验一塌糊涂。
这超越SOTA的框架,它可不是为了让你做短视频,而是在视频会议、虚拟陪伴、直播互动中,提供一个真正能骗过你眼睛的实时化身,这是真的可以让AI直播落地了。
项目简介
FlowAct-R1是字节推出的实时交互数字人视频生成框架,仅需单张参考图和音频,就能流式生成无限时长的全身动态视频。
在保持高保真视觉效果的同时,实现了1.5秒首帧低延迟和25fps的稳定实时响应 ,并且能通过多模态指令精细控制数字人的面部表情与肢体动作,如倾听、思考、手势,让整个交互过程更加生动、真实。
字节发布「实时交互数字人框架」,AI直播终于要实现了,无限时长+全身动作控制。
DEMO
首先得说下,下面的这些视频都不是录播。
直播

观察面部表情和肢体语言,非常自然,即使视频时间很长依然非常稳定,没有出现长视频常见的崩脸现象。

视频会议

当对方说话时,她会点头示意,轮到她回答时,反应极快,几乎感觉不到延迟。

泛化能力

FlowAct-R1的泛化能力很强,所以它并不局限于特定人物,只需要一张参考图,就能驱动各种风格的角色,写实照片、二次元动漫、艺术画作风格都OK。

技术特点

字节发布「实时交互数字人框架」,AI直播终于要实现了,无限时长+全身动作控制。
1.流式生成与无限时长
传统视频模型是一次性生成整个片段,不仅慢而且显存占用大。FlowAct-R1采用了分块扩散强制策略。简单来说就是它把视频切成一小块一小块地生成,同时利用结构化记忆库,来确保每一块画面都能完美衔接上一块,从而实现理论上的无限时长生成。
2. 实时性能
这是在A100的显卡测试的数据,A100并不一定比4090推理更快,只是显存大,目前模型估计还在优化,我也不清楚具体会需要多少显存,但是优化之后应该是可以在单张4090跑的。
  • 模型蒸馏: 采用了多阶段蒸馏技术,将扩散模型的去噪步数压缩到了惊人的3步。
  • FP8量化和算子融合: 大幅降低了显存读写开销。最终实现了25fps、480p的实时生成能力,让视频通话不再卡顿。
3. 全身控制和行为规划
这也是FlowAct-R1会更加自然的原因。它引入了一个 多模态大语言模型作为大脑来进行动作规划。模型会根据当前的语音和上下文,判断数字人此刻应该做什么,是倾听、思考还是手舞足蹈。这种细粒度的控制,让数字人消除了僵硬的机械感。
项目链接

https://grisoon.github.io/FlowAct-R1/

扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
字节发布「实时交互数字人框架」,AI直播终于要实现了,无限时长+全身动作控制。
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章