字节发布「实时交互数字人框架」，AI直播终于要实现了，无限时长+全身动作控制。

字节新发布的这个数字人框架FlowAct-R1，确实是太领先了，每一个看过Demo的人都会惊呼！
之前那些可以人脸克隆的数字人视频，还只是停留在对口型的阶段。
AI直播说实话也没有真正落地，因为那些数字人基本都是定制人脸，实际的交互体验一塌糊涂。
这超越SOTA的框架，它可不是为了让你做短视频，而是在视频会议、虚拟陪伴、直播互动中，提供一个真正能骗过你眼睛的实时化身，这是真的可以让AI直播落地了。
项目简介

FlowAct-R1是字节推出的实时交互数字人视频生成框架，仅需单张参考图和音频，就能流式生成无限时长的全身动态视频。
在保持高保真视觉效果的同时，实现了1.5秒首帧低延迟和25fps的稳定实时响应，并且能通过多模态指令精细控制数字人的面部表情与肢体动作，如倾听、思考、手势，让整个交互过程更加生动、真实。

DEMO

首先得说下，下面的这些视频都不是录播。

直播

观察面部表情和肢体语言，非常自然，即使视频时间很长依然非常稳定，没有出现长视频常见的崩脸现象。

视频会议

当对方说话时，她会点头示意，轮到她回答时，反应极快，几乎感觉不到延迟。

泛化能力

FlowAct-R1的泛化能力很强，所以它并不局限于特定人物，只需要一张参考图，就能驱动各种风格的角色，写实照片、二次元动漫、艺术画作风格都OK。

技术特点

1.流式生成与无限时长
传统视频模型是一次性生成整个片段，不仅慢而且显存占用大。FlowAct-R1采用了分块扩散强制策略。简单来说就是它把视频切成一小块一小块地生成，同时利用结构化记忆库，来确保每一块画面都能完美衔接上一块，从而实现理论上的无限时长生成。
2. 实时性能
这是在A100的显卡测试的数据，A100并不一定比4090推理更快，只是显存大，目前模型估计还在优化，我也不清楚具体会需要多少显存，但是优化之后应该是可以在单张4090跑的。