CyberVerse：开源数字人实时互动平台，支持一张照片生成可实时视频通话的 AI 角色

项目地址：https://github.com/dsd2077/CyberVerse
核心定义：一个开源的实时视频通话智能体（Agent）平台。

🚀 项目简介想象一下：你只需上传一张照片，几分钟后，一个能实时看见你、听见你、并与你面对面视频聊天的 AI 数字人就诞生了。它不是预录视频，也不是卡顿的回合制对话，而是低延迟（首帧约 1.5s）、近乎无限时长的实时交互。这感觉像极了科幻电影里的JARVIS，让思念的人或喜欢的角色跨越屏幕，真正“复活”。

✨ 核心亮点：不止“像人”，更是“Agent”CyberVerse 的定位非常清晰：数字人即 Agent。

1. 实时视频通话 (Real-time Video)●技术栈：基于 WebRTC + P2P 流传输，内置 TURN/NAT 穿透。●交互体验：支持长时间面对面交流，具备自然口型同步、面部表情以及真实的待机呼吸感。2. 单图驱动 (Single Photo to Live)●零门槛：无需 3D 建模或动作捕捉，一张照片即可驱动。●双模型支持：▪⚡FlashHead (1.3B)：轻量高效，适合主流配置。▪🔥LiveAct (18B)：表现力更强，细节更丰富。3. 高度模块化 (Modular Architecture)所有核心组件均可灵活插拔，通过YAML配置文件即可自由组合：●🧠大脑 (LLM)：支持各类大语言模型。●🗣️声音 (TTS/ASR)：目前接入豆包语音 Key 即可快速启动，后续支持更多。●🎭面孔 (Avatar)：自由切换视觉模型。4. Agent 进化能力不止于聊天，项目正在规划以下进阶功能：●🧠记忆系统：记住与你的过往对话。●🛠️工具调用：执行具体的任务指令。●🤝多 Agent 协作：让不同的数字人相互配合。

📅 发展路线图 (Roadmap)✓语音打断功能角色 CRUD 管理系统知识库检索 (RAG)Face-to-face 视觉理解直播间自动推流Web 组件嵌入支持

💻 硬件要求与部署这是一个生产力级别的工具，对算力有一定要求：硬件建议

配置	推荐显卡	表现预期
推荐配置	RTX 4090 / 5090 / Pro 6000	Lite 模式下可达 25+ FPS
显存要求	24GB+ (多卡更佳)	保证低延迟推理

环境依赖●语言: Python 3.10+, Node.js, Go●框架: PyTorch 2.8 (CUDA 12.8)●工具: FFmpeg快速开始1.克隆仓库:git clone https://github.com/dsd2077/CyberVerse2.创建环境: 使用conda安装依赖。3.下载模型: 国内用户推荐使用ModelScope镜像加速。4.配置与启动: 修改 YAML 文件，通过make命令一键启动服务。

💡 小贴士：首次部署涉及大模型下载与依赖编译，请确保网络环境畅通。云服务器部署需开放8443 (TURN)等相关端口。

🌟 为什么值得关注？1.开源精神：采用GPLv3协议，代码全透明，拒绝商业闭源割韭菜。2.应用场景无限：▪🎨内容创作：虚拟主播、游戏 NPC。▪💖情感陪伴：数字分身、复活故人。▪🎓专业服务：教育助手、数字客服。3.学习价值：涵盖了 AI 推理、WebRTC、多模态融合等多个前沿领域。

💬 结语AI 正在从“文本对话”走向“面对面交流”。CyberVerse证明了通过开源的力量，一张照片就能把幻想变成现实。你最想用这样的数字人做什么？是打造你的专属 AI 助手，还是让喜欢的二次元角色走进现实？欢迎前往 GitHub 贡献 Star ⭐ 或在评论区交流你的想法！

写在最后

看到这个开源项目，第一时间就收藏一下，把其中一些亮点借鉴一下用到自己的数字人项目中，节后升级一下2D数字人。

关于作者

做一只爬的最久的乌龟，保持学习保持好奇，即使慢一点，遇到一点困难，只要最后能到达终点，又有什么关系呢。

毕竟人生没有白走的路，每一步都算数。、