项目地址:https://github.com/dsd2077/CyberVerse
核心定义:一个开源的实时视频通话智能体(Agent)平台。
🚀 项目简介想象一下:你只需上传一张照片,几分钟后,一个能实时看见你、听见你、并与你面对面视频聊天的 AI 数字人就诞生了。它不是预录视频,也不是卡顿的回合制对话,而是低延迟(首帧约 1.5s)、近乎无限时长的实时交互。这感觉像极了科幻电影里的JARVIS,让思念的人或喜欢的角色跨越屏幕,真正“复活”。
✨ 核心亮点:不止“像人”,更是“Agent”CyberVerse 的定位非常清晰:数字人即 Agent。
1. 实时视频通话 (Real-time Video)●技术栈:基于 WebRTC + P2P 流传输,内置 TURN/NAT 穿透。●交互体验:支持长时间面对面交流,具备自然口型同步、面部表情以及真实的待机呼吸感。2. 单图驱动 (Single Photo to Live)●零门槛:无需 3D 建模或动作捕捉,一张照片即可驱动。●双模型支持:▪⚡FlashHead (1.3B):轻量高效,适合主流配置。▪🔥LiveAct (18B):表现力更强,细节更丰富。3. 高度模块化 (Modular Architecture)所有核心组件均可灵活插拔,通过YAML配置文件即可自由组合:●🧠大脑 (LLM):支持各类大语言模型。●🗣️声音 (TTS/ASR):目前接入豆包语音 Key 即可快速启动,后续支持更多。●🎭面孔 (Avatar):自由切换视觉模型。4. Agent 进化能力不止于聊天,项目正在规划以下进阶功能:●🧠记忆系统:记住与你的过往对话。●🛠️工具调用:执行具体的任务指令。●🤝多 Agent 协作:让不同的数字人相互配合。
📅 发展路线图 (Roadmap)✓语音打断功能角色 CRUD 管理系统知识库检索 (RAG)Face-to-face 视觉理解直播间自动推流Web 组件嵌入支持
💻 硬件要求与部署这是一个生产力级别的工具,对算力有一定要求:硬件建议
|
|
|
|
|---|---|---|
| 推荐配置 |
|
|
| 显存要求 |
|
|
环境依赖●语言: Python 3.10+, Node.js, Go●框架: PyTorch 2.8 (CUDA 12.8)●工具: FFmpeg快速开始1.克隆仓库:git clone https://github.com/dsd2077/CyberVerse2.创建环境: 使用conda安装依赖。3.下载模型: 国内用户推荐使用ModelScope镜像加速。4.配置与启动: 修改 YAML 文件,通过make命令一键启动服务。
💡 小贴士:首次部署涉及大模型下载与依赖编译,请确保网络环境畅通。云服务器部署需开放8443 (TURN)等相关端口。
🌟 为什么值得关注?1.开源精神:采用GPLv3协议,代码全透明,拒绝商业闭源割韭菜。2.应用场景无限:▪🎨内容创作:虚拟主播、游戏 NPC。▪💖情感陪伴:数字分身、复活故人。▪🎓专业服务:教育助手、数字客服。3.学习价值:涵盖了 AI 推理、WebRTC、多模态融合等多个前沿领域。
💬 结语AI 正在从“文本对话”走向“面对面交流”。CyberVerse证明了通过开源的力量,一张照片就能把幻想变成现实。你最想用这样的数字人做什么?是打造你的专属 AI 助手,还是让喜欢的二次元角色走进现实?欢迎前往 GitHub 贡献 Star ⭐ 或在评论区交流你的想法!
