
上周就看过这个模型,没来得及给大家推荐,今天补上。
不用怀疑,你没有看错标题。
不需要集群,不需要拉赞助,更不需要动辄百万的顶级算力,只要一张你打游戏剩下的RTX 3090,只要一杯咖啡外加两小时的午休时间,你就能从零开始亲手训练出一个能听、能看、能流式说话的全模态小钢炮模型。
大模型训练,彻底平民化了!
MiniMind-O不只是开源的一个0.1B模型,也是一套让大家都能玩上训练模型的方法。


而作为Talker的部分则采用前沿的多Token预测架构,能直接流式预测Mimi语音压缩器的多层代码本,摆脱了传统离线TTS的拼凑感。
密集版本仅有 115M(0.1B)参数。
配合项目自带的轻量化数据集,仅需一张消费级RTX 3090显卡,2小时即可跑通从零训练、对齐到推理的全链路,原生支持实时插话打断和声音克隆,真正实现了大模型训练的平民化。
DEMO
如果觉得好玩,你也可以自己去训练一次玩玩,应该有很多朋友都没有搞过模型训练,现在已经没什么门槛了。
- mini数据集:主打极速入门,单卡3090上约2小时即可跑通全流程。
- full数据集:与官方发布权重完全对应,深度覆盖中文语音与图像对齐任务。
零样本声音克隆
- 多音色内置控制:提供多种预设内置音色,完美复现技术报告中的音色控制实验。
- 任意音频泛化克隆:具备强大的克隆能力,可根据任意参考音频流式发声。
工业级全双工交互体验
这么小的模型,就能做到边听边说了。
- 多端全功能演示:完整的推理工具链,同时支持 CLI 命令行与炫酷的 Web UI 交互。
- 电话模式与流式打断:支持双向流式播放,配合 VAD 检测,原生支持实时插话打断(Barge-in)与电话对轰模式。
项目链接
https://github.com/jingyaogong/minimind-o
扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)

© 版权声明
文章版权归作者所有,未经允许请勿转载。
