小钢炮开源,一张3090两小时「从零训练0.1B全模态模型」,模型训练彻底平民化

AI 知识库17小时前发布 开源AI
664 0 0
熊猫办公
小钢炮开源,一张3090两小时「从零训练0.1B全模态模型」,模型训练彻底平民化
小钢炮挺猛啊!一炮给训练模型的壁垒给干的稀碎。
上周就看过这个模型,没来得及给大家推荐,今天补上。
不用怀疑,你没有看错标题。
不需要集群,不需要拉赞助,更不需要动辄百万的顶级算力,只要一张你打游戏剩下的RTX 3090,只要一杯咖啡外加两小时的午休时间,你就能从零开始亲手训练出一个能听、能看、能流式说话的全模态小钢炮模型。
大模型训练,彻底平民化了!
就像当时大家炼丹玩sd一样简单。
MiniMind-O不只是开源的一个0.1B模型,也是一套让大家都能玩上训练模型的方法。
项目简介
小钢炮开源,一张3090两小时「从零训练0.1B全模态模型」,模型训练彻底平民化
MiniMind-O是一个开源的超轻量级端到端全模态大模型,采用了Thinker–Talker双轨架构设计。
小钢炮开源,一张3090两小时「从零训练0.1B全模态模型」,模型训练彻底平民化
作为核心的Thinker部分,通过将预训练并冻结的语音和视觉编码器特征映射到统一的隐空间,实现了文本、音频与图像输入的深度对齐与跨模态认知。
而作为Talker的部分则采用前沿的多Token预测架构,能直接流式预测Mimi语音压缩器的多层代码本,摆脱了传统离线TTS的拼凑感。
密集版本仅有 115M(0.1B)参数。
配合项目自带的轻量化数据集,仅需一张消费级RTX 3090显卡,2小时即可跑通从零训练、对齐到推理的全链路,原生支持实时插话打断和声音克隆,真正实现了大模型训练的平民化。
DEMO
这在之前真的不敢想,小钢炮,大能量。

如果觉得好玩,你也可以自己去训练一次玩玩,应该有很多朋友都没有搞过模型训练,现在已经没什么门槛了。

功能特点
两套训练数据

  • mini数据集:主打极速入门,单卡3090上约2小时即可跑通全流程。
  • full数据集:与官方发布权重完全对应,深度覆盖中文语音与图像对齐任务。

零样本声音克隆

  • 多音色内置控制:提供多种预设内置音色,完美复现技术报告中的音色控制实验。
  • 任意音频泛化克隆:具备强大的克隆能力,可根据任意参考音频流式发声。

工业级全双工交互体验
这么小的模型,就能做到边听边说了。

  • 多端全功能演示:完整的推理工具链,同时支持 CLI 命令行与炫酷的 Web UI 交互。
  • 电话模式与流式打断:支持双向流式播放,配合 VAD 检测,原生支持实时插话打断(Barge-in)与电话对轰模式。

项目链接

https://github.com/jingyaogong/minimind-o


扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
小钢炮开源,一张3090两小时「从零训练0.1B全模态模型」,模型训练彻底平民化
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章