小钢炮开源，一张3090两小时「从零训练0.1B全模态模型」，模型训练彻底平民化

AI 知识库2个月前发布开源AI

熊猫办公

小钢炮开源，一张3090两小时「从零训练0.1B全模态模型」，模型训练彻底平民化

小钢炮挺猛啊！一炮给训练模型的壁垒给干的稀碎。
上周就看过这个模型，没来得及给大家推荐，今天补上。
不用怀疑，你没有看错标题。
不需要集群，不需要拉赞助，更不需要动辄百万的顶级算力，只要一张你打游戏剩下的RTX 3090，只要一杯咖啡外加两小时的午休时间，你就能从零开始亲手训练出一个能听、能看、能流式说话的全模态小钢炮模型。
大模型训练，彻底平民化了！

就像当时大家炼丹玩sd一样简单。
MiniMind-O不只是开源的一个0.1B模型，也是一套让大家都能玩上训练模型的方法。

项目简介

小钢炮开源，一张3090两小时「从零训练0.1B全模态模型」，模型训练彻底平民化

MiniMind-O是一个开源的超轻量级端到端全模态大模型，采用了Thinker–Talker双轨架构设计。

小钢炮开源，一张3090两小时「从零训练0.1B全模态模型」，模型训练彻底平民化

作为核心的Thinker部分，通过将预训练并冻结的语音和视觉编码器特征映射到统一的隐空间，实现了文本、音频与图像输入的深度对齐与跨模态认知。
而作为Talker的部分则采用前沿的多Token预测架构，能直接流式预测Mimi语音压缩器的多层代码本，摆脱了传统离线TTS的拼凑感。
密集版本仅有 115M（0.1B）参数。
配合项目自带的轻量化数据集，仅需一张消费级RTX 3090显卡，2小时即可跑通从零训练、对齐到推理的全链路，原生支持实时插话打断和声音克隆，真正实现了大模型训练的平民化。
DEMO

这在之前真的不敢想，小钢炮，大能量。

如果觉得好玩，你也可以自己去训练一次玩玩，应该有很多朋友都没有搞过模型训练，现在已经没什么门槛了。

功能特点

两套训练数据

mini数据集：主打极速入门，单卡3090上约2小时即可跑通全流程。
full数据集：与官方发布权重完全对应，深度覆盖中文语音与图像对齐任务。

零样本声音克隆

多音色内置控制：提供多种预设内置音色，完美复现技术报告中的音色控制实验。
任意音频泛化克隆：具备强大的克隆能力，可根据任意参考音频流式发声。

工业级全双工交互体验
这么小的模型，就能做到边听边说了。

多端全功能演示：完整的推理工具链，同时支持 CLI 命令行与炫酷的 Web UI 交互。
电话模式与流式打断：支持双向流式播放，配合 VAD 检测，原生支持实时插话打断（Barge-in）与电话对轰模式。

项目链接

https://github.com/jingyaogong/minimind-o

扫码加入AI交流群获得更多技术支持和交流（请注明自己的职业）

小钢炮开源，一张3090两小时「从零训练0.1B全模态模型」，模型训练彻底平民化

关注「开源AI项目落地」公众号与AI时代更靠近一点

AI 知识库行业教程 # 开源AI项目落地

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

十五分钟，AI助你生成“每天认识一种花植物科谱”视频（手把手教你玩转AI）

十五分钟，AI助你生成“每天认识一种花植物科谱”视频（手把手教你玩转AI）

AI 知识库行业教程 # 文字有意思

11个月前

12,499363

现在，你可以在手机上用AI生成一个APP了。

现在，你可以在手机上用AI生成一个APP了。

AI 知识库行业教程 # 数字生命卡兹克

2个月前

2,888555

AI应用｜“四连方”拼图游戏.html

AI应用｜“四连方”拼图游戏.html

AI 知识库教育教程 # 五木瞎折腾

3个月前

8,38848

即梦4.0 | 杀疯了！比NanoBanana更懂国人，10 秒出4K，限时免费「Vol.1 趣味玩法」

即梦4.0 | 杀疯了！比NanoBanana更懂国人，10 秒出4K，限时免费「Vol.1 趣味玩法」

AI 知识库行业教程 # 深南Ai视界

10个月前

6,347909

🤖