清华团队做了个具身智能大脑，有点东西！

这是苍何的第 519 篇原创！大家好，我是苍何。前几天，好基友甲木带我去了趟清华大学，参加一个机器人发布会。清华团队做了个具身智能大脑，有点东西！

发布方是一念 Unisonmind（清华团队），发布的产品叫 UnisonMind。简单说，这是一个端侧部署、实时运行的原生多模态模型。支持流式输入与持续状态更新。行业首发。它同时进入了三种完全不同形态的机器：机器狗、人形机器人、电动轮椅。清华团队做了个具身智能大脑，有点东西！

注意，是同一个认知内核，直接迁移到不同的硬件载体上。身体和底层运动控制可以不同，但上层大脑共享同一套认知系统，持续判断「我在哪里、周围发生了什么、人希望我做什么、下一步该说什么或做什么」。这个思路在行业里讨论了很久，但真正做出来并在 20 多人的真实现场演示的，一念是我见到的第一家。下面聊聊我在现场看到的几个演示。现场演示发布会现场的任务，都是由人在运行过程中实时提出的，不是提前编排好的固定脚本。1、数乒乓球。工作人员在机器狗面前快速抛撒乒乓球，速度很快，数量不少。机器狗需要实时追踪每一个球的运动轨迹，边看边数，最后报出准确数量。这个任务对人来说不算难，但对机器来说就很考验了。因为球的间隔、速度、轨迹都没有固定规律，稍有遗漏计数就会出错。

这个演示之所以值得单独说，是因为它直接体现了一念在技术上的一个关键差异点，后面会展开聊。2、倒背数字。工作人员随机念一长串数字，机器狗听完之后，倒着背出来。这考验的可不只是「听见了」，还得「记住了，还能倒序处理」。本质上是实时认知能力的一个测试：系统得在连续输入中保持状态，还能按新的要求重组输出。

3、找人。告诉机器狗「帮我找穿白衬衫的那个人」，它在一群人里面锁定目标。没有提前录入人脸信息，纯靠视觉理解和语义匹配，现场实时找。有意思的是，现场有个人披着外套，机器狗注意到里面穿的也是白衬衫，还主动补充了这个细节。这种临场的语义补充能力，比单纯的目标识别要有意思得多。

4、轮椅自主导航去买咖啡。这个演示我个人最关注。一台搭载了 UnisonMind 的电动轮椅，用户只需要说「我想喝杯咖啡」。轮椅自动识别标牌、判断空间关系、规划路线、避开障碍，带着用户去到咖啡店。清华团队做了个具身智能大脑，有点东西！对于行动不便的人来说，不用再依赖别人推轮椅，不用反复解释「往左、往右、停一下」。说一句话，轮椅就懂了。讲真的，这个场景让我在现场沉默了好一会儿。技术不就应该用在这种地方吗？

理解这次发布的一个关键技术点看完演示，我比较好奇的是，凭什么一念的机器狗能数清楚快速飞过的乒乓球？这里面有一个核心的技术差异：流式输入与持续状态更新。清华团队做了个具身智能大脑，有点东西！先说一个前提：真实世界不会暂停等模型算完。人会移动，球会连续起落，声音会重叠，新指令随时到来，原来的判断也可能下一秒失效。现在大部分多模态模型处理视频的方式是「抽帧」，从视频中按固定间隔抽取若干关键帧，再统一分析。这种方式更适合视频摘要、内容识别这类事后分析的场景。但数乒乓球这种任务，颠球的间隔、速度和轨迹没有固定规律，一次有效触球可能只持续很短时间。如果两个采样点之间刚好漏掉一次触球，累计结果就会出错。UnisonMind 的做法是流式处理：视频信息持续进入，系统沿着真实时间轴维护一个不断演化的世界状态，每一帧都在更新。相当于从「收到消息才上线」变成了「始终在场，一直知道刚才发生了什么、现在发生了什么」。这也是为什么它能在连续运动中数对乒乓球，能在连续输入中记住一长串数字并倒序输出。感知、推理、表达和行动，跟真实世界共享的是同一条时间线。「3+1」技术框架一念科技给 Physical AGI 定义了一个「3+1」的必要条件：清华团队做了个具身智能大脑，有点东西！ 统一的多模态认知。由一个统一的认知内核来理解不同的信息输入，视频、图像、语音、文本以及设备自身状态，都进入同一个世界表征。不再是视觉一个模型、语音一个模型、动作交给另一个系统临时拼接。理解和生成统一。它不只「看懂」，还要根据任务说话、移动、交互，让理解和输出属于同一个认知过程。输出也不只是文字，可以按任务需要生成动作、视频、音频或文本，并通过行动再次改变外部世界，形成闭环。流式输入输出。就是上面聊的那个，持续接收信息，持续更新内部状态，同时保持原任务不丢失。任务可以被打断、修正和重组，而不是只能执行预先写好的完整脚本。加上全端侧部署。核心大脑完整运行在设备本体上，不把核心认知托管在远程云端。低延迟，不用等网络往返。弱网、断网场景也能正常工作。隐私和安全也更可控。想想看，如果轮椅每个指令都得先传到云端再传回来，万一网断了怎么办？端侧部署在这些场景下是刚需。清华团队做了个具身智能大脑，有点东西！真实现场，包括不完美的部分发布会现场有 20 多位来宾，全程录像，持续走动的人群、临时指令、声音干扰和硬件状态，共同构成了一个难以完全预编排的真实环境。说句公道话，现场演示并不是每一次都完美。轮椅在演示中出现过一次硬件异常，原地转了好几圈。但有意思的是，即便在这种状态下，它仍然能围绕自身状态跟人继续对话。Physical AI 真正面对的考验，不只是「成功完成一次任务」，还包括意外发生后能否感知、回应、调整并安全继续。物理世界本来就有噪声、遮挡、误解和各种故障，真实现场比精心剪辑的 Demo 更有说服力。我的一些行业观察从行业视角聊几点。目前具身智能赛道的主流做法，还是「感知模块 + 决策模块 + 执行模块」的分层架构，每一层各自训练，中间用规则或接口串起来。这种方案工程上可控，但上限也明显：模块之间信息损耗大，端到端的响应链路长，很难做到真正的实时。一念这次的思路是把感知、认知、生成压到一个统一的原生多模态模型里，再加上端侧部署，从架构层面缩短这条链路。方向上，我认为是对的。但现阶段的问题也摆在那里。现场部分场景下响应偏慢，复杂指令的理解准确率有波动。端侧算力的天花板摆在那里，模型压缩和推理效率的优化还有很长的路要走。另外，跨本体迁移目前展示的三种载体，运动复杂度差异很大。统一大脑在认知层做到了共享，但底层运动控制因硬件而异，适配的深度和泛化能力还需要更多场景去验证。总的来说，一念这次展示的是一条有潜力的技术路径，可能走到了 Physical AGI 的门口，但完整的 Physical AGI 仍需更广泛、严格和长期的验证。写在最后具身智能这个赛道，离大规模商用还有距离，这是事实。但「跨本体统一认知」这个思路，确实值得关注。以前做机器人，思路是「一种机器人配一套方案」，成本高，周期长，很难规模化。如果真能做到一个大脑适配多种身体，商业化路径就完全不一样了。机器狗能用，人形机器人能用，轮椅也能用。未来扫地机器人、送餐机器人是不是也能用？这才是平台化的想象空间。聊点我个人对「端侧实时多模态大脑」这条路线的看法。目前行业里做具身智能，大部分公司的多模态能力依赖云端大模型。机器人本地做感知和基础控制，复杂的理解和决策丢给云端处理，再把结果传回来。这条路能跑，但天花板很明显：网络延迟、隐私风险、离线场景直接趴窝。一念选的是另一条路，把多模态大脑压到端侧。这条路难度大得多，因为端侧算力有限，你得在一块芯片上同时跑视觉、语音、认知、生成，还要保证实时性。但一旦跑通，壁垒也高得多。因为端侧部署意味着机器人可以在任何网络环境下工作，响应速度由本地硬件决定，不受带宽和服务器排队的影响。这对于轮椅、机器狗这类需要即时反应的场景来说，几乎是必选项。再说流式处理这个点。现在很多所谓的多模态模型，本质上还是「看图说话」，给一张图输出一段文字。一念做的是持续的视频流理解，模型的状态随着输入不断更新，类似人类的注意力机制，一直在看，一直在处理。这个能力在实验室里有人在研究，但做到端侧实时跑起来并在真实现场做了验证的，确实少见。当然，「少见」不等于「成熟」。端侧算力的瓶颈、模型压缩带来的精度损失、不同载体之间运动控制的适配深度，这些问题都还在路上。但我觉得，具身智能这个赛道，最终一定会走向端侧化和实时化。云端方案可以作为过渡，但终局一定是端侧。就像手机从功能机到智能机，最终所有计算都发生在你手里那块芯片上。机器人也一样，大脑迟早要长在自己身体里。一念这次发布，至少让我看到了这个方向上一个可信的进展。至于能不能跑到终局，时间会给答案。我一直觉得，技术的终极浪漫，是让普通人的日常生活变得更有尊严。比起让你刷短视频更上瘾，让一个行动不便的人能自己去买杯咖啡，才更值得投入。你觉得这种「一个大脑多种身体」的路线能跑通吗？评论区聊聊。