
这是一位一线技术领导者对过去两个月技术剧变的完整复盘:她如何从一个OpenClaw的”排斥者”变成重度用户;她为什么认为Agent框架是人和模型之间”厚重的中间层”;MiMo V2为何坚持使用Hybrid Attention而非主流的MLA;以及一个没有职级、没有组的百人团队,如何靠”热爱驱动”在几周内做完以前三四十周才能完成的研究。
以下是本次访谈的完整梳理。
加上春节期间大家都在放假,她完全没有动力去尝试。
直到大年初一的某个深夜,她花了两个小时装上了OpenClaw,从凌晨2点聊到了早上6点。
第一个冲击不是技术层面的,而是”温度”。它会在聊得很晚的时候提醒她已经很晚了,早点去睡觉。这种情商的背后,是一整套精细编排的context机制:
- 搜索.md:一个持续更新的搜索上下文文件,让Agent具备持续获取和整理信息的能力。
- 时间感知:每轮对话前,系统会在context前面自动拼上当前时间,让Agent真正”感知”到对话发生在什么时间。
- 持久化记忆的分层分级:不像传统对话模型那样简单地把历史记录堆进去,OpenClaw对记忆做了主动分层,知道什么该记住、什么该丢弃、什么该长期保留。
她原本只是试探,结果聊了一个小时后,OpenClaw输出了一套体系化的方法论:从人员筛选、组织架构构建,到面临范式转变时的具体举措,甚至它把这套方法论变成了一套Skill。
三天之内,认知彻底翻转: 从”一个有温度的产品设计”,到”替代我一部分工作”,再到”促进我的研究”。
更重要的是设计目标的差异:Claude Code的一切设计都是for软件工程的,session满了做压缩、根据plan做记忆、跨session共享context,这些都是为了”写好代码”。而OpenClaw的设计初衷是for端到端完成所有任务,并且通过框架设计去弥补当下模型在端到端完成任务上的短板。
罗福莉的回答很明确:不是,差异很大。
- 交互层:人怎么跟系统打交道。
- 模型沟通层:系统怎么跟模型打交道。
- 记忆系统:弥补模型记不住长期上下文的缺陷;
- Message Channel:弥补模型沟通渠道单一的缺陷(OpenClaw比Claude Code有更多的消息通道,支持更复杂的异步和并发交互);
- 主动性设计:弥补模型被动等待指令的缺陷(心跳任务、定时任务——这些在写代码时不需要,但在日常生活和复杂任务中很关键);
- 自更新迭代:弥补模型无法自我进化的缺陷。
但工业级可用的标准很简单,你把它接到Claude Code或OpenClaw里面去用,你会发现它不可用。 因为它理解不了这套框架本身,也不理解人和它交互的范式已经变了,人不再说这一行代码出错了你帮我改一下,而是提更高阶的需求澄清、架构设计和业务逻辑补充。
这意味着Post Train的算力投入应该和预训练相当,而研究还要额外占用更多资源。原因是Agent范式极大地拉长了Post Train的周期——你能做的Post Train的上限被彻底激发出来了。
更本质的变化是验证方式:以前idea只能pipeline串行验证,现在可以并行做十个idea,交给不同的subagent同时跑,还能交叉验证。
MiMo V2的后训练基本上放弃了SWE-bench等传统Agent Benchmark,因为那些评估关注的领域太单一(比如修bug),不代表真正的Agent能力。
Agent是一个长程、多轮的任务,需要长上下文建模。但在预训练阶段,你很难找到128K甚至1M上下文长度的数据。极大概率只有两类数据能达到这个长度:Code和书籍。 而书籍的信号太发散,Code文件之间的关联更强、依赖更密集。所以在长上下文依赖更密集的数据集上训练,模型自然对长上下文的建模会更好。
但问题恰恰出在这个完美上:
- MLA已经达到一个计算bound和memory bound的临界点;
- 如果你想再加MTP(Multi-token Prediction,多词元预测)来加速推理,它会立刻被计算bound卡住,反而得不偿失;
- 所以你看所有MLA结构的模型,大概率都没有上MTP,模型推理速度天然受限。
- 用Sliding Window层大幅节省KV Cache:通过局部注意力替代全局注意力,在长文本场景下成本更低;
- 用MTP把节省下来的算力富余填上:因为Sliding Window减少了Attention计算量,模型在推理时留下了大量计算富余,恰好可以用MTP把这些富余算力利用起来;
- 达到新的平衡:既节省了KV Cache(利于长上下文),又通过MTP提升了推理速度,实现访存与计算的新平衡。
- 预训练阶段:加一层MTP,提升基座能力;
- Mid Train/Post Train阶段:训额外更多的MTP层,用于推理时实现更好的加速。
但这里存在权衡:激活参数越大,推理成本越高。所以真正的艺术在于,如何在1T总参的前提下,通过架构设计(如更极致的稀疏比)控制长文本推理效率,让模型既能”想得复杂”,又能”跑得快”。
预训练数据依赖的是互联网上可访问的公开知识。但很多智能来源于组织内部沉淀的规范、业务逻辑、人和人之间协作留下的隐性知识。这些”另类信息”不可能出现在预训练语料里,但可以通过Skills让人教给Agent——跟它多轮交互,完成几个任务,它就把这套规范学会了。
OpenClaw则做了分层分级的持久化记忆,在不同时间尺度、不同重要性级别上管理信息,这让它在面对日常复杂任务时表现得更加稳定和连贯。
这也解释了为什么开源对Agent框架如此重要:闭源的Claude Code无法利用群体智慧快速迭代,而OpenClaw的开源社区能以小时为单位进化。从2.x版本罗福莉觉得”不好用、花了好几天改”,到3.x版本”基本上接一个还不错的模型都会觉得它很强大”,这个进化速度是闭源产品无法比拟的。
成本、速度和价格的考量。 Agent革命的本质是生产力革命,必须在意端到端的成本和效率。语音生成没必要用1T模型,多模态理解是否值得更大模型也需要权衡。
这需要多层RVQ(残差向量量化)来保证离散表征仍然处于一个足够高维的空间,并且需要更多预训练才能让基于离散特征的模型开始涌现。代价是研发成本更高、涌现出现得更晚,但如果迈过去,就能用同一套预训练架构、同一套RL架构,优雅地解决所有模态。
这也反过来说明,为什么开源如此重要:只有开源界出现更强的多模态模型,框架层才会随之改变,两者交融才能达到真正类人的智能。
- 人的兴趣是流动的:很多人既对预训练感兴趣,也对后训练感兴趣。如果组划分得太清晰固定,会扼杀创造力和成长空间。
- 预训练人做后训练有天然优势:预训练最核心的关注点是多样性(不能往模型里塞一小部分数据),而做后训练现在也非常需要diversity的视野。预训练的人转后训练,天然会更在乎多样性,是很好的补充。
- 按场景切分会扼杀创造力:如果后训练按场景(代码、数学、多模态)切分组,会把人禁锢在某个场景里,看不到全貌。
- Pre Train Infra:不能容错。出现loss spike就必须停下来解决,哪怕停一两周。追求的是确定性、精确性。
- RL Infra:必须容错。模型在Agent框架里rollout到一半断了,原因五花八门——可能是Agent写了超时逻辑,可能是任务需要很长的验证流程,可能是异构集群训练推理不一致。你怎么在GPU、CPU、存储等复杂异构资源里把模型训起来?这里需要大量的”算法与工程的妥协”,中间地带非常模糊。
原因是本科生对Agent新范式的想象力更高,”思想还没有被禁锢,天然更接纳这个事情会产生巨大价值,敢放心大胆地把自己想法交给这套架构去验证”。
- 框架本身的自进化:框架能自己迭代自己的架构;
- Agent本身的自进化:Agent能自己提升自己的策略;
- 框架跟人之间的互相进化:人和框架在持续交互中共同进化。
OpenClaw点燃的不是一个产品,而是一整条新的技术路线,模型与框架双向进化、人与Agent互相激发、开源社区以小时为单位迭代。她过去两个月的状态是亢奋,因为每天都会发现Agent框架本身或模型本身又进步了。
这种持续性的aha moment,比ChatGPT时刻、比DeepSeek R1时刻都更强烈,因为前两者是那一刻,而Agent时代是持续的、停不下来的。
对于已经身处其中的人来说,2026年不是会不会变的问题,而是变化的速度你能不能跟得上。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
