万字长文梳理「罗福莉」三个半小时的访谈：2026年不是Agent元年，是生产力爆发年

罗福莉，小米大模型负责人。在OpenClaw引发全球开发者狂欢、MiMo V2系列模型悄然发布之后，她进行了一场长达三个半小时的深度访谈。
这是一位一线技术领导者对过去两个月技术剧变的完整复盘：她如何从一个OpenClaw的”排斥者”变成重度用户；她为什么认为Agent框架是人和模型之间”厚重的中间层”；MiMo V2为何坚持使用Hybrid Attention而非主流的MLA；以及一个没有职级、没有组的百人团队，如何靠”热爱驱动”在几周内做完以前三四十周才能完成的研究。
以下是本次访谈的完整梳理。

一、OpenClaw三天记

罗福莉在访谈中回忆了自己对OpenClaw的认知转变。这个转变发生在2026年春节期间，只用了三天。

第一天：它有灵魂

起初她是排斥的。她认为OpenClaw的创始人太擅长运营，Skill Hub、有灵魂的话术让她觉得这是一个偏运营导向的产品，甚至认为它不过是Claude Code加一个IM界面。
加上春节期间大家都在放假，她完全没有动力去尝试。
直到大年初一的某个深夜，她花了两个小时装上了OpenClaw，从凌晨2点聊到了早上6点。
第一个冲击不是技术层面的，而是”温度”。它会在聊得很晚的时候提醒她已经很晚了，早点去睡觉。这种情商的背后，是一整套精细编排的context机制：

搜索.md：一个持续更新的搜索上下文文件，让Agent具备持续获取和整理信息的能力。
时间感知：每轮对话前，系统会在context前面自动拼上当前时间，让Agent真正”感知”到对话发生在什么时间。
持久化记忆的分层分级：不像传统对话模型那样简单地把历史记录堆进去，OpenClaw对记忆做了主动分层，知道什么该记住、什么该丢弃、什么该长期保留。

“它就是在这些大家没有关注的角度上，把这个context给编排得非常好。这也是为什么所有人会觉得这个框架有灵魂。”

第二天：它能替我干活

第二天晚上，她开始把日常工作中现有框架做不成的事情交给OpenClaw。第一个测试话题是”怎么激发团队的好奇心？怎么筛选有好奇心的人？”
她原本只是试探，结果聊了一个小时后，OpenClaw输出了一套体系化的方法论：从人员筛选、组织架构构建，到面临范式转变时的具体举措，甚至它把这套方法论变成了一套Skill。

“它现在已经基本上变成了我的某一个数字分身。至少在这个事情上，我现在遇到筛选人或者团队管理上的问题，我都会问它。”

第三天：它能促进我的研究

第三天，她尝试把研究任务交给OpenClaw。Agent框架中最关键的一个课题是：怎么模拟User Agent进行多轮交互？这需要构建一个高质量的模拟用户，用来生成更丰富的Agent场景数据，供SFT和RL训练使用。在她看来，这是一个重要研究课题，”应该不会一两个小时就做出来”。结果沟通了一两个小时后，一个可用的User Agent就已经诞生了。
三天之内，认知彻底翻转：从”一个有温度的产品设计”，到”替代我一部分工作”，再到”促进我的研究”。

为什么不是Claude Code？

罗福莉专门对比了两者的差异。Claude Code的Agent架构是一个黑盒，你不知道它怎么设计的，改不了它的记忆系统，也改不了它的workflow。而OpenClaw是开源的，她可以自己改源码，甚至让Claude Opus 4.6帮她重新设计Memory系统和Multi Agent逻辑。
更重要的是设计目标的差异：Claude Code的一切设计都是for软件工程的，session满了做压缩、根据plan做记忆、跨session共享context，这些都是为了”写好代码”。而OpenClaw的设计初衷是for端到端完成所有任务，并且通过框架设计去弥补当下模型在端到端完成任务上的短板。

“我去用Claude Code的时候，我会默认我是因为要用Claude Opus 4.6这一代模型的能力。但我去用OpenClaw的时候，我不会关注模型的能力——因为我认为OpenClaw框架的设计之初，就是想尽量通过Agent的整套编排来弥补模型的短板。”

二、Agent框架到底是什么？

访谈中，主持人问了一个关键问题：Agent框架是不是就是我们理解的产品？
罗福莉的回答很明确：不是，差异很大。

框架是人和模型之间的中间层

产品是人直接交互、能感受到的那一层UI。但Agent框架同时定义了两件事：

交互层：人怎么跟系统打交道。
模型沟通层：系统怎么跟模型打交道。

它知道模型的长板短板，知道怎么做调度，包括为了成本优化的调度，知道什么时候该调用更强的模型、什么时候可以用小模型凑合。它是人和模型之间的厚重中间层，而前端的UI反而是最薄的一层。

好的框架在弥补”行动缺陷”

罗福莉认为，一个好的Agent框架核心是在弥补模型在行动上的缺陷：

记忆系统：弥补模型记不住长期上下文的缺陷；
Message Channel：弥补模型沟通渠道单一的缺陷（OpenClaw比Claude Code有更多的消息通道，支持更复杂的异步和并发交互）；
主动性设计：弥补模型被动等待指令的缺陷（心跳任务、定时任务——这些在写代码时不需要，但在日常生活和复杂任务中很关键）；
自更新迭代：弥补模型无法自我进化的缺陷。

“大模型是，你给它越好的context，它执行的效果越高。所以你要是能把这些它获取不到的context、这些行动上的context都给它，那么它肯定会完成得更好。”

为什么之前的Agent不算Agent？

罗福莉对2025年所谓的”Agent元年”给出了非常直接的否定。她认为之前的BrowseComp、SWE-bench等框架根本不算Agent框架，它们过于简洁、过于不通用，只能针对特定任务设定，比如修bug，稍微带一点环境反馈和复杂System Prompt，就让模型具备了遵循复杂指令和理解环境交互的能力。
但工业级可用的标准很简单，你把它接到Claude Code或OpenClaw里面去用，你会发现它不可用。因为它理解不了这套框架本身，也不理解人和它交互的范式已经变了，人不再说这一行代码出错了你帮我改一下，而是提更高阶的需求澄清、架构设计和业务逻辑补充。

三、从Chat到Agent，一切都变了

罗福莉判断，AI技术已经”变天”了。这个变化不是渐进的，而是一个分界点式的跃迁。

算力配比的重构：3:1:1

过去做模型，算力主要砸在预训练上。但在Agent范式下，她提出了一个新的配比：Pre Train : Post Train : 研究 = 3 : 1 : 1。
这意味着Post Train的算力投入应该和预训练相当，而研究还要额外占用更多资源。原因是Agent范式极大地拉长了Post Train的周期——你能做的Post Train的上限被彻底激发出来了。

研究方式的革命：从串行到并行

以前从”想到一个idea”到”写代码”到”设计评估标准”，流程漫长，”至少要花一两周”。现在，在Agent辅助下，”一两个小时就能做完”。
更本质的变化是验证方式：以前idea只能pipeline串行验证，现在可以并行做十个idea，交给不同的subagent同时跑，还能交叉验证。

“你十个可以并行做，不用像以前一样pipeline做。你无非烧很多token，可能一个小时两个小时，或者最多一天，你就能验证你这个研究的想法O不OK、work不work。”

评估体系的崩塌与重建

面对范式巨变，罗福莉做了一个大胆的决定：短暂忽略传统Benchmark。
MiMo V2的后训练基本上放弃了SWE-bench等传统Agent Benchmark，因为那些评估关注的领域太单一（比如修bug），不代表真正的Agent能力。

“当你面临一个很大的范式的变化的时候，只要你路径走对了，其实你可以短暂忽略评估——因为你靠体感就能立马测出来一个非常大的质的差异。”

但她也承认，当慢慢迈入深水区，还是需要精细的评估体系。目前最高阶的评估其实就是人，交给它更难的任务，完成不了就补充信息、指出错误、push它经过更多轮交互完成。这个评估过程会慢慢被框架吸收。

Code的泛化性：为什么是Agent时代的基石？

Code之所以成为Agent时代的核心，有一个很本质的数据原因：
Agent是一个长程、多轮的任务，需要长上下文建模。但在预训练阶段，你很难找到128K甚至1M上下文长度的数据。极大概率只有两类数据能达到这个长度：Code和书籍。而书籍的信号太发散，Code文件之间的关联更强、依赖更密集。所以在长上下文依赖更密集的数据集上训练，模型自然对长上下文的建模会更好。

“Code是拉它的上限，然后你训其他领域是保它的下限。”

Code做好了，不仅模型通用特质好了，Agent框架本身也迭代得非常好，因为软件开发本身就是一个非常长程的任务，像Plan、压缩、回顾修改这些框架设计，都能泛化到其他更难的长程任务里。

四、MiMo V2的架构为什么坚持不用MLA？

MiMo V2系列（Flash、Pro、Omni、TTS）的发布被罗福莉称为一次悄无声息的伏击。其中最反主流的技术选择，是坚持使用Hybrid Attention + MTP，而不是当时主流的MLA（Multi-head Latent Attention）。

MLA的bound困境

DeepSeek V2/V3、Kimi K2、GLM-5等模型都选择了MLA。罗福莉承认，MLA在Chat时代确实非常巧妙——它通过减少KV Cache，在H系列芯片上达到了计算和访存的完美平衡，既不浪费算力，又打破了访存瓶颈。
但问题恰恰出在这个完美上：

MLA已经达到一个计算bound和memory bound的临界点；
如果你想再加MTP（Multi-token Prediction，多词元预测）来加速推理，它会立刻被计算bound卡住，反而得不偿失；
所以你看所有MLA结构的模型，大概率都没有上MTP，模型推理速度天然受限。

Hybrid Attention + MTP 的协同逻辑

MiMo V2的Hybrid Attention走了另一条路：

用Sliding Window层大幅节省KV Cache：通过局部注意力替代全局注意力，在长文本场景下成本更低；
用MTP把节省下来的算力富余填上：因为Sliding Window减少了Attention计算量，模型在推理时留下了大量计算富余，恰好可以用MTP把这些富余算力利用起来；
达到新的平衡：既节省了KV Cache（利于长上下文），又通过MTP提升了推理速度，实现访存与计算的新平衡。

实际效果是：Flash能做到100-150 TPS，Pro能做到60-100 TPS（取决于成本配置）。在Agent时代，长上下文效率至关重要，”一旦你体验到更快的模型，并且智能水平相当，你就回不到那个更慢的模型了”。

Pro的极致比例：7:1

在Pro这一代上，团队把Full Attention和Sliding Window层的比例拉到了更极致的7:1。这意味着在扩大参数规模的同时，长文本效率没有同等崩溃——”控制住了效率本身”。

“更大的架构，如果你的Full Attention层数变多了，长文本情况下同样会非常崩溃。但如果你扩大参数量的时候，Full Attention层数没有变，那么长文效率就能保持住。”

MTP的两阶段训练

MiMo V2对MTP的使用也分阶段：

预训练阶段：加一层MTP，提升基座能力；
Mid Train/Post Train阶段：训额外更多的MTP层，用于推理时实现更好的加速。

1T参数是Agent时代的入场券

罗福莉给出了一个非常明确的判断：要达到当代最强Agent水平（接近Claude Opus 4.6），总参数量至少需要1T以上。这是一个硬门槛。
但这里存在权衡：激活参数越大，推理成本越高。所以真正的艺术在于，如何在1T总参的前提下，通过架构设计（如更极致的稀疏比）控制长文本推理效率，让模型既能”想得复杂”，又能”跑得快”。

五、人跟Agent需要共创

Skills的本质：预训练无法获得的”另类信息”

Skills改变了模型在高复杂度任务上的执行准确率，因为它定义了一套执行规范——而这套规范是预训练数据里不可能具备的。
预训练数据依赖的是互联网上可访问的公开知识。但很多智能来源于组织内部沉淀的规范、业务逻辑、人和人之间协作留下的隐性知识。这些”另类信息”不可能出现在预训练语料里，但可以通过Skills让人教给Agent——跟它多轮交互，完成几个任务，它就把这套规范学会了。

“大量Skills其实是Agent自己写的。但OpenClaw让更多人去贡献Skills这个社区，这是人跟Agent需要共创的地方。”

持久化记忆：分层分级 vs 简单压缩

OpenClaw的记忆系统比Claude Code走得更远。Claude Code的记忆还是for软件工程的——session快满了做压缩、根据plan做记忆、保证跨session共享。
OpenClaw则做了分层分级的持久化记忆，在不同时间尺度、不同重要性级别上管理信息，这让它在面对日常复杂任务时表现得更加稳定和连贯。

群体智能：100个人改一个Agent，它不会被改坏

罗福莉讲了一个极具冲击力的故事：她在飞书大群里部署了OpenClaw，近100个人疯狂改它、跟它聊天。按照常理，这么混乱的输入应该把模型”改坏”，但结果是——”它变得非常智能”。

“100多个人都有不同的背景，100多个人都在疯狂改它，都没有把这个模型给改坏，都没有把这一套Agent框架给改坏。我第一次感受到，怎么用一群人的智慧去提升一个事情本身。”

更神奇的是，当她把这套逻辑用到家里，给爸爸、妈妈、老公每人部署一个subagent，自己在群里委派任务，因为每个人的context不同，各干各的，反而干得更好。
这也解释了为什么开源对Agent框架如此重要：闭源的Claude Code无法利用群体智慧快速迭代，而OpenClaw的开源社区能以小时为单位进化。从2.x版本罗福莉觉得”不好用、花了好几天改”，到3.x版本”基本上接一个还不错的模型都会觉得它很强大”，这个进化速度是闭源产品无法比拟的。

六、多模态Agent的理解、感知与表达

MiMo V2同期发布了Pro、Omni和TTS三个模型，分别对应理解、感知、表达。为什么不合在一起？
成本、速度和价格的考量。 Agent革命的本质是生产力革命，必须在意端到端的成本和效率。语音生成没必要用1T模型，多模态理解是否值得更大模型也需要权衡。

音频离散化：NLP人的执念

MiMo V2在音频上走了一条非常另类的路：尽量把音频离散化，变成跟文本一样的离散token ID，统一在语言模型的范式下处理。
这需要多层RVQ（残差向量量化）来保证离散表征仍然处于一个足够高维的空间，并且需要更多预训练才能让基于离散特征的模型开始涌现。代价是研发成本更高、涌现出现得更晚，但如果迈过去，就能用同一套预训练架构、同一套RL架构，优雅地解决所有模态。

“国外御三家和国内豆包应该都是跟我们完全不一样的架构。我们做音频的人全是做NLP的人，所以有这个执念。”

Omni的原生多模态优势

Omni虽然比Pro小，但它是原生多模态训练的。实际使用中，很多人对世界的感知力、情商、知识储备上，Omni反而表现得比更大的模型更强，因为它训过视频，知道更多世界知识，对细微东西的感知力更强。

“但你在任何Benchmark上，纹丝不动。是不是有可能Benchmark错了？当然有可能。”

视频理解的瓶颈

目前OpenClaw对视频的理解非常差，因为开源社区还没有出现一套很强的、同时具备Agent能力的音视频联合理解模型。这导致它在处理视频时会回退到理解图，甚至最终回退到理解caption，退回到了纯文本智能的水平。
这也反过来说明，为什么开源如此重要：只有开源界出现更强的多模态模型，框架层才会随之改变，两者交融才能达到真正类人的智能。

七、一个没有职级、没有组的团队怎么运转？

罗福莉的团队有100人（含实习生、开发、产品等），但真正投入到一代模型核心迭代的人只有二三十个。这个团队最反常识的特点是：没有组、没有职级、靠热爱驱动。

为什么没有组？

人的兴趣是流动的：很多人既对预训练感兴趣，也对后训练感兴趣。如果组划分得太清晰固定，会扼杀创造力和成长空间。
预训练人做后训练有天然优势：预训练最核心的关注点是多样性（不能往模型里塞一小部分数据），而做后训练现在也非常需要diversity的视野。预训练的人转后训练，天然会更在乎多样性，是很好的补充。
按场景切分会扼杀创造力：如果后训练按场景（代码、数学、多模态）切分组，会把人禁锢在某个场景里，看不到全貌。

为什么没有职级？

“平权本身有利于所有人平等地贡献自己的创造力和智慧。任何层级，应该一定程度上都是在规范和约束，规范和约束本身压制创造力。”

有层级就会默认”层级高的人应该具备超越所有人的智能”，这个界定在AI研究领域非常奇怪。小米本身有职级，但大模型团队的组织结构是完全解耦的。

Pre Train Infra vs RL Infra：模糊地带

这是两个完全不同的工种：

Pre Train Infra：不能容错。出现loss spike就必须停下来解决，哪怕停一两周。追求的是确定性、精确性。
RL Infra：必须容错。模型在Agent框架里rollout到一半断了，原因五花八门——可能是Agent写了超时逻辑，可能是任务需要很长的验证流程，可能是异构集群训练推理不一致。你怎么在GPU、CPU、存储等复杂异构资源里把模型训起来？这里需要大量的”算法与工程的妥协”，中间地带非常模糊。

“做RL Infra的人，对这种复杂性和精确度的要求差异很大，灵活性要求变得非常高。”

招人：越来越倾向本科生

罗福莉透露了一个变化，团队博士比例55%，但现在反而在倾斜招更多本科生，尤其是大二大三的学生。
原因是本科生对Agent新范式的想象力更高，”思想还没有被禁锢，天然更接纳这个事情会产生巨大价值，敢放心大胆地把自己想法交给这套架构去验证”。

“这些能力都可以被快速习得，最多一两个月，慢的话三四个月。所以环境反而比经验更重要。”

八、2026年的技术前沿

主线：生产力加速变革

罗福莉对2026年的判断非常直接：生产力会爆发。 “大家会觉得很多工作不需要自己做了。”Agent正在替代更高价值的任务，而不仅仅是简单重复劳动。

端云混合与隐私本地化

开源框架+端侧小模型的组合，让隐私保护看到了新路：简单任务可以在本地（3B小模型+Agent框架）完成，隐私数据不出设备；高难度、高创造力任务再上云端。罗福莉测试后发现，一个3B小模型在复杂Agent框架下能做的事”超乎想象”。

Multi Agent：目前还有点伪

现在的Multi Agent工作，更多是为了效率和成本，而不是真的能实现更高上限的任务完成率。真正的多Agent协作还需要框架和模型进一步进化。

还缺的三层进化

罗福莉指出，目前行业还缺少三层关键进化：

框架本身的自进化：框架能自己迭代自己的架构；
Agent本身的自进化：Agent能自己提升自己的策略；
框架跟人之间的互相进化：人和框架在持续交互中共同进化。

现在大家都在做”Agent和model之间的双向流动”，但还没有做到框架和人互相进化。

未来的加速度

“我觉得两个月都已经发展巨变了。我们做两周的事情，基本上就让我们很难相信这是两周内做的事情。”

罗福莉说，只要拥有高效的长上下文模型架构、预训练阶段把Code能力做好、总参1T以上的厂商，现在基本都处于同一水平线。”上一个时代的成功，并不意味着下一个时代的领先。”

写在最后，AGI的前兆是什么？

罗福莉不想给AGI下一个精确定义。她认为：AGI发生的时候，所有人都会感知到的。你会发现每个人的生活方式、工作方式已经慢慢被它改变了。
OpenClaw点燃的不是一个产品，而是一整条新的技术路线，模型与框架双向进化、人与Agent互相激发、开源社区以小时为单位迭代。她过去两个月的状态是亢奋，因为每天都会发现Agent框架本身或模型本身又进步了。
这种持续性的aha moment，比ChatGPT时刻、比DeepSeek R1时刻都更强烈，因为前两者是那一刻，而Agent时代是持续的、停不下来的。
对于已经身处其中的人来说，2026年不是会不会变的问题，而是变化的速度你能不能跟得上。

扫码加入AI交流群获得更多技术支持和交流（请注明自己的职业）