万字长文梳理「罗福莉」三个半小时的访谈:2026年不是Agent元年,是生产力爆发年

熊猫办公
万字长文梳理「罗福莉」三个半小时的访谈:2026年不是Agent元年,是生产力爆发年
罗福莉,小米大模型负责人。在OpenClaw引发全球开发者狂欢、MiMo V2系列模型悄然发布之后,她进行了一场长达三个半小时的深度访谈。
这是一位一线技术领导者对过去两个月技术剧变的完整复盘:她如何从一个OpenClaw的”排斥者”变成重度用户;她为什么认为Agent框架是人和模型之间”厚重的中间层”;MiMo V2为何坚持使用Hybrid Attention而非主流的MLA;以及一个没有职级、没有组的百人团队,如何靠”热爱驱动”在几周内做完以前三四十周才能完成的研究。
以下是本次访谈的完整梳理。

一、OpenClaw三天记
罗福莉在访谈中回忆了自己对OpenClaw的认知转变。这个转变发生在2026年春节期间,只用了三天。
第一天:它有灵魂

起初她是排斥的。她认为OpenClaw的创始人太擅长运营,Skill Hub、有灵魂的话术让她觉得这是一个偏运营导向的产品,甚至认为它不过是Claude Code加一个IM界面。
加上春节期间大家都在放假,她完全没有动力去尝试。
直到大年初一的某个深夜,她花了两个小时装上了OpenClaw,从凌晨2点聊到了早上6点。
第一个冲击不是技术层面的,而是”温度”。它会在聊得很晚的时候提醒她已经很晚了,早点去睡觉。这种情商的背后,是一整套精细编排的context机制:
  • 搜索.md:一个持续更新的搜索上下文文件,让Agent具备持续获取和整理信息的能力。
  • 时间感知:每轮对话前,系统会在context前面自动拼上当前时间,让Agent真正”感知”到对话发生在什么时间。
  • 持久化记忆的分层分级:不像传统对话模型那样简单地把历史记录堆进去,OpenClaw对记忆做了主动分层,知道什么该记住、什么该丢弃、什么该长期保留。

“它就是在这些大家没有关注的角度上,把这个context给编排得非常好。这也是为什么所有人会觉得这个框架有灵魂。”

第二天:它能替我干活
第二天晚上,她开始把日常工作中现有框架做不成的事情交给OpenClaw。第一个测试话题是”怎么激发团队的好奇心?怎么筛选有好奇心的人?”
她原本只是试探,结果聊了一个小时后,OpenClaw输出了一套体系化的方法论:从人员筛选、组织架构构建,到面临范式转变时的具体举措,甚至它把这套方法论变成了一套Skill。
“它现在已经基本上变成了我的某一个数字分身。至少在这个事情上,我现在遇到筛选人或者团队管理上的问题,我都会问它。”

第三天:它能促进我的研究
第三天,她尝试把研究任务交给OpenClaw。Agent框架中最关键的一个课题是:怎么模拟User Agent进行多轮交互?这需要构建一个高质量的模拟用户,用来生成更丰富的Agent场景数据,供SFT和RL训练使用。在她看来,这是一个重要研究课题,”应该不会一两个小时就做出来”。结果沟通了一两个小时后,一个可用的User Agent就已经诞生了。
三天之内,认知彻底翻转: 从”一个有温度的产品设计”,到”替代我一部分工作”,再到”促进我的研究”。
为什么不是Claude Code?
罗福莉专门对比了两者的差异。Claude Code的Agent架构是一个黑盒,你不知道它怎么设计的,改不了它的记忆系统,也改不了它的workflow。而OpenClaw是开源的,她可以自己改源码,甚至让Claude Opus 4.6帮她重新设计Memory系统和Multi Agent逻辑。
更重要的是设计目标的差异:Claude Code的一切设计都是for软件工程的,session满了做压缩、根据plan做记忆、跨session共享context,这些都是为了”写好代码”。而OpenClaw的设计初衷是for端到端完成所有任务,并且通过框架设计去弥补当下模型在端到端完成任务上的短板。
“我去用Claude Code的时候,我会默认我是因为要用Claude Opus 4.6这一代模型的能力。但我去用OpenClaw的时候,我不会关注模型的能力——因为我认为OpenClaw框架的设计之初,就是想尽量通过Agent的整套编排来弥补模型的短板。”

二、Agent框架到底是什么?
访谈中,主持人问了一个关键问题:Agent框架是不是就是我们理解的产品?
罗福莉的回答很明确:不是,差异很大。
框架是人和模型之间的中间层
产品是人直接交互、能感受到的那一层UI。但Agent框架同时定义了两件事:
  1. 交互层:人怎么跟系统打交道。
  2. 模型沟通层:系统怎么跟模型打交道。
它知道模型的长板短板,知道怎么做调度,包括为了成本优化的调度,知道什么时候该调用更强的模型、什么时候可以用小模型凑合。它是人和模型之间的厚重中间层,而前端的UI反而是最薄的一层。
好的框架在弥补”行动缺陷”
罗福莉认为,一个好的Agent框架核心是在弥补模型在行动上的缺陷:
  • 记忆系统:弥补模型记不住长期上下文的缺陷;
  • Message Channel:弥补模型沟通渠道单一的缺陷(OpenClaw比Claude Code有更多的消息通道,支持更复杂的异步和并发交互);
  • 主动性设计:弥补模型被动等待指令的缺陷(心跳任务、定时任务——这些在写代码时不需要,但在日常生活和复杂任务中很关键);
  • 自更新迭代:弥补模型无法自我进化的缺陷。

“大模型是,你给它越好的context,它执行的效果越高。所以你要是能把这些它获取不到的context、这些行动上的context都给它,那么它肯定会完成得更好。”

为什么之前的Agent不算Agent?
罗福莉对2025年所谓的”Agent元年”给出了非常直接的否定。她认为之前的BrowseComp、SWE-bench等框架根本不算Agent框架,它们过于简洁、过于不通用,只能针对特定任务设定,比如修bug,稍微带一点环境反馈和复杂System Prompt,就让模型具备了遵循复杂指令和理解环境交互的能力。
但工业级可用的标准很简单,你把它接到Claude Code或OpenClaw里面去用,你会发现它不可用。 因为它理解不了这套框架本身,也不理解人和它交互的范式已经变了,人不再说这一行代码出错了你帮我改一下,而是提更高阶的需求澄清、架构设计和业务逻辑补充。

三、从Chat到Agent,一切都变了

罗福莉判断,AI技术已经”变天”了。这个变化不是渐进的,而是一个分界点式的跃迁。
算力配比的重构:3:1:1

过去做模型,算力主要砸在预训练上。但在Agent范式下,她提出了一个新的配比:Pre Train : Post Train : 研究 = 3 : 1 : 1。
这意味着Post Train的算力投入应该和预训练相当,而研究还要额外占用更多资源。原因是Agent范式极大地拉长了Post Train的周期——你能做的Post Train的上限被彻底激发出来了。
研究方式的革命:从串行到并行

以前从”想到一个idea”到”写代码”到”设计评估标准”,流程漫长,”至少要花一两周”。现在,在Agent辅助下,”一两个小时就能做完”。
更本质的变化是验证方式:以前idea只能pipeline串行验证,现在可以并行做十个idea,交给不同的subagent同时跑,还能交叉验证。
“你十个可以并行做,不用像以前一样pipeline做。你无非烧很多token,可能一个小时两个小时,或者最多一天,你就能验证你这个研究的想法O不OK、work不work。”

评估体系的崩塌与重建
面对范式巨变,罗福莉做了一个大胆的决定:短暂忽略传统Benchmark。
MiMo V2的后训练基本上放弃了SWE-bench等传统Agent Benchmark,因为那些评估关注的领域太单一(比如修bug),不代表真正的Agent能力。
“当你面临一个很大的范式的变化的时候,只要你路径走对了,其实你可以短暂忽略评估——因为你靠体感就能立马测出来一个非常大的质的差异。”
但她也承认,当慢慢迈入深水区,还是需要精细的评估体系。目前最高阶的评估其实就是人,交给它更难的任务,完成不了就补充信息、指出错误、push它经过更多轮交互完成。这个评估过程会慢慢被框架吸收。
Code的泛化性:为什么是Agent时代的基石?

Code之所以成为Agent时代的核心,有一个很本质的数据原因:
Agent是一个长程、多轮的任务,需要长上下文建模。但在预训练阶段,你很难找到128K甚至1M上下文长度的数据。极大概率只有两类数据能达到这个长度:Code和书籍。 而书籍的信号太发散,Code文件之间的关联更强、依赖更密集。所以在长上下文依赖更密集的数据集上训练,模型自然对长上下文的建模会更好。
“Code是拉它的上限,然后你训其他领域是保它的下限。”
Code做好了,不仅模型通用特质好了,Agent框架本身也迭代得非常好,因为软件开发本身就是一个非常长程的任务,像Plan、压缩、回顾修改这些框架设计,都能泛化到其他更难的长程任务里。

四、MiMo V2的架构为什么坚持不用MLA?
MiMo V2系列(Flash、Pro、Omni、TTS)的发布被罗福莉称为一次悄无声息的伏击。其中最反主流的技术选择,是坚持使用Hybrid Attention + MTP,而不是当时主流的MLA(Multi-head Latent Attention)。
MLA的bound困境
DeepSeek V2/V3、Kimi K2、GLM-5等模型都选择了MLA。罗福莉承认,MLA在Chat时代确实非常巧妙——它通过减少KV Cache,在H系列芯片上达到了计算和访存的完美平衡,既不浪费算力,又打破了访存瓶颈。
但问题恰恰出在这个完美上:
  • MLA已经达到一个计算bound和memory bound的临界点;
  • 如果你想再加MTP(Multi-token Prediction,多词元预测)来加速推理,它会立刻被计算bound卡住,反而得不偿失;
  • 所以你看所有MLA结构的模型,大概率都没有上MTP,模型推理速度天然受限。

Hybrid Attention + MTP 的协同逻辑
MiMo V2的Hybrid Attention走了另一条路:
  1. 用Sliding Window层大幅节省KV Cache:通过局部注意力替代全局注意力,在长文本场景下成本更低;
  2. 用MTP把节省下来的算力富余填上:因为Sliding Window减少了Attention计算量,模型在推理时留下了大量计算富余,恰好可以用MTP把这些富余算力利用起来;
  3. 达到新的平衡:既节省了KV Cache(利于长上下文),又通过MTP提升了推理速度,实现访存与计算的新平衡。
实际效果是:Flash能做到100-150 TPS,Pro能做到60-100 TPS(取决于成本配置)。在Agent时代,长上下文效率至关重要,”一旦你体验到更快的模型,并且智能水平相当,你就回不到那个更慢的模型了”。
Pro的极致比例:7:1
在Pro这一代上,团队把Full Attention和Sliding Window层的比例拉到了更极致的7:1。这意味着在扩大参数规模的同时,长文本效率没有同等崩溃——”控制住了效率本身”。
“更大的架构,如果你的Full Attention层数变多了,长文本情况下同样会非常崩溃。但如果你扩大参数量的时候,Full Attention层数没有变,那么长文效率就能保持住。”

MTP的两阶段训练
MiMo V2对MTP的使用也分阶段:
  • 预训练阶段:加一层MTP,提升基座能力;
  • Mid Train/Post Train阶段:训额外更多的MTP层,用于推理时实现更好的加速。

1T参数是Agent时代的入场券
罗福莉给出了一个非常明确的判断:要达到当代最强Agent水平(接近Claude Opus 4.6),总参数量至少需要1T以上。这是一个硬门槛。
但这里存在权衡:激活参数越大,推理成本越高。所以真正的艺术在于,如何在1T总参的前提下,通过架构设计(如更极致的稀疏比)控制长文本推理效率,让模型既能”想得复杂”,又能”跑得快”。

五、人跟Agent需要共创

Skills的本质:预训练无法获得的”另类信息”

Skills改变了模型在高复杂度任务上的执行准确率,因为它定义了一套执行规范——而这套规范是预训练数据里不可能具备的。
预训练数据依赖的是互联网上可访问的公开知识。但很多智能来源于组织内部沉淀的规范、业务逻辑、人和人之间协作留下的隐性知识。这些”另类信息”不可能出现在预训练语料里,但可以通过Skills让人教给Agent——跟它多轮交互,完成几个任务,它就把这套规范学会了。
“大量Skills其实是Agent自己写的。但OpenClaw让更多人去贡献Skills这个社区,这是人跟Agent需要共创的地方。”

持久化记忆:分层分级 vs 简单压缩

OpenClaw的记忆系统比Claude Code走得更远。Claude Code的记忆还是for软件工程的——session快满了做压缩、根据plan做记忆、保证跨session共享。
OpenClaw则做了分层分级的持久化记忆,在不同时间尺度、不同重要性级别上管理信息,这让它在面对日常复杂任务时表现得更加稳定和连贯。
群体智能:100个人改一个Agent,它不会被改坏

罗福莉讲了一个极具冲击力的故事:她在飞书大群里部署了OpenClaw,近100个人疯狂改它、跟它聊天。按照常理,这么混乱的输入应该把模型”改坏”,但结果是——”它变得非常智能”。
“100多个人都有不同的背景,100多个人都在疯狂改它,都没有把这个模型给改坏,都没有把这一套Agent框架给改坏。我第一次感受到,怎么用一群人的智慧去提升一个事情本身。”
更神奇的是,当她把这套逻辑用到家里,给爸爸、妈妈、老公每人部署一个subagent,自己在群里委派任务,因为每个人的context不同,各干各的,反而干得更好。
这也解释了为什么开源对Agent框架如此重要:闭源的Claude Code无法利用群体智慧快速迭代,而OpenClaw的开源社区能以小时为单位进化。从2.x版本罗福莉觉得”不好用、花了好几天改”,到3.x版本”基本上接一个还不错的模型都会觉得它很强大”,这个进化速度是闭源产品无法比拟的。

六、多模态Agent的理解、感知与表达

MiMo V2同期发布了Pro、Omni和TTS三个模型,分别对应理解、感知、表达。为什么不合在一起?
成本、速度和价格的考量。 Agent革命的本质是生产力革命,必须在意端到端的成本和效率。语音生成没必要用1T模型,多模态理解是否值得更大模型也需要权衡。
音频离散化:NLP人的执念
MiMo V2在音频上走了一条非常另类的路:尽量把音频离散化,变成跟文本一样的离散token ID,统一在语言模型的范式下处理。
这需要多层RVQ(残差向量量化)来保证离散表征仍然处于一个足够高维的空间,并且需要更多预训练才能让基于离散特征的模型开始涌现。代价是研发成本更高、涌现出现得更晚,但如果迈过去,就能用同一套预训练架构、同一套RL架构,优雅地解决所有模态。
“国外御三家和国内豆包应该都是跟我们完全不一样的架构。我们做音频的人全是做NLP的人,所以有这个执念。”

Omni的原生多模态优势
Omni虽然比Pro小,但它是原生多模态训练的。实际使用中,很多人对世界的感知力、情商、知识储备上,Omni反而表现得比更大的模型更强,因为它训过视频,知道更多世界知识,对细微东西的感知力更强。
“但你在任何Benchmark上,纹丝不动。是不是有可能Benchmark错了?当然有可能。”

视频理解的瓶颈

目前OpenClaw对视频的理解非常差,因为开源社区还没有出现一套很强的、同时具备Agent能力的音视频联合理解模型。这导致它在处理视频时会回退到理解图,甚至最终回退到理解caption,退回到了纯文本智能的水平。
这也反过来说明,为什么开源如此重要:只有开源界出现更强的多模态模型,框架层才会随之改变,两者交融才能达到真正类人的智能。

七、一个没有职级、没有组的团队怎么运转?
罗福莉的团队有100人(含实习生、开发、产品等),但真正投入到一代模型核心迭代的人只有二三十个。这个团队最反常识的特点是:没有组、没有职级、靠热爱驱动。
为什么没有组?

  • 人的兴趣是流动的:很多人既对预训练感兴趣,也对后训练感兴趣。如果组划分得太清晰固定,会扼杀创造力和成长空间。
  • 预训练人做后训练有天然优势:预训练最核心的关注点是多样性(不能往模型里塞一小部分数据),而做后训练现在也非常需要diversity的视野。预训练的人转后训练,天然会更在乎多样性,是很好的补充。
  • 按场景切分会扼杀创造力:如果后训练按场景(代码、数学、多模态)切分组,会把人禁锢在某个场景里,看不到全貌。

为什么没有职级?

“平权本身有利于所有人平等地贡献自己的创造力和智慧。任何层级,应该一定程度上都是在规范和约束,规范和约束本身压制创造力。”
有层级就会默认”层级高的人应该具备超越所有人的智能”,这个界定在AI研究领域非常奇怪。小米本身有职级,但大模型团队的组织结构是完全解耦的。
Pre Train Infra vs RL Infra:模糊地带

这是两个完全不同的工种:
  • Pre Train Infra:不能容错。出现loss spike就必须停下来解决,哪怕停一两周。追求的是确定性、精确性。
  • RL Infra:必须容错。模型在Agent框架里rollout到一半断了,原因五花八门——可能是Agent写了超时逻辑,可能是任务需要很长的验证流程,可能是异构集群训练推理不一致。你怎么在GPU、CPU、存储等复杂异构资源里把模型训起来?这里需要大量的”算法与工程的妥协”,中间地带非常模糊。
“做RL Infra的人,对这种复杂性和精确度的要求差异很大,灵活性要求变得非常高。”

招人:越来越倾向本科生

罗福莉透露了一个变化,团队博士比例55%,但现在反而在倾斜招更多本科生,尤其是大二大三的学生。
原因是本科生对Agent新范式的想象力更高,”思想还没有被禁锢,天然更接纳这个事情会产生巨大价值,敢放心大胆地把自己想法交给这套架构去验证”。
“这些能力都可以被快速习得,最多一两个月,慢的话三四个月。所以环境反而比经验更重要。”

八、2026年的技术前沿

主线:生产力加速变革

罗福莉对2026年的判断非常直接:生产力会爆发。 “大家会觉得很多工作不需要自己做了。”Agent正在替代更高价值的任务,而不仅仅是简单重复劳动。
端云混合与隐私本地化

开源框架+端侧小模型的组合,让隐私保护看到了新路:简单任务可以在本地(3B小模型+Agent框架)完成,隐私数据不出设备;高难度、高创造力任务再上云端。罗福莉测试后发现,一个3B小模型在复杂Agent框架下能做的事”超乎想象”。
Multi Agent:目前还有点伪

现在的Multi Agent工作,更多是为了效率和成本,而不是真的能实现更高上限的任务完成率。真正的多Agent协作还需要框架和模型进一步进化。
还缺的三层进化

罗福莉指出,目前行业还缺少三层关键进化:
  1. 框架本身的自进化:框架能自己迭代自己的架构;
  2. Agent本身的自进化:Agent能自己提升自己的策略;
  3. 框架跟人之间的互相进化:人和框架在持续交互中共同进化。
现在大家都在做”Agent和model之间的双向流动”,但还没有做到框架和人互相进化。
未来的加速度

“我觉得两个月都已经发展巨变了。我们做两周的事情,基本上就让我们很难相信这是两周内做的事情。”
罗福莉说,只要拥有高效的长上下文模型架构、预训练阶段把Code能力做好、总参1T以上的厂商,现在基本都处于同一水平线。”上一个时代的成功,并不意味着下一个时代的领先。”

写在最后,AGI的前兆是什么?

罗福莉不想给AGI下一个精确定义。她认为:AGI发生的时候,所有人都会感知到的。你会发现每个人的生活方式、工作方式已经慢慢被它改变了。
OpenClaw点燃的不是一个产品,而是一整条新的技术路线,模型与框架双向进化、人与Agent互相激发、开源社区以小时为单位迭代。她过去两个月的状态是亢奋,因为每天都会发现Agent框架本身或模型本身又进步了。
这种持续性的aha moment,比ChatGPT时刻、比DeepSeek R1时刻都更强烈,因为前两者是那一刻,而Agent时代是持续的、停不下来的。
对于已经身处其中的人来说,2026年不是会不会变的问题,而是变化的速度你能不能跟得上。
扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
万字长文梳理「罗福莉」三个半小时的访谈:2026年不是Agent元年,是生产力爆发年
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章