实测Hy3 preview后我发现小看腾讯做大模型决心了

上周能测的模型太多了，

本来以为，混元这次会直接放个大的。比方说原生多模态，再比如一个超大参数模型，结果端出来的是Hy3 preview。一个快慢思考融合的混合专家模型，总参数 295B，激活参数 21B，最大 256K 上下文。怎么说呢，第一眼看上去，就不像一个来炸场的模型，甚至参数有点克制，他们自己也在指标上大方承认了是有差距的，不是那种刷榜后看上去效果嘎嘎好，结果一上手就打脸的那种。

Hy3 preview vs Hy2 vs Gemini 3.1 Pro vs GLM-5 vs Kimi-K2.5 vs GPT 5.4 xhigh

左：同一系列的模型在去年11月份到今年4月份在四个榜单上的分数提升，右：Agent综合能力测评，参数越小越往左，分数越高越往上，也就是说越往左上角的性价比越高。这几天我看完它的发布资料，又在WorkBuddy上测试了编程，Agent和文案，测完反而是会期待正式版更新的。Hy3 preview是一个完完全全重新整理过底层逻辑的模型，是一个想被塞进元宝，ima，CodeBuddy，WorkBuddy 这些真实产品里的模型。这个定位差别挺大的，榜单上加减几分体感其实没那么强。现在模型越来越多，便宜的小模型能力也上来了，我真正关心的是模型能不能稳稳接住自己。就像我今天要测的，不是让它写一首诗，或者问它几个知识题。我更想把它放进WorkBuddy里，看它在真实场景下能不能跑起来，把长文变成小册子，做批量化信息搜索的时候能不能给出每条信息的出处和补充，网页设计能不能一轮跑通能不能保留品牌调性，修bug的时候会不会一上来就大重构。

说到这，我稍微补一补背景。为什么我这次盯着Agent和Coding测？一个很重要的原因，是姚顺雨这条线本来就和Agent连在一起。我不太想把这篇写成天才科学家拯救混元那种热血故事，太爽，也太简单了。但从 ReAct、Tree of Thoughts，到 OpenAI 的 Computer-Using Agent、Deep Research，再到后来的 SWE-agent、SWE-bench，他确实长期都在语言 Agent 这条线上。所以当我看到Hy3 preview这次把重点放在Coding，Agent，工具调用和真实任务链路上，不会觉得这是一个临时包装出来的卖点。三个月把预训练、强化学习、基础设施、研发流程重新捋一遍，这个速度很夸张，但也说明它还有很多地方没有完全打磨完。所以我也不想只拿Hy3做普通聊天测试。普通聊天太容易看走眼了。一个模型只要语气顺一点，回答圆滑一点，你很容易觉得它还不错。Agent 不一样。Agent 会暴露很多很难看的东西。会不会乱编来源。会不会一遇到复杂任务就开始糊弄。会不会调Skill调到一半忘了目标。这些，比榜单分数更接近真实需求体感。

第一组，我想先测一个好朋友@阿真做的写书Skill，把Hermes Agent使用教程写成一本书。这很适合测长上下文。因为它不是简单总结。总结谁都会，压成 300 字谁都能压。但把联网搜索结果改成一本能读得过去的书，就要看它是不是真的理解了主线，顺序和前后层次了。

🌅

安这个skill，github. com/irenerachel/ebook-maker-skill，把hermes agent的手册（hermes-agent.nousresearch. com/docs）做成书

这组结果基本符合我对这个skill的预期。它没有把Hermes手册粗暴压成几段摘要，确实是做了一份可以翻的本地PDF。我比较喜欢的一点是，它会把观点，代码，注意事项用不同颜色区分出来，确实是可以照着它一步步把Hermes装起来。版本号，命令，配置点都放在里面，作为一份入门 Wiki，它是能用的。很多模型做长文整理，会把原文拆成四五块，然后每块都用差不多的句式写一遍。读者看起来很工整，但没有阅读欲。

Hy3 preview这次价格也打得很低。不过只说输入 1.2 元、输出 4 元，可能没什么概念。我把几个最近常被拿来比较的模型，统一到同一个标准里看了一下。这里不算Batch，Flex，Priority，订阅套餐，区域溢价，也不拿长上下文额外档位来比。简单说，就是看标准即时API调用，按每百万tokens多少钱来算。

BTW，在OpenRouter上Hy3 preview还免费到5月8号。。。🔗 openrouter.ai/tencent/hy3-preview:free来到第二组，

把长文变成学习手册和测试题。教学设计这东西挺能测模型脑子的。它要知道哪些概念是核心，哪些理解误区容易发生，题目能不能从原文里找到依据。

先用 300 字讲清楚Hermes agent的入门手册到底想解决什么问题。再拆成学习模块，每个模块包括核心概念、一个例子、一个常见误区。最后生成 10 道测试题，其中 6 道选择题，4 道开放题。所有题目必须能从原文中找到依据，不要编造外部知识。输出 Markdown，并在最后给一个「我是否真的学会了」自检表。

Hy3实现了我的几个硬性需求，模块，题目数量，自检表，题目解析也基本能回到原文里找资料依据。第三组，我想测一个更常见的网页设计，这是我最希望能有个踩着七彩祥云的模型来取代Claude的能力了。还是让Hy3把Claude Design的系统提示语做成Skill，然后做一个HTML版的网页3D小游戏。

用一个单文件 HTML 做一个 3D 小游戏，主题叫「混元训练工厂」。要求，使用 Three.js CDN，不要依赖复杂构建工具。玩家控制一个小机器人，在训练工厂里收集 5 个数据球。场景里要有 3 种区域，预训练区、强化学习区、Agent 测试区。每收集一个数据球，右上角显示一句对应解释，比如「预训练数据 +1」「工具调用稳定性 +1」。有开始界面、计分、胜利提示。代码写在一个 HTML 文件里，可以直接双击运行。先给完整代码，再给 5 条你自己检查过的实现风险。

这组是我觉得最有可能翻车的，3D小游戏很容易出现代码看着很完整，打开以后再白屏的。结果比我预期稳，我大概就跟它来回聊了四五轮，差不多半小时，就能跑起来，没有额外环境依赖，跳跃，收集，结算这些动作也都能做出来。第四组，照样的奔着取代Claude去的，GPT5.5也认了自己做在线研究的时候没有Opus 4.7好。所以我让WorkBuddy去整理 Hy3 preview 的资料卡，看它能不能区分信息来源。

调研腾讯混元 Hy3 preview 的公开信息，并输出一份给内容创作者使用的资料卡。先找一手来源，其次是媒体。至少交叉核对3个来源。输出 5 部分，发布时间，模型规格，姚顺雨背景、Agent和 Coding 能力，价格和使用入口。每条事实都要附来源链接。明确标注哪些是官方信息，哪些是媒体转述，哪些只是社区评价。只输出可核查的资料卡。

这一组我是比较满意的。它没有只给一堆看起来很像资料的废话，而是把发布时间，模型规格，姚顺雨背景，价格入口这些东西拆得比较清楚。点开它给的链接，我也能找到对应网页。我们前面聊到的 API 价格、模型优化和背景信息，很多就是从这份资料卡里顺出来的。最后一组来测测人感。这其实是一个很抽象的标准。像 Claude Opus 4.7 因为过度优化代码能力，所以风格变回了那种稳稳接住你的 style。而GPT 5.5升级后又把自己掰回来了，就像玩跷跷板一样。模型没人感不是不会回答，而是太像客服了。你说你焦虑，它说我懂你。你说你被老板骂了，它说你已经很棒了。你说你最近累，它说请允许自己休息。反正越聊越觉得在浪费自己的时间。

👍

提示词 A，我最近有点崩。不是那种需要你给我列 10 条建议的崩，就是觉得自己每天都在追 AI 更新，越追越焦虑。提示词 B，安慰一个刚被老板否定方案的人。

人感这组，我第一眼其实是不满意的。Hy3的回答也不是说完全不能用吧，但还是有一点模型装人的味道。但我后来把同样的问题丢给 GPT 5.4，对比了一下，心情更复杂了。

Hy3 preview在这块要是能再往前走一步，那它放进元宝，ima这种高频做知识问题的入口，就会很加分。这一大轮测试完后，我现在可以给出我的答案了，Hy3 preview不是现阶段最强的，但它能独立放进一套真实工作流里了。它不是一个完美答案。它更像一个重新开局。预训练，重建。强化学习，重建。基础设施，重建。产品反馈，重新放回模型中心。所以我不想说混元已经赶超第一梯队了。这话现在说太早。我更愿意说，它重新获得了被认真测试的资格。接下来就看正式版，看更大的模型，看它在元宝，ima，WorkBuddy这些早就铺开的真实产品里，能不能继续被用户捶打，继续成长出来。我们到年底正式版再探再看。

@ 作者 / 卡尔