实测Hy3 preview后我发现小看腾讯做大模型决心了

熊猫办公
上周能测的模型太多了,

本来以为,混元这次会直接放个大的。比方说原生多模态,再比如一个超大参数模型,结果端出来的是Hy3 preview。一个快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大 256K 上下文。怎么说呢,第一眼看上去,就不像一个来炸场的模型,甚至参数有点克制,他们自己也在指标上大方承认了是有差距的,不是那种刷榜后看上去效果嘎嘎好,结果一上手就打脸的那种。

实测Hy3 preview后我发现小看腾讯做大模型决心了

Hy3 preview vs Hy2 vs Gemini 3.1 Pro vs GLM-5 vs Kimi-K2.5 vs GPT 5.4 xhigh

实测Hy3 preview后我发现小看腾讯做大模型决心了
实测Hy3 preview后我发现小看腾讯做大模型决心了

左:同一系列的模型在去年11月份到今年4月份在四个榜单上的分数提升,右:Agent综合能力测评,参数越小越往左,分数越高越往上,也就是说越往左上角的性价比越高。这几天我看完它的发布资料,又在WorkBuddy上测试了编程,Agent和文案,测完反而是会期待正式版更新的。Hy3 preview是一个完完全全重新整理过底层逻辑的模型,是一个想被塞进元宝,ima,CodeBuddy,WorkBuddy 这些真实产品里的模型。这个定位差别挺大的,榜单上加减几分体感其实没那么强。现在模型越来越多,便宜的小模型能力也上来了,我真正关心的是模型能不能稳稳接住自己。就像我今天要测的,不是让它写一首诗,或者问它几个知识题。我更想把它放进WorkBuddy里,看它在真实场景下能不能跑起来,把长文变成小册子,做批量化信息搜索的时候能不能给出每条信息的出处和补充,网页设计能不能一轮跑通能不能保留品牌调性,修bug的时候会不会一上来就大重构。

说到这,我稍微补一补背景。为什么我这次盯着Agent和Coding测?一个很重要的原因,是姚顺雨这条线本来就和Agent连在一起。我不太想把这篇写成天才科学家拯救混元那种热血故事,太爽,也太简单了。但从 ReAct、Tree of Thoughts,到 OpenAI 的 Computer-Using Agent、Deep Research,再到后来的 SWE-agent、SWE-bench,他确实长期都在语言 Agent 这条线上。所以当我看到Hy3 preview这次把重点放在Coding,Agent,工具调用和真实任务链路上,不会觉得这是一个临时包装出来的卖点。三个月把预训练、强化学习、基础设施、研发流程重新捋一遍,这个速度很夸张,但也说明它还有很多地方没有完全打磨完。所以我也不想只拿Hy3做普通聊天测试。普通聊天太容易看走眼了。一个模型只要语气顺一点,回答圆滑一点,你很容易觉得它还不错。Agent 不一样。Agent 会暴露很多很难看的东西。会不会乱编来源。会不会一遇到复杂任务就开始糊弄。会不会调Skill调到一半忘了目标。这些,比榜单分数更接近真实需求体感。

第一组,我想先测一个好朋友@阿真做的写书Skill,把Hermes Agent使用教程写成一本书。这很适合测长上下文。因为它不是简单总结。总结谁都会,压成 300 字谁都能压。但把联网搜索结果改成一本能读得过去的书,就要看它是不是真的理解了主线,顺序和前后层次了。

🌅

安这个skill,github. com/irenerachel/ebook-maker-skill,把hermes agent的手册(hermes-agent.nousresearch. com/docs)做成书

这组结果基本符合我对这个skill的预期。它没有把Hermes手册粗暴压成几段摘要,确实是做了一份可以翻的本地PDF。我比较喜欢的一点是,它会把观点,代码,注意事项用不同颜色区分出来,确实是可以照着它一步步把Hermes装起来。版本号,命令,配置点都放在里面,作为一份入门 Wiki,它是能用的。很多模型做长文整理,会把原文拆成四五块,然后每块都用差不多的句式写一遍。读者看起来很工整,但没有阅读欲。

Hy3 preview这次价格也打得很低。不过只说输入 1.2 元、输出 4 元,可能没什么概念。我把几个最近常被拿来比较的模型,统一到同一个标准里看了一下。这里不算Batch,Flex,Priority,订阅套餐,区域溢价,也不拿长上下文额外档位来比。简单说,就是看标准即时API调用,按每百万tokens多少钱来算。

实测Hy3 preview后我发现小看腾讯做大模型决心了

BTW,在OpenRouter上Hy3 preview还免费到5月8号。。。🔗 openrouter.ai/tencent/hy3-preview:free来到第二组,

把长文变成学习手册和测试题。教学设计这东西挺能测模型脑子的。它要知道哪些概念是核心,哪些理解误区容易发生,题目能不能从原文里找到依据。

先用 300 字讲清楚Hermes agent的入门手册到底想解决什么问题。再拆成学习模块,每个模块包括核心概念、一个例子、一个常见误区。最后生成 10 道测试题,其中 6 道选择题,4 道开放题。所有题目必须能从原文中找到依据,不要编造外部知识。输出 Markdown,并在最后给一个「我是否真的学会了」自检表。

Hy3实现了我的几个硬性需求,模块,题目数量,自检表,题目解析也基本能回到原文里找资料依据。第三组,我想测一个更常见的网页设计,这是我最希望能有个踩着七彩祥云的模型来取代Claude的能力了。还是让Hy3把Claude Design的系统提示语做成Skill,然后做一个HTML版的网页3D小游戏。

用一个单文件 HTML 做一个 3D 小游戏,主题叫「混元训练工厂」。要求,使用 Three.js CDN,不要依赖复杂构建工具。玩家控制一个小机器人,在训练工厂里收集 5 个数据球。场景里要有 3 种区域,预训练区、强化学习区、Agent 测试区。每收集一个数据球,右上角显示一句对应解释,比如「预训练数据 +1」「工具调用稳定性 +1」。有开始界面、计分、胜利提示。代码写在一个 HTML 文件里,可以直接双击运行。先给完整代码,再给 5 条你自己检查过的实现风险。

这组是我觉得最有可能翻车的,3D小游戏很容易出现代码看着很完整,打开以后再白屏的。结果比我预期稳,我大概就跟它来回聊了四五轮,差不多半小时,就能跑起来,没有额外环境依赖,跳跃,收集,结算这些动作也都能做出来。第四组,照样的奔着取代Claude去的,GPT5.5也认了自己做在线研究的时候没有Opus 4.7好。所以我让WorkBuddy去整理 Hy3 preview 的资料卡,看它能不能区分信息来源。

调研腾讯混元 Hy3 preview 的公开信息,并输出一份给内容创作者使用的资料卡。先找一手来源,其次是媒体。至少交叉核对3个来源。输出 5 部分,发布时间,模型规格,姚顺雨背景、Agent和 Coding 能力,价格和使用入口。每条事实都要附来源链接。明确标注哪些是官方信息,哪些是媒体转述,哪些只是社区评价。只输出可核查的资料卡。

这一组我是比较满意的。它没有只给一堆看起来很像资料的废话,而是把发布时间,模型规格,姚顺雨背景,价格入口这些东西拆得比较清楚。点开它给的链接,我也能找到对应网页。我们前面聊到的 API 价格、模型优化和背景信息,很多就是从这份资料卡里顺出来的。最后一组来测测人感。这其实是一个很抽象的标准。像 Claude Opus 4.7 因为过度优化代码能力,所以风格变回了那种稳稳接住你的 style。而GPT 5.5升级后又把自己掰回来了,就像玩跷跷板一样。模型没人感不是不会回答,而是太像客服了。你说你焦虑,它说我懂你。你说你被老板骂了,它说你已经很棒了。你说你最近累,它说请允许自己休息。反正越聊越觉得在浪费自己的时间。

👍

提示词 A,我最近有点崩。不是那种需要你给我列 10 条建议的崩,就是觉得自己每天都在追 AI 更新,越追越焦虑。提示词 B,安慰一个刚被老板否定方案的人。
实测Hy3 preview后我发现小看腾讯做大模型决心了
实测Hy3 preview后我发现小看腾讯做大模型决心了

人感这组,我第一眼其实是不满意的。Hy3的回答也不是说完全不能用吧,但还是有一点模型装人的味道。但我后来把同样的问题丢给 GPT 5.4,对比了一下,心情更复杂了。

实测Hy3 preview后我发现小看腾讯做大模型决心了
实测Hy3 preview后我发现小看腾讯做大模型决心了

Hy3 preview在这块要是能再往前走一步,那它放进元宝,ima这种高频做知识问题的入口,就会很加分。这一大轮测试完后,我现在可以给出我的答案了,Hy3 preview不是现阶段最强的,但它能独立放进一套真实工作流里了。它不是一个完美答案。它更像一个重新开局。预训练,重建。强化学习,重建。基础设施,重建。产品反馈,重新放回模型中心。所以我不想说混元已经赶超第一梯队了。这话现在说太早。我更愿意说,它重新获得了被认真测试的资格。接下来就看正式版,看更大的模型,看它在元宝,ima,WorkBuddy这些早就铺开的真实产品里,能不能继续被用户捶打,继续成长出来。我们到年底正式版再探再看。

@ 作者 / 卡尔

© 版权声明

相关文章