
大家都在疯狂猜测会不会是 DeepSeek V4 来了?根据 OpenRouter 模型页面显示,Pony Alpha 具备 200 K 的上下文窗口,最大输出 131 k。

据 OpenRouter 官方描述,代号为 Pony Alpha 的神秘模型为 Agentic workflows 做了大量优化,具有很高的工具调用准确率。我也第一时间去体验了这个模型,并在 Claude Code 上测了下。

这是我用 Claude Code 跑的我的产品薯图的复刻,模型用的就是 Pony Alpha。

除了前端细节上能很好的完成前端页面的复刻外,我觉得比较不一样的是他的后端数据库设计及架构能力,比如在订单表设计上会自动为我加上行级安全策略 RLS,启动自定义规则让不同用户只能看到或修改自己有权限的行。

这就很牛逼了,也就是他自己去理解业务逻辑本身后,自己主动在数据库设计的时候加上了这一条策略,做了数据权限控制。并且能主动将配置存入数据库,并从数据库中获取配置给到接口层。

我发现在解决后端 bug 问题上,这个模型能很好的定位问题。这个是我用它生成的带前后端完整功能的电商产品详情页管理工具,这个一次性完成的。

还有我的经典 case 模仿生成器,也是一次性就完成,无论从页面前端效果还是功能可用上,完成的都比较高。

在多工具调用上,Pony Alpha 表现更为不错,我一次同时调用了公众号写作 skill,配图 skill,内容搜索 skill,根据需求就能生成一篇不错的公众号文章。

从初步的测试来看,Pony Alpha 模型的表现很不错,特别是在后端架构设计,多工具调用准确率上比较突出。会是什么模型呢?还挺好奇的。大家也都在猜测会是什么模型?有人猜测是 grok 4.2 或者是 DeepSeek 新模型。

也有猜测是 llama 5 的(哈哈哈,不大可能):

还有猜测是 GLM 5 的:

目前在 OpenRouter 上是免费的,可以给大家盲测。我来了个溯源提问,Pony Alpha 守口如瓶,依旧猜测不到。

我关注的 Reddy 大佬也来发表了看法,猜测是 Grok 4.2 要来了,他的依据是该模型擅长角色扮演。

有国外老哥很自信的说这绝对是来自中国的模型。

不是,你猜 Claude 5 就有点不符合逻辑了吧,哈哈哈。毕竟 Claude 4.6 刚刚发布。

这个模型一度引起了国外开发者和极客们的兴趣,纷纷都去测试。从大家的测试变现来看,代码能力表现非常出色。

甚至有老哥说 Pony Alpha 要称霸游戏世界了,一度让我蠢蠢欲动啊。

有老哥直言,如果 Pony Alpha 是一个开源模型,那将非常恐怖。

我个人觉得不大会是 Claude 5,毕竟刚发布Claude 4.6 Opus,OpenAI 也发布了GPT 5.3 Codex。不大可能是 DeepSeek V4,他们一版是先发到用户群,说自己模型发了。也不大可能是 Grok 4.2,在 agentic 和工具调用上,技术路线不大符合 Grok 的训练路线。我猜测大概率是 GLM-5,结合前段日子唐杰老师在 X 上那句被反复引用的 “GLM 快了”,

这也比较符合 GLM 一直在 coding、agent 能力提升上的进化方向。其实从大家的热议来看,有一个很有意思的点。那就是大家也开始更多的关注中国的模型,出现了更多的 GLM、DeepSeek 这样的名字。这在前两年,估计人们的第一反应是 GPT、Gemini 和 Claude 了。这也表明在基座模型能力上,大家都起跑线也越来越接近了。如果你也去体验了 Pony Alpha,评论区聊聊你觉得它到底是谁?
