开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。

熊猫办公
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
智谱正式上线并开源了 GLM-4.6V 系列多模态大模型。
两个模型:
①面向云端与高性能集群场景的GLM-4.6V(106B)②面向本地部署与低延迟应用的GLM-4.6V-Flash(9B)
我已经用上了,说实话,视觉能力真的可以,我们做了很多AI产品,有用到视觉能力的准备切换到这个模型了。
GLM-4.6V 跟之前“看懂再回答”的视觉模型完全不同,它把最关键的一步补齐了,把 Function Call 原生融入视觉模型,让模型可以根据图片、截图、文档页面等视觉输入,直接规划并调用工具,完成从感知到行动的闭环。
三大亮点
更强、更多、也更省。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
同规模 SOTA
在 20+ 主流多模态基准取得同规模开源模型中的 SOTA。
106B 版本比肩 2 倍参数量的 Qwen3-VL-235B;9B 的 Flash 版本性能超过 Qwen3-VL-8B。
GLM-4.6V 将上下文长度提升到128K tokens,面向长文档、多文档和长视频理解更友好。
性价比
API 价格腰斩 + Flash 免费。
价格上,GLM-4.6V 相比 GLM-4.5V下调 50%百万 tokens 输入 1 元/输出 3 元,同时 GLM-4.6V-Flash 免费开放给开发者使用
这下应该没人会说视觉模型贵了。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
我们开发的 AI 应用,有时候也是在赌,赌的就是视觉模型会更强,且价格持续的腰斩再腰斩。
GLM-4.6V API 的价格,实在是让开发者们爽爆了。
原生视觉工具调用
传统工具调用大多依赖纯文本,遇到图像、视频、复杂文档往往要反复 OCR/解析/对齐,链路长、损耗大。
GLM-4.6V 的设计思路是把视觉输入、工具调用、视觉结果再理解变成原生能力,给多模态应用落地极大降低了门槛。
从“视觉问答”到“视觉执行”
做了一些实测,强不是吹的,直接 DEMO。
我是在官网买了个首月 20 元的套餐,确实是划算,但还有更重要的,官方给搞了专用 MCP 工具,用起来比较方便。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
官方给的文档非常齐全,真是为了开发者考虑,甚至连在 Claude Code 上快速使用的文档都做好了。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
配置简简单单。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
现在开始给 Claude Code 安装视觉理解 MCP。
文档也是非常齐全,真的要给 GLM 官方点个赞,就差安排个工作人员来帮我干活了。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
可以看到我们已经成功让 Claude Code 连接上了 GLM 的视觉理解 MCP。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
视觉理解 MCP 支持的工具非常丰富,完全满足了我日常的开发需求。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。

开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。

先体验一下模型能力。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
这个视觉模型对识别文字的准确率太高了,几乎都可以当 OCR 模型去识别图片中的文字了。
GLM-4.6V支持像素级前端复刻
现在我们用这个能力开发一个网站,索性直接来复刻升级一下智谱自己的网站吧,看看智谱的模型能不能超越他们自己的前端程序员。(哈哈哈,不知道当讲不当讲,我觉得他们的模型肯定比他们自己的程序员都厉害)
输入提示词和两张图片。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
很快就写完了,页面做的非常漂亮,它利用视觉能力,只是给了一张截图,就复刻出了网页,反正我是感觉比官方自己做的还好看。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
再来复刻一下 Apple 官网。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
提前放好了 iPhone 的图片,这是我在官网上右键保存的,既然抄嘛,肯定得多给点高质量的物料。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
好了,来看看我们复刻的 Apple 官网,这还原度也太高了!苹果可是世界上公认的设计最强的公司,作为苹果应用开发者,我平时借鉴下苹果的设计风格应该不过分吧。
Icon 这些有点差别,不过不影响大局,正常是需要把这些 icon 素材都丢给它的,这里测试就不去搞了。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
不止能看,更能执行,这是 GLM-4.6V 最大的亮点。
上才艺!
我上传了一段足球直播片段,让它帮我找到射门的精彩瞬间,并且截取出来这个片段。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。

开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。

开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
就这样,最精彩的6s视频瞬间已经帮我截取好了。
这真的很夸张,意味着可以有更多的想法可以落地了,我们平时开发 APP 很快,之前有很多想法因为一些模型能力的限制被搁置了,有了GLM-4.6V,我感觉我好像又行了。
写在最后
我觉得 GLM-4.6V 最狠的地方,不是看得更准,而是终于把视觉模型从回答问题推进到了把事做完,截图能当参数、工具能自己调,这才是多模态真正该有的样子。
模型能力强、价格低,基本等于把“上视觉”这件事从小团队的奢侈品变成了日常标配。
对开发者来说,最大的感受就一句话:可落地的想法变多了。
以前很多点子卡在成本、卡在模型能力、卡在最后一公里执行,有了 GLM-4.6V,很多本来要算了的功能突然就能开工了。
用 Coding Plan 把 MCP 接进 IDE,去体验一次“设计稿即代码”和“看图就能改”的爽感吧!
只要首月20元,就能拥有 Claude Pro 的三倍用量,可以调用 GLM-4.6 模型,同时还支持搜索、网页读取以及视觉理解等三个 MCP。
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。

特惠链接:https://bigmodel.cn/glm-coding
项目链接
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
GLM Coding Plan 视觉 MCP 文档:https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server
在线体验:z.ai (选择 GLM-4.6V 模型)
扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
开源视觉大模型新王诞生,视觉理解精度超Qwen3-VL。
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章