GLM-4.6V发布即开源,国产最强多模态Agent底座模型

AI 知识库6天前发布 K姐Koi
1,109 0 0
博思AIPPT
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
大家好,这里是K姐。一个帮你追踪最新AI应用的女子!
今天,智谱正式推出全新的视觉推理模型GLM-4.6V 系列模型,并全面开源!本次发布包含2个版本:

  • GLM-4.6V:总参数量106B,单次推理激活参数约12B,视觉理解精度达到同参数SOTA,适合云端与高性能场景;
  • GLM-4.6V-Flash:总参数量9B,更轻量,更快捷,适合本地部署;
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V 首次将 Function Call(工具调用)能力融入视觉模型,让大模型同时拥有了眼睛和双手,支持原生处理复杂的视觉任务,并能够基于视觉理解主动调用工具完成后续操作。比如,GLM-4.6V 可以直接“看懂”结构复杂、包含大量图表和示意图的论文,并重新整理成一篇人人都能看懂的图文并茂的文章;
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
仅凭一张截图,就能拆解页面结构,复刻出几乎一模一样的前端页面。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
实测表现
打开z.ai,在页面左上角选择模型GLM-4.6V。
官网:https://chat.z.aiGitHub:https://github.com/zai-org/GLM-VHugging Face:https://huggingface.co/collections/zai-org/glm-46v
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V 可以调用图像识别、图像处理、图像搜索、购物搜索4种工具。在输入框下方,官方预置了一组典型功能示例,包括万能识搜、图文扫描、文档智读、视频理解、智能比价和数理解题等。选择任一功能,GLM-4.6V 会自动调用匹配的工具。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
  • case1 万能识搜
提示词:这是哪里,几月适合去旅游?
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V 具备原生的视觉理解能力,直接调用识图工具识别图片中的内容,再搜索相关知识给出回复。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
  • case2 图文扫描
提示词:提取图片中的信息,转为excel表格。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V 对内容和布局的理解非常准确。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
再尝试复杂一点的:
提示词:帮我扫描出来这款猫粮的原料、成分表和其他说明,并分析适合2岁小猫长期吃吗?
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V 也准确的识别出原料组成和产品成分,并且基于这些内容进行分析。
  • case3 文档智读
上周,中科大潘建伟教授团队在国际顶级期刊PRL(物理评论快报)上发表最新研究成果,在量子物理领域取得突破性进展,终结了爱因斯坦与玻尔世纪之辩。我找到了论文原文,让 GLM-4.6V 帮我们分析分析。
提示词:用通俗易懂的话说明:这篇论文写了什么,为什么说它终结了爱因斯坦和玻尔的世纪之辩,以及这项成果除了学术价值之外,对现实世界和普通人意味着什么。

GLM-4.6V 不仅能理解复杂的图表内容,还能把关键信息重新整理,用图文并茂的方式讲清楚。

  • case4 视频理解
提示词:这是白日梦想家的经典片段,它具体用到了哪些镜头语言,分镜设计有什么亮点?

GLM-4.6V 给出的解读非常专业,整个视频讲述了什么内容,用了哪些镜头,这些镜头语言表达了什么情绪…比我理解的深刻多了。

  • case5 数理解题
提示词:解答图中问题。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V 可以结合视觉信息与外部知识进行组合推理,解题思路非常清晰。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
  • case6 智能比价
提示词:请帮我搜索与图中赵露思耳环类似的平价同款。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V 直接帮我找到了好几个同款平替,识别挺准确的,而且不同平台都有~
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
  • case7 图文内容创作
提示词:搜索一下视觉模型的发展过程,生成一个图文并茂的报告。
  • case 8 复刻前端网页
提示词:复刻截图中的网页,页面中涉及的所有图片素材必须直接使用真实图片和视频,不要用 placeholder 或占位元素。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
视觉理解、结构推理、代码生成一步到位,生产的网页和原图基本一致,连截图中的浮窗结构都识别出来并且还原了!导航栏的各个选项也预留了跳转空间。
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
GLM-4.6V发布即开源,国产最强多模态Agent底座模型
一些分享
实测体验下来,GLM-4.6V 不仅能识别画面中的细节,还能把图像和自然语言的含义连接起来,理解画面在表达什么,以及这些信息之间的关系,整个过程相当丝滑。使用时,建议常开深度思考,模型回复质量会更高。前端复刻时建议关闭工具,其他情况下,根据任务自定义或者保持官方选项中的默认设置即可。这个强大的视觉能力还会融入到智谱的 Coding Plan,每个月最低只需要20元,可以直接使用最新模型能力,日常用非常香。随着这类能力逐步成熟,视觉信息将会深度参与决策、规划与行动本身,而现实世界的画面,都将成为系统可以直接理解和调用的一等信息源。视觉模型能力的提升,不只是给 AI 一双眼睛一双手,而是在为下一代智能体参与现实世界打开通道。未来的机器人不再需要被精确编程去执行某个动作,而是能够理解类似“去拿衣柜里最右侧的红色毛衣”这样的自然指令。
© 版权声明

相关文章