源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

熊猫办公
“你以为在调 AI,其实在造世界。——Harness Engineering
大家好啊,我是甲木。清明在家没事搞了个小项目,先说起因。前阵子看到好朋友冷逸用 GLM-5.1 开发了一个公众号写作神器「Auto-Wechat-Writing」,从需求到上线一气呵成,整个过程跑了1300 万 tokens。在那之前,袋鼠帝也用智谱 GLM-5 做了一个项目。看他们做完,我也手痒了。于是在家直接做了个电商神器:StyleForge(风格锻造)项目。先给大家看看成品:

电商风格迁移网站

这是我用 GLM-5.1 从零开发的一个 Web 应用,StyleForge(风格锻造),面向电商场景的「视觉风格迁移」工具。操作路径很简单,三步就能出图:上传参考图、上传产品图 + 填写产品描述、一键生成。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

你的白牌产品,出来的图,和大牌放一起毫不违和。整个项目从零搭建,前后端完整,有登录系统、历史记录管理,是一个真正能用的产品。而开发它,我只用了一个工具:Claude Code + 智谱 GLM-5.1 模型。这个项目的想法,最早源于我的一个电商用户的需求,当时我直接用 Skills 交付了,也是在凯寓的一次分享中,他提到了一个很有意思的方向,用 AI 解决电商详情页的设计问题。后来在凯寓和小七姐的帖子和方法论上做了一些延伸和创新。再加上 GLM-5.1 这次开源,这个场景也适合做一个完整项目,所以:拿这个项目来实测一下 GLM-5.1 的长程任务能力,毕竟是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。顺便做一个真正有用的东西出来。

📌 本文看点

01GLM-5.1 模型实力
02电商风格迁移场景
03从零到一完整开发
01

MODELGLM-5.1:开源模型的新王

在动手之前,先简单介绍一下 GLM-5.1 这个模型。实测下来,我觉得智谱 GLM-5.1 实现了编程能力的SOTA:面向长程任务的开源第一模型。什么叫长程任务?就是那种不是一句 Prompt 能搞定的复杂任务。它需要跨步骤、跨工具、持续好几个小时推进,中间还可能出各种意外,需要自主规划、自主执行、自主纠错。
METR 研究显示,在编程等领域,AI 能以 50% 成功率完成的任务复杂度(以人类专家耗时衡量)正呈指数级增长,近期加速至每 4–6 个月翻倍。GLM-5.1 在这个方向上做了系统性的优化,总结为下图的三大核心能力:

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

从数据上看,GLM-5.1 在SWE-BenchArtificial Analysis等核心评测中位列开源第一,

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

评测数据图片

OpenRouter上的调用量近期也排在开源模型前列。海外开发者社区对它评价极高,不少人直接称它为「开源模型的新王」。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

海外老哥评价

YouTube 博主 AICodeKing 在 King Bench 测试中也给出了开源第一的排名。AI Coding 其实有一条非常清晰的跃迁路径:

AI Coding → Vibe Coding → Agentic →Long Horizon

GLM-5.1 正是面向Long Horizon 这个阶段的产物。同时,长时任务也是 Harness Engineering 实践中不可缺少的一环,它「让模型像一个资深工程师一样持续工作、交付成果」。即日起,GLM-5.1在Hugging Face与ModelScope平台同步开源,模型权重遵循 MIT License。GLM-5.1已纳入GLM Coding Plan(Max/Pro/Lite),支持 Claude Code、OpenCode等主流开发工具。

当模型能力已经对齐全球顶尖水平,真正拉开差距的将是:它能否像人类工程师一样,独立、持续地工作数小时,交付完整的工程级成果。这是GLM-5.1要回答的下一个问题。说了这么多,空口无凭。最好的验证方式,就是拿一个真实项目来跑。

02

SCENARIO为什么选电商风格迁移这个场景

因为这个场景太刚需了。做过电商的人都知道,在货架电商里,商品详情页就是你的「销售员」。用户看不到实物,所有的产品认知、信任建立和购买决策,都发生在详情页上。一个优质的详情页可以将转化率提升 30%-50%,这是实实在在的真金白银。但详情页的生产一直有两个核心痛点:

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

那怎么办?可以用 AI 做风格迁移。用户找到对标品牌的优质详情页图片,上传自己的产品图和产品描述。AI 自动分析参考图「为什么好看」,从布局、色彩、光影、排版、情绪调性等多个维度深度拆解参考图的「视觉 DNA」,然后将这套设计逻辑迁移到用户的产品上,生成具有品牌感的营销海报。

当然,自己如果就是大牌产品,把过往的设计风格,直接给到 AI,更容易直接复刻出图。

它理解的是设计逻辑,不是表面效果。白牌产品,也能拥有大牌级的视觉表现,而且无需设计师从零创作。

03

BUILD从零到一的完整开发过程

接下来给大家完整还原一下这个项目的开发过程,用最新的黑话来说,这是一次Harness Engineering 实践。整个项目的消耗大概在六七千万 tokens 吧,中间限额之后又换了个号。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

— 其中一个账号的消耗我用的是 Claude Code 接入 GLM-5.1 模型,整个项目从第一行代码到最终可用,全程由 GLM-5.1 完成编码。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

我没有一上来就给模型写 prompt 让它写代码,也不只是把需求文档喂给它。我做的是给它搭建一个完整的工作环境:先对齐认知,再用 PRD 定义目标约束,用技术方案画出行动边界,用分步交付建立质量检查点。这些东西加在一起,构成了 GLM-5.1 的 Harness。它之所以能在长程任务中保持稳定、不跑偏,除了模型本身够强,更重要的是给它造了一个「对的世界」。

STEP 1预期对齐

我先把整个项目的背景告诉了 GLM-5.1。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

电商场景是什么样的,用户有什么痛点,我想做一个什么产品,技术上大概怎么选型。我没有急着让它动手,而是让它先复述一遍理解,分析技术难点,给出开发顺序的建议。这一步很关键。如果模型理解跑偏了,后面写再多代码也白搭。然后,进行信息对齐:

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

对齐完成,我们对项目的认知是一致的。

STEP 2产品设定 + PRD

对齐之后,我让它先输出产品设定。明确用户是谁、核心场景有哪些、功能优先级怎么排、页面清单是什么。确认产品设定后,再让它写一份完整的PRD(产品需求文档)。包括每个页面的交互设计、前后端 API 接口、数据库表结构、非功能需求。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

产品对齐 GIF

这个环节的好处是:后续编码遇到问题,我可以直接说「你在 PRD 里是这么定义的」,让它自己对照修正。有了文档做锚点,模型就不容易在长链路任务中跑偏。

STEP 3技术方案

PRD 确认后,下一步是技术方案。这一步我特别关注的是它对核心模块的设计思路。风格 DNA 分析模块:

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

这里其实也依赖我过往的一个风格分析的 prompt,也就是在参考了凯寓和小七姐之后的一个优化扩充版。GLM-5.1 输出的方案结构清晰,考虑也比较周全。我微调了一些细节,技术方案就定稿了。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

— 比较轻量级的一个方案

STEP 4逐步编码

进入正式开发。这个过程完全由 GLM-5.1 自行主导。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

项目初始化搭建前后端骨架,配好开发环境,这轮没什么悬念,GLM-5.1 很顺利地完成了。这里我忘了截当时的规划步骤图,我直接交给它之后我就去吃饭了…

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

然后上下文太长自动 compact 了。。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

中间经历了半个多小时,遇到 bug 也会自行修正优化。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

之后,交付出来一整个结果,直接按操作打开~

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

登录注册页面,图片上传和项目管理模块都做的很好,在这中间,还让它用了 front-design skills 去进行前端审美的设计。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

核心功能风格分析 + 海报生成。这是整个项目最难的部分,也是最能体现 GLM-5.1 长程任务能力的环节。这里简单说一下核心逻辑。我设计了一套「视觉 DNA」分析框架,从9 个维度去拆解一张参考图的设计风格。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

这个环节 GLM-5.1 跑了很久,中间确实遇到了不少问题。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

有一次 API 返回的 JSON 格式不规范,它自己看了错误日志,加了一层正则预处理来提取 JSON 块,然后继续往下走。还有一次生成图片为空,它自动触发了重试,第二次成功了。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

bug 修复 GIF

这种自主排查、自主修复的能力,是我整个开发过程中感受最深的。以前用开源模型做长任务,到后半程经常需要人工介入,手动帮它纠错。GLM-5.1 在这方面明显好了一个台阶。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

UI 打磨功能跑通之后,我让它做了一轮 UI 优化。包括 Landing Page 的设计(产品介绍、操作步骤说明、效果展示)、整体配色统一、加载动画、响应式适配。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)
STEP 5联调测试 + 收尾

当然,我在操作打开的时候,不可避免的遇到了一些 bug 问题。然后就跟它对话,让它进行修正,优化。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

等项目完成后,可以让它直接开启自检查模式,直接说「帮我去完成一系列的自动化测试」。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

包括还可以直接让它用我们的 /front-design skills 帮我们去优化主界面,最终呈现出来的结果就是这样的~

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

首页展示 GIF

而且在测试的过程中,如果遇到了一些问题,比如接入更多的供应商支持,接入更多的模型。我们都可以直接在对话框里跟它对话。它会以反问的形式,让我们提供选项供我们选择。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

紧接着又设置了一堆 plan 长程任务,然后开始自己执行。太吊了。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

最后它帮我写了 README、创建了 .env.example、确认了一键启动流程。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

项目交付。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)
1246AI 自行执行轮次
6000万tokens 消耗
4-5h总开发时长

最终的效果就是大家开头看到的视频那样,直接交付一个可用的系统。

🎬文章开头的视频

当然了,在这里边我没有考虑到比如说高并发或者高可用的这种场景,我没有把这些背景告诉给 AI。在一些高 QPS 场景下,它目前要优化的还有很多~在之后,我也会不断地去打磨这个项目。

04

THOUGHTS简单聊聊这个项目的思考

这次实测下来,GLM-5.1 在长程任务上的表现是超预期的。它的稳定性和一致性非常值得一提。在一个需要持续好几个小时、跨十几个步骤的完整项目开发中,它始终记得前面定的架构和约束,始终围绕最终交付目标推进,中途遇到问题自己修正,不跑偏、不断链。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

— 智谱 GLM-5.1这种体验,以前只在闭源的顶级模型上有过。而GLM-5.1 是开源的。开源意味着什么?意味着更多的开发者、更多的场景、更低的成本、更大的可能性。当开源模型也能稳定地完成长程任务的时候,AI 编程的门槛又往下降了一大截。不得不说一句,智谱牛逼 🐂🍺!而关于电商 AI 应用这个,风格迁移只是一个切入点。电商详情页的 AI 化生产,是一个巨大的市场。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

— 电商 AI 应用中国有上千万的电商商家,80% 以上是中小商家和白牌商家。他们每个月需要制作大量的商品详情页,但设计资源严重不足。商品越来越多,上新越来越快,好的设计师永远是稀缺的。这个矛盾只会越来越大。AI 风格迁移可以让那些没有设计师的商家也能做出有品质的详情页。这是一个增量市场,也是一个真正的刚需。好的 AI 技术就应该实际地落在我们的业务场景应用中。

FINAL THOUGHTS从写 Prompt 到造世界

Harness Engineering。很多人觉得用 AI 做项目就是「写一句好的 prompt 让它写代码」。这样做,90% 的情况出来的东西不能用。最近看到郭美青老师写了一篇文章,讲从Prompt Engineering到Context Engineering再到Harness Engineering的演进。他说了一个我觉得特别精准的判断:这三个词其实在说同一件事,只是在不同的高度望向同一个问题。PE 是调措辞,你跟模型怎么说话。CE 是调信息流,模型该看到什么、什么时候看到。HE 是调整个环境,模型能做什么、不能做什么、错了怎么办、谁来判断它做得好不好。

「三者不是替代关系,是套娃。HE 包着 CE,CE 包着 PE。」

再看看这次的开发过程,其实就是一次 Harness Engineering 的实践。我没有一上来就给模型写 prompt 让它写代码。也不只是把需求文档喂给它就完事。我做的是给 GLM-5.1 搭建了一个完整的工作环境

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

— 搭建的环境这些东西加在一起,就是 GLM-5.1 的 Harness。OpenAI 发现过一个反直觉的结论:约束越多,Agent 反而干得越好。这里指的是清晰的架构规范、可靠的检查流程、及时的阶段确认。这跟管人一模一样。好的管理者不是控制欲最强的那个人,而是环境设计得最好的那个人。你以为在调 AI,其实在造世界。Prompt 写得好不好当然重要,但它只是最内层的那个套娃。真正决定项目成败的,是你给 AI 构建的那个工作环境。对齐预期、定义文档、设计架构、分步交付,这些不是「开发前的准备工作」,这些就是开发本身。这套方法不只适用于 GLM-5.1,它是一个通用的 AI 协作开发框架。非技术背景的人也完全可以用。关键不在于你会不会写代码,而是你能不能定义一个好问题,能不能,为 AI 造一个对的世界。以上。

END
我是甲木,热衷于分享一些 AI 干货内容,同时也会分享 AI 在各行业的落地应用。

源神降临!我用智谱 GLM-5.1 搓了个电商神器,白牌秒变大牌(附完整开发思路)

如果你觉得今天这篇有收获,欢迎点赞、在看、转发三连,我们下期再见 👋🏻

© 版权声明

相关文章