源神降临！我用智谱 GLM-5.1 搓了个电商神器，白牌秒变大牌（附完整开发思路）

“你以为在调 AI，其实在造世界。——Harness Engineering

大家好啊，我是甲木。清明在家没事搞了个小项目，先说起因。前阵子看到好朋友冷逸用 GLM-5.1 开发了一个公众号写作神器「Auto-Wechat-Writing」，从需求到上线一气呵成，整个过程跑了1300 万 tokens。在那之前，袋鼠帝也用智谱 GLM-5 做了一个项目。看他们做完，我也手痒了。于是在家直接做了个电商神器：StyleForge（风格锻造）项目。先给大家看看成品：

电商风格迁移网站

这是我用 GLM-5.1 从零开发的一个 Web 应用，StyleForge（风格锻造），面向电商场景的「视觉风格迁移」工具。操作路径很简单，三步就能出图：上传参考图、上传产品图 + 填写产品描述、一键生成。

源神降临！我用智谱 GLM-5.1 搓了个电商神器，白牌秒变大牌（附完整开发思路）

你的白牌产品，出来的图，和大牌放一起毫不违和。整个项目从零搭建，前后端完整，有登录系统、历史记录管理，是一个真正能用的产品。而开发它，我只用了一个工具：Claude Code + 智谱 GLM-5.1 模型。这个项目的想法，最早源于我的一个电商用户的需求，当时我直接用 Skills 交付了，也是在凯寓的一次分享中，他提到了一个很有意思的方向，用 AI 解决电商详情页的设计问题。后来在凯寓和小七姐的帖子和方法论上做了一些延伸和创新。再加上 GLM-5.1 这次开源，这个场景也适合做一个完整项目，所以：拿这个项目来实测一下 GLM-5.1 的长程任务能力，毕竟是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。顺便做一个真正有用的东西出来。

📌 本文看点

01GLM-5.1 模型实力

02电商风格迁移场景

03从零到一完整开发

MODELGLM-5.1：开源模型的新王

在动手之前，先简单介绍一下 GLM-5.1 这个模型。实测下来，我觉得智谱 GLM-5.1 实现了编程能力的SOTA：面向长程任务的开源第一模型。什么叫长程任务？就是那种不是一句 Prompt 能搞定的复杂任务。它需要跨步骤、跨工具、持续好几个小时推进，中间还可能出各种意外，需要自主规划、自主执行、自主纠错。
METR 研究显示，在编程等领域，AI 能以 50% 成功率完成的任务复杂度（以人类专家耗时衡量）正呈指数级增长，近期加速至每 4–6 个月翻倍。GLM-5.1 在这个方向上做了系统性的优化，总结为下图的三大核心能力：

从数据上看，GLM-5.1 在SWE-Bench和Artificial Analysis等核心评测中位列开源第一，

评测数据图片

OpenRouter上的调用量近期也排在开源模型前列。海外开发者社区对它评价极高，不少人直接称它为「开源模型的新王」。

海外老哥评价

YouTube 博主 AICodeKing 在 King Bench 测试中也给出了开源第一的排名。AI Coding 其实有一条非常清晰的跃迁路径：

AI Coding → Vibe Coding → Agentic →Long Horizon

GLM-5.1 正是面向Long Horizon 这个阶段的产物。同时，长时任务也是 Harness Engineering 实践中不可缺少的一环，它「让模型像一个资深工程师一样持续工作、交付成果」。即日起，GLM-5.1在Hugging Face与ModelScope平台同步开源，模型权重遵循 MIT License。GLM-5.1已纳入GLM Coding Plan(Max/Pro/Lite)，支持 Claude Code、OpenCode等主流开发工具。

当模型能力已经对齐全球顶尖水平，真正拉开差距的将是：它能否像人类工程师一样，独立、持续地工作数小时，交付完整的工程级成果。这是GLM-5.1要回答的下一个问题。说了这么多，空口无凭。最好的验证方式，就是拿一个真实项目来跑。

SCENARIO为什么选电商风格迁移这个场景

因为这个场景太刚需了。做过电商的人都知道，在货架电商里，商品详情页就是你的「销售员」。用户看不到实物，所有的产品认知、信任建立和购买决策，都发生在详情页上。一个优质的详情页可以将转化率提升 30%-50%，这是实实在在的真金白银。但详情页的生产一直有两个核心痛点：

那怎么办？可以用 AI 做风格迁移。用户找到对标品牌的优质详情页图片，上传自己的产品图和产品描述。AI 自动分析参考图「为什么好看」，从布局、色彩、光影、排版、情绪调性等多个维度深度拆解参考图的「视觉 DNA」，然后将这套设计逻辑迁移到用户的产品上，生成具有品牌感的营销海报。

当然，自己如果就是大牌产品，把过往的设计风格，直接给到 AI，更容易直接复刻出图。

它理解的是设计逻辑，不是表面效果。白牌产品，也能拥有大牌级的视觉表现，而且无需设计师从零创作。

BUILD从零到一的完整开发过程

接下来给大家完整还原一下这个项目的开发过程，用最新的黑话来说，这是一次Harness Engineering 实践。整个项目的消耗大概在六七千万 tokens 吧，中间限额之后又换了个号。

— 其中一个账号的消耗我用的是 Claude Code 接入 GLM-5.1 模型，整个项目从第一行代码到最终可用，全程由 GLM-5.1 完成编码。

我没有一上来就给模型写 prompt 让它写代码，也不只是把需求文档喂给它。我做的是给它搭建一个完整的工作环境：先对齐认知，再用 PRD 定义目标约束，用技术方案画出行动边界，用分步交付建立质量检查点。这些东西加在一起，构成了 GLM-5.1 的 Harness。它之所以能在长程任务中保持稳定、不跑偏，除了模型本身够强，更重要的是给它造了一个「对的世界」。

STEP 1预期对齐

我先把整个项目的背景告诉了 GLM-5.1。

电商场景是什么样的，用户有什么痛点，我想做一个什么产品，技术上大概怎么选型。我没有急着让它动手，而是让它先复述一遍理解，分析技术难点，给出开发顺序的建议。这一步很关键。如果模型理解跑偏了，后面写再多代码也白搭。然后，进行信息对齐：

对齐完成，我们对项目的认知是一致的。

STEP 2产品设定 + PRD

对齐之后，我让它先输出产品设定。明确用户是谁、核心场景有哪些、功能优先级怎么排、页面清单是什么。确认产品设定后，再让它写一份完整的PRD（产品需求文档）。包括每个页面的交互设计、前后端 API 接口、数据库表结构、非功能需求。

产品对齐 GIF

这个环节的好处是：后续编码遇到问题，我可以直接说「你在 PRD 里是这么定义的」，让它自己对照修正。有了文档做锚点，模型就不容易在长链路任务中跑偏。

STEP 3技术方案

PRD 确认后，下一步是技术方案。这一步我特别关注的是它对核心模块的设计思路。风格 DNA 分析模块：

这里其实也依赖我过往的一个风格分析的 prompt，也就是在参考了凯寓和小七姐之后的一个优化扩充版。GLM-5.1 输出的方案结构清晰，考虑也比较周全。我微调了一些细节，技术方案就定稿了。

— 比较轻量级的一个方案

STEP 4逐步编码

进入正式开发。这个过程完全由 GLM-5.1 自行主导。

项目初始化搭建前后端骨架，配好开发环境，这轮没什么悬念，GLM-5.1 很顺利地完成了。这里我忘了截当时的规划步骤图，我直接交给它之后我就去吃饭了…

然后上下文太长自动 compact 了。。

中间经历了半个多小时，遇到 bug 也会自行修正优化。

之后，交付出来一整个结果，直接按操作打开~

登录注册页面，图片上传和项目管理模块都做的很好，在这中间，还让它用了 front-design skills 去进行前端审美的设计。

核心功能风格分析 + 海报生成。这是整个项目最难的部分，也是最能体现 GLM-5.1 长程任务能力的环节。这里简单说一下核心逻辑。我设计了一套「视觉 DNA」分析框架，从9 个维度去拆解一张参考图的设计风格。

这个环节 GLM-5.1 跑了很久，中间确实遇到了不少问题。

有一次 API 返回的 JSON 格式不规范，它自己看了错误日志，加了一层正则预处理来提取 JSON 块，然后继续往下走。还有一次生成图片为空，它自动触发了重试，第二次成功了。

bug 修复 GIF

这种自主排查、自主修复的能力，是我整个开发过程中感受最深的。以前用开源模型做长任务，到后半程经常需要人工介入，手动帮它纠错。GLM-5.1 在这方面明显好了一个台阶。

UI 打磨功能跑通之后，我让它做了一轮 UI 优化。包括 Landing Page 的设计（产品介绍、操作步骤说明、效果展示）、整体配色统一、加载动画、响应式适配。

STEP 5联调测试 + 收尾

当然，我在操作打开的时候，不可避免的遇到了一些 bug 问题。然后就跟它对话，让它进行修正，优化。

等项目完成后，可以让它直接开启自检查模式，直接说「帮我去完成一系列的自动化测试」。

包括还可以直接让它用我们的 /front-design skills 帮我们去优化主界面，最终呈现出来的结果就是这样的~

首页展示 GIF

而且在测试的过程中，如果遇到了一些问题，比如接入更多的供应商支持，接入更多的模型。我们都可以直接在对话框里跟它对话。它会以反问的形式，让我们提供选项供我们选择。

紧接着又设置了一堆 plan 长程任务，然后开始自己执行。太吊了。

最后它帮我写了 README、创建了 .env.example、确认了一键启动流程。

项目交付。

1246AI 自行执行轮次

6000万tokens 消耗

4-5h总开发时长

最终的效果就是大家开头看到的视频那样，直接交付一个可用的系统。

🎬文章开头的视频

当然了，在这里边我没有考虑到比如说高并发或者高可用的这种场景，我没有把这些背景告诉给 AI。在一些高 QPS 场景下，它目前要优化的还有很多~在之后，我也会不断地去打磨这个项目。

THOUGHTS简单聊聊这个项目的思考

这次实测下来，GLM-5.1 在长程任务上的表现是超预期的。它的稳定性和一致性非常值得一提。在一个需要持续好几个小时、跨十几个步骤的完整项目开发中，它始终记得前面定的架构和约束，始终围绕最终交付目标推进，中途遇到问题自己修正，不跑偏、不断链。

— 智谱 GLM-5.1这种体验，以前只在闭源的顶级模型上有过。而GLM-5.1 是开源的。开源意味着什么？意味着更多的开发者、更多的场景、更低的成本、更大的可能性。当开源模型也能稳定地完成长程任务的时候，AI 编程的门槛又往下降了一大截。不得不说一句，智谱牛逼 🐂🍺！而关于电商 AI 应用这个，风格迁移只是一个切入点。电商详情页的 AI 化生产，是一个巨大的市场。

— 电商 AI 应用中国有上千万的电商商家，80% 以上是中小商家和白牌商家。他们每个月需要制作大量的商品详情页，但设计资源严重不足。商品越来越多，上新越来越快，好的设计师永远是稀缺的。这个矛盾只会越来越大。AI 风格迁移可以让那些没有设计师的商家也能做出有品质的详情页。这是一个增量市场，也是一个真正的刚需。好的 AI 技术就应该实际地落在我们的业务场景应用中。

∞

FINAL THOUGHTS从写 Prompt 到造世界

Harness Engineering。很多人觉得用 AI 做项目就是「写一句好的 prompt 让它写代码」。这样做，90% 的情况出来的东西不能用。最近看到郭美青老师写了一篇文章，讲从Prompt Engineering到Context Engineering再到Harness Engineering的演进。他说了一个我觉得特别精准的判断：这三个词其实在说同一件事，只是在不同的高度望向同一个问题。PE 是调措辞，你跟模型怎么说话。CE 是调信息流，模型该看到什么、什么时候看到。HE 是调整个环境，模型能做什么、不能做什么、错了怎么办、谁来判断它做得好不好。

「三者不是替代关系，是套娃。HE 包着 CE，CE 包着 PE。」

再看看这次的开发过程，其实就是一次 Harness Engineering 的实践。我没有一上来就给模型写 prompt 让它写代码。也不只是把需求文档喂给它就完事。我做的是给 GLM-5.1 搭建了一个完整的工作环境：

— 搭建的环境这些东西加在一起，就是 GLM-5.1 的 Harness。OpenAI 发现过一个反直觉的结论：约束越多，Agent 反而干得越好。这里指的是清晰的架构规范、可靠的检查流程、及时的阶段确认。这跟管人一模一样。好的管理者不是控制欲最强的那个人，而是环境设计得最好的那个人。你以为在调 AI，其实在造世界。Prompt 写得好不好当然重要，但它只是最内层的那个套娃。真正决定项目成败的，是你给 AI 构建的那个工作环境。对齐预期、定义文档、设计架构、分步交付，这些不是「开发前的准备工作」，这些就是开发本身。这套方法不只适用于 GLM-5.1，它是一个通用的 AI 协作开发框架。非技术背景的人也完全可以用。关键不在于你会不会写代码，而是你能不能定义一个好问题，能不能，为 AI 造一个对的世界。以上。

END

我是甲木，热衷于分享一些 AI 干货内容，同时也会分享 AI 在各行业的落地应用。

如果你觉得今天这篇有收获，欢迎点赞、在看、转发三连，我们下期再见 👋🏻