万字评测 | 多款 Agentics VS OK Computer， OK 不 OK 呢？

缘起

小学妹给了个 Kimi OK Computer 内测机会，正好我最近也在看这个方向的，想着帮大家尝尝鲜，顺道给学妹参与的这个产品一些反馈和展示。

不过，在此之前，我们先讨论一个重要问题，一个大模型应用产品，我说好就好了？我用的爽，大家就都用的爽了？有没有一种量化方式，给大模型应用打分呢？【专业讨论】有没有一种量化方式，给大模型应用打分呢？来说说我的看法正经的写了一篇理论讨论文章，结果大家不怎么买账的样子，哈哈。没关系，直接抛出来结论

任务完成度，是否可以正确完成要求
意图识别准确度，核心需求满足度
成本可控：任务执行时长/Token 消耗量
其他相对主观的评价

当然，本篇不是单纯的水软文，是想通过横评。来跟大家展示一下，如果我是个非程序员，如何基于Coze 的开发平台来设计实现自己的 Coze App 想法。

测试目标

我不是有个作业嘛，要升级一下之前挖下的坑，制作一款好用的可以真正帮助到一线老师的 AI 工具（集），最好是免费且数据相对安全可控。

我们这次评测的主角有以下几位

Kimi OK Computer 内测版
Coze 空间
豆包超能模式（跟 2 楼是亲戚）
Trae SOLO（Kimi-K2-0905)

因为我们要基于 Coze 的在线平台开发，所以预期这些聪明的 Agentic 能够给我输出一份完整的UI 设计方案，产品(交互)设计方案，以及最重要的基于 Coze 开发平台的技术方案。

开始整活

首先，我得找个聪明人帮我，把我朴素的描述转成专业的需求描述。你懂的，我肯定找豆包，

我要开发一款基于 Coze 应用中低代码搭建的应用。这个应用的作用是帮助老师完成课程设计，作业批改以及一些列教学辅助小工具。帮我完成UI设计、交互设计、技术方案设计。不要输出任何前端代码。我只需要产品方案和交互效果。UI 采用毛玻璃效果，交互采用简约直观。你要输出所有交互情况下的所有页面设计，涵盖容错处理。存储使用Coze 应用中提供的数据库功能。你要帮我把对应的数据表设计出来，并符合Coze 开发平台的导入规范，以便于我快速导入到 Coze 应用中，快速完成数据库的初始化。要尽可能的减少老师的输入，能够拍照识别输入的情况绝对不能让老师填写表单，比如学生信息录入，课堂听写题目及答案的录入，教学教案模板录入，以及 PPT 与教案的互转，教案转板书（板书模板），公开课转教案。最后这个公开课转教案是老师输入一个公开课链接，通过工作流将公开课视频转为逐字稿，然后按照教案模板转为标准教案。巴拉巴拉一大堆，丢给豆包，豆包都可以帮你从人话变成需求稿草案。

我就不全截图了，就听话这方面，豆包算是好的（虽然网上一大堆调侃豆包不怎么听话的）

OK，我们将上述开发需求说明丢给四位选手，看他们的表现

干活都蛮起劲儿的。

不对，有个罢工的了，Coze空间！竟然自己停下了！我们不管他，直接给他 pass 掉吧，看下其他 3 位选手的结果。

首先 OK Computer 将我的任务分成了 8 个子任务，并将每一个子任务的结果输出到文档里面。

再来看豆包超能模式，先不说结果怎么样，就写报告这一反面，豆包就很字节，各种数据，有理有据（八成是编的！）

再看 Trae SOLO模式，不亏是字节系产品，一样的风格。

所以从完成度角度，豆包空间失败，其他三位选手胜出。我们再看核心诉求的意图识别准确度。

再说一下，我们是要基于 Coze 平台去搭建一个 Coze App，这其实是一个 ”小众“ 需求，远比你给我写一个贪吃蛇游戏难得多。我们的诉求也不是 Agentics 熟悉的输出一个h5页面，而是输出可操作文档。我们逐个来看下。首先是 OK Computer。

我们来逐个看一下，首先看下交互设计方案

不得不说，在产品方案规划方面，OK Computer 确实惊艳到我了，像我这种干了十几年的程序员，看了这份产品设计稿子，感觉他 ”有点东西“，这就很厉害了。像这种设计稿我自己写，估计也要一个小时左右。在一些细节处理上，他想的还比我细。

我们再来看下豆包的超能模式怎么样。

hey, bro 你在干嘛？？你为什么要去写代码？这是让我最失望的一点啊。我不是让你只出方案嘛，你怎么还写上代码了，你写了代码，我能直接用到 Coze 开发平台上去吗？你… 你这有点丢人了啊。

what is worse

这货生成了一个 ”官网“ 给我，且，官网上的功能都还不能点击，样子货！

虽然很痛心，但我不得不宣布：豆包超能模式在意图识别准确度（核心需求满足度）这一局 out 了。

容许我强行挽尊，豆包的这个异步通知机制对于OK Computer这种长任务很重要。你不可能让用户在屏幕前等着你。

最后来看下豆包的开发兄弟 Trae 的表现，单从生成文件的角度，他的完成度和意图识别准确度（核心需求满足度）跟 Kimi 就很像了。

我们来看下他具体的内容。

他不光给了方案设计，还给了更多的产品软内容设计，这要点个赞的。不过系统架构这边就有点瞎编了。

我们肯定没有除了 Coze 平台层以下的任何东西，所有的功能都是基于 Coze 来开发的，所以这个要扣分的，不过也不至于直接淘汰。

然后我们来看下时长和 Token 消耗情况，主要对应的是成本问题

OK Computer 用了？看不到用量。用了一次 OK 吧，不知道未来会员咋定价。

Trae SOLO 用了？也看不到。不过 SOLO 现在也还在内测阶段，需要购买会员才行，年会员 600 多（肉疼ing）

说回正事儿。我决定选 OK Computer 作为本次评测的胜出，理由有很多，最重要的是，我这是软文啊，我得继续用万字评测 | 多款 Agentics VS OK Computer， OK 不 OK 呢？

来吧，打开 Coze，新建一个应用，这里要注意一下哈，千万不要点左侧那个 ”AI生成“，他是第一局就被淘汰的豆包空间的另一幅皮囊。本来这是另外一个海选选手，但豆包空间的马甲太多了，这么多角色参赛，背后都是同一个人，就没啥意义了，你说是吧。

选择 ”+低代码开发模式“ （这里为啥要有个 + 号？？我是碎嘴子强迫症，原谅我吧）

然后把你的屏幕左边放着 Coze，右边放着你从 Kimi 上 Download 下来的文件（未来 OK Computer 上线以后，用 Desktop 版本应该会更舒服）

当然，如果你有双屏或者大屏，就不用这么委屈了。OK，我们来创建一下我们的这个助教 2.0。

首先把数据库搞上去。

这是一个比较重要的软件设计思路，我们围绕数据来设计功能。当然，你也可以围绕功能来设计数据，但那对研发同学的数据抽象能力要求很高，何况现在我们是小白呢，乖，听劝哈。

我们要做这个助教功能，首先得有个学生表。

… 打住，历史的教训在我耳边回荡，

一篇公众号文章只能说一件事儿！

一篇公众号文章只能说一件事儿！！

一篇公众号文章只能说一件事儿！！！

不过，哥，你标题写着”万字评测”呢，我网名叫万字，有什么问题嘛？

颁奖环节

哦了，咱们进入颁奖环节，本次横向评测，Agentics 产品方案设计，OK Computer 在任务完成度，是否可以正确完成要求，意图识别准确度，核心需求满足度，成本可控：任务执行时长/Token 消耗量等多个维度，均通过了我们的不严谨评测，成为了本场最佳。

来，当当当~

为了迎合 OK Computer 的获奖，我们搞了个像素风（from 豆包）

当然，你都看到这里了，铁定是真爱粉了，咱说几句掏心窝子的话。

Kimi 呢，去年挺火，超长上下文，PPT 做的漂亮也曾出圈过。不过，若不是我小师妹来找，我甚至都不记得上一次使用 Kimi 是什么时候了（给我们家老大在幼儿园诗朗诵做 PPT），倒不是说 Kimi 的产品力不行，而是 AI App 这个赛道太残酷了，用日新月异来形容都不为过。

作为 AI App的团队，加上大模型，如果你不想被淘汰，建议你们卷起来，跟用户做更多的互动。据我所知，豆包基本每周都在发版本，热更新。这种产品一旦用起来，迁移成本还是很高的。

作为普通用户，我们应该怎么搞呢？有段时间特别搞笑，做 PPT 用 Kimi，写文案用 GPT，剪片子用剪映，出字幕用balabala，新人来工作，啥业务没学呢，搞了一堆 App 装手机上。这场景，老网民可太熟了，春晚红包、百团大战、滴滴打车、共享单车…，加上最近的外卖，您就且乐呵的用着，很快就能厮杀出来一个，很快。