万字评测 | 多款 Agentics VS OK Computer, OK 不 OK 呢?

博思AIPPT
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
缘起
小学妹给了个 Kimi OK Computer 内测机会,正好我最近也在看这个方向的,想着帮大家尝尝鲜,顺道给学妹参与的这个产品一些反馈和展示。
不过,在此之前,我们先讨论一个重要问题,一个大模型应用产品,我说好就好了?我用的爽,大家就都用的爽了?有没有一种量化方式,给 大模型应用打分呢?【专业讨论】有没有一种量化方式,给大模型应用打分呢?来说说我的看法正经的写了一篇理论讨论文章,结果大家不怎么买账的样子,哈哈。没关系,直接抛出来结论
  • 任务完成度,是否可以正确完成要求
  • 意图识别准确度,核心需求满足度
  • 成本可控:任务执行时长/Token 消耗量
  • 其他相对主观的评价
当然,本篇不是单纯的水软文,是想通过横评。来跟大家展示一下,如果我是个非程序员,如何基于Coze 的开发平台来设计实现自己的 Coze App 想法。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
测试目标
我不是有个作业嘛,要升级一下之前挖下的坑,制作一款好用的可以真正帮助到一线老师的 AI 工具(集),最好是免费且数据相对安全可控。
我们这次评测的主角有以下几位
  • Kimi OK Computer 内测版
  • Coze 空间
  • 豆包超能模式(跟 2 楼是亲戚)
  • Trae SOLO(Kimi-K2-0905)
因为我们要基于 Coze 的在线平台开发,所以预期这些聪明的 Agentic 能够给我输出一份完整的UI 设计方案,产品(交互)设计方案,以及最重要的基于 Coze 开发平台的技术方案。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
开始整活
首先,我得找个聪明人帮我,把我朴素的描述转成专业的需求描述。你懂的,我肯定找 豆包,

我要开发一款基于 Coze 应用中低代码搭建的应用。这个应用的作用是帮助老师完成课程设计,作业批改以及一些列教学辅助小工具。帮我完成UI设计、交互设计、技术方案设计。不要输出任何前端代码。我只需要产品方案和交互效果。UI 采用毛玻璃效果,交互采用简约直观。你要输出所有交互情况下的所有页面设计,涵盖容错处理。存储使用Coze 应用中提供的数据库功能。你要帮我把对应的数据表设计出来,并符合Coze 开发平台的导入规范,以便于我快速导入到 Coze 应用中,快速完成数据库的初始化。要尽可能的减少老师的输入,能够拍照识别输入的情况绝对不能让老师填写表单,比如学生信息录入,课堂听写题目及答案的录入,教学教案模板录入,以及 PPT 与教案的互转,教案转板书(板书模板),公开课转教案。最后这个公开课转教案是老师输入一个公开课链接,通过工作流将公开课视频转为逐字稿,然后按照教案模板转为标准教案。巴拉巴拉一大堆,丢给豆包,豆包都可以帮你从人话变成需求稿草案。

万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
我就不全截图了,就听话这方面,豆包算是好的(虽然网上一大堆调侃豆包不怎么听话的)
OK,我们将上述开发需求说明丢给四位选手,看他们的表现
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
干活都蛮起劲儿的。
不对,有个罢工的了,Coze空间!竟然自己停下了!我们不管他,直接给他 pass 掉吧,看下其他 3 位选手的结果。
首先 OK Computer 将我的任务分成了 8 个子任务,并将每一个子任务的结果输出到文档里面。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
再来看豆包超能模式,先不说结果怎么样,就写报告这一反面,豆包就很字节,各种数据,有理有据(八成是编的!)
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
再看 Trae SOLO模式,不亏是字节系产品,一样的风格。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
所以从完成度角度,豆包空间 失败,其他三位选手胜出。我们再看核心诉求的意图识别准确度。
再说一下,我们是要基于 Coze 平台去搭建一个 Coze App,这其实是一个 ”小众“ 需求,远比你给我写一个贪吃蛇游戏难得多。我们的诉求也不是 Agentics 熟悉的输出一个h5页面,而是输出可操作文档。我们逐个来看下。首先是 OK Computer。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
我们来逐个看一下,首先看下交互设计方案
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
不得不说,在产品方案规划方面,OK Computer 确实惊艳到我了,像我这种干了十几年的程序员,看了这份产品设计稿子,感觉他 ”有点东西“,这就很厉害了。像这种设计稿我自己写,估计也要一个小时左右。在一些细节处理上,他想的还比我细。
我们再来看下豆包的超能模式怎么样。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
hey, bro 你在干嘛?? 你为什么要去写代码?这是让我最失望的一点啊。我不是让你只出方案嘛,你怎么还写上代码了,你写了代码,我能直接用到 Coze 开发平台上去吗?你… 你这有点丢人了啊。
what is worse
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
这货生成了一个 ”官网“ 给我,且,官网上的功能都还不能点击,样子货!
虽然很痛心,但我不得不宣布:豆包超能模式在 意图识别准确度(核心需求满足度)这一局 out 了。
容许我强行挽尊,豆包的这个异步通知机制对于OK Computer这种长任务很重要。你不可能让用户在屏幕前等着你。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
最后来看下豆包的开发兄弟 Trae 的表现,单从生成文件的角度,他的完成度和意图识别准确度(核心需求满足度)跟 Kimi 就很像了。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
我们来看下他具体的内容。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
他不光给了方案设计,还给了更多的产品软内容设计,这要点个赞的。不过系统架构这边就有点瞎编了。
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
我们肯定没有除了 Coze 平台层以下的任何东西,所有的功能都是基于 Coze 来开发的,所以这个要扣分的,不过也不至于直接淘汰。
然后我们来看下时长和 Token 消耗情况,主要对应的是成本问题
OK Computer 用了?看不到用量。用了一次 OK 吧,不知道未来会员咋定价。
Trae SOLO 用了?也看不到。不过 SOLO 现在也还在内测阶段,需要购买会员才行,年会员 600 多(肉疼ing)
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
说回正事儿。我决定选 OK Computer 作为本次评测的胜出,理由有很多,最重要的是,我这是软文啊,我得继续用万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
来吧,打开 Coze,新建一个应用,这里要注意一下哈,千万不要点左侧那个 ”AI生成“,他是第一局就被淘汰的豆包空间的另一幅皮囊。本来这是另外一个海选选手,但豆包空间的马甲太多了,这么多角色参赛,背后都是同一个人,就没啥意义了,你说是吧。
选择 ”+低代码开发模式“ (这里为啥要有个 + 号??我是碎嘴子强迫症,原谅我吧)
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
然后把你的屏幕左边放着 Coze,右边放着你从 Kimi 上 Download 下来的文件(未来 OK Computer 上线以后,用 Desktop 版本应该会更舒服)
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
当然,如果你有双屏或者大屏,就不用这么委屈了。OK,我们来创建一下我们的这个 助教 2.0。
首先把数据库搞上去。
这是一个比较重要的软件设计思路,我们围绕数据来设计功能。当然,你也可以围绕功能来设计数据,但那对研发同学的数据抽象能力要求很高,何况现在我们是小白呢,乖,听劝哈。
我们要做这个助教功能,首先得有个学生表。
… 打住,历史的教训在我耳边回荡,
一篇公众号文章只能说一件事儿!
一篇公众号文章只能说一件事儿!!
一篇公众号文章只能说一件事儿!!!
不过,哥,你标题写着”万字评测”呢,我网名叫 万字 ,有什么问题嘛?
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
颁奖环节
哦了, 咱们进入颁奖环节,本次横向评测,Agentics 产品方案设计,OK Computer 在任务完成度,是否可以正确完成要求,意图识别准确度,核心需求满足度,成本可控:任务执行时长/Token 消耗量等多个维度,均通过了我们的不严谨评测,成为了本场最佳。
来,当当当~
万字评测 | 多款 Agentics  VS OK Computer, OK 不 OK 呢?
为了迎合 OK Computer 的获奖,我们搞了个像素风(from 豆包)
当然,你都看到这里了,铁定是真爱粉了,咱说几句掏心窝子的话。
Kimi 呢,去年挺火,超长上下文,PPT 做的漂亮也曾出圈过。不过,若不是我小师妹来找,我甚至都不记得上一次使用 Kimi 是什么时候了(给我们家老大在幼儿园诗朗诵做 PPT),倒不是说 Kimi 的产品力不行,而是 AI App 这个赛道太残酷了,用日新月异来形容都不为过。
作为 AI App的团队,加上大模型,如果你不想被淘汰,建议你们卷起来,跟用户做更多的互动。据我所知,豆包基本每周都在发版本,热更新。这种产品一旦用起来,迁移成本还是很高的。
作为普通用户,我们应该怎么搞呢?有段时间特别搞笑,做 PPT 用 Kimi,写文案用 GPT,剪片子用 剪映,出字幕用balabala,新人来工作,啥业务没学呢,搞了一堆 App 装手机上。这场景,老网民可太熟了,春晚红包、百团大战、滴滴打车、共享单车…,加上最近的外卖,您就且乐呵的用着,很快就能厮杀出来一个,很快。
© 版权声明

相关文章