实测 Fable 5 真实任务:我发现我根本用不起

熊猫办公
前段时间我给大家说我停掉了Claude 200刀的订阅,这次专门买了个100刀来测试 Claude Fable 5这个模型。

我让 Claude Fable 5 审查我们自己写的一个后端服务,主要是找 bug 和安全漏洞。

实测 Fable 5 真实任务:我发现我根本用不起
第一次跑的时候,它直接派了 Opus 4.8 子 agent 去看代码。我想测的是 Fable 5 本身能力,就手动停掉,让它自己审查。

结果第二次直接触发黄色安全警告,说对话命中安全检测,模型能力被降级到 Opus 4.8。

实测 Fable 5 真实任务:我发现我根本用不起
我又停了。

再一看额度,91% 没了。

实测 Fable 5 真实任务:我发现我根本用不起
前后只有3分钟,就清空弹夹了,你没听错,3分钟。

关键是,整个过程几乎什么都没干成:代码没审完,漏洞没分析出来,额度却只用了3分钟就耗干了。

更离谱的是,审查自己项目里的安全漏洞,本来就是很正常的代码漏洞和安全审查场景,但实际用起来很容易被误判成高风险内容,然后直接降级。

虽然 Anthropic 因为这个事情道歉,但还是感觉让人很不爽。
从成本来看,这个模型,对于大多数公司来说,还没办法落地。
我将会在他每次额度刷新后输入“继续”,看他能不能在订阅结束之前完成这个任务。

扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
实测 Fable 5 真实任务:我发现我根本用不起
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章