实测Claude4.5+Gemini3版Cowork，这就是多模态Agent的正确玩法

我最担心的事情还是发生了。

试玩AI已经跟不上开发AI的速度了，最近一个月我是Claude Code Skills，Claude Cowork，Clawdbot还没玩够又到下一个，我刚熟悉用Skills把文章发到X上，下周clawdbot就把这事包了。为了省token，我的主力还是Claude code和Cowork，Cowork拿来处理本地文件就是无敌的，这两天我拿到了天工Skywork桌面版的内测，它在Cowork的基础上做出了点不一样。

实测Claude4.5+Gemini3版Cowork，这就是多模态Agent的正确玩法

🔗 skywork.ai/desktop上线就全量首先它原生支持Wins，因为我用Mac当主力机已经有五六年了，Wins的快捷键早就忘了，所以它天然就可以帮我完成文件整理的工作，比方说我直接告诉它，

这是一个包含许多来自不同地方的旅游景点图片的文件夹。将它们整理到不同类型的子文件夹中，每个文件夹的名称代表图片所在国家或地区。如果图片无法分类，请将它们放入名为“未分类”的文件夹中。

这个任务的难度因为是相机拍的图片，文件名一点用都没有，需要模型理解每张图片的内容。埃菲尔铁塔，富士山，金字塔，它能通过图像识别，准确判断出这些照片的地理归属，然后自动执行创建文件夹和移动文件的操作。我跳过了上传下载新建文件夹，直接拿到的就是一个结构清晰系统。Skywork Cowork接入了多模态版本之子Gemini 3.0 Pro，我就用这个模型来把长视频转图文笔记。而且Banana2也封装成了Skills，整理文件夹里的零散笔记的时候顺手就把信息图做了，

我盘了一下，光是文档处理就有pptx/docx/pdf/xlsx四件套，联网搜索也带上了Reddit/ArXiv(论文)/X/Youtube的，70个Skills相当够用。许愿后续版本可以自己开发Skills或者录入Github项目当Skills。所以这一次，我跟我的肝一拍即可，决定用Skywork Cowork解决这两周Claude Code Skills，Claude Cowork，Clawdbot的高光案例。Here we go！能自动整理文件还不是Cowork的极限，我直接让它二次利用整理好的图片文件，

做一个PPT，这里每个子文件夹包含不同旅游景点的图片。选择所有景点并为每个景点创建一个单独的幻灯片，介绍其名称和基本信息。

然后它就kukuku开始干活了，

做成版PPT最耗时的部分，就是寻找素材，排版，填写文字。有些素材我还不能用AI生成的。所以这时候Cowork可以通过Skills自动调用PPT，批量插入图片，通过图片信息，联网搜索相关的基础介绍，自动填充到幻灯片里。

于是我设计了第三个，也是最复杂的一个案例，视频下载+视频多模态分析+自动截图+文档生成我自己看到都有点头皮发麻，

🎹

【如何快速自学一个新领域？】（这里贴的是B站链接）用 Yt-Dlp Downloader 下载并整理 B站合集到本地指定文件夹，然后用Gemini 3.0 Pro对每个视频逐段理解并和字幕逐行对齐，凡是字幕未覆盖的关键信息就按时间戳截图命名为视频名_时间戳_主题.png 并写入要点说明，最后用 Summarize 产出 1页总览+章节目录+每章知识卡片+截图索引表，并用 docx 生成一份可直接分享的 Word 文档保存

这个case我本来是拿来测上限，我真没想到能给我做出来。这个场景的痛点，是因为我每天有看不完的文章，刷不完的视频。如何在一个全新的领域里快速入门？比如我最近想了解某个知识，在B站上找到了一个非常好的系列视频。传统的方式是，打开视频，准备好笔记本，一边看一边暂停，手动记录要点。一个小时的视频，可能要花两三个小时才能完成笔记。这个过程非常反人性，特别是那种对着黑板讲的视频，一个分神ppt就切走了，我就算用其他AI把字幕下载下来总结，就会丢掉一部分ppt的信息。

Cowork把所有的脏活累活都干了，我只需要去吸收最精华的知识本身，而且我是接受AI带来的信息损耗的，因为仔细想想就是我去听一张图一张图做笔记，偶尔也要翻看原视频。

后面两个case是上一次我测试Cowork的时候，发生评论区很多人提到的，Excel类数据处理。几百几百条不够挑战性，我直接上一千，

⚽

用xlsx生成1000条模拟员工数据与工资明细并计算税前税后与汇总统计，再用Invoice Generator生成每人一页工资条文件，随后用Outlook按 [收件人邮箱清单Excel路径] 批量发送并在邮件中写入个性化字段与注意事项，最后输出一份发送日志与统计报表到xlsx

这个流程极易出错，要是放在公司里没有系统辅助，我纯人工一天做50条估计就要休息下班了。但对于Cowork来说，这是一个纯粹的逻辑执行任务，中间的一些列还直接按工种的不同，生成不同的内容。

昨天公众号发了25年年度创作回顾，我一年活跃了364天，写也写了254篇内容了，所以我就想把更详细的数据导出来让Cowrok分析一下，做个北极星指标出来。

用 xlsx 读取公众号数据]并自动识别字段含义与口径，按天周月生成核心漏斗与北极星指标表，输出包含指标定义计算公式异常值提示结论建议的分析报告到 docx，同时生成一份新 xlsx 含透视表与趋势图

PS，这里是模拟数据用了一段时间后，这就成了很符合直觉的操作，我电脑还装着ppt/word/excel这些软件就是给AI用的，我不需要去记在哪里选中什么数据能做什么样的折线图。

要是Claude Code Skills，Claude Cowork，Clawdbot三个形态融合之后的Agent会什么样呢？我是希望就直接连主动提问都不需要了，全天候录屏➕语音输入，把tokens价格打到地心，提示语也没有复杂结构了，纯语音。Agent会成为我所看所想的延伸，所以，我一直鼓励身边的所有人，遇到问题，不管有多复杂，先试着用AI解决。这样你会发现很多意想不到的好用法，比起去看十大用法和精选案例，。自己去探索，碰壁，反而能找到最适合你自己的工作心流。不需要给AI设限，也不用怕它运行失败，对于一个可以无限次执行的Agent来说，重复就是我们最大的底气。

@ 作者 / 卡尔