
另一类是用HTML做出来的,会有条理很多。文字样式能改,图标能改,排版也能修,还能插入 SVG,动效,视频背景和组件。但也有坑就是了。如果你用的模型比较不会说人话,GPT-5.4就很喜欢在 UI 里放上自己的思考过程。最后效果就是,远看很高级,近看页面上突然冒出来几段不明所以的英文小字。。。

这周我刚好参加了一个8小时的直播,深度用了下千问做PPT的功能。它目前和我们上面提到的两种都不太一样,简单来说,就是用模板系统保证PPT的稳定性,然后用Agent拆具体内容和切换风格。

直播的时候我本来以为大家测PPT生成最后都会问差不多的问题,能不能更好看,能不能导出,能不能二次修改。结果看下来完全不是,实际上大家做PPT时关注的点还挺不同的,比如老师,做 PPT可能就会关心知识点有没有罗列清楚,做时尚行业的,就比较会关心视觉风格有没有贴合当季,打黑客松的就会关心信息是不是成体系的,投资人能不能一眼看懂。当然,还有一些人是手里有一堆数据,但不知道怎么排版,想让AI全托管的。所以我这次跟千问一拍即合,除了视觉风格之外,按照任务的复杂程度,给它安排了终极测试。从风格化,到信息搜索,到方法论,到上传模板,到数据自排版,再到HTML风格约束。看看它到底能稳稳接住哪几种。第一组,风格化。我让它基于星露谷物语的视觉风格,做一份25页的年度运营报告。

这组考验的是它能不能get到星露谷的视觉风格元素,再融合到一份能够投入使用的 PPT 上。整个视觉效果其实和我们平时工作中真实做的 PPT 效果类似,能用动态图表展示相数据,也能用到Agent本身的优势做出数据分析。第二组,真实信息搜索和图片处理。我让它收集曼哈顿在售的20套顶级豪华公寓,做一份40页的销售画册。

这一组 PPT,整个画面做得更克制点。它没有过度地去复杂化,也没有添加很多不必要的元素,整个画面非常简洁明了。其实我反而觉得这样的PPT更适合我们平时的办公场景,去做演讲。这里我没有提供素材图片,公寓的素材图片和房源的信息,都是直接让千问自己去搜索整合了互联网上已有的信息。第三组,麦肯锡式商业结构。套娃的来了,我让千问App给千问App做一份15到20页的完整可编辑 PPT。

这组测的是叙事结构。AI做商业PPT的问题是看起来每一页都有内容,但整套看完你不知道它到底想说什么。在这份PPT实际上就可以看到,从目录开始就有一个完整的叙事逻辑,从B端到C端,从市场到商业模式,再到风险评估,每一步都做了相应的页面进行解释。第四组,路演PPT,

这种路演的PPT,基本上都是比较流程化、固定的内容分享逻辑。但我们在手搓的时候,也还是可能就会漏掉一些细节。所以我就直接把大家常在ppt里面提到的部分写到提示语里,让千问去安排每部分的内容长度和排版。第五组,模板复用。这里我先给了一个想要的模板,然后我让千问以瓦猫为主题给我做一个类似样式的PPT,
我给到的模板是这样的,

千问给到我的是这样的,

不能说一模一样,但设计以及用到的素材,确实是跟瓦猫相关,而且风格非常贴近。排版和内容设计也是按照我给出的模板来的,我觉得有个六七成了。第六组,纯数据让千问自由发挥。我给了它Tesla2025 年Q1的季度业务复盘数据,让它做管理层阅读的QBR。


拿AI做PPT的时候我最怕的就是乱改我的数据,加了很多废话。我这里截取了生成的PPT中关于数据的部分。可以看到它把整个表格拆分成了不同类型的数据,分到不同的PPT页里进行了数据分析,要是整体风格能往特斯拉的主题色接近就更好了。第七组,Apple Liquid Glass 风格。这组就是纯审美压力测试。
这种提示词,图像模型会很开心,因为它本来就擅长风格化。但PPT Agent要做的,就不是一张图好看那么简单,它要保证这35页看上去是一个整体。很明显,千问的脑容量还不错。

第八组,想做一个网页一样做PPT。这组其实已经不是传统的PPT生成方式了,我就在想啊,既然是用代码生成的话,那我为什么不可能把它当做一个真正的HTML网页去生成?这样一些动效组件,我就能够直接指定引用,都不需要去描述一些风格词。

这比我预设中的,能够完全按照我提供给它的动效文件跟代码框架还差了一点,这个可能就是后续代码生成PPT的一个优化方向,包括可以把视频模型生成的循环视频素材作为整个PPT的背景等等等等。总的来说,千问这次的PPT功能使在纯代码生成和纯套公式的模版化两者取了个中间值。它提前准备了很多套相对稳定的表达模版,还能秒切不同的预设主题。当然,代价也有。单页的布局和文字区域会相对固定,自由度会被压缩。但对大多数人来说,无限自由反而会带来无限翻车,重要的是用更少的折腾成本,把内容讲清楚。去年我们还在纠结,用DeepSeek做的PPT能不能下载。后来开始琢磨,做出来后能不能多次修改。再后来,NotebookLM这类图生PPT出来,我们发现图像模型可以承载更多的信息。绕了这么一大圈,其实图生和代码生成这两个流派,都在往同一个地方靠。就是怎么把我们脑子里想表达的东西,用一个好看又好懂的方式,摆到所有想听的人面前。
