开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

熊猫办公
最近三个月一直用HTML PPT线下演讲,

工作流极其重复枯燥,基本上都是用Codex一口气做个30页,然后就是一页一页磨,字多了不好看,字少了页面太空,没有配图的话还要用GPT Image2生成再额外接入。一句话总结,很多HTMLPPTSkill,根本就不是为演讲准备的。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

这不是这些Skill的锅,真的。我前后尝试过按章节搭配不同的颜色页面,然后也总结过几个常见的PPT的结构,比方说左右平分,上下平分,三列式上下左右4个方块的格式,基本上能在HTML PPT里面调的,我都试过了。就跟马铃薯炒土豆一样,同样的材料炒不出第二种味。问题不在模板数量。仔细复盘的话是上游Agent给每页信息分配不均的锅。上游怎么收集整理信息,怎么分配到每页,中间质量有没有过关(重复标题,字体重叠,为了好看加了很多根本没人看的小字),做好之后的演讲稿能不能分到每一页看,这些都没Skill管。于是就有了Humanize PPT v0.9版!我一口气全解决了,再次怀念Claude Fable5。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

🔗github. com/LearnPrompt/humanize-ppt从v0.7开始,我先给 Humanize PPT 划了一条边界。把渲染PPT页面外包给下游的Skill。Humanize PPT负责把大纲,逐页意图,视频和图片素材的坑位和演讲稿,整理成结构化的 JSON 与 Markdown,再交给下游 Skill 原生渲染。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

所以理论上是可以适配所有的HTML PPT Skill,当然为了严谨我跑通了两条完整的工作流。中文可以接guizang-ppt-skill,英文可以接frontend-slides和beautiful-html-templates。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

用AI做PPT最隐蔽的坑就是页数压不下来。一小时演讲的PPT,很多时候也就三十多页。每一页都得承载信息。要么推进一个判断,要么解释一个阻力,要么让观众突然意识到,哦,原来这个事还能这么想。所以我把资料整理和页面信息分配,做成了 Humanize PPT 的地基。AST,也就是 Audience、State、Transfer。A是观众的身份。谁在听?他们已经知道什么?他们凭什么要继续听下去?S是状态。观众看你的PPT之前是什么状态,看完之后应该变成什么状态。T是转移。每一页slide的任务不是展示信息,而是推着观众从一个状态走到下一个状态。Humanize PPT做的第一件事,就是在渲染之前,先帮你把素材按AST的逻辑重新编排。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

它会输出一份大纲,每一页都标注观众进入时的状态,这一页的意图,以及离开时应该带走的信息。我还真的拿同一主题的材料跑了一次前后对左边直接交给 guizangppt skill,按背景、痛点、方案来分。右边先经过Humanize 的AST编排,再交给同一套guizang视觉体系。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

从视觉上看,左边并不丑,甚至guizang的Swiss validator和静态演讲体检都能通过。但它还是更像一个整理得很漂亮的文件夹。到了右边,页面不再叫「背景」「痛点」「方案」,而是直接讲真实演讲不是概念展示,AST 先决定观众怎么变。渲染器没有换,变化是来自上游。大纲确定以后,Humanize PPT 不会马上让下游一口气写完整份 deck。它会先拿同一份内容,渲染四张真实页面,让你提前看看最终效果。不是看色板,也不是看几句抽象的风格描述。直接看下游 Skill 真正做出来的 HTML 页面。字体怎么排,信息密度怎么样,版式和动效是不是你想要的,一眼就能看出来。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

选定其中一个风格以后,Agent 才会沿着这套视觉体系,继续完成后面的二三十页。这样就不用等整份 PPT 全部做完,才发现方向从一开始就错了。图片和视频放置的方式也全改变了,以前Humanize出大纲,会写「这一页可能需要一张图」。到了 v0.9,不只是说「需要」了。素材放哪,文件叫什么,用什么 prompt 生成,全部写进大纲。baoyu-image-gen接GPT Image2配图,remotion-video-production做视频。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

当然,后面我发现先用 SVG 做一个流程图,然后把这个图改成 Remotion,会有更好的效果。所以我把这个工作流也融入到了 V0.9 里面了。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了
开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

我之前也试过另一条路,把别人的画风和版式强行搬进自己的框架,再拖三四十个模板进来。但最终结果,真的四不像,打破原有框架的约束后做出来的页面只能做到80%左右的效果。四不像甚至还不是最严重的问题。我还做出过一大堆根本讲不动的页面,信息密度不够,一句话就要跳四五页。我挑出来一些给大家看,开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了比方说第三页,上面就三个词加一张全屏背景图。好看是好看,那我讲什么?很多时候,在演讲的过程中,观众其实是会分神的。我认为,如果一页PPT在观众短暂分神再回神之后,就完全看不出有什么主体内容,那这页PPT其实就是失败的。第五页,一整屏文字挤在一起,我跟观众属于是面面相觑,一起沉默的状态,照着文字念那还不如直接打印出来一手一份。第八页,标题就写着「技术架构」,下面一个TODO占位符还没填完,图片素材和视频素材都没有。

渲染出PPT的下一步是质检和把演讲稿分配到每一页。Humanize PPT输出的deck支持演讲模式。按S键切换,演讲稿实时出现在独立窗口,带页码,带备注。不用对稿,不用背稿,你盯着观众,备注在另一个屏幕跟着翻。按 ESC 键打开全局索引,所有页面缩成一张总览。讲到哪里忘了,临时想跳页,不用一张张往回翻,找到对应页面,点一下就能直接切过去。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了
开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

在演讲的过程中,我还发现HTML PPT有常见的渲染问题,所以我们在演讲之前,还加了一个质检环节。比方说,这个PPT原本是由beautiful-html-templates纯渲染的,风格是Neo-Grid Bold。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

如果当它是一个html网页静态扫描先跑了一遍的话,全绿,0 fail,0 warn。结果截图逐页人工复核的时候,直接给我整不会了。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

左下角的页码,把正文最后一行吃掉了一半。观众实际看到的是「uires confirmation.」,但那句话原本应该是「What requires confirmation.」。这就是多少显得有点业余了。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

但加上Humanize PPT流程后,「What requires confirmation.」会完整展现且视觉体系一个像素没动。我还把做HTML PPT的出错大全都统计起来,通通能修。

开源一个为演讲而生的PPT Skill,再不用跟观众大眼瞪小眼了

很长一段时间,Humanize PPT都是走弯路,一个劲在死磕。怎么让AI做得更漂亮。现在我更想做的是,怎么让AI做出来的PPT,真的能被拿去演讲。漂亮当然重要,但在演讲里,决定一份PPT有没有用的,是你翻到下一页的时候,观众有没有跟着你一起往前走。这就是 Humanize PPT。一个为演讲而生的PPTSkill。把PPT从「看起来很高级」,往「能大讲特讲」推一点。那种页面明明很好看,但站上去不知道怎么讲的尴尬感。那种明明代码没错,但投影上就是少了半行字的无语感。那种一页一页截图,跟Agent说去看第几页第几行的疲惫感。我通通不要,这件事交给Skill就好啦。@ 作者 / 卡尔 & yc星辰


© 版权声明

相关文章