Video Agent ProAI 漫剧工具的复盘。

那篇文章写了很长,差不多两万字,最后拿了 5000 多阅读,转发也过了 1000,平均每五个人看过就有一个人转发,可见其含金量,链接:2万字复盘:我们用 AI 编程做出商业级视频 Agent 平台说实话,那篇发出去之后,我最明显的感受不是这篇内容数据不错,而是很多人真的在追着问这个平台。有人问能不能内测,有人问能不能合作。也有人直接问,这东西到底什么时候正式开放。这件事其实挺说明问题的。大家现在对 AI 视频、AI 漫剧,已经不是看个热闹了。很多团队是真的想找一套能落地、能协作、能持续往前长的平台。不是一个只能演示两下的壳,不是一个把几个模型入口放在一起的导航页,而是一套真正能承接生产流程的东西。我们手里这个平台,恰好就是按这个方向做出来的。它叫Video Agent Pro(还在想有什么更适合的名字)。

但我也把现实情况先说清楚。这套平台我们前前后后做了大几个月,花了非常多精力,也烧了非常多的token,把整个骨架、工作流、交互、模型接入、Agent 能力、素材管理、权限体系都一点点磨出来了。可问题是,我们自己现在确实没有足够的时间和精力,去把它当成一个独立项目继续重运营。所以这篇文章,不是单纯来秀产品。是想认真说一句,如果你背后有团队、有业务、有场景,正在找一套真正能用于商业制作、而且面向未来设计的 AI 漫剧平台,欢迎私聊我们。能一起合作把它运营好更好,实在不行单独买断也能聊。因为这种东西,真正稀缺的,从来不是概念。真正稀缺的,是已经做出来、已经打磨过、团队实际生产使用过,而且已经有人追着想用的那一类产品。这个平台真正值钱的地方我先说我自己现在最明确的一个判断。AI 视频接下来会越来越卷模型,这几乎是一定的。但真正能把差距拉开的,慢慢已经不是谁先接了一个新模型,而是谁先把对话、工作流、画布、分镜、视频生成、素材管理、团队协作这些东西组织成了一个真正顺手的系统。Video Agent Pro对我们来说,最值钱的地方就在这。它不是给你堆一排按钮,然后让你自己去学一堆复杂参数。它是尽量把这件事变成一种更自然的体验。你只要会对话,就能开始用。这点我们当时做的时候想得特别明确。

很多 AI 视频产品,问题不是功能不够多,而是上手太拧巴。你打开之后,要先理解一堆页面结构、一堆模型差异、一堆参数逻辑,还没开始创作,人已经先累了。

所以我们最后把核心交互收得很克制。一个是画布。一个是对话框。你可以把它理解成,一边是内容和结构,一边是 Agent 和能力。

左边你看剧本、场景、分镜、素材、画面。右边你直接说人话,让系统帮你做事。这套平台最核心的地方,不是让你点一堆按钮再自己拼流程。而是你真的可以像带一个助理团队一样,直接跟它说:帮我从剧本拆成分镜。把角色和地点资产做出来。给这个角色做三视图。

用 Gemini 图片生成先跑一轮。把这个场景所有空缺镜头批量补齐。这几个分镜改成近景。这组镜头用 Sora 跑。或者直接用 Vidu 试一版。

它不是把对话当装饰。它真的是把对话当成了核心交互。我们项目里现在已经有三大视图,分别对应真实创作里的三个阶段。先是故事构思,也就是 Planning。再是图片生成,也就是 Canvas。最后是视频输出,也就是 Timeline。

这个设计不是为了显得复杂,而是因为真实创作就是这样一步一步往前走的。你先想故事,拆角色,拆场景,拆分镜。然后才是图。图稳了,再到视频。而且在 Canvas 和 Timeline 这两个阶段,我们不是只做了自动或者手动其中一种。我们做的是Agent + Pro双模式。这点其实很关键。

很多工具最后都会卡在一个地方,要么太自动,自动得你不知道它在干嘛。要么太手动,手动得像回到了传统软件。但真实生产根本不是二选一。新手需要的是开口就能跑。老手需要的是每一步都还能接回来细调。所以我们最后做成了双模式。Agent 模式下,你直接对话,系统自己调用工具、自己编排流程,适合批量操作和复杂任务,也方便和 openclaw、claude code、codex 等 agent 联动,直接用 agent 操作 agent。Pro 模式下,你又能把参考图、参数、历史结果、视频模式这些东西一项项握在手里,适合精修、复用和稳定交付。这件事说简单一点,就是:会聊天的人能马上上手。真正做内容的人,又不会觉得它太傻。我觉得这个平衡,其实是很多 AI 产品最难做的一层。再往下说,这个平台为什么会让之前那么多人感兴趣。因为它不是只接了一个模型。而是我们从一开始就知道,AI 视频这个行业变化太快了,如果平台跟单一模型深度绑死,后面一定会很难受。所以我们做的是一个模型无关的底层骨架。现在平台里已经接了不少能力,包括:Gemini、nanobanana、Sora、Vidu、即梦、火山SeeDream(Seedance 已经预留接口,直接参考项目中的 sora 逻辑扩展即可)。

这个顺序不是重点。重点是,它们不是孤零零摆在那里的。它们都被放进了同一个工作流里面。同一个项目里,你可以先让 Agent 帮你拆剧本、拆分镜,再用 Gemini 跑图,再接即梦的风格化能力做角色三视图和一些动漫向、插画向的素材,再用 Sora 或 Vidu 去做视频生成,后面素材、聊天记录、任务状态、结果预览、下载管理都还在一套系统里。

这个体验跟开十个网页来回切,完全不是一回事。对真正要做内容的人来说,这中间省掉的不是一点点操作。省掉的是整条链路里非常多的脑力切换。还有一点,我这次也想讲得更直白一点。我们这套平台里,Agent 功能已经做得非常深了。不是只能陪你聊两句,也不是只能写点提示词。项目里现在已经有 28 个 Agent 工具,很多还支持并行执行。

这意味着它不只是懂你在说什么,而是真的能帮你往前做很多结构化动作。它可以查项目上下文,可以搜场景,可以增删改场景、角色、地点、分镜,可以生成单个分镜图片,也可以批量生成场景和项目图片,可以给角色生成三视图,可以生成视频,也能按场景、按分镜范围做批量操作。所以它给人的感觉,不是一个聊天机器人接了几个按钮。更像是一个已经被做成工作台的 AI 视频 Agent 系统,而这些不仅仅是给人使用,也能给 agent 使用。再说说很多人最容易忽略,但我觉得特别值钱的地方。就是这套平台的门槛,其实被我们压得很低。很多看起来很强的工具,最后死在学习成本上。但Video Agent Pro从很早开始就把 5 分钟内完成第一个分镜视频生成,当成设计原则之一。你不需要一上来就理解所有模型。你也不需要一上来就学所有参数。你可以先从对话开始。先让系统把剧本、角色、场景、分镜这些结构搭起来。再一点点往下走。这也是为什么我觉得它不是一个偏极客的玩具。它其实很适合团队。一方面,会聊天的人就能开始用。另一方面,真正要进入交付的时候,它又不是混乱的。项目、场景、分镜、角色、地点、聊天记录、任务状态、素材下载、视频结果、历史记录,这些都是收在一起的。包括角色权限、白名单、积分预估、消耗确认、admin 管理端这些偏系统层的东西,我们也都已经做进去了。

这件事很不性感,但非常重要。因为一个产品如果只适合个人试着玩一玩,那它的上限其实很低。可如果它从一开始就把团队使用、权限管理、成本控制、任务状态、失败重试这些东西想进去了,那它就不是一个短命的小工具,而是有机会长成基础设施的。还有一个必须单独提一下的点,就是即梦。这块我们不是简单接了个接口就完了。我们在项目里专门把即梦这条线做成了很实用的能力,尤其是对漫剧、动漫、风格化项目非常友好。比如角色一致性这一层,我们专门做了三视图模式。用户可以直接用即梦去生成角色三视图,这一套特别适合动漫、插画、风格化项目。再往后接图片生成、图生视频的时候,整个角色设定会丝滑很多。

而且即梦这一块的体验,我们不是做成你去外面生,生完再传回来。我们是尽量把它揉进同一个工作台里。你在平台里选模型、配模式、等结果、选图、存图、继续往下生成。整个链路是连续的,可以直接消耗 seedance2.0 api 或者是即梦的积分。这真的算是黑科技了,不只是名字听起来玄乎。而是你真的会感觉,它把原来很乱的外部能力,变成了你工作台里的一部分。说到底,我们做这个平台时一直在追求一件事:让电脑真正接手更多生产动作,用来实际生产,而不是只是多给你几个模型按钮。所以平台里后来也长出了很多特别实用的能力。角色图生成、剧本创作、分镜创作、分镜脚本导入、批量生成图片、批量生成视频、素材统一下载和管理,这些基本都做起来了。

而且图片和视频并不是做完就放在外面。项目里的结果、聊天记录、任务状态、媒体资源,都是收在系统里的。前端临时资源会被透明转存,视频任务也有统一任务表和转存机制,批量任务还有轮询和重试,Pro 模式还有非常方便的图片拖拽或者复制粘贴和资产图片调用。

这些听上去偏工程,但真正的意义很简单:它不是只能在演示那一刻看起来厉害。它是真的考虑过长期使用的,也是我们团队很长一段时间真正用户 AI 漫剧制作生产的。还有太多太多的细节,像是提示词的输入与优化,自动分镜等等,由于文章篇幅原因我没办法说完,它真的就像我们的孩子一样,有多少个深夜,就为了死磕那一两个功能。甚至因为是网页端,还非常方便大家直接用手机操作,对话就完事了。

也正因为这样,我才会觉得这套东西现在拿出来,不应该被理解成我们不做了,所以甩掉。不是这个意思。更准确地说,是我们把一套已经做出来、已经被市场验证过、有人感兴趣、而且还很有未来空间的东西,放出来等真正合适的人来合作。因为这东西如果继续在对的人手里往前推进,后面的空间其实很大。尤其是现在新模型还在继续进化,Agent 也还在继续增强,这种对话式、工作流式、多模型、团队协作一体的平台,只会越来越值钱,而不是越来越不值钱。如果你本身就在做 AI 漫剧、AI 短剧、AI 视频内容团队、视频工作流平台,或者你背后就是一家想快速拿下一套可控底层系统的公司,其实你应该能很快看出来这套东西的价值,也别拿那些 GitHub 的开源 AI 漫剧玩具平台来对比,如果你想踩坑,可以去试试。它最贵的地方,不是某一个页面,也不是某一个模型接入。它最贵的地方,是我们几年AI 视频赛道的产品判断、架构设计、Agent 工具化、交互打磨、模型整合、任务系统、素材管理和团队使用逻辑,都已经在里面了。这种东西,不是你临时起意找几个人用 AI 编程一两周能拼出来的。就算界面能拼个七七八八,真正难的那一层骨架,也不是那么容易补上的。最后想说的话这是我们用 AI 时代的软件工程范式做出的系统,在之前这种商业级软件项目保守大几十万百万级别的研发费用都很正常。所以如果你问我,这次我们到底想找什么样的人来聊。我觉得不是来围观的人。也不是只想打听一下价格的人。我们更想找的是那种一看就知道这套平台能接到自己业务里,而且知道这种骨架意味着什么的团队。可以是合作,一起把这个平台做的更好,可以是花钱买断制,这些都能聊。最后我还是想用一句更直接的话收尾。这轮 AI 视频,很多人还在盯着模型追热点。但我们自己一路做下来之后,越来越确定,真正决定上限的,其实已经不是你能不能调到最新模型,而是你有没有一套让普通人会对话就能开始创作、让专业团队又能持续交付的系统。Video Agent Pro,就是我们认真做出来的一个答案。如果你真的懂这个方向,也真的需要这样一套平台,欢迎私聊。有些东西,光看功能列表,是看不出它值多少钱的。但真正做过的人,一眼就会懂。感谢你看到最后。如果你身边正好有在做 AI 视频、AI 漫剧、Agent 工作流、内容团队系统的人,也欢迎转给他看看。

