港大开源视频版RAG，像聊天一样看完百小时纪录片。

视频RAG搞的人很少，但是真的很有需求。
像是很多视频长的离谱，但是核心的信息却又不多，又或者你搞了很多视频，想基于这些视频去问一些问题，没有视频RAG可能就很浪费时间。
我们已经习惯了把几十万字的文档丢给模型去总结，所以AI这么强，视频肯定也是需要这么做的。
今天给大家推荐个港大开源的项目，Vimo。

它能分析、理解任意长度的视频，哪怕100小时的视频，它都可以读完，这样就能让你基于这个视频问一些问题了。
视频的AI互动，也算是更进一步。
项目简介

VideoRAG是香港大学 HKUDS 团队开源的超长视频理解框架。突破了传统模型对时长的限制，利用图驱动知识索引技术，支持用户通过自然语言对长达数百小时的视频进行精准检索和问答。
VideoRAG 可在单张RTX 3090显卡上运行，还有能直接下载使用桌面应用 Vimo，让理解长视频像查阅文档一样简单高效。
性能很猛，还是放个指标图吧。

DEMO

实现逻辑

第一步：切片和索引
视频上传后，并不会直接把整个视频丢给LLM，因为单纯靠一个模型的能力没办法分析这么长的视频。
1、切分与描述：
把长视频切成很多个小片段，比如每几秒一段，或按镜头切。
然后用视觉模型把每一段画面变成文字描述，比如一个穿红衣服的人在跑步。
同时用ASR提取音频字幕。
2、构建知识图谱
这是VideoRAG的核心。
普通的RAG只是把片段存起来，VideoRAG会进一步分析这些片段，提取实体（人、物体、地点）和关系。
它会画一张关系网，比如人物A -> 在第5分钟 -> 拿起了 -> 物体B。这样系统就有了全局的故事脉络，而不仅仅是碎片的画面。
第二步：混合检索
当你问一个问题，比如“那个红衣人最后去哪了”，就会按照下面这样运行。