ActionMesh: 将视频快速转换成一个带动画的高质量 3D 模型,以后做三维动画的人也要失业了吗?

AI 知识库1天前发布
867 0 0
熊猫办公

ActionMesh是 Meta(Facebook)Reality Labs 在 2026 年 1 月刚刚开源的一个非常炸裂的 3D 生成模型,全称ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion。简单来说,它能把一段普通视频(单目、真实或合成视频)快速转换成一个带动画的高质量 3D 网格(animated mesh),而且这个网格是:

  • 拓扑一致
    (topology fixed,整个动画过程中顶点数量和连接关系不变)
  • 无骨骼绑定
    (rig-free,不需要传统 rigging)
  • 可以直接导入
    Blender、Maya、Unity、Unreal 等 3D 软件使用
  • 生成速度极快
    :通常1–3分钟以内(比之前很多优化-based 方法快10倍以上)
体验地址:

https://huggingface.co/spaces/facebook/ActionMeshhttps://huggingface.co/facebook/ActionMesh

我体验的结果:

ActionMesh:  将视频快速转换成一个带动画的高质量 3D 模型,以后做三维动画的人也要失业了吗?

导入Blender中看一下原理:

ActionMesh:  将视频快速转换成一个带动画的高质量 3D 模型,以后做三维动画的人也要失业了吗?

看到它是通过shape keys的动画来完成模型顶点的动画,确实巧妙地省去绑定和动画步骤。看一下布线和UV展开也是很合理的:

ActionMesh:  将视频快速转换成一个带动画的高质量 3D 模型,以后做三维动画的人也要失业了吗?

对比绑定效果:

ActionMesh:  将视频快速转换成一个带动画的高质量 3D 模型,以后做三维动画的人也要失业了吗?

核心技术亮点(Temporal 3D Diffusion)它本质上是把现在的 3D Diffusion 模型(比如生成静态3D物体的那些)在时间维度上做了扩展,变成了时序3D扩散模型(temporal 3D diffusion)。主要分两步:

  1. 第一阶段:用带时间维度的扩散模型,同时生成一系列同步但独立的3D 形状 latent(每一帧一个形状)
  2. 第二阶段:用一个轻量 temporal 3D autoencoder,把这些独立形状转换成同一个参考网格的连续形变(deformation),从而得到动画

这种方式避免了传统方法常见的两大痛点:

  • 每帧独立重建 → 拓扑不一致、闪烁严重
  • 先做静态重建再加 motion → 运动和几何经常对不齐

支持的输入方式(不止视频)

  • 视频 → animated mesh
    (最强表现,主打功能)
  • 单张图片 + 文本描述动作
    → 先生成物体,再给它动起来
  • 纯文本
    → 从零生成一个角色 + 动画(text-to-4D)
  • 已有静态3D网格 + 动作文本
    → 给已有模型赋予动画

以后可能有哪些用途?

  • 游戏开发
    快速把真人表演、动作捕捉视频转成游戏可用资产,省掉建模+绑定+动画的大量手工活
  • 短视频/虚拟人/直播
    把真人跳舞、说唱、表演直接转成卡通/写实3D虚拟形象
  • 影视/广告预览
    快速把导演拍的参考视频转成3D粗模,用于分镜、灯光测试
  • AR/VR内容生产
    手机随便拍一段,就能得到能在头显里随意观看角度的3D动画物体/人物
  • 电商/元宇宙
    商品视频直接转3D可动模型,让用户在虚拟空间里多角度看、互动
  • 普通人拍个vlog就能自动生成3D版自己
  • AI导演:文本+参考视频 → 直接出一段可自由机位渲染的3D动画短片
  • 游戏/虚拟世界自动生成NPC和环境动画
  • 教育/医疗模拟:把手术视频、体育教学视频快速3D化,用于多视角教学
  • 数字遗产:把历史影像、老电影转成可交互3D内容

总之,ActionMesh 是今年(2026)开年最重磅的视频到可生产级4D资产的开源工作之一,把“视频随便转3D动画”这件事的门槛又狠狠降低了一大截。

© 版权声明

相关文章