10 分钟掌握！用腾讯混元模型快速生成教学数字人视频

5月28日，腾讯混元发布并开源语音数字人模型 HunyuanVideo – Avatar，这是由腾讯混元团队与腾讯音乐天琴实验室合作研发，基于腾讯混元视频大模型（HunyuanVideo）及腾讯音乐天琴实验室 MuseV 技术，整合了先进的视觉处理能力和音频处理优势。

那么，这个模型具有哪些功能特点呢？

多景别支持：支持头肩、半身与全身景别，既能展现人物细腻的面部表情，也能呈现全身的肢体动作。

多风格与多物种支持：涵盖赛博朋克、2D 动漫、中国水墨画等多种艺术风格，还能驱动机器人、动物等多物种角色，创作者可上传卡通角色或虚拟形象，生成风格化的动态视频。

多人场景处理：在双人或多人互动场景中表现优异，能精准驱动多个角色，确保唇形、表情和动作与音频同步，互动自然。

强大的理解与生成能力：用户上传人物图像与音频后，模型能自动理解图片中人物所在环境、音频所蕴含的情感等，让图中人物自然地说话或唱歌，生成包含自然表情、唇形同步及全身动作的视频。

介绍再多，都没有实战来的直观，下面是一个使用 HunyuanVideo – Avatar 制作教学数字人视频的案例操作步骤，以制作一个历史课教学视频为例，大家先看看视频效果~

▼接下来讲实操过程

1.确定教学内容和音频

我这里是以 “赤壁之战”为例，先准备一段关于赤壁之战的详细讲解音频，音频内容可以包括战争的背景、过程、结果和影响等，注意音频时长目前要控制在 14 秒以内（如果是本地部署则无时长限制）。

例如：“赤壁之战发生于东汉末年，孙刘联军在长江赤壁一带大破曹军，奠定了三国鼎立的雏型。”

2.选择或制作人物图像

根据教学风格和场景，选择一张合适的人物图片。确保图片清晰，人物形象符合教学氛围，并且是正面、清晰的图像，以便模型更好地识别和处理。这里我选择的是影视剧里主人公的形象。

3.上传图像和音频到 HunyuanVideo – Avatar

登录腾讯混元官网（https://hunyuan.tencent.com/），进入“模型广场 – 混元生视频 – 数字人 – 语音驱动 – HunyuanVideo – Avatar”页面。按照提示上传准备好的人物图像和音频文件。

4.生成教学数字人视频

上传完成后，模型会自动处理并生成数字人视频。视频中数字人会根据音频内容进行讲解，同时伴有自然的表情、唇形同步以及相应的肢体动作。

5.后期编辑（可选）

可以使用剪映进行后期制作，以增强教学视频的效果。可以添加一些赤壁之战的战争背景图片等，可以使用豆包生成，先生成图片再生成视频。

使用剪映进行剪辑，先给人物形象画面进行抠图处理，将战争视频添加，加入字幕即可

目前腾讯混元语音数字人模型 HunyuanVideo – Avatar 在官网上的体验是免费的，支持上传不超过 14 秒的音频进行视频生成。感兴趣的老师可以尝试一下哦。

文章版权归作者所有，未经允许请勿转载。

5个月前

3,867946

4个月前

4,8297

5个月前

4,698870

5个月前

4,088360