5月28日,腾讯混元发布并开源语音数字人模型 HunyuanVideo – Avatar,这是由腾讯混元团队与腾讯音乐天琴实验室合作研发,基于腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室 MuseV 技术,整合了先进的视觉处理能力和音频处理优势。
多景别支持:支持头肩、半身与全身景别,既能展现人物细腻的面部表情,也能呈现全身的肢体动作。
多风格与多物种支持:涵盖赛博朋克、2D 动漫、中国水墨画等多种艺术风格,还能驱动机器人、动物等多物种角色,创作者可上传卡通角色或虚拟形象,生成风格化的动态视频。
多人场景处理:在双人或多人互动场景中表现优异,能精准驱动多个角色,确保唇形、表情和动作与音频同步,互动自然。
强大的理解与生成能力:用户上传人物图像与音频后,模型能自动理解图片中人物所在环境、音频所蕴含的情感等,让图中人物自然地说话或唱歌,生成包含自然表情、唇形同步及全身动作的视频。
介绍再多,都没有实战来的直观,下面是一个使用 HunyuanVideo – Avatar 制作教学数字人视频的案例操作步骤,以制作一个历史课教学视频为例,大家先看看视频效果~
我这里是以 “赤壁之战”为例,先准备一段关于赤壁之战的详细讲解音频,音频内容可以包括战争的背景、过程、结果和影响等,注意音频时长目前要控制在 14 秒以内(如果是本地部署则无时长限制)。
例如:“赤壁之战发生于东汉末年,孙刘联军在长江赤壁一带大破曹军,奠定了三国鼎立的雏型。”
根据教学风格和场景,选择一张合适的人物图片。确保图片清晰,人物形象符合教学氛围,并且是正面、清晰的图像,以便模型更好地识别和处理。这里我选择的是影视剧里主人公的形象。
3.上传图像和音频到 HunyuanVideo – Avatar
登录腾讯混元官网(https://hunyuan.tencent.com/),进入“模型广场 – 混元生视频 – 数字人 – 语音驱动 – HunyuanVideo – Avatar”页面。按照提示上传准备好的人物图像和音频文件。
上传完成后,模型会自动处理并生成数字人视频。视频中数字人会根据音频内容进行讲解,同时伴有自然的表情、唇形同步以及相应的肢体动作。
可以使用剪映进行后期制作,以增强教学视频的效果。可以添加一些赤壁之战的战争背景图片等,可以使用豆包生成,先生成图片再生成视频。
使用剪映进行剪辑,先给人物形象画面进行抠图处理,将战争视频添加,加入字幕即可
目前腾讯混元语音数字人模型 HunyuanVideo – Avatar 在官网上的体验是免费的,支持上传不超过 14 秒的音频进行视频生成。感兴趣的老师可以尝试一下哦。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章