


官方对模型技术细节的介绍,简单可以概括为:以MoE-LLM 为底,VAE+ViT负责看图,LLM+Diffusion 负责生图,再用专门的注意力与二维位置编码把图文混合训练“管好”,于是模型既懂语义、又会画图。带来的直观效果是:复杂指令一次说清就能拆解执行;小字与长文的渲染更可控;美学质感提升明显;而漫画、教程图、表情包这类结构化内容也能更更加精准地呈现。


https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

语义与常识理解既然官方介绍到它拥有超强的语义理解能力和知识推理能力,那么我们就直接用最简单的提示词来测试一下。


可以看到,不论是嫦娥奔月的故事本身,还是月食的形成原理,它都有清晰的认知,且不需要你在提示词里增加过多的描述,汉字的渲染也基本没有太大的问题。
生成一张月饼口味对照信息图(广式、苏式、冰皮、流心)

可以看到它能准确理解不同月饼的特点和质地,生成的效果也非常直观。
生成一个深圳中秋赏月路线的手绘地图。

这个确实挺让我感到惊艳的,这几个地名都不是AI幻觉,并且方位也还算是准确。文字与版式接下来的四组测评,如果你想要“所见即所得”的精准度,则建议把提示词写成一句顺畅的话,但同时要自然地包含:
主体场景 + 画质风格 + 构图视角 + 光线氛围 + 技术参数。首先我们测试它的文字排版能力。根据官方提供的案例,我们把提示词稍微修改一下,让它针对“西羊石AI视频真牛逼”每个字进行不同材质的渲染。
创建一个高分辨率的文字3D渲染图,第一行文字是"西羊石",第二行文是"AI视频真牛逼",每个汉字使用不同的材质进行渲染,
材质可以是冰块、竹编、草、棉花、牛仔布、沙子、木头、皮革、粘土、大理石、羊毛、陶瓷、金属、火山熔岩、冰块、火焰、水泥、钻石等。
旁边一只毛茸茸的矮小皮卡丘形象正扶着文字,仿佛这些文字都是它拼的。将其放置在干净简约的浅灰色背景上。

这效果堪称一绝。它也很自然地知道将“羊”字采用羊毛材质,“石”字采用石头材质。生成的皮卡丘也活灵活现。再来测测活动海报和杂志封面的案例。
「中秋夜跑 · 城市赛」运动海报,月轮与城市线条形成对角张力,动态大标题压在上半区,
下方为报名信息、路线图与安全须知的小字模块;风格偏当代运动品牌主视觉,
干净、力量感十足;低位仰视构图突出速度;冷蓝夜色叠加霓虹轨迹;等效24mm,f/2.8,微动感模糊但保证文字清晰。

为「月相科学展」制作信息海报,深色星图底配细线月相序列,左栏为纵排中文标题,
右栏为展期、讲座时间与展区导览等多层小字,风格现代科普与高端展陈视觉结合;
正中轴对齐并在右侧留二维码与英文说明;冷蓝主调,局部银白高光强调层级;等效50mm,f/4,小字行距适中、对齐严谨、边缘抗锯齿优秀。

这是一幅极具视觉张力的杂志风海报,整体为「桂花茶·新季发布会」做极简邀请海报,
温白底上以淡金线稿描绘桂花与月轮,品牌字标与会议信息采用细腻衬线+无衬线搭配,整体高端留白;
正中轻上方构图,落款与时间置底对齐;柔和自然顶光,局部金色高光模拟烫金质感;等效45mm,f/4,文字与细线保持清洁锐利。

设计一张以「中秋·月光」为主题的时尚杂志封面,画面主体为一位气质高级的东方女性,身着银白丝质抹胸长裙,金色耳环随风微晃。
背景为极简的灰蓝渐变摄影棚布景,顶部一轮柔光“月影”虚化呈现,暗示节日意象。风格融合高级时尚摄影与极简东方审美,皮肤通透、妆面自然、轮廓清晰。
构图采用正面半身近景,人物微侧身,目光平视镜头,标题“MOON GLAMOUR”位于上方中央,副标题“Mid-Autumn Fashion Issue”以细字位于下方。
灯光以冷银主光加暖金补光形成肤色层次,整体氛围宁静、优雅又具现代感。参数设定为4:5竖幅,4K分辨率,等效85mm定焦,f/2.2,ISO 100,
浅景深,色彩分级偏冷白与米金,画面保持时尚大片的高光控与细节层次。

可以看到不论是活动海报还是杂志封面,排版都非常听话且高级,小字也不糊不化,元素之间也对齐得十分合理。混元 3.0相比传统生图,明显更能理解“信息层级”这件事。电商产品针对电商产品的展示,我们也进行了几组测试,看它是否具备电商产品级的美感:
制作一张桂花主题香水KV,透明方瓶内呈琥珀色液体、黑色瓶盖,深蓝渐变背景,黑色枝桠剪影与白色玉兰,柔和轮廓光。
看点在玻璃折射、高光与标签贴合,以及投影方向与质感统一。整体风格为高端静物摄影与电影级色彩分级,玻璃折射与金属高光纯净;采用中心构图与微仰角呈现瓶身立体感;
冷银月光打底叠加暖金内透光,轻雾营造夜露氛围;4:5竖幅,4K,等效70mm,f/5.6,高光控制得当、暗部细节可读。

整体氛围高级,非常听话地呈现了冷银月光+暖金内透,把琥珀色液体衬得很通透,中心构图稳且不空。
拍出一张高端月饼礼盒硬照,礼盒置于深青渐变背景与漆器底座上,旁置玉盘与点点桂花以形成层次,
纸张压纹与烫金纹理真实可感,LOGO与口味小字清晰贴合;采用45°三分构图、礼盒前移为主角、前景桂花浅虚化;
顶柔光加侧逆光勾勒盒角金色边线,反射控制干净无溢色;等效50mm,f/4,低ISO保留高光层次。

礼盒的纸张压纹与烫金起伏非常清晰,整体配色沉稳不俗。
一张“流心月饼切面”美食KV,黑色石板与金箔碎屑做背景,切开的流心在微微拉丝的瞬间,前景细糖粉轻落,
品牌与净含量小字贴标准确;风格为写实棚拍与高级美食光,材质区分清晰、不过度油亮;采用三分法与微俯视角,主体置中偏右;
暖金主光与冷蓝轮廓光对比形成层次;等效100mm微距,f/5.6,反射与高光不过曝。

这流心拉丝,加上这暖金主光对比冷蓝背景,食欲感直接拉满。风格多样性接着我们测试模型对不同风格的呈现情况。提示词按照如下格式来写,来生成不同风格的玉兔:主体+风格样式〔摄影写实 / 赛博 3D / 国风水墨 / 扁平矢量〕+构图视角 + 光线氛围 + 技术参数

为了更好地展现不同风格的效果,我们在描述主体的时候还是稍微调整了不同的提示词。整体来看,玉兔的造型在四种风格里保持得比较一致,风格切换也很清晰。人像及摄影官方介绍,混元图像 3.0是拥有极致的美学的,整体美学接近商业级模型。那么我们也从人像及摄影两个方面来实测。
这是一幅极具视觉张力的杂志风海报,整体笼罩在暗黑幽灵般的神秘氛围中,背景采用简约高级的纯红色,干净纯粹却不显张扬,为画面奠定了沉稳而富有张力的基调,
画面主体是古风汉服人物的超级近距离特写,以暗黑橘色柔光为主光源,勾勒出人物清晰而细腻的轮廓,人物露着肩膀,姿态慵懒又带着一丝魅惑,眼神妩媚勾人,
在整体暗光环境中尤为突出,同时,人物周身萦绕着暗黑低饱和的银辉光效果,如同月光般清冷朦胧,为这份妩媚增添了几分疏离的幽灵感,强化了暗黑风格的神秘气质,
让特写画面更具超强的视觉冲击力

用一个词来形容——张力满满!
一张中秋夜的高级人像,中国女青年立于灰蓝墙前,右肩落下一枝桂花,肌理细腻而不过度磨皮;
风格为时尚杂志与自然光结合,肤色真实、对比柔和;采用正面半身近景与三分构图,目光偏向画外月光方向;
冷银月光作主、微暖钨丝边光提轮廓;等效85mm,f/2,ISO 200,色彩分级偏电影冷青而保留肤色血色感。

肤色真实且层次细腻,毛孔保留度恰好,没有了以往模型那种假白的感觉,冷银主光配微暖边光很耐看。

这张图还挺有电影质感的,有点《绿皮书》那味儿了。
胶片摄影风格,带有动态模糊效果,一位美丽的中国女青年身着淡黄色长裙,在湖边快速奔跑,面带微笑,眼镜始终望着前方。
她的头发蓬松而飘逸,裙摆随风舞动,形成优美的弧线。背景场景模糊,几只白鸟在空中飞翔。
温暖的阳光洒在她的脸上,周围环绕着彩色的光晕,整体色调以温暖的黄色和深沉的蓝色为主。

摇拍模糊的感觉呈现得很好,把速度与轻盈感一下子立住,黄色长裙在暖阳里非常有质感。
海上升明月,天涯共此时

这里我就使用了简单的一句诗作为提示词,它给我反馈的画面令我十分满意。极简构图干净克制,有一种老人与海的感觉了。
一张高原山谷云海图,弯月悬于天幕,薄雾穿林,远山层叠;风格为通透风光,微HDR仅用于保高光;采用广角俯仰平衡的对角线构图;冷调夜色,微暖帐篷光点;等效16mm,f/4,ISO 400,曝光融合不过度。

对提示词的理解总体还挺到位,山体分层与云海体积感通透。动漫二创对于动漫爱好者来说,当然少不了测试一下二次元啦。尤其是一些经典IP,以往的很多模型其实并不认识许多IP形象,想要进行二创我们往往需要炼制对应的角色LoRA。那既然官方说明模型具有世界知识推理能力,我们也来看看是否能直出一些经典动漫IP。既然是二创,我就都以中秋、满月为主题,并且采用同一套提示词,使用两种不同风格,动画和真人写实风格来测试效果。提示词的写法,如果是广为人知的IP,可以直接引用角色名。其余的,可以在提示词中加入【作品名称】和【角色名称】。
皮卡丘蹲在鸟居横梁上与超大中秋满月对视,耳尖电花轻跳;低机位仰视三分构图,让角色与满月形成金字塔关系;冷白月光对比暖色灯笼点光;等效35mm,f/2。画质风格:明快的卡通调色与柔和线稿、赛璐珞分层阴影。

皮卡丘我倒是毫不意外,不论游戏还是动画,宝可梦都算是风靡全球的IP了。
《Fate/Zero》中的 Saber 立于月光下的断阶遗迹,披风沿强对角线被风掀起,长剑向下、目光俯视远处;低机位仰视强调王者体量;银蓝主光与微金剑芒点亮焦点;等效40mm,T2.0。画质风格:厚涂系手绘 + 冷色辉光的 Type-Moon 动画质感。

《海贼王 》中的路飞立于甲板艏端迎风而立,夸张透视把右拳推向镜前,背后满月与翻涌云海;低机位仰视,角色与满月形成稳定三角;冷白月光与暖金甲板对比;等效24mm,f/2.8。画质风格:高对比热血少年漫调色、干净卡通阴影与鲜明色块。

《进击的巨人》中的三笠·阿克曼在城墙顶部逆光起跳,立体机动装置拉出斜向线,远处月背剪影压住城廓;侧向跟拍的运动构图,冷蓝夜色配暖橙炬火点;等效35mm,T2.0,1/50s。画质风格:硬朗的分面阴影与粗粝笔触的热血动画质感。

测试一轮下来后,动漫风格基本没有太大问题,如果想要变成例如真人画风,由于提示词对角色IP的引用使得目前IP提示词的权重偏高,风格差别太大的,效果不一定很好,存在一定的抽卡率。像Saber、三笠都有一点CG感。若是想实现非常自然的画风转变,可能还需要等待模型后续开放的图生图和图片编辑等功能。

原生多模态的开源落地,正在把中文创作的门槛再往下推一格。从测评来看,混元图像3.0在细节处理上已相当出色,但这些“炫技”能否转化为实际的工业生产力,还有待其开源生态的检验。当技术趋于成熟,AI图像的下一个进化方向会是什么?工具在快进,我们的表达与审美,仍然是分水岭。我们会持续分享更多AIGC领域的资讯和实操技能。也欢迎大家一起交流心得!

推荐阅读