
Qwen3-TTS这次发布,不知道Elevenlabs难不难受,当开源效果跟闭源差不多的时候,大家还会去选择那天价服务吗?
数据我就不在这无脑吹了,官方宣告全方面位居SOTA,放个图大家看看知道很牛就行了,咱们主要还是得直观的感受效果。


核心功能
- 全能生成:全面支持音色克隆、音色创造、超高质量拟人化语音生成。
- 自然语言控制:支持通过自然语言描述来控制语音的语气、情感和节奏。
- 智能理解:具备强大的上下文理解能力,能根据文本语义自适应调整表达,且对文本噪声有很强的鲁棒性。
- 多尺寸开源: 提供1.7B和0.6B两个系列,全系列开源。
- 多语言覆盖: 支持10种主流语言中、英、日、韩、德、法、俄、葡、西、意及多种方言。

音色创造
- 指令控制:采用高亢的男性嗓音,语调随兴奋情绪不断上扬,以快速而充满活力的节奏传达信息。音量要足够响亮,近乎喊叫,以体现紧迫感。发音务必清晰精准、字字分明,让每个词都铿锵有力。整体表达需流畅自然、明亮生动,富有戏剧性,展现出外向、自信且张扬的个性,同时传递出一种威严而宏大的宣告语气,洋溢着满溢的激动之情。
- 合成文本:好了各位,往后退,往后退!我有个天大的好消息要宣布:Qwen-TTS正式开源啦!
年龄控制
- 指令控制:体现撒娇稚嫩的萝莉女声,音调偏高且起伏明显,营造出黏人、做作又刻意卖萌的听觉效果。
- 合成文本:哥哥,你回来啦,人家等了你好久好久了,要抱抱!
渐变控制
- 指令控制:

- 合成文本:你在干什么?有什么好看的?喂!我叫你走,你在干什么?给我走啊!
音色复用
这做个配音,太绝了!!

音色克隆
原音频
克隆音频
- 合成文本:祝您在马年里事业一马当先,业绩万马奔腾,在新的一年里快马加鞭,再创辉煌!
其实很多方向的AI模型都是有物理极限的,提升到一定程度可能就到瓶颈了,我也很坚信,未来更多开源模型能追齐闭源。
技术特点

- 还原度高:自研编码器能把声音压缩得很小,但完整保留语气、呼吸和环境音,还原出原汁原味的高保真语音。
- 架构统一:采用通用的端到端架构,不用拼凑多个模型,避免了传统方案的累积误差,生成效率和质量上限都更高。
- 实时对话:独创的双轨架构,输入第一个字就能立刻出声,延迟低至97ms,完全满足实时交互需求。
- 听得懂指令:支持用大白话控制语气和情感,模型也能自己读懂文字含义,自动调整节奏,做到所想即所听。
开源链接:https://github.com/QwenLM/Qwen3-TTS官方链接:https://qwen.ai/blog?id=qwen3tts-0115试用链接:https://huggingface.co/spaces/Qwen/Qwen3-TTS

© 版权声明
文章版权归作者所有,未经允许请勿转载。
