Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。

熊猫办公
Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。
现在认真搞开源模型的团队不多了,Qwen团队的开源真是非常有力气,不间断。
Qwen3-TTS这次发布,不知道Elevenlabs难不难受,当开源效果跟闭源差不多的时候,大家还会去选择那天价服务吗?
数据我就不在这无脑吹了,官方宣告全方面位居SOTA,放个图大家看看知道很牛就行了,咱们主要还是得直观的感受效果。
Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。
Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。
项目简介
Qwen3-TTS是Qwen团队开发的一套全栈式、高性能语音生成模型系列。
核心功能
  • 全能生成:全面支持音色克隆、音色创造、超高质量拟人化语音生成。
  • 自然语言控制:支持通过自然语言描述来控制语音的语气、情感和节奏。
  • 智能理解:具备强大的上下文理解能力,能根据文本语义自适应调整表达,且对文本噪声有很强的鲁棒性。
模型规格与支持
  • 多尺寸开源: 提供1.7B和0.6B两个系列,全系列开源。
  • 多语言覆盖: 支持10种主流语言中、英、日、韩、德、法、俄、葡、西、意及多种方言。
Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。
DEMO
这才是关键,看到效果你就知道了,TTS已经被开源击穿了。
公众号里的音频DEMO可以放的数量有限,所以我就挑关键性的功能放了。
音色创造
声学属性控制

  • 指令控制:采用高亢的男性嗓音,语调随兴奋情绪不断上扬,以快速而充满活力的节奏传达信息。音量要足够响亮,近乎喊叫,以体现紧迫感。发音务必清晰精准、字字分明,让每个词都铿锵有力。整体表达需流畅自然、明亮生动,富有戏剧性,展现出外向、自信且张扬的个性,同时传递出一种威严而宏大的宣告语气,洋溢着满溢的激动之情。
  • 合成文本:好了各位,往后退,往后退!我有个天大的好消息要宣布:Qwen-TTS正式开源啦!

年龄控制

  • 指令控制:体现撒娇稚嫩的萝莉女声,音调偏高且起伏明显,营造出黏人、做作又刻意卖萌的听觉效果。
  • 合成文本:哥哥,你回来啦,人家等了你好久好久了,要抱抱!

渐变控制

  • 指令控制:
Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。
  • 合成文本:你在干什么?有什么好看的?喂!我叫你走,你在干什么?给我走啊!

音色复用

用户可以把Qwen3-TTS创建的音色进行持久存储和重复调用,生成生动自然的多轮次多角色长篇章对话。
这做个配音,太绝了!!
Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。

音色克隆

这里只展示中文的克隆能力,其他语言和跨语种的有兴趣可以自己去试试。
原音频

克隆音频

  • 合成文本:祝您在马年里事业一马当先,业绩万马奔腾,在新的一年里快马加鞭,再创辉煌!

其实很多方向的AI模型都是有物理极限的,提升到一定程度可能就到瓶颈了,我也很坚信,未来更多开源模型能追齐闭源。
技术特点

Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。

  • 还原度高:自研编码器能把声音压缩得很小,但完整保留语气、呼吸和环境音,还原出原汁原味的高保真语音。
  • 架构统一:采用通用的端到端架构,不用拼凑多个模型,避免了传统方案的累积误差,生成效率和质量上限都更高。
  • 实时对话:独创的双轨架构,输入第一个字就能立刻出声,延迟低至97ms,完全满足实时交互需求。
  • 听得懂指令:支持用大白话控制语气和情感,模型也能自己读懂文字含义,自动调整节奏,做到所想即所听。

项目链接

开源链接:https://github.com/QwenLM/Qwen3-TTS官方链接:https://qwen.ai/blog?id=qwen3tts-0115试用链接:https://huggingface.co/spaces/Qwen/Qwen3-TTS

扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
Qwen3-TTS全家桶开源,全方面实现SOTA,Elevenlabs被开源彻底摧毁。
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章