Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

AI 知识库6个月前发布开源AI

熊猫办公

Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

现在认真搞开源模型的团队不多了，Qwen团队的开源真是非常有力气，不间断。
Qwen3-TTS这次发布，不知道Elevenlabs难不难受，当开源效果跟闭源差不多的时候，大家还会去选择那天价服务吗？
数据我就不在这无脑吹了，官方宣告全方面位居SOTA，放个图大家看看知道很牛就行了，咱们主要还是得直观的感受效果。

Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

项目简介

Qwen3-TTS是Qwen团队开发的一套全栈式、高性能语音生成模型系列。
核心功能

全能生成：全面支持音色克隆、音色创造、超高质量拟人化语音生成。
自然语言控制：支持通过自然语言描述来控制语音的语气、情感和节奏。
智能理解：具备强大的上下文理解能力，能根据文本语义自适应调整表达，且对文本噪声有很强的鲁棒性。

模型规格与支持

多尺寸开源：提供1.7B和0.6B两个系列，全系列开源。
多语言覆盖：支持10种主流语言中、英、日、韩、德、法、俄、葡、西、意及多种方言。

Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

DEMO

这才是关键，看到效果你就知道了，TTS已经被开源击穿了。

公众号里的音频DEMO可以放的数量有限，所以我就挑关键性的功能放了。
音色创造

声学属性控制

指令控制：采用高亢的男性嗓音，语调随兴奋情绪不断上扬，以快速而充满活力的节奏传达信息。音量要足够响亮，近乎喊叫，以体现紧迫感。发音务必清晰精准、字字分明，让每个词都铿锵有力。整体表达需流畅自然、明亮生动，富有戏剧性，展现出外向、自信且张扬的个性，同时传递出一种威严而宏大的宣告语气，洋溢着满溢的激动之情。
合成文本：好了各位，往后退，往后退！我有个天大的好消息要宣布：Qwen-TTS正式开源啦！

年龄控制

指令控制：体现撒娇稚嫩的萝莉女声，音调偏高且起伏明显，营造出黏人、做作又刻意卖萌的听觉效果。
合成文本：哥哥，你回来啦，人家等了你好久好久了，要抱抱！

渐变控制

指令控制：

Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

合成文本：你在干什么?有什么好看的?喂!我叫你走，你在干什么?给我走啊!

音色复用

用户可以把Qwen3-TTS创建的音色进行持久存储和重复调用，生成生动自然的多轮次多角色长篇章对话。
这做个配音，太绝了！！

Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

音色克隆

这里只展示中文的克隆能力，其他语言和跨语种的有兴趣可以自己去试试。
原音频

克隆音频

合成文本：祝您在马年里事业一马当先，业绩万马奔腾，在新的一年里快马加鞭，再创辉煌！

其实很多方向的AI模型都是有物理极限的，提升到一定程度可能就到瓶颈了，我也很坚信，未来更多开源模型能追齐闭源。
技术特点

Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

还原度高：自研编码器能把声音压缩得很小，但完整保留语气、呼吸和环境音，还原出原汁原味的高保真语音。
架构统一：采用通用的端到端架构，不用拼凑多个模型，避免了传统方案的累积误差，生成效率和质量上限都更高。
实时对话：独创的双轨架构，输入第一个字就能立刻出声，延迟低至97ms，完全满足实时交互需求。
听得懂指令：支持用大白话控制语气和情感，模型也能自己读懂文字含义，自动调整节奏，做到所想即所听。

项目链接

开源链接：https://github.com/QwenLM/Qwen3-TTS官方链接：https://qwen.ai/blog?id=qwen3tts-0115试用链接：https://huggingface.co/spaces/Qwen/Qwen3-TTS

扫码加入AI交流群获得更多技术支持和交流（请注明自己的职业）

Qwen3-TTS全家桶开源，全方面实现SOTA，Elevenlabs被开源彻底摧毁。

关注「开源AI项目落地」公众号与AI时代更靠近一点

AI 知识库行业教程 # 开源AI项目落地

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

【课堂与技术】国家中小学智慧平台制作交互课件（七）之插入生词卡

【课堂与技术】国家中小学智慧平台制作交互课件（七）之插入生词卡

AI 知识库教育教程 # 天一视觉传媒

1年前

5,2121K

我花499找人上门安装OpenClaw，看到了AI时代最魔幻的一幕。

我花499找人上门安装OpenClaw，看到了AI时代最魔幻的一幕。

AI 知识库行业教程 # 数字生命卡兹克

5个月前

4,793641

CosyVoice预训练音色功能怎么用预训练音色推理模式教程

CosyVoice预训练音色功能怎么用预训练音色推理模式教程

AI教程行业教程 # Cosyvoice # 功能 # 怎么

1年前

27,723772

ima知识号发布，手把手教你快速搭建AI知识库

ima知识号发布，手把手教你快速搭建AI知识库

AI 知识库行业教程 # AI办公学

1年前

10,700829

🤖