首次开放,讯飞超拟人交互API上线!

首次开放,讯飞超拟人交互API上线!

“快点!导航去最近医院!”,当你焦急地对车载助手说到。

 

“好的,正在为您规划路线……”,传统AI在几秒后,以平淡语气回应。一个真正AI应该迅速回应,以沉稳语气说到:“好的,已为您规划最快路线,预计12分钟到达。请小心驾驶!”

 

让AI感知用户情绪,从冰冷服务进化成为心意相通的助手,这并非存在于《Her》或《钢铁侠》等科幻电影。大模型加持的语音交互全新升级,能够轻松应对多轮对话,而且实现情绪响应和个性定制。

2024年8月,科大讯飞发布了星火极速超拟人交互技术,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现巨大突破,让语音交互速度变得更快,能够感知你话语里的喜怒哀乐并用合适的情绪回复,还可根据需要让超拟人的声音变换节奏、大小,甚至切换不同的角色声音和性格对话。

现在超拟人交互API正式上线讯飞开放平台,面向开发者开放调用。通过接入相应的API,开发者无需从零开始搭建复杂架构,即可实现用户与AI的实时语音互动,构建契合业务场景的AI实时对话能力,提供高效流畅的沟通体验。从游戏NPC、虚拟助手到智能客服与数字导游,语音交互的想象边界正在被重新定义。

01

秒级响应,双商在线的超拟人交互

作为人类与AI交流的最主要入口,语音交互已渗透至我们的日常工作生活中:叫音箱播放指定音乐、让扫地机器人定时工作、对车载系统喊一句“导航回家”。AI游戏陪玩、AI虚拟陪伴、AI口语陪练等,各种AI应用对语音交互的需求也呈爆发式增长。

然而,在实际使用中,传统语音交互仍存在明显痛点:

响应迟缓:动辄数秒的延迟,打断对话节奏,带来强烈的割裂感。

情绪单一: 机械化的语调,缺乏情感温度,难以建立真正的连接。

语境缺失: 难以理解言外之意,导致交互中断或理解错位。

大模型时代下,当我们从技术层面分析传统语音交互体验不佳的原因会发现,传统语音交互如同一个需要分布处理的流水线:语音输入后,先由“语音识别”车间转成文字,再交由“大模型”车间思考回复文本,最后由“语音合成”车间将文字朗读出来。这个串联过程不仅步骤繁琐,且每个环节都存在延迟,累加起来,3秒的响应时间已是常态。

首次开放,讯飞超拟人交互API上线!

同时,文本是其中传递信息的载体,在语音转文字再转语音的过程中,语音的很多情感、副语言信息甚至是环境信息都会丢失,导致语音交互系统只能针对语音的文本内容进行回应,会忽略我们在语音中本身真实的情感、语气等元素。

在许多关键场景中,延迟意味着无法用,甚至危险。如:导航指令若晚几秒反馈,用户可能已错过路口;与智能客服沟通时,频繁的“空白加载”足以让用户不耐烦地挂断电话。大模型的“聪明”,只有搭配“实时”的响应,才能成为真正有温度、有价值的交互智能。正如智能手机时代的流畅滑动是用户接受触屏的关键,「实时」是AI接口从“尝鲜”走向“常用”的门槛

星火极速超拟人交互则跨文本和音频模态,采用了统一神经网络直接实现语音到语音的端到端建模

1

语音通过音频编码器得到音频表征后,通过适配器与文本语义表征进行对齐;

2

对齐完成之后的内容输入多模LLM,预测输出表征;

3

经过音频解码器后,最终输出情绪自然、节奏准确的合成语音。

首次开放,讯飞超拟人交互API上线!

星火极速超拟人语音交互技术框架图

相比于传统的交互系统,统一的模型大大提升了整体的响应和打断速度,人与AI的交互也从你问我答的“微信语音模式”,切换到了实时响应的“微信通话模式”

但反应迅速只是第一步,没有情感的交互依旧是“冷冰冰”的机器。如何让语音交互更有温度?

在星火极速超拟人交互系统中,基于端到端框架之上,融入了多维度语音属性解耦表征训练,将内容、情感、语种、音色、韵律等属性进行解耦,进行对比学习和掩码预测。不仅实现了内容识别更准、情感等属性感知度更高,还可以更便捷进行定制,方便系统快速落地。

02

“快、准、真”,打造下一代AI语音应用

基于语音交互技术的突破,面向开发者开放的超拟人交互API具有三大核心优势:

首次开放,讯飞超拟人交互API上线!

同时,讯飞开放平台还为开发者提供了详细开发文档,方便开发者们快速上手并了解超拟人交互API 的各项功能特色、调用过程中的常见错误。

03

多场景快速落地,成本低至0.1元/分钟

超拟人交互API的上线,不仅为开发者提供了一种新的语音应用开发范式,降低了开发门槛,也让开发者能够更加聚焦应用创新和场景落地,以更天马行空的想象力,创造出更具“生命力”的AI应用。

首次开放,讯飞超拟人交互API上线!

文旅场景

结合故事演绎和RAG(检索增强生成),AI可以作为数字导游为游客介绍景点,在特定场景下与游客进行角色扮演互动,让游客“沉浸于”历史。

首次开放,讯飞超拟人交互API上线!
首次开放,讯飞超拟人交互API上线!

游戏场景

基于角色人设,模型与玩家互动时,可以自动生成符合该角色价值观、人生经历、语气的对话,让虚拟角色栩栩如生。

首次开放,讯飞超拟人交互API上线!
首次开放,讯飞超拟人交互API上线!

智能助手场景

可自由设定AI助理各种不同的人设,并以符合人设的背景、语气与用户互动,为每个用户打造独一无二的AI助理。

 

首次开放,讯飞超拟人交互API上线!
首次开放,讯飞超拟人交互API上线!

智能玩具场景

通过生动复刻各类IP角色,并以角色特有的性格、口吻与儿童互动,建立强烈的情感链接与代入感。

首次开放,讯飞超拟人交互API上线!

为进一步降低高质量语音交互的落地门槛,让开发者“轻装上阵”,在API调用成本上,讯飞开放平台也提供了极具诚意的产品价格:每分钟交互成本低至0.1元,这意味着,仅需用一杯咖啡的钱,就能让应用与用户“畅聊”数小时。

此外,通过企业认证,开发者还可“解锁”有效期3个月,长达10小时的免费试用,实现对产品的快速验证。

首次开放,讯飞超拟人交互API上线!

从OpenAI、微软、谷歌等AI巨头,到Character AI 的新锐AI创业公司,语音交互正成为AI应用公司最强大的突破口之一。科大讯飞凭借在语音技术领域持续二十余年的深耕,在这一赛道上有着强大的技术实力和市场竞争力。

IDC发布的报告显示,2024年上半年,中国人工智能语音语义整体市场规模为 72.3 亿元人民币,同比增长18%,科大讯飞市场份额在主要厂商中位居第一,持续引领行业发展。

现在,借助讯飞开放的超拟人交互API,开发者可以轻松打造真正“能听会说、情感在线”的AI应用,提高产品竞争力。

点击阅读原文,即刻开始调用。

*文中部分数据来自于实际测试

© 版权声明

相关文章

暂无评论

none
暂无评论...