消息称 OpenAI 正开发双向语音模型：对话被打断照样跟你继续聊，体验“更像人”

3 月 5 日消息，今天晚间，据 The Information 报道，OpenAI 正在开发一种新的语音模型，希望让用户与 ChatGPT 的对话更加自然。当用户在 AI 说话过程中打断系统时，AI 可以实时调整回应，而不是像现在一样突然停止。

目前 ChatGPT 的高级语音模式采用回合式对话机制。用户必须先说完话，AI 才会处理语音并生成回答。如果用户在 AI 发言时插入“okay”或“mm-hm”等回应，系统通常会直接停止，而不会继续像正常对话那样进行。

OpenAI 正在开发的新模型名为 BiDi（IT之家注：双向语音模型）。该模型能够持续处理说话者的语音输入，因此在被打断时可以立即调整回应。相比之下，现有语音模型一旦开始生成回答，输出内容就基本固定，无法再根据新的输入进行变化。

这项技术仍处于开发阶段。一名了解项目情况的人士表示，原型模型在持续对话几分钟后容易出现故障，有时甚至会发出不自然的声音。OpenAI 研究人员原本希望今年第一季度发布 BiDi，而目前最新的发布时间可能推迟到第二季度或更晚。

OpenAI 认为，如果语音模型能够在性能上接近文本模型，AI 的使用范围将进一步扩大，因为大多数人更习惯与 AI 进行语音交流，而不是输入文字。

BiDi 模型在客服场景中可能尤其有价值。例如，当顾客与零售商的 AI 客服通话时，如果顾客在对话过程中临时决定选择换货而非退货，BiDi 模型理论上可以让 AI 客服顺畅调整对话，而不会突然停止或出现混乱。

这名知情人士还表示，BiDi 模型在调用外部工具和应用方面也更灵活。据IT之家了解，OpenAI 此前表示，公司计划为未来一款主要通过语音交互的 AI 设备改进语音模型，并考虑开发一款智能音箱，通过语音指令即可查看邮件或预订服务。

文章版权归作者所有，未经允许请勿转载。

6个月前

5,895727

4个月前

4,891711

3个月前

6,012665

2周前

1,631550