IT之家采访科大讯飞高管:AI 翻译技术是为解决真实世界的沟通难题

AI 新资讯1天前发布 汐元
863 0 0
博思AIPPT

在内的多家媒体的采访,就公司的 AI 翻译战略、技术优势、产品逻辑及市场洞察等问题进行了深度解答。

在采访中,IT之家就讯飞双屏翻译机 2.0 的相关问题询问了科大讯飞翻译机总经理孙境廷。具体问题是讯飞双屏翻译机 2.0 在会议功能上做了大量升级,背后主要是基于哪些用户需求的考量?

对此,孙境廷表示,此次升级的核心驱动力源于市场需求的显著变化。“随着‘一带一路’政策的深入推进和中国企业的加速出海,讯飞观察到商务沟通的需求正在经历爆炸式增长。他们进行了大量的用户调研,发现在三、四年前,翻译机的主要用户场景还集中在旅游、留学等应急沟通层面。但现在,一个重大的变化是,越来越多的用户是在海外经营生意的商务人士,从小微企业主到大型企业代表,他们的需求更加复杂和专业。”

在与数百家出海企业的深入交流中,团队发现,精准、高效、专业的商务翻译是他们的核心痛点。

很多企业在东南亚等地会临时聘请留学生做翻译,但效果往往不理想。机器翻译的辅助能够解决很多实际的商务问题。我们甚至遇到过用户因为翻译人员在合同上做了手脚而蒙受巨大损失的真实案例。

孙境廷分享道。

这些真实的需求促使讯飞将产品优化的焦点从简单的传递式翻译转向更深度的会议场景解决方案。他解释说:“过去,用户使用翻译机需要按键后传递给对方,这种方式在正式的商务洽谈中显得不够便捷和专业。为了解决这些问题,我们进行了多次技术迭代,包括将最领先的降噪技术应用于翻译机,使其能适应复杂的会议室环境;开发‘说话人分离’功能,让多人会议的记录清晰明了;以及确保专业词汇能够被精准地识别、翻译和使用。这些升级切实地为出海企业提供了助力。”

最后,孙境廷总结,用户的正向反馈是团队最大的动力。“当我们看到用户通过使用我们的产品获得了更好的商业收益时,这让我们更加激动,也更坚定了我们的方向。我们希望用 AI 翻译技术,在更多关键的商务场合,为用户提供更可靠的服务。”

在现场交流中,当被问到讯飞 AI 翻译的整体战略定位,以及为何在当前节点提出这一战略时,科大讯飞副总裁、消费者事业群常务副总裁赵翔表示,推出 AI 翻译战略的大背景是全球化交流的深化。“尽管全球存在一些地缘政治的不确定性,但国与国之间的交流实际上是更加紧密的。人员交流的深化是一个不可逆转的大趋势。”在这一趋势下,翻译市场持续增长,并且呈现出“交流反向促进需求”的特点 —— 翻译工具越好用,人们越愿意进行深度交流,从而催生更大的翻译需求。

至于为何是讯飞来做这件事,赵翔强调了公司二十余年来的技术积淀。“讯飞从语音技术起家,已经形成了从语音识别、机器翻译到语音合成,再到终端产品的完整技术闭环。我们把中文和英文的语音技术做到了全球领先,现在正向多语种突破。这是一代代技术积累的结果,是我们的底气所在。”

关于战略的具体做法,赵翔提出了三个方向:

第一,夯实基础技术。持续投入资源,在语音识别、多语种翻译的准确率上不断突破,做好覆盖更多小语种、方言数据积累等“脏活累活”,这是所有上层应用的根基。

第二,聚焦场景做深做精。讯飞会针对具体场景进行深度定制化开发,例如工厂的跨境协作、国际展会的商务洽谈等,真正解决垂直场景下的用户痛点。

第三,全产品矩阵一体化。讯飞的翻译产品覆盖了从轻量级软件(APP、PC 端工具)到标准化硬件(翻译机、翻译耳机),再到软硬件一体的解决方案(会议同传系统)的全链条。赵翔强调:“这种矩阵的优势在于,所有产品的技术底座和数据是打通的。在保护用户隐私的前提下,不同产品在不同场景下收集的数据可以反哺我们的模型优化。用户使用讯飞的翻译产品越多,我们提供的翻译服务就会越精准。”

在问及新款翻译耳机的降噪技术原理是什么,以及如何协同复杂环境下的信息输入,科大讯飞翻译耳机总经理林会杰对这一技术问题进行了解答。他介绍,新品搭载的“全球首创多感融合能源降噪”系统,核心是解决两大问题:让输入的声音更清晰,以及让 AI 的识别更准确。

“这套系统融合了 1 个骨传导麦克风和 2 个气导麦克风协同工作。”林会杰解释道,“人说话时,骨传导麦克风通过振动收集声音,但也会采集到环境噪音;同时,气导麦克风会收集到对方的声音以及耳机喇叭自身工作时的震动声。我们自研的‘回声降噪消除技术’能够精准地区分这些复杂声源,只保留佩戴者真实的说话声,过滤掉环境噪音和耳机自身的震动干扰。”

他进一步指出,这套复杂的算法需要全部在耳机端离线运行。为了在耳机有限的算力(内存通常只有几十 KB)和功耗下实现这一点,团队在模型芯片化上做了大量工作,将复杂模型压缩到极小的体积,确保无论是面对面交流还是远程通话,都能实时高效地完成降噪处理,保障最终的翻译质量。

在实际应用中,口音很重的方言或小语种会影响翻译准确率,科大讯飞副总裁、研究院常务副院长高建清坦言,这确实是语音翻译深度应用的核心难题。讯飞的解决方案双管齐下。一方面是长期投入“苦活”。在方言方面,讯飞已覆盖全国 202 个地市级方言,并持续通过“方言保护计划”收集数据;在小语种方面,支持 101 个语种的识别和 55 个语种的合成,这背后是巨大的商业和财务投入。

另一方面是技术创新突破。针对小语种数据稀少的问题,团队采用了“联合建模”技术,设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模 —— 通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练。最终,显著提升了小语种语音系统性能。

高建清补充道:

大模型的迁移学习能力也带来了巨大帮助。过去训练一个小语种模型需要上万小时的标注数据,现在所需的数据量大幅减少,这让我们能更快地拓展多语种覆盖范围。

结语

无论是在技术升级方面的深度,还是产品矩阵的广度,再到战略布局方面的前瞻性,科大讯飞都通过本次发布会清晰地描绘了其在 AI 翻译领域的雄心。坚持核心技术的自主研发和对用户场景的深刻洞察,让讯飞不仅在技术指标上持续领跑,更在思考如何将技术转化为真正解决实际问题的生产力。

在全球化浪潮奔涌向前的今天,用 AI 打破语言的壁垒,让沟通无限,或许正是科大讯飞想要讲述的“中国故事”。

© 版权声明

相关文章