"); //-->

首个支持74个语种方言免切换语音大模型破解强干扰场景下语音识别难题
近期科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目,获得国家科学技术进步奖一等奖。这一次星火语音大模型迎来新突破。
刘庆峰认为,语音将成为万物互联时代人机交互的主要方式,人机交互最重要的场景是远场、噪声、多人说话、多语言,因此万物互联时代的AIUI(人工智能用户界面)要满足远场高噪声、多语言多方言、全双工、多模态等标准。科大讯飞也主导制定了全双工语音交互ISO/IEC国际标准,并于2023年5月发布。
面向万物互联时代,本次星火语音大模型发布的多语种多方言免切换语音识别能力,可支持37个语种、37种方言“自由对话”。其中,37个语种识别效果领先OpenAI whisper-V3,37个方言识别效果平均提升30%。现场,科大讯飞演示了讯飞输入法混合方言和外语的语音输入效果,能让输入效率大大提高。
科大讯飞还发布了软硬件一体化讯飞同传系统,可支持大会同传、会议同传、展厅同传、旅游同传等多场景使用。本次参会的嘉宾座位上同样配备讯飞同传的收听设备,佩戴后即可实时收听多语种AI同声传译。
针对强干扰场景下的语音识别难题,科大讯飞突破了多人混叠场景下的极复杂场景语音转写技术,即使在三人混叠说话场景也能实现86%的语音识别准确率。三位讯飞研究院的研究员现场实测,在噪音场景下同时混叠着说话,正常人耳已难以听清,只见讯飞星火的多模态能力不但实现了三人重叠语音的角色分离,还能实时转写出每个人的语音,准确的效果引发现场掌声不断。未来多模态的语音识别技术将应用在讯飞听见智慧办公服务平台、智慧屏等办公产品中。
大模型正在推动人机交互变革,语音领域的所有应用都值得被重构。在大模型加持下,星火汽车智能座舱全新升级,不但具备了多语种多方言的“自由交互”,还具备多情感多模态的超拟人交互,让人车交互更有温度。当前在汽车领域,讯飞语音交互产品国内市占率稳居第一,同时广泛出口到世界各地。星火大模型为一汽、奇瑞、广汽、江淮、长城等车企的众多车型,赋予了高度智能的交互体验。
为了让大模型更好落地,科大讯飞还打造了端云一体和软硬一体的解决方案,赋能家电、机器人等更多行业场景。面向具身智能和人形机器人企业需求,本次科大讯飞正式发布机器人超脑平台2.0,业内首个支持多模态交互,目前超400家机器人企业已经采用讯飞机器人超脑平台。
星火大模型助力“中式”智能座舱走向世界
科大讯飞面向万物互联时代,星火语音大模型再突破,发布72个语种/方言免切换对话,破解强干扰场景下语音识别难题,发布国际领先的极复杂场景语音转写,并通过云边端及软硬一体化解决方案,为汽车智能座舱,开辟出了更广阔的天地。智能座舱再升级 多模态创造新场景
多模态能力也为车上的硬件开辟了全新的应用空间。传统的DMS主要用于监测驾驶员疲劳状况,在大模型的赋能下,视觉判断能够高精度获取包括心跳、呼吸、血压在内的多项身体健康指标,在用户无感的状态下长期记录跟踪。讯飞星火健康专家在此基础上联动讯飞医疗资源,为车主提供30种以上健康问题的监测诊断,守护车主安全出行。
硬核科技助力 芯算融合让域控更强劲
以讯飞最具代表性的语音算法为例,通过异构将语音降噪、唤醒、识别、合成从CPU移植到NPU后,能够降低60%的CPU算力需求。而通过在资源富裕的NPU上部署更大模型,能够在本地实现媲美云端的语音识别效果。这就是红旗EH7、蔚来ES8等一批新款车型上,语音识别又快又准背后的技术秘密。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
4 语音SDK介绍
科大讯飞:Q2营收扭亏为盈,加码新基建赋能
科大讯飞与首旅如家创新工场达成战略合作,共创酒店创新服务
科大讯飞胡郁:将帮助消费品公司建立人工智能系统
3 语音云开放平台注册账号与创建应用
360与科大讯飞全面战略合作
车载蓝牙语点拆解测评 看如何解决驾车各种安全问题
科大讯飞车载蓝牙语点,车内通话的语音解决方案
“赌城”不再“堵”,这个城市撒币2.6亿做智慧交通
科大讯飞多措并举助力疫情防控
科大讯飞智能办公本Air荣获“2022年度智能硬件创新奖”
5 在Eclipse中集成SDK(以识别为例)
1 科大讯飞语音服务概述
科大讯飞:仅用1万张910B国产算力卡跻身大模型研发第一梯队
2 语音云开放平台介绍
科大讯飞成立新公司 经营范围涉及智慧城市技术研究
科大讯飞刘庆峰:华为 GPU 可对标英伟达 A100,通用大模型明年上半年对标 GPT-4