首页 > 科技 > 智能家电 > 掌握声音前处理核心技术,炬芯科技让语音交互更智能

掌握声音前处理核心技术,炬芯科技让语音交互更智能

随着AloT物联网产业的纵深发展,智能语音交互技术也成为应用最普遍的交互技术。除了最常用的智能手机外,智能音箱、智能家居、智能机器人等众多智能终端设备的语音应用不断涌现,使得智能语音技术成为智能设备交互的主要手段。

语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着机器深度学习技术的突破,识别准确率大幅提升、人机交互的距离也在提升。但是,技术的推进是无止境的,行业专家表示:想要让语音识别更加准确,需要解决两方面的问题:一方面,在语音增强、麦克风阵列以及说话人分离等多项技术领域持续投入,并结合后端语义,促进对上下文的理解,从而提升识别效果;另一方面,需要从产品设计上进行优化,比如通过进一步交互,使语音识别变得更为准确。对芯片设计原厂来讲,应该研发出更高端的主控芯片,在声音前处理方面有更加优秀的表现,让拾音的距离和效率都能大幅提升。

炬芯科技作为全国领先的声音前处理技术芯片原厂,掌握声音前处理核心技术。听到和听懂的第一步在于准确的获取用户的声音(即拾音),否则无论云端的虚拟助手多么智能,也是盲人摸象。小编最近走访炬芯科技得知,拾音其实分为远场拾音(3 到 5 米)和近场拾音(1 米内)。比如,以Siri为代表的智能手机就是近场拾音,采用的是单麦克风,可在近距离、低噪声的情况下拾取符合语音识别需求的声音。但是一旦将智能手机放在有噪声的较远的距离,Siri的识别率就会直线下降,单麦克风的局限就凸显了出来。不仅如此,由于噪声、混响等因素的存在,远场拾音还要与远程语音识别算法相匹配,才能真正做到“听清和听懂”。

声音的前处理技术,是声音没有进入传输、没有存储之前的处理。声音前处理目的,就是让声音的存储、传输效率更高,识别率更好。声音的“听到”主要依托的是麦克风。主要形式为单个麦克风或麦克风阵列(多个麦克风按照一定规则排列,在特定空间对声音进行获取和处理)。而基于麦克风的语音信号处理算法则是让声音“听懂”的关键。麦克风阵列是语音交互的第一步,简单来讲,麦克风阵列是由2个及以上麦克风按一定规则排列组成,在特定空间对声音进行获取和处理的录音系统,在智能音箱落地中有关键作用。麦克风+算法,在不同的环境下排列组合,最终达到“听到”和“听懂”。

针对于声音前处理,炬芯科技在拾音技术上已经采用双麦克风整列,在离线和在线语音的处理方面也非常领先,同时也依赖于炬芯科技在行业二十余年的经验和技术的积累。炬芯科技目前发力解决的方向主要是双麦克风前处理技术,同时也整合了市场上比较成熟批量的方案来配合智能语音产品的稳步落地,且已经取得了不错的效果。

ATS3605就是炬芯近两年一直在主推的智能语音平台,此芯片的语音前处理算法非常强大,尤其在降噪方面有非常好的表现。ATS3605(D)在相关平台上整合了语音前处理算法、本地语音识别、唤醒、VAD等终端语音的核心算法,对接阿里/Baidu后台,支持LCD显示,支持摄像头,并提供完整的智能语音解决方案。目前应用到的领域包括智能儿童机器人,智能音箱,智能家居中控等产品上,行业口碑甚佳。

炬芯对声音前处理技术的研究,可以说是领先了行业。目前,已经更有众多的方案商、厂商在使用炬芯的智能语音交互平台。炬芯通过声音处理方面的核心技术,可以让语音交互更加智能。

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.souzhinan.com/kj/257656.html